Einstieg in das Thema
Was brauchst du als Basiswissen?
Du kennst k-means-clustering.
Worum geht es?
K-means-clustering zerlegt deine Daten Bereiche, die hoffentlich einen Sinn ergeben. Jeder Punkt war in einem Cluster, in einem Bereich.
Aber auch Bereiche können hierarchisch angeordnet sein. Cluster ergeben wieder Cluster. Eine Meise ist ein Tier, aber auch ein Vogel, aber kein Zugvogel.
Was ist das Ziel?
Du siehst, dass man Daten auch hierarchisch ändern kann, ohne sie genau zu kennen. Und du kennst das Vorgehen dazu.
Erarbeitung
Theorie
Aufgaben

Gegeben ist dir eine Punktwolke.

Schau dir nun das zweite Bild an. Wieder hast du Punkte gegeben.
Nun arbeitet der Algorithmus aber nicht mit mehreren Punkten oder Clustern gleichzeitig, sondern nimmt immer nur zwei(!) Elemente. Ob ein abgegrenzter Bereich entstanden ist, müssen wir selbst entscheiden. Was uns bei dieser Entscheidung hilft, schauen wir uns später an. Jetzt geht es ums Rechnen.

Für folgende Aufgabe sind die Koordinaten der Punkte gegeben:

Es kommt ein Punkt hinzu:
Du hast nun Punkte oder Cluster mit vielen Punkten. Willst du den Abstand von Punkt zu Cluster, dann musst du den Abstand zu jedem Punkt des Clusters berechnen, addieren und durch die Zahl der berechneten Abstände teilen (also den Mittelwert bilden).
Möchtest du den Abstand von zwei Clustern mit vielen Punkten berechnen, musst du alle möglichen Abstände (jeder zu jedem) berechnen und dann wieder mitteln.
Du kannst deine Ergebnisse nun prüfen. Trage die Punkte (sinnigerweise auf dem jeweils Zehnfachen) ein und lasse dir die (zehnfachen) Abstände anzeigen, indem du mit der Maus über die waagerechten Linien fährst.
Probiere das Applet auch ruhig mit weiteren Punkten aus und schaue, ob du die Entscheidung nachvollziehen kannst. Gönne dir gern 10min oder mehr zum Spielen. Der Baumgraph sieht nur nicht immer gut aus, weil Linien sich überdecken.
Im Baum kann man leider nicht ohne Weiters erkennen, ob drei oder vier Punkte nahe beieinander liegen und damit eine Einheit bilden. Wir nähern uns mit ein paar Überlegungen. Nimm zum Forschen das Applet von oben.
Nun sollst du deine These testen. Dazu gibt es ein erweitertes Applet. In diesem Kannst du auch mehrere Werte - immer durch Komma getrennt - eingeben. Achtung, ein Beispiel wird immer geladen, aber du kannst das überschreiben und den Baum - das Dendrogramm - zeichnen lassen.
Übernimm folgende Punkte in das Applet und lass das Dendrogramm neu zeichnen.
Nun sollen auch praktische Beispiele kommen. Für die folgende Aufgabe hast du Autos, Gewicht in Tonnen, Leistung in Stufen von 1 bis 10, und die Geschwindigkeit in 100km/h.
Dir sind sicher schon die Einstellmöglichkeiten für die gewichte aufgefallen. Unser Autobeispiel hat Werte, die so nicht im Prospekt stehen. Dort steht 1400kg Leergewicht statt 1,4t. Ersetze nun alle Massen, also die ersten Zahlen, durch ihr Tausendfaches.
Zusammenfassung
Was muss man wissen/können?
Du weißt,
- dass man Daten auch vertikal Clustern kann,
- dass das die Möglichkeit eröffnet, Cluster von Clustern zu finden und
- dass das Finden der Cluster eine Betrachtung der Veränderung der Abstände notwendig macht.
Was können anschließende Themen sein?
Abstände waren für dich einfach Entferungen, die man auch mit dem Pythagoras berechnen kann. "Abstände" sind aber ein großes Thema. Geht es zum Beispiel nur um Merkmale, die vorhanden sind oder eben auch nicht, dann ist ein anderer "Abstand" auch praktikabler (und einfacher).

