DataMining in MicroStrategy 9 (II).

Beispiel 2. Kundensegmentierung (Cluster-Analyse).

Die Clusteranalyse stellt ein Verfahren zur Gruppierung von Daten in ihnen Werte basierend auf Ähnlichkeiten. Diese Technik Segmente verschiedene Elemente in Gruppen nach dem Grad der Assoziation zwischen den Elementen. Der Grad der Assoziation zwischen zwei Objekten ist maximal, wenn sie zur gleichen Gruppe gehören, und minimal, wenn nicht in der gleichen Gruppe. Bildet eine bestimmte Anzahl oder bestimmten Gruppen oder Cluster, so dass mathematisch klassifizieren jeden Datenwert in die richtige Gruppe.

Die Cluster-Analyse gilt als Lerntechnik ohne Führer, denn es gibt kein Ziel oder abhängige Variable.Generell gibt es zugrunde liegenden Funktionen (, entdeckt zu werden), die bestimmen, warum bestimmte Dinge, die Sie erscheinen und andere nicht. Cluster-Analyse von verwandten Begriffe liefert aussagekräftige Informationen darüber, wie die verschiedenen Elemente eines Datensatzes zusammenhängen.

MicroStrategy verwendet die k-Durchschnitt Algorithmus zur Bestimmung der Cluster. Mit dieser Technik sind Cluster von einem Zentrum in einem mehrdimensionalen Raum definiert. Die Dimensionen dieses Raums sind von der unabhängigen Variablen, die jedes Element charakterisieren bestimmt. Kontinuierliche Variablen sind im Bereich von null bis eins (so dass es einen Schlüssel-Variable) normiert.Kategoriale Variablen sind mit einem binären Indikator-Variable für jede Kategorie ersetzt (1 = ein Punkt in der Kategorie, 0 = ein Element nicht in die Kategorie). Somit deckt jede Variable einem ähnlichen Bereich und stellt eine Dimension in diesem Raum.

Der Benutzer legt die Anzahl der Cluster, k, und der Algorithmus bestimmt die Koordinaten der Mitte eines jeden Clusters. MicroStrategy, kann der Benutzer oder die Software automatisch die Anzahl der Cluster aus einem Datensatz generiert werden. Wenn Software durch die Anzahl der Cluster bestimmt ist, ist auf mehrere Iterationen, um die optimale Anordnung zu finden.Der Benutzer legt einen maximalen Wert, die Anzahl der Cluster von der Software erkannt zu begrenzen.

Die Schaffung eines Cluster-Modell ist der erste Schritt, denn obwohl der Algorithmus Clustern geeignete simpre erzeugen, muss der Benutzer verstehen, wie jede andere Cluster unterscheidet sich von dem. Die Clusteranalyse erzeugt keine Schlussfolgerung in sich selbst, und die Ergebnisse werden Segmentierung analysiert werden, um herauszufinden, die die verborgenen Beziehungen zwischen bestimmen Attribute, die uns erlauben, in diesem Fall die Kunden.

Mal sehen, ein Beispiel für die Segmentierung, wo wir versuchen, Gruppen so bilden wird, dass die Mitglieder eines jeden von ihnen mehr wie jeder andere, als Mitglieder der anderen Gruppen.Wir werden fünf Segmente des Kunden auf demographische und psychographische Kriterien, nämlich:

  • Altersgruppe.
  • Training.
  • Sex.
  • Art des Gehäuses.
  • Familienstand.

Die Informationen liegt in Kundendaten und hat bisher gemacht zu normalisieren, wie wir im nächsten Bericht (der Bericht der Abreise zur Analyse) siehe:


Customer Data Report

Wir stellen fest, dass die Informationen Alter in Altersgruppen eingestuft wurde, sowie Informationen Bildungsniveau (Ausbildung), Client Geschlecht, Art der Unterkunft (Gehäuse) und Familienstand.Die Werte dieser Attribute der Client wurde codiert (Wert 1, 2, 3, usw.). Diese Informationen können in den Prozess des Ladens der DW-definierten oder berechneten Indikatoren oder benutzerdefinierte Gruppen erzeugt worden sein. Zur Analyse Kunden, werden sie eine Show der Entfernung in Prozent der gesamten Kunden (in unserem Fall, werden wir 20% zu analysieren).

Um die Daten zeigen, werden wir ein Indikator Stamm zu erstellen und dann auf genau 20% der Kunden zu extrahieren.Wie wir im Bild zu sehen, RANDBETWEEN Funktion, die eine Zufallszahl zwischen zwei gegebenen Werten zurückkehrt, wir einen Wert zu schaffen, dann filtern den Bericht auf den vorhersehbaren Indikatoren durch einen Filter zu erstellen.


Cluster-Sampling-Filter für die Anzeige

Hier, wie in dem obigen Beispiel wird die Definition des Indikators der Bildung.In diesem Fall wählen Sie die Art der Analyse Association. Wir machen zwei Arten der Analyse. Geben Sie eine bestimmte Anzahl von Clustern, die Verbesserung bestimmen zu analysieren Informationen zu genau N-Gruppen oder die zweite Option Prozentsatz, der eine maximale Anzahl von Clustern und ein. In diesem Fall Algorithmus erzeugt den beiden Clustern und Beurteilung der Qualität des Modells. Als Nächstes erstellen 3 Cluster und prüfen, ob das Modell verbessert hat. Aber hat sich verbessert, blieb mit dem Modell der 2-Cluster. Wenn Sie ein Upgrade durchführen, die 4-Cluster aufgebaut werden und vergleichen Sie mit der 3. Der Prozess wird fortgesetzt, bis die maximale Anzahl der Cluster angegeben erreicht oder bis die Besserung nicht übersteigt Prozent angegeben.


Indikator Clusteranalyse Training - Immobilien-Analyse

In unserem Beispiel geben Sie eine bestimmte Anzahl von Clustern, nämlich 5.

Dann geben die unabhängigen Benchmarks sie Modell wird Teil.Wie bereits erwähnt, obwohl wir analysieren im Internet von Kunden werden wir Indikatoren für diese Attribute zu entwickeln, wie in der Anzeige kann Indikatoren somo Ausbildung umfassen.Wir haben eine Flagge für jedes Attribut, das wollen wir in die Analyse einzubeziehen.

Schließlich legen die Indikatoren voraussichtlich erzeugt werden, wenn Sie einen Bericht Bildung einschließlich der Indikator. Daran erinnern, dass in diesen Indikatoren vorhersehbar, sie erstellt werden, können wir das Modell mit der Anzeige von MicroStrategy erzeugt sehen. Wir können auch Berichte an die Segmentierung Ergebnisse zu analysieren und Schlussfolgerungen zu ziehen.


Cluster-Analyse - Indikatoren erwartet, um das Modell zu generieren

Der nächste Schritt ist einmal etabliert Ausbildung Indikator in einem Bericht von MicroStrategy zusammen mit all den Attributen für die Analyse benötigt enthalten.Führen Sie den Bericht gesehen Probenahme zu einem früheren (durch einen Filter), und erzeugen vorhersehbar Indikatoren, die wir analysieren. Von vorhersehbar Indikatoren mit dem Model-Viewer erstellt, sehen wir die Ergebnisse der Analyse:


Cluster-Analyse - Vorhersehbare Model Viewer

Eine Tabelle mit verschiedenen Werten von Kunden im Internet (Alter, Bildungsniveau, Geschlecht, Wohnform und Familienstand) und Gewicht für jeden Wert jedes Attribut zu jedem der Cluster beziehen.Wir sehen, dass die Werte mehr entscheidend in der Feststellung, ob ein Kunde einen Cluster oder in einem anderen ist die Art des Wohnens. Das Alter, Bildung oder Geschlecht ist weniger wichtig (weniger Gewicht). Zum Beispiel, in Cluster 1, ist der Typ der Eigenschaft "abhängig" eine Bedingung für die Cluster 1 zu bilden. Ähnliches gilt für Cluster 5 ist die Art der Unterbringung Zustand "Rent" und einzelne Familienstand.Die Tabelle können wir eine Vorstellung von den Beziehungen zwischen Attributwerten und der Zugehörigkeit zu einem Cluster oder in ein anderes.

Die vorhersehbare Muster in der Registerkarte Simulation ist ein Werkzeug, um mit den verschiedenen Variablen spielen und sehen Sie die Beziehung zwischen ihnen. Wir können auch dazu beitragen, eine Analyse berichten, dass alle Attribute und vorhersehbar Kennzeichen setzen (die auf den Bericht der Cluster, zu dem ein Client) enthält. Mit der Datenanalyse, Filterung, Zählen, Sortieren kann sicherlich Beziehungen zwischen Daten).

In unserem Beispiel haben wir nur Kunden im Internet verwenden wir für die Analyse, sondern in einer realen Situation, können wir die Änderung der Attribute in der Analyse von anderen benutzt (oder Beseitigung nicht-relevanten Attributen), um ein Modell, dass unsere analytischen Perspektive trifft sich .

Ein interessantes Feature von MicroStrategy ist Indikator erstellen Sie eine benutzerdefinierte Gruppe erstellt mit den vorhersehbaren, und verwenden Sie diese benutzerdefinierten Gruppe innerhalb der Berichte.Erstellen von benutzerdefinierten Gruppen ist so einfach wie wir in dem Bild sehen:


Benutzerdefinierte Gruppen mit Hilfe des Indikators wahrscheinlich Kundensegment

Wir schließen diese Aufgabe in einem Bericht zur Analyse der Eigenschaften des Targets auszuführen oder Kundeninformationen in jeder Gruppe zu analysieren (zB Umsatz, Anzahl der Kunden, durchschnittliche Kunde).Dies kann uns helfen, mehr Merkmale der Gruppe kennen. Ebenso könnten wir Details und Navigation innerhalb der einzelnen Segmente nach Regionen, Art des Materials oder andere Aspekte, die uns helfen wird, noch tiefer in Besonderheiten der einzelnen Gruppen durchzuführen.


Kundensegment Analyse usango Benutzerdefinierte Gruppen

Das beschriebene Modell kann in einem anderen Datensatz zu einer endgültigen Inhalt zu geben und die Ergebnisse der Analyse der face-to legen die geeigneten Maßnahmen im Bereich der Vertriebs-oder Marketing validiert werden.

Beispiel 3.Umsatzprognose in einer Kampagne (Entscheidungsbaum).

In dieser Analyse unter Verwendung einer Entscheidung Baum, um die Reaktion einer bestimmten Gruppe von Kunden Rabatte auf bestimmte Produkte in der Ära zurück in die Schule zu bestimmen.Zu diesem Zweck verwenden Entscheidungsbäume binär (Sie erinnern sich, dass die Entscheidung Bäume sowohl für die Einstufung und für Regressionsanalyse können verwendet werden, da in diesem Fall). Versuchen Sie festzustellen, wie sie Faktoren wie Alter, Geschlecht oder Anzahl der Kinder auf die Wahrscheinlichkeit des Einkaufs im Kundenauftrag Kampagne beeinflussen.

Entscheidungsbäume sind eine der Data Mining-Modelle intuitiver, weil sie verstehen, zeigen eine Struktur "if-then-else", leicht zu. Die separate Entscheidungsbäume eine Daten in den verschiedenen Untergruppen von Daten festgelegt.Anstelle der Verwendung eines Learning-Ansatz ohne Führer (wie in Cluster-Analyse), Entscheidungsbaum-Algorithmus verwendet die Führung, so dass Teilmengen von Daten erstellt teilen sich ein bestimmtes Ziel-Funktion, die eine Variable abhängig. Die anderen Funktionen werden von der unabhängigen Variablen, die verwendet werden, sofern teilen die ursprünglichen Daten-Sets in Teilmengen von Daten. Normalerweise verwenden Sie die mächtigste unabhängige Variable vorhersehbar und so weiter. Microstrategy Algorithmus implementiert die Klassifikation und Regression Baum (CART).


Beispiel Entscheidungsbaum in MicroStrategy

Jeder Knoten enthält die folgenden Informationen:

  • Score (Knoten des Gastes): die häufigste Ergebnis (oder dominant) der Datensätze für den Knoten.
  • Prädikat (Prädikat): eine Entscheidung Logik, dass eine Bekanntmachung wird verwendet, um separate Datensätze von der Quelle.Die Aufzeichnungen gehören zu einem Knoten, wenn es den Wert true (kann eine oder mehrere Aussagen mit logischen Operatoren kombiniert gehören AND, OR, XOR, etc.).
  • Eye Chart (eye chart): Auftragung der Verteilung der Punkte.
  • Verteilung der Punkte (score-Verteilung): Eine Tabelle mit der Aufschlüsselung der Ausbildung Datensätze Knoten verknüpft mit dem.Dient als eine Legende für das Auge Diagramm. Die Verteilung der Punkte enthält der aktuelle Zählerstand von Datensätzen über die Bildung der Knoten, der durch jede Gruppe von Ziel dargestellt wird. Der Anteil der einzelnen Klassen von Datensätzen sind als Prozentsatz der Gesamtanzahl der Knoten und als Prozentsatz der Gesamtbevölkerung angezeigt.
  • Zusammenfassung von Knoten (Node Zusammenfassung): Prozentsatz der Ausbildung Datensätze Knoten verknüpft mit dem.
  • Node-ID (Node-ID): eindeutige Kennung oder Referenz für jeden Knoten.Format mit einem Standard-Tiefe (die ID ist eine Reihe von Zahlen).

Wir führen eine Analyse einer Kampagne mit einer Entscheidung Baum. Als Proxy-Indikator abhängig Verwendung "Response to Back to School Sale X Jahren." Unabhängige Indikatoren, Werte und Kunden demografischen Alter, Anzahl der Familie mienbros, Geschlecht oder Bildung. Mit diesen Werten bauen wir, wie üblich (und wie in den anderen Beispielen), der Indikator für die Ausbildung, der Auswahl der Entscheidungsbaum-Analyse:


Decision Tree - Indikator Training

Abhängig Indikator ist die Definition sehen wir im Bild unten, eine Zahl, deren Wert gibt ein Kunde, wenn ein Kauf im Jahr X in der Verkaufsaktion war und eine 0, aber es war.Dieser Indikator wird abhängig sein in unserem Modell, und der Rest Unabhängigen.


Decision Tree - Abhängige Indicator

Der nächste Schritt, wie in den obigen Beispielen ist zu einem Bericht von MicroStrategy definieren und auch Ausbildung Indikator auf den vorhersehbaren Indikatoren auf deren Inhalte wir können die Ergebnisse der Model-Viewer vorhersagbaren Mustern analysieren zu generieren.In unserem Beispiel bauen wir einen Bericht, der Daten von Bestellungen liest für einen bestimmten Zeitraum, einschließlich Kunden-Informations-und Ausbildungsmaßnahmen Indikator (wie wir in dem Bild zu sehen).


Decision Tree - Bericht Modellerstellung

Führen Sie den Report und machte die Schaffung von Indikatoren vorhersehbar, wo wir Validierung des Modells erstellt.Wir können mit der abhängigen Variablen in das Modell aufgenommen, bis Sie eine Entscheidung Baum Einklang mit dem Ziel der Analyse erreichen spielen. In unserem Fall erhalten wir die folgenden Entscheidungsbaum:


Decision Tree - Results Beispiel

Wir sehen die Ergebnisse des Baumes.Sex ist ein wichtiger Faktor in der Kampagne (Gender <> männlich) beteiligt. Die Männer haben nicht gekauft mit der Reduzierung der 94,5% der Fälle. Für Frauen, wenn sie 41% der Fälle gekauft. Darüber hinaus Frauen in kinderreichen Familien (3, 4, 5, 6 oder mehr Kinder), die Förderung in 71,4% der Fälle.

Nach der Einstellung der vorhersagbaren Muster, machen wir eine Analyse der geschätzten Einnahmen der Kampagne mit Berichten (tabellarisch oder Grafiken) erstellt vorhersehbar Indikatoren.Wir können einen Weg, um eine Vorhersage der Reaktion von Simulationen mit Daten von früheren Verkauf zu machen, wobei die Schätzungen als Voraussage der Reaktion oder grafisch erhöhte Reaktion Prädiktor sehen.


Decision Tree - Graphic Erhöhung Response

Die Analyse wird uns erlauben, eine Analyse der Ergebnisse der Kampagne in einem Szenario auf die erwartete Antwort eines Kunden auf Basis einer Kampagne durchzuführen.

Schlussfolgerungen.

Ich habe versucht, auf diese Beispiele zu verstehen und zu vermitteln die grundlegenden Konzepte, Methoden der Umsetzung und einige Techniken, die im Data Mining mit praktischen Beispielen, dass es leicht zu verstehen, machen werden.Wie ignorant des Data Mining und die Techniken, fand er immer den Mangel an praktischen Beispielen nicht gefunden hiciesen mich verstehen ein wenig mehr gründlich und ohne technischen oder statistischen Ansatz, wie ist ihre Anwendung, da sie Fähigkeiten entwickeln und Schlüsse ziehen, wie Resultate. Ich hoffe ich mit dieser Reihe von Beispielen dieses Ziel erreicht haben.

Auf der anderen Seite, Microstrategy Stufe 9, fand ich einige Vor-und Nachteile, die ich aufzählen:

Vorteile

  • Vollständige Integration von Data Mining Dienstleistungen für die Plattform.Die Berichte werden verwendet, um Prognosemodelle durch Bildung Indikatoren zu generieren. Die Ergebnisse werden ausgewertet und mit den Tasten Model-Viewer und validieren können und nutzen die vorhersehbare Ergebnisse anhand von Indikatoren als zusätzliches Element der Berichte (oder als Teil anderer Objekte wie Filter, benutzerdefinierten Gruppen, neue Indikatoren, usw.) . Letzteres gibt uns große Kraft, um Simulationen oder der Analyse von möglichen Ergebnissen führenUnternehmen, die im Umfeld unserer subconjutos DW oder Daten extrahiert und vorbereitet für die Analyse (durch die Schaffung, zum Beispiel die Datamarts).
  • Die Verwendung von XML-Standard für den Export / Import von Modellen (PMML), ermöglicht es uns, andere Ausfuhr von MicroStrategy sowohl die Analyse zu anderen Data Mining-Tools in die Unterstützung der entwickelten Standard zur Nutzung des Modells in ihnen, oder importieren Sie in unserem System Modelle Werkzeuge (und zur Validierung der Ergebnisse der Analyse, dann zu importieren die Modelle schaffen auch vorhersehbar Indikatoren, dass wir auch in Berichten an Ergebnissen oder Prognosen zu überprüfen).

Nachteile

  • MicroStrategy ist ein spezielles Tool für Data Mining.Ist begrenzt in der Art der Analyse, was getan werden kann und es ist ein Werkzeug speziell für diesen Zweck entworfen, die in vielerlei Hinsicht nicht mit speziellen Werkzeugen konkurrieren können.