Theorie des Data Mining.

In einem früheren Blog-Eintrag ( 2.4. DataMining oder Data Mining. ) versuchen, Bergbau machen eine erste Annäherung an die Theorie der Daten. Data-Mining-Prozesse versuchen, Informationen in den Daten mit verschiedenen Techniken versteckt Extrakt (meist auf statistische und mathematische Modelle in Kombination mit Anwendungssoftware bezogen).

In Anbetracht der Komplexität dieser Techniken nicht zu diesem Blog begangen gehen in die Tiefe zu diesem Thema (wegen der Zeit und Wissen), werden wir sehen nur ein paar von Data Mining Methoden, eine Liste der am häufigsten verwendeten Techniken und erinnere mich an die Konzepte von drei dieser Techniken durch praktische Beispiele.Dieselben Beispiele ermöglicht die weitere Nutzung der Data Mining-Tools von MicroStrategy 9 vorgesehen (auch in der MicroStrategy Reporting Suite im Lieferumfang enthalten) und erklären, dass Vision ist das Produkt von Data-Mining-Techniken.

Bevor Sie beginnen, empfehle ich bei der Präsentation Mining.Extracción Knowledge Daten in großen Datenbanken , unter der Leitung von José M. Gutierrez, Abt. für Angewandte Mathematik an der Universität von Cantabria, Santander.

Für diejenigen, die wollen oder Notwendigkeit, die Theorie des Data Mining, Techniken und Möglichkeiten zu vertiefen, überlasse ich der Liste der Verweise auf einige der wichtigsten Bücher in diesem Bereich:

  1. Data Mining: Praktische maschinellen Lernens Tools und Techniken.
  2. Data Mining Techniken: Für Marketing, Vertrieb und Customer Relationship.
    Management, 2nd Edition
  3. = Sr_1_2? Diction-Statistics/dp/0387952845/ref ie = UTF8 & s = Bücher & qid = 1267124980 & sr = 8-2-spell "> Die Elemente des statistischen Lernens: Data Mining, Inferenz und Prädiktion.
  4. Advanced Data Mining Techniken.
  5. Data Mining: Concepts and Techniques .
  6. Datenaufbereitung für Data Mining .

Schritte in einem Data-Mining-Projekt

Es gibt verschiedene Standardmethoden zur Analyse in ein systematisches DataMining entwickeln.Einige der bekanntesten sind die CRISP, ein Industriestandard, der eine Abfolge von Schritten, die üblicherweise in einer Studie von Data Mining verwendet werden besteht. Die andere Methode ist die Semma, speziell auf SAS. Diese Methode listet die Schritte in einer detaillierteren. Lassen Sie uns an, was jeder sehen.

CRISP-DM (Cross-Industry Standard Process for Data Mining).

Das Modell besteht aus 6 miteinander verbundenen Phasen eines zyklischen (mit Feedback). Sie können Nachrichten Vergrößern Informationen über die Methodik in den Handbüchern Dataprix.com .Außerdem können Sie Crisp Zugriff auf die Projekt-Website hier . Die Phasen sind:

  • Business Verständnis: Verständnis für das Geschäft einschließlich ihrer Ziele, die Bewertung der aktuellen Situation, die Festlegung von Zielen für Studien Bergbau erfüllt sein für Daten und die Entwicklung eines Projektplans. In dieser Phase definieren wir die Aufgabe der Studie, und weil es aufwirft. Zum Beispiel, dass ein Reisender über Web-Portal für ihre Kunden und Kaufverhalten analysieren, um sie gezielt und spezifischen Marketing-Kampagnen für jedes Ziel, um den Umsatz zu steigern.Das wird der Ausgangspunkt für ein Data Mining-Projekt sein. Detaillierte Informationen über die Phase Dataprix.com .
  • Understanding Data: Einmal etabliert der Ziele des Projekts, ist es notwendig, Daten zu verstehen und die Bestimmung der Informationsanforderungen für die Wahrnehmung unseres Projekts. Diese Phase kann die Datenerhebung, Beschreibung von ihnen, der Exploration und Überprüfung ihrer Qualität. In diesem Stadium können wir Techniken wie zusammenfassende Statistiken (mit variabler Display) oder führen Sie Cluster-Analyse mit dem Ziel, Muster oder Modelle innerhalb der Daten.Es ist in diesem Stadium, dass klar definiert, was wir zu analysieren, um die notwendigen Informationen, um den Prozess zu beschreiben und zu analysieren identifizieren wollen wichtig. Dann müssen wir sehen, welche Informationen für die Analyse relavant ist (denn es gibt Aspekte, die zurückgewiesen werden kann) und dann überprüfen, ob die identifizierten Variablen voneinander unabhängig sind. Zum Beispiel sind wir in einem Projekt Data-Mining-Analyse zur Kundensegmentierung. Von allen verfügbaren Informationen über unsere Systemen oder von externen Quellen sollten identifiziert werden, die das Problem ist im Zusammenhang mit (Kundendaten, Alter, Kinder, Einkommen, Wohngebiet) all dieser Informationen, die relevant sind (nicht interessiert ist, zum Beispiel, den Geschmack der Kunden) und schließlich die ausgewählten Variablen überprüfen, ob es miteinander (die Höhe des Einkommens und Wohngebiet sind keine unabhängigen Variablen, zum Beispiel).Die Informationen in der Regel ist in der Regel Demographie klassifiziert (Einkommen, Bildung, Zahl der Kinder, Alter), soziographischen (Hobbys, Mitgliedschaft in Vereinen oder Institutionen), transaktionale (Umsätze, Aufwendungen auf Kreditkarten, Schecks, etc.). Darüber hinaus können Daten werden von quantitativen (Messdaten mit numerischen Werten) oder qualitative (Information bestimmt Kategorien, mit nominal oder ordinal).Quantitative Daten können in der Regel durch eine Art von Wahrscheinlichkeitsverteilung (wir bestimmen, wie die Daten verteilt sind und geclustert) vertreten sein. Für qualitative zuvor werde sie Zahlen, die die Häufigkeitsverteilungen beschreiben wird codieren. Detaillierte Informationen über die Phase Dataprix.com .
  • Data Preparation: Nachdem die Datenquellen identifiziert werden, müssen sie ausgewählt, gereinigt, Transformator auf die gewünschte Form und formatiert. In dieser Phase, sich zu verpflichten den Prozess der Data Cleaning und Data Transformation, für die weitere Modellierung benötigt.In dieser Phase kann Datentransfer Erkundung tiefer auf ähnliche Muster in den Daten zu finden. Wenn Sie ein Data Warehouse als Datenquelle, hat er bereits diese Aufgaben zum Laden der Daten durchgeführt. Kann auch der Fall, müssen wir aggregierte Informationen (z. B. Aufbau einer Vertriebs-Periode), können wir Informationen aus unserer DW mit den typischen Werkzeugen eines BI-Systems zu extrahieren. Eine andere Art von Transformationen können eine ganze Reihe von Werten zu identifizieren Wert (Einkünfte aus / in die Gewinn-Kategorie n bestimmen) oder reliza Operationen auf Daten (bis zum Alter von einem Kunden bestimmen umgewandelt werden verwendet das aktuelle Datum und Geburtsdatum , etc.).Darüber hinaus kann jeder Data Mining Software-Tool haben bestimmte Anforderungen, die uns die Informationen in einem Format (z. B. Clementine oder PolyAnalyst haben unterschiedliche Datentypen) vorbereiten müssen. Detaillierte Informationen über die Phase Dataprix.com .

Schema für CRISP

  • Modellierung: Modellierung Phase, verwenden wir spezielle Software für Data-Mining-und Visualisierungs-Tools (Formatierung der Daten glaubhaft machen, die Beziehungen zwischen) oder Cluster-Analyse (zu erkennen, welche Variablen sind gut kombiniert.)Diese Tools können nützlich sein für die erste Analyse, die mit den Regeln der Induktion auf die ursprüngliche Assoziation Regeln zu entwickeln und zu vertiefen ergänzt werden können. Sobald wir die Kenntnis der Daten (oft durch Anerkennung Muster, indem Sie die Ausgabe eines Modells erhalten), kann es andere geeignete Modelle für die Analyse von Daten (z. B. Entscheidungsbäume) werden. Zu diesem Zeitpunkt teilen wir die Datensätze zwischen Lernen und zu testen. Die Tools ermöglichen es uns, für verschiedene Situationen zu erzeugen.Darüber hinaus ermöglichen die interaktive Nutzung von mehreren Modellen uns in der Entdeckung der Daten befassen. Detaillierte Informationen über die Phase Dataprix.com .
  • Bewertung: Die resultierende Modell sollte Phase zunächst ausgewertet werden im Rahmen der Geschäftsbeziehung Ziele, die im. Dies kann zur Identifizierung der andere Bedürfnisse, die zu früheren Schritte für die weitere Rückkehr führen kann (wenn wir zum Beispiel eine Variable, die die Analyse betrifft, aber wir haben nicht berücksichtigt bei der Festlegung der Daten übernommen.) Dies wird ein interaktiver Prozess, in dem wir Verständnis von Geschäftsprozessen durch Visualisierungstechniken, statistische Methoden und künstlicher Intelligenz gewinnen, um den Benutzer neue Beziehungen zwischen Daten, die es erlauben ein besseres Verständnis der Prozesse wird zeigen, werden der Organisation.Es ist die kritischste Phase, wie wir tun eine Interpretation der Ergebnisse sind. Detaillierte Informationen über die Phase Dataprix.com .
  • Bereitstellung: Data-Mining kann entweder verwendet werden, um Hypothese zu verifizieren zuvor definierten (wir denken, dass wenn wir einen Rabatt von 5% Umsatzsteigerung, aber wir haben nicht messen überprüft mit einem Modell vor der Umsetzung der), oder das Wissen entdecken ( identifizieren nützliche Beziehungen und unerwarteten).Dieser entdeckte Wissen kann uns helfen, wenden Sie ihn auf unterschiedliche Geschäftsprozesse und Umsetzung organisatorischer Veränderungen, wo nötig. Betrachten Sie zum Beispiel ein typisches Beispiel für Mobilfunk-Unternehmen, die Lecks in langfristige Kunden durch schlechten Kundendienst erkennt. Dieser Aspekt erkannt haben organisatorische Veränderungen durchgeführt, um diesen Aspekt zu verbessern. Änderungen können genutzt werden um zu überwachen, in einer gegebenen Zeit Korrektur überprüfen oder nicht, oder wenn sie angepasst werden, um neue Variablen aufgenommen werden. Auch wichtig zu dokumentieren, die als Grundlage für zukünftige Studien verwendet werden. Detaillierte Informationen über die Phase Dataprix.com .

Die Sechs-Stufen-Prozess ist kein starres Modell, wo es in der Regel eine Menge Feedback und aus früheren Phasen.Darüber hinaus werden Analysten nicht die Notwendigkeit für jede Phase in allen Studien erlebt haben.

Semma (Sample, Erkunden, Ändern, Model und Bewertung).

Um richtig angewandt zu werden, sollte ein Data Mining-Lösung als Prozess und nicht als eine Reihe von Tools und Techniken angesehen werden. Dies ist das Ziel der Methode, nach der SAS Institute entwickelt, genannt Semma, was bedeutet, Probe = Probe, erforschen = erkunden, zu ändern = ändern, Modell = = ASSESS modelliert und bewertet. Diese Methode soll es einfacher durchzuführen Exploration und statistische Visualisierungstechniken, auswählen und transformieren die wichtigste prädiktive Variablen, Modellvariablen, Ergebnisse vorherzusagen und bestätigen die Zuverlässigkeit des Modells.Wie Crisp Modell ist es möglich, Feedback und zurück zum vorherigen Phasen des Prozesses. Die grafische Darstellung ist:

Esquema del Metodo SEMMA Die Phasen sind wie folgt:

  • Beispiel: eine große Menge von Informationen, extrahieren Sie eine bedeutend genug Stichprobengröße und Power für agiles Handling.Diese Verringerung der Größe der Daten ermöglicht es uns, die Analyse in einer schnelleren Durchführung und bekam auch entscheidende Informationen aus den Daten in einer unmittelbareren. Die Daten Proben können in drei Gruppen nach dem für welchen Zweck verwendet eingestuft werden: Training (zur Erstellung des Modells), Validierung (für Modell-Auswertung) und Test (zur Bestätigung und verallgemeinern die Ergebnisse eines Modells).
  • Suchen: in dieser Phase der Exploration der Nutzer nach unerwartete Trends oder Anomalien zu setzen zu einem besseren Verständnis der Daten. In dieser Phase sowohl visuell als auch numerisch für Trends oder Gruppierungen untersucht.Diese Untersuchung hilft zu verfeinern und leiten Sie den Prozess. Für den Fall, dass die visuelle Analyse nicht geben Ergebnisse, erkunden Sie die Daten mit Hilfe statistischer Methoden wie Faktorenanalyse, Korrespondenzanalyse und Clustering.
  • Ändern: Hier erstellt der Benutzer wählt und verwandelt die Variablen, um Modell setzen in den Aufbau der. Basierend auf den Erkenntnissen der Explorationsphase, ändern Sie die Daten zu Informationen über die Gruppe zu übernehmen oder neue Variablen, die relevant sein, oder kann, entfernen Sie diese, die wirklich nicht vorstellen.
  • Modell: wenn wir Ergebnisse finden Sie eine Kombination von Variablen, die zuverlässig prognostiziert gewünscht.An diesem Punkt sind wir bereit, ein Modell, Muster in den Daten zu erklären bauen. Modeling Techniken gehören neuronale Netze, Entscheidungsbäume, logistische Modelle oder statistische Modelle als eine Reihe von Zeit-, Speicher-Based Reasoning, etc..
  • Bewerten Sie: In dieser Phase des Benutzers wertet die Nützlichkeit und Zuverlässigkeit der Entdeckungen gemacht Datamining in den Prozess der. Stellen Sie sicher, wie gut es funktioniert hier ein Modell. Um dies zu tun, setzen wir es auf verschiedene Daten-Proben (Test) oder anderen bekannten Daten und bestätigen damit ihre vaildez.

DataMining Techniken

Statistische Analyse:

Mit den folgenden Tools:
1.ANOVA: o Analyse der Varianz, zu sehen, ob es signifikante Unterschiede zwischen den Maßnahmen eines oder mehrerer kontinuierliche Variablen in verschiedenen Bevölkerungsgruppen.

2.Regresión: definiert die Beziehung zwischen einer oder mehreren Variablen und einer Reihe von Prädiktoren der ersten.

3.Ji squared Tests der Hypothese der Unabhängigkeit zwischen den Variablen.Hauptbestandteile: Reduzieren Sie die Anzahl der beobachteten Variablen auf eine kleinere Anzahl von künstlichen Variablen behalten die meisten Informationen über die Varianz der Variablen.

4.Análisis Cluster: Zur Einordnung einer Bevölkerung in einer Reihe von Gruppen, bezogen auf Profil Ähnlichkeiten und Verschiedenheiten zwischen den verschiedenen Komponenten dieser Population.

Diskriminanzanalyse 5.Análisis: Ein Verfahren zur Klassifizierung von Individuen in Gruppen, die zuvor festgelegt, und finden Sie die Regel, dass Gruppen erlaubt Klassifizierung der Elemente dieser und damit identifizieren die Variablen, die am besten definieren Mitgliedschaft der Gruppe.

Methoden Bäume der Grundlage des Beschlusses:

Die Methode CHAID (Chi Squared Automatic Interaction Detector) ist eine Analyse, dass eine Entscheidung Baum, um das Verhalten einer Variablen von einer oder mehreren Prädiktorvariablen vorhersagen erzeugt, so dass die Sätze von der gleichen Branche und der gleichen Ebene sind disjunkt.Es ist nützlich in Situationen, in denen das Ziel einer Bevölkerung teilen sich in verschiedene Segmente auf einige Entscheidungskriterium basiert.

Der Entscheidungsbaum ist durch Aufteilung der Datenmenge in zwei oder mehrere Teilmengen von Beobachtungen aus den Werten aufgebaut angenommen Prädiktoren. Jede dieser Teilmengen partitioniert damals mit dem gleichen Algorithmus. Dieser Prozess wird fortgesetzt, bis es signifikante Unterschiede in den Einfluss der prädiktive Variablen dieser Gruppen, um den Wert der Reaktion variabel sind.

Die Wurzel des Baumes ist der vollständige Datensatz, Teilmengen und subsubconjuntos bis Ästen.Ein Satz, in dem eine Partition Knoten genannt wird.

Die Anzahl der Teilmengen in einer Partition kann zwei, die Anzahl der unterschiedlichen Werte, dass die Variable für die Trennung verwendete nehmen können gehen. Der Prädiktor-Variable verwendet, um eine Partition zu erstellen ist der am deutlichsten im Zusammenhang mit der Zielgrösse unter Prüfung der Unabhängigkeit der Chi-Quadrat auf einer Kontingenztabelle.

Genetische Algorithmen:

Sind numerischen Optimierungsverfahren, in denen Variablen oder Variablen, die dazu bestimmt verbessern zusammen mit der Studie Variablen sind eine Information.Diese Konfigurationen der Variablen der Analyse am besten Werte für die Variable Antwort zu erhalten, um die Segmente mit größerer Fortpflanzungsfähigkeit entsprechen. Durch spielen, bleiben die besten Segmente und ihr Anteil wächst von Generation zu Generation. Es kann auch zufällige Elemente einführen zur Veränderung der Variablen (Mutationen). Nach einer gewissen Anzahl von Iterationen wird die Bevölkerung der guten Lösungen für die Optimierung Problem bestehen.

Neuronale Netze:

Sind in der Regel numerische Methoden in der parallelen Verarbeitung, in denen die Variablen mit linearen oder nichtlinearen Transformationen zu interagieren, zu einem Durchsatz zu erzielen.Diese Ausgänge sind mit denen, die aus haben sollte gegangen verglichen, die sich auf Testdaten, was zu einer Feedback-Prozess, bei dem das Netzwerk so konfiguriert ist, ein geeignetes Modell zu erhalten.


Neuronale Netzwerke Microstrategy

Fuzzy-Logik:

Es ist eine Verallgemeinerung des Begriffs der Statistik.Klassischen Statistik ist auf der Wahrscheinlichkeitstheorie beruht, drehen Sie sie in gemeinsamen technischen, in denen das Verhältnis der Zugehörigkeit zu einer Reihe dichotome ist (die 2 ist noch oder nicht). Wenn wir den Begriff der Fuzzy-Set zu schaffen als einer, in dem die Mitgliedschaft hat ein bestimmtes Niveau ("einem Tag auf 20 ° C heiß ist?) Wir haben einen breiteren statistischen und dadurch die Ergebnisse näher an die menschliche Vernunft.

Time Series

Ist Wissen einer Variablen durch die Zeit, von diesem Wissen und unter der Annahme, dass keine strukturellen Veränderungen auftreten wird, um Vorhersagen zu machen.Oft auf eine Studie der Serie in Zyklen, Trends und saisonale Schwankungen, die durch den Umfang der Zeit fallen unterschiedlich sein, durch den Erwerb der Grundlage der Original-Serie beendet. Hybride Ansätze können zu den bisherigen Methoden, in denen die Serie nicht nur in Bezug auf Zeit, sondern als eine Kombination von anderen Variablen stabileres Umfeld und damit erklärt werden, können leichter vorhersehbar angewendet werden.

Klassifizierung von Data-Mining-Techniken

Data-Mining-Techniken können als Verein, Klassifizierung, Clustering und Zeitreihenvorhersagen eingestuft werden.

  • Association (Verband): die Beziehung zwischen einem Element einer Transaktion und ein anderes Element in der gleichen Transaktion wird verwendet, um Muster vorherzusagen.Zum Beispiel: Ein Kunde erwirbt einen Computer (X) beim Kauf einer Maus (Y) von 60% der Fälle. Dieses Muster tritt in 5,6% der Käufe von Computern. Der Verband der Regel in dieser Situation ist, dass "X Y, wo 60% ist das Vertrauen Faktor und 5,6% die Unterstützung Faktor impliziert. Wenn das Vertrauen und die Unterstützung Faktor Faktor von linguistischen Variablen hoch und niedrig, der Verein der Regel in Form von Fuzzy-Logik geschrieben werden können, wie dargestellt ", wenn die Halterung Faktor niedrig ist, impliziert X Y ist hoch" . Dies würde Bier ein typisches Beispiel für Data Mining und zur Untersuchung der Assoziation zwischen Supermärkten verkauft Babywindeln (siehe Blog-Eintrag Bifacil ).Algorithmen verwendet Verein Regeln und Entscheidungsbäume.

Model Association in MicroStrategy - Kaufen DVD Movie

  • Klassifikation (Systematik) in der Gesamtwertung, Methoden, die sie beabsichtigen, die lernen verschiedene Features, die Klassifizierung der Daten in ein vordefiniertes Set von Klassen.Angesichts einer neuen vordefinierte Klassen, eine Reihe von Attributen und eine Reihe von Ausbildungsgängen Daten oder Ausbildung, die Methoden der Klassifizierung kann automatisch prognostizieren die Klasse der zuvor geheim eingestuften Daten. Je mehr zentrale Fragen im Zusammenhang mit der Einstufung sind die Auswertung der Fehler der Klassifizierung und Vorhersage Macht. Die am häufigsten verwendete mathematische Techniken für die Einstufung sind binäre Entscheidungsbäume, Neuronale Netze, lineare Programmierung und Statistik. Mit einer binären Entscheidung Baum, ein Baum Induktion Modell in Form Si-Nein, wir können Position der Daten in verschiedene Klassen je nach dem Wert seiner Attribute.Allerdings kann diese Einstufung nicht optimal, wenn die Macht der Vorhersage ist gering. Mit neuronalen Netzen kann man bauen ein Modell der neuralen Induktion. In diesem Modell sind im Internet Eingang Schichten und Klassen mit den Daten verknüpft wird ausgegeben Schichten. Zwischen den Schichten von Input und Output einer großen Anzahl von verborgenen Verbindungen zur Gewährleistung der Zuverlässigkeit der Einstufung (als ob sie die Verbindungen eines Neurons mit denen um Sie) sind. Die neurale Induktion Modell liefert gute Ergebnisse in vielen Analysen Data Mining, wenn eine große Anzahl von Beziehungen der Umsetzung der Methode für die große Anzahl von Attributen erschwert.Mit Techniken der linearen Programmierung, Klassifizierung Problem ist die Programmierung angesehen als ein Spezialfall des linear. Lineare Programmierung optimiert die Klassifizierung der Daten, kann aber Zeit führen zu komplexen Modellen Berechnung, benötigen große. Andere statistische Methoden wie lineare Regression, Diskriminanzanalyse oder logistische Regression sind auch sehr beliebt und häufig verwendet in der Klassifikation .

Decision Tree in MicroStrategy

  • Clustering (Segmentierung): Die Cluster-Analyse von Daten, ohne die Gruppe und mit Hilfe von automatisierten Techniken macht die Gruppierung dieser.Das Clustering ist nicht supevisado und erfordert keine Schulung Datensatz. Aktien einer Reihe von Methoden der Klassifizierung. Das heißt, viele der mathematischen Modelle in der Klassifikation kann auch auf Cluster-Analyse angewendet werden verwendet. Mit Clustering-Algorithmen und Clustering-Sequenz.
  • Vorhersage (Prognose) / Estimate: Vorhersage-Analyse-Techniken im Zusammenhang mit Regression.Die Grundidee der prädiktiven Analyse ist es, die Beziehungen zwischen abhängigen und unabhängigen Variablen und die Beziehungen zwischen unabhängigen Variablen zu entdecken. Zum Beispiel, wenn der Umsatz ist eine unabhängige Variable, kann der benefición eine abhängige Variable sein.
  • Time Series (Prognose): mit historischen Daten zusammen mit den Techniken der linearen oder nichtlinearen Regression, können wir produzieren Regressionskurven verwendet wurden, um Zukunft zu machen Vorhersagen für die. Algorithmen mit Zeitreihen.

Beispiel 1. Analyse Korb (Association).

Ist ein typisches Beispiel verwendet, um den Bereich der Nutzung von Data Mining (mit der Assoziation zwischen den Verkauf von Windeln und Bier) zu erklären.In unserem Fall an den Beispielen von MicroStrategy in ihre Plattform zur Verfügung gestellt, Lern-Projekt, genannt MicroStrategy Tutorial werden wir sehen, ein Beispiel der Verwendung Verein Analysetechniken.

In dem Beispiel analysieren wir die Verkäufe von DVD's aus dem Kaufhaus und versuchen, den Zusammenhang zwischen Umsatz von verschiedenen Filmen zu finden. Das ist, versuchen Sie Titel sind zusammen mit dem Ziel, zur Förderung des Handels dann diese Filme (zB Verkauf von Packungen verkauft, die Lage der Filme zusammen in den Fluren, Rabattaktion durch den Kauf der zweiten Einheit, etc. ) mit dem Ziel der Umsatzsteigerung.Für diese Art der Analyse verwendeten Analyse von Assoziationsregeln.

Beispiel 2. Kundensegmentierung (Cluster-Analyse).

Mit dieser Analyse untersuchen wir unseren Kunden und mit ihnen demographische Daten (Alter, Ausbildung, Anzahl der Kinder, Familienstand oder familiärer Art), stellen die Segmentierung der Markteinführung von bestimmten Produkten oder machen Werbeangebote vorzubereiten.

In diesem Fall führen wir eine Clusteranalyse mit dem Algorithmus k-means , die MicroStrategy ist die Unterstützung.

Beispiel 3.Umsatzprognose in einer Kampagne (Entscheidungsbaum).

In dieser Analyse unter Verwendung einer Entscheidung Baum, um die Reaktion einer bestimmten Gruppe von Kunden Rabatte auf bestimmte Produkte in der Ära zurück in die Schule zu bestimmen. Zu diesem Zweck verwenden Entscheidungsbäume binär (Sie erinnern sich, dass die Entscheidung Bäume sowohl für die Einstufung und für Regressionsanalyse können verwendet werden, da in diesem Fall). Versuchen Sie festzustellen, wie sie Faktoren wie Alter, Geschlecht oder Anzahl der Kinder auf die Wahrscheinlichkeit des Einkaufs im Kundenauftrag Kampagne beeinflussen.

Im nächsten Blog-Eintrag wird ausführlich diese Beispiele mit den Werkzeugen von Data Mining Microstrategy.