Теория интеллектуального анализа данных.

В предыдущей записи блога ( 2.4. DataMining или интеллектуального анализа данных. ) пытаются сделать первоначальный подход к теории интеллектуального анализа данных. процессов добычи данных попытаться извлечь информацию, заложенную в данных с использованием различных методов (в основном связанные с статистических и математических моделей в сочетании с программным обеспечением).

Учитывая сложность этих методов, не совершаются на этот блог вдаваться в глубину на эту тему (из-за времени и знаний), мы просто увидите пару методик интеллектуального анализа данных, список наиболее распространенных методов и помнить концепции трех из этих методов на практических примерах.Эти же примеры позволит дальнейшее использование интеллектуального анализа данных инструментов, предоставляемых Microstrategy 9 (также входит в Microstrategy Reporting Suite) и объяснить, что видение продукта методов интеллектуального анализа данных.

Прежде чем начать, я рекомендую наблюдать презентации Mining.Extracción Знание данных в больших базах данных , проведенного Хосе М. Гутьеррес, кафедра прикладной математики Университета Кантабрии, Сантандер.

Для тех, кто хочет или необходимость углубления теории интеллектуального анализа данных, методы и возможности, я оставляю список ссылок на некоторые из самых важных книг в этой области:

  1. Интеллектуальный анализ данных: Практические машинного обучения инструменты и методы.
  2. Горной техники данных: для маркетинга, продаж, и взаимоотношениями с клиентами.
    Управление, 2-е издание
  3. = Sr_1_2? Diction-Statistics/dp/0387952845/ref т.е. = UTF8 & S = книги & qid = 1267124980 & SR = 8-2-заклинание "> элементы статистического обучения: интеллектуальный анализ данных, вывода и прогнозирования.
  4. Расширенный горной техники данных.
  5. Интеллектуальный анализ данных: концепции и методы .
  6. Подготовка данных для интеллектуального анализа данных .

Этапы проекта интеллектуального анализа данных

Есть несколько стандартных методологий разработки анализа в систематических DataMining.Некоторые из наиболее известными являются CRISP, промышленный стандарт, который состоит из последовательности шагов, которые обычно используются в изучении интеллектуального анализа данных. Другой метод состоит SEMMA, характерные для SAS. Этот метод списки шаги более детально. Давайте посмотрим на то, что каждый из них.

CRISP-DM (межотраслевого стандартный процесс для интеллектуального анализа данных).

Модель состоит из 6 взаимосвязанных фазы циклического (с обратной связью). Вы можете увеличить информацию о методологии в разделе руководства Dataprix.com .Кроме того, Вы можете получить доступ к веб-сайте проекта Крисп здесь . Фаз:

  • Понимание бизнеса: понимание бизнеса, включая ее цели, оценки текущей ситуации, постановка задач должны быть выполнены для добычи исследования данных и разработки плана проекта. На этом этапе мы определим, являющегося объектом исследования и потому что это поднимает. Например, коммивояжера портал через веб хотите проанализировать их клиентов и покупательские привычки, чтобы против этих государств и конкретные маркетинговые кампании для каждой целевой с целью увеличения продаж.Это будет отправной точкой проекта интеллектуального анализа данных. Подробная информация на фазе Dataprix.com .
  • Понимание данных: После создания проекта цели, необходимо понять, данных и определения требований к информации необходимой для выполнения нашего проекта. Этот этап может включать в себя сбор данных, их описание, разведки и контроля их качества. На данном этапе мы можем использовать такие методы, как сводные статистические данные (с переменным дисплей) или выполнить кластерного анализа с целью выявления моделей или моделей в рамках данных.Важно на этом этапе четко определить, что мы хотим проанализировать в целях выявления информации, необходимой для описания процесса и анализировать ее. Тогда мы должны видеть, какая информация relavant для анализа (поскольку Есть аспекты, которые могут быть отклонена), а затем будет проверить, что определены переменные независимы друг от друга. Например, мы в проекте анализа интеллектуального анализа данных для сегментации клиентов. Из всей информации, имеющейся в нашей системе, или из внешних источников, должны быть определены которая связана с проблемой (данные о клиентах, возраста, детей, доход, месту жительства) всех таких информацией, имеющей отношение (не заинтересованы, например, вкусы клиентов) и, наконец, выбранных переменных, проверить, что Есть взаимосвязаны (уровень доходов и месту жительства не являются независимыми переменными, например).Информация, как правило, как правило, подразделяются на Демография (доход, образование, количество детей, возраст), sociographic (хобби, членство в клубах или учреждения), транзакций (продаж, расходы по кредитным картам, чеков и т.д.). Кроме того, данные могут быть количественными (измеренных данных с использованием численных значений) или качественной (информация определения категорий, используя номинальных или порядковых).Количественные данные могут быть представлены как правило, какой-то распределение вероятностей (мы будем определять, как эти данные носят разрозненный характер и кластерный). Для качественного ранее, будет кодировать их в номера, что будет описывать распределения частот. Подробная информация на фазе Dataprix.com .
  • Подготовка данных: После того как данные источники определены, они должны быть выбраны, очищаются, трансформатор к желаемой формы и отформатирован. На этом этапе, для проведения процесса очистки данных и преобразования данных, необходимых для дальнейшего моделирования.На этом этапе вы можете выполнить более глубокий анализ данных, чтобы найти похожие модели в рамках данных. При использовании хранилища данных в качестве источника данных, он уже выполнил эти задачи для загрузки данных. Также может быть ситуации, необходимо общую информацию (например, построить периода продажи), можно извлечь информацию из наших DW с типичными инструментами системы бизнес-аналитики. Другой тип преобразования могут быть преобразованы в диапазоне значений определении стоимости (доход от / для определения N доходов категории), или reliza операции с данными (для определения возраста клиент использует текущую дату и дату рождения , и т.д.).Кроме того, каждый программное обеспечение интеллектуального анализа данных инструмент может иметь некоторые специфические требования, которые требуют от нас подготовки информации в формате (например, Клементина или PolyAnalyst имеют разные типы данных). Подробная информация на фазе Dataprix.com .

Схема для хрустящей корочки

  • Моделирование: моделирование фазы, мы используем специальное программное обеспечение для анализа данных и средств визуализации (форматирование данных для определения отношений между ними) или кластерный анализ (для определения, какие переменные являются хорошо сочетаются.)Эти инструменты могут быть полезны для первоначального анализа, которые могут быть дополнены правила индукции развивать начальные правила ассоциации и углубить их. Как только мы рассматриваем знание данных (часто путем признания картины, полученные от просмотра выход модели), могут быть и другие соответствующие модели анализа данных (таких как деревья решений). На данном этапе мы делим данных между обучением и испытания. Инструменты позволяют нам генерировать результаты для различных ситуаций.Кроме того, интерактивное использование нескольких моделей позволяет проникнуть в открытие данных. Подробная информация на фазе Dataprix.com .
  • Оценка: в результате модель должна быть оценена в контексте бизнес-целей, изложенных в первой фазе. Это может привести к выявлению других потребностей, которые могут привести к возвращению на предыдущих этапах для дальнейшего (если мы найдем, например, переменная, которая влияет на анализ, но мы не приняли во внимание при определении данных.) Это будет интерактивный процесс, в котором мы получим понимание бизнес-процессов в результате визуализации, статистические методы и искусственный интеллект, чтобы показать пользователю новые отношения между данными, которые позволят лучше понять процессы организации.Это наиболее критический этап, как мы это делаем интерпретации результатов. Подробная информация на фазе Dataprix.com .
  • Развертывание: интеллектуального анализа данных может быть использован как для проверки ранее определенные гипотезы (мы считаем, что если мы сделаем скидку 5% увеличить объем продаж, но мы не проверяли с модели до реализации мер), или открыть для себя знания ( выявления полезных связей и неожиданным).Это обнаружили знания могут помочь нам применить его к различным бизнес-процессов и внедрения организационных изменений в случае необходимости. Например, рассмотрим типичный пример мобильный телефон компании, который обнаруживает утечки в долгосрочных клиентов, плохое обслуживание клиентов. Этот аспект обнаружены провели организационные изменения, чтобы улучшить этот аспект. Изменения могут быть применены для контроля, чтобы убедиться в данный момент времени коррекция или нет, или если они должны быть скорректированы за счет включения новых переменных. Также важно, чтобы документ, который будет использоваться в качестве основы для будущих исследований. Подробная информация на фазе Dataprix.com .

Шестиступенчатый процесс не является жесткой модели, где обычно много откликов, и от предыдущих этапах.Кроме того, аналитики не испытывали необходимости для каждой фазы во всех исследованиях.

SEMMA (образец, исследовать, изменить модели и оценки).

Для того, чтобы их правильно применить, решения интеллектуального анализа данных следует рассматривать как процесс, а не как набор инструментов и методов. Это цель методологии, разработанной SAS Institute, называется SEMMA, то есть образца образца =, = исследовать изучать, изменять = изменять, модель = ОЦЕНКИ = моделируется и оценивается. Этот метод целей, чтобы сделать его проще для проведения разведки и статистических методов визуализации, выбора и преобразования наиболее значимых интеллектуального переменных, переменных модели для прогнозирования результатов и, наконец, подтвердить надежность модели.Как модель Крисп, можно обратную связь и вернуться к предыдущим этапам процесса. Графическое представление является:

Esquema del Metodo SEMMA Следующих этапов:

  • Пример: большой объем информации, извлекать достаточно значительный объем выборки и власть подходит для маневренность.Это сокращение размера данных позволяет выполнять анализ на более быстрое, а также получили важную информацию с данными в более непосредственной. Данные образцы можно разделить на три группы в зависимости от цели, для которой использовались: Обучение (используется для построения модели), проверки (используется для оценки моделей) и тест (используется для подтверждения и обобщения результатов от модели).
  • Исследуйте: на этом этапе разведки пользователь ищет неожиданные тенденции или аномалий, чтобы получить более глубокое понимание данных. В этой фазе, как визуально, так и численно изучены на предмет выявления тенденций и группировок.Это исследование помогает уточнить и перенаправить процесс. В случае, визуальный анализ не дает результатов, изучение данных с использованием статистических методов, как факторный анализ, анализ соответствий и кластеризации.
  • Изменить: это где пользователь создает, отбирает и преобразует переменные с тем чтобы положить в построении модели. На основании результатов геологоразведочных работ, изменять данные включают информацию о группе или ввести новые переменные, которые могут иметь отношение или удалить те, которые на самом деле нет.
  • Модель: когда мы находим сочетание переменных, которые надежно предсказывает желаемого результата.На данный момент мы готовы построить модель для объяснения закономерностей в данных. Моделирование методы включают нейронные сети, деревья решений, логистические модели или статистические модели, как серия время, память основе рассуждений, и т.д..
  • Оценка: На этом этапе пользователь оценивает полезность и надежность открытия, сделанные в процессе Datamining. Проверьте, насколько хорошо она работает здесь моделью. Для этого мы применяем его на различных образцах данных (тест) или другие известные данные, и таким образом подтвердить свое vaildez.

DataMining методы

Статистический анализ:

С помощью следующих инструментов:
1.ANOVA: O дисперсионного анализа, чтобы увидеть Есть ли существенные различия между мер из одной или нескольких непрерывных переменных в разных группах населения.

2.Regresión: определяет отношения между одной или нескольких переменных и множество предсказателей в первую очередь.

3.Ji квадрат испытания гипотезы о независимости между переменными.Основные компоненты: Сокращение числа наблюдаемых переменных к меньшему числу искусственных переменных, сохранив большую часть информации о дисперсии переменных.

4.Análisis кластера: Для классификации населения в число групп, на основе профиля сходства и различия между различными компонентами, что население.

Дискриминантный 5.Análisis: метод классификации людей на группы, которые ранее были установлены, и найти правила, что позволяет классификации элементов этих групп, и, следовательно, определить переменные, которые лучше всего определить членство в группе.

Методы, основанные на деревья решений:

Метод CHAID (Chi Squared автоматического взаимодействия детектор) анализа, которая генерирует дерева решений, чтобы предсказать поведение переменных из одного или нескольких переменных предикторов, так что наборы же отрасли и одного уровня не пересекаются.Это полезно в ситуации, когда целью является разделение населения на различные сегменты на основании некоторые решения критерию.

Дерево решений строится путем разделения данных на два или более подмножеств наблюдений от значений, принимаемых предикторов. Каждое из этих подмножеств тогда разбить помощью того же алгоритма. Этот процесс продолжается до Существуют значительные различия во влиянии интеллектуального переменных из этих групп, чтобы значение переменной отклика.

Корень дерева полный набор данных, подмножества и subsubconjuntos до ветки дерева.Набор, в котором раздел называется узлом.

Число подмножеств в раздел может идти два-число различных значений, которые может принимать переменная, используемая для разделения. Предиктор переменная используется для создания раздела является одним из наиболее значительно, связанные с переменной отклика тестируемого независимости хи-квадрат по таблице сопряженности.

Генетические алгоритмы:

Численные методы оптимизации, в которых переменные или переменные, которые предназначены для улучшения наряду с изучением переменных часть информации.Эти конфигурации переменных анализа для получения наилучших значений для переменной отклика, соответствующие сегменты с большей способности к воспроизводству. В игре, лучшие сегменты остаются, и их доля растет от поколения к поколению. Она также может ввести случайных элементов для изменения переменных (мутации). После определенного числа итераций, население будет состоять из хороших решений задачи оптимизации.

Нейронных сетей:

Как правило, численные методы параллельной обработки, в которых переменные взаимодействовать с линейными или нелинейными преобразованиями, чтобы получить пропускную способность.Эти результаты сравниваются с теми, кто должен был сделать все, опираясь на экспериментальные данные, в результате обратной связи процесс, при котором сеть изменена так, чтобы получить подходящую модель.


Нейронной сети Microstrategy

Нечеткой логики:

Это обобщение понятия статистики.Классическая статистика основана на теории вероятностей, превратить его в совместных технических, в которых отношение принадлежности к набор дихотомических (2 еще или нет). Если мы установим понятие нечеткого множества, как тот, в котором членство определенного уровня ("один день до 20 º C жарко?) Мы будем иметь более широкие статистические и поэтому результаты ближе к человеческому рассуждений.

Временные ряды

Является ли знание переменной во времени, от этого знания, и в предположении, что никаких структурных изменений произойдет, делать прогнозы.Часто на основе изучения ряда циклов, тенденции и сезонности, которые отличаются от сферы времени покрыты, для получения от оригинальной серии состава. Гибридные подходы могут быть применены к предыдущему методы, в которых ряд можно объяснить не только с точки зрения времени, а как сочетание других переменных более стабильной обстановки и, следовательно, более легко предсказуемы.

Классификация методов добычи данных

методы анализа данных могут быть классифицированы как ассоциация, классификация, кластеризация и прогнозов временных рядов.

  • Ассоциация (ассоциация): связь между пунктом сделки и другого элемента в той же транзакции используется для прогнозирования моделей.Например, клиент приобретает компьютер (X) при покупке мыши (Y) на 60% случаев. Эта модель входит в 5,6% от покупки компьютеров. Ассоциативных правил в этой ситуации является то, что "X следует Y, где 60% доверия фактора и 5,6% поддержки фактор. Когда фактор доверия и поддержки фактор представлены лингвистических переменных высокое и низкое, ассоциации правило может быть записано в виде нечеткой логики, такие, как "когда фактор поддержки кронштейн низкий, X следует Y высока" . Это было бы типичным примером интеллектуального анализа данных для изучения связи между супермаркетами продаже детских подгузников и пива (см. блоге Bifacil ).Алгоритмы, используемые ассоциативных правил и деревьев решений.

Модель Ассоциации в Microstrategy - Купить DVD фильмы

  • Классификация (классификация) в турнирной таблице, методы, которые они намерены изучать различные особенности, которые классифицируют данные в стандартный набор классов.С учетом новых предопределенных классов, количество атрибутов и набор обучающих данных или профессиональной подготовки, методы классификации можно автоматически прогнозировать класса ранее секретных данных. Чем больше ключевых вопросов, касающихся классификации оценки ошибки классификации и прогнозирования власти. Наиболее часто используемые математические методы классификации бинарных деревьев решений, нейронные сети, линейное программирование и статистика. Использование бинарных деревьев решений, индукция модели дерева в виде Si-Нет, мы можем позиционировать данные в разных классов в зависимости от значения его атрибутов.Однако, эта классификация не может быть оптимальным, если власти прогнозирования является низким. Использование нейронных сетей, можно построить модель нейронной индукции. В этой модели, атрибуты входных слоев и классов, связанных с выходом данных слоев. Между слоями вход и выход большого числа скрытые связи, которые обеспечивают надежность классификации (как если бы они были соединений нейронов с окружающими). ​​Нейронные модели индукции дает хорошие результаты во многих анализа интеллектуального анализа данных, когда большое количество связей усложняет реализацию метода для большого числа атрибутов.Использование линейного программирования, задачи классификации рассматривается как частный случай линейного программирования. Линейное программирование оптимизирует классификации данных, но может привести к сложные модели, которые требуют большого времени вычислений. Другие статистические методы, такие как линейная регрессия, дискриминантный или логистической регрессии также популярные и часто используемые в процессе классификации .

Схема принятия решений в Microstrategy

  • Кластеризации (сегментация): кластерного анализа данных без учета группы и с помощью автоматизированных методов делает группировку из них.Кластеризации не supevisado и не требует подготовки набора данных. Акции множество методологий с классификацией. То есть, многие из математических моделей, используемых в классификации могут быть также применены к кластерный анализ. Использование алгоритмов кластеризации и кластеризации последовательности.
  • Прогноз (прогнозирование) / Оценка: анализ прогноза связано с регрессии методов.Основная идея интеллектуального анализа заключается в выявлении связей между зависимыми и независимыми переменными и отношений между независимыми переменными. Например, если продажи является независимой переменной, benefición может быть зависимой переменной.
  • Временных рядов (прогноз): с использованием исторических данных вместе с методами линейной или нелинейной регрессии, мы можем произвести кривой регрессии были использованы для составления прогнозов на будущее. Алгоритмов с использованием временных рядов.

Пример 1. Анализ корзины (ассоциации).

Это типичный пример для объяснения области использования интеллектуального анализа данных (с ассоциацией между продажей детских подгузников и пива).В нашем случае, используя приведенные примеры по MicroStrategy в свою платформу, образовательный проект, называемый MicroStrategy учебник, мы видим пример использования методов анализа ассоциации.

В этом примере мы анализируем продажи DVD из универмага и попытаться найти связь между продажей различных фильмов. То есть, попробовать найти названия продаются вместе с целью установления содействия торговле, то эти фильмы (например, продажа пакетов, расположение кино вместе в коридорах, скидка продвижение покупке второго блока, и т.д. ) с целью увеличения продаж.Для этого типа анализа, используемого анализ ассоциативных правил.

Пример 2. Сегментация клиентов (кластерный анализ).

С помощью этого анализа мы анализируем наши клиенты и их использование демографическую информацию (возраст, образование, количество детей, семейное положение или домашнего типа), сделать сегментации рынка, чтобы подготовить запуск определенных продуктов или решений рекламных предложений.

В этом случае, мы будем проводить кластерный анализ с использованием алгоритма К-средних , который является поддержкой Microstrategy.

Пример 3.Прогноз продаж в кампании (дерево решений).

В этом анализ с использованием дерева решений, чтобы определить реакцию определенной группы клиентов скидки на определенные продукты в эпоху обратно в школу. Для этого, решение использовать бинарные деревья (помните, что деревья решений могут быть использованы как для классификации и регрессионного анализа, так как в этом случае). Попробуйте определить, как они влияют такие факторы, как возраст, пол или число детей на вероятность покупки в кампании по реализации.

В следующей записи блога будет подробно эти примеры использования инструментов DaТ. А. Горный Microstrategy.