Teoria da Mineração de Dados.

Versão de impressão

Em um blog anterior ( 2.4. DataMining ou mineração de dados. ) tenta fazer uma abordagem inicial à teoria de Mineração de Dados. processos de mineração de dados tenta extrair informações escondidas nos dados, utilizando diferentes técnicas (principalmente relacionados a modelos estatísticos e matemáticos em combinação com o software de aplicação).

Dada a complexidade dessas técnicas, não sendo comprometido com este blog ir em profundidade sobre este assunto (por causa do tempo e do conhecimento), vamos ver apenas um par de metodologias de mineração de dados, lista das técnicas mais comuns e lembrar a conceitos de três destas técnicas através de exemplos práticos.Estes exemplos mesma irá permitir uma maior utilização de data mining ferramentas fornecidas pela MicroStrategy 9 (também incluído no Reporting Suite Microstrategy) e explicar que a visão é o produto de técnicas de mineração de dados.

Antes de começar, eu recomendo assistir a apresentação Mining.Extracción Conhecimento em Bancos de Dados Grande , conduzido por José M. Gutierrez, Departamento de Matemática Aplicada da Universidade de Cantabria, Santander.

Para aqueles que querem ou necessidade de aprofundar a teoria de mineração de dados, técnicas e possibilidades, deixo a lista de referências a alguns dos livros mais importantes neste domínio:

  1. Data mining: a máquina de aprendizado prático de ferramentas e técnicas.
  2. Técnicas de Mineração de Dados: Para Marketing, Vendas e Relacionamento com o Cliente.
    Administração, 2 ª Edição
  3. sr_1_2 ie = diction-Statistics/dp/0387952845/ref? UTF8 & s = = livros & qid = 1267124980 & sr = 8-2 ortográfica "> Os elementos da aprendizagem de estatística: a mineração de dados, inferência e previsão.
  4. Técnicas Avançadas de Mineração de Dados.
  5. Mineração de Dados: Conceitos e Técnicas .
  6. Preparação de dados para mineração de dados .

Etapas em um projeto de mineração de dados

Há várias metodologias padrão para desenvolver a análise em um DataMining sistemática.Algumas das mais conhecidas são a batata frita, um padrão da indústria que consiste de uma seqüência de passos que são comumente usados ​​em um estudo de mineração de dados. O outro método é a SEMMA, específico para o SAS. Este método enumera as etapas de uma mais detalhada. Vejamos o que cada um deles.

CRISP-DM (Cross-Industry Standard Processo de Mineração de Dados).

O modelo consiste em seis fases inter-relacionadas de uma cíclica (com retorno). Você pode ampliar as informações sobre a metodologia nos manuais seção Dataprix.com .Além disso, você pode acessar o site do projeto Crisp aqui . As fases são:

  • Compreensão do negócio: entendimento do negócio, incluindo os seus objectivos, a avaliação da situação atual, estabelecendo metas a serem cumpridas para a mineração de dados e estudos de desenvolvimento de um plano de projeto. Nesta fase, definir qual é o objeto de estudo e porque levanta. Por exemplo, um portal de caixeiro viajante via web quer analisar seus clientes e hábitos de compra para fazer a segmentação eles e campanhas de marketing específicas para cada destino, a fim de aumentar as vendas.Esse será o ponto de partida de um projeto de mineração de dados. Informações detalhadas sobre a fase Dataprix.com .
  • Entendimento dos dados: Uma vez estabelecido os objetivos do projeto, é necessário entender os dados e determinar os requisitos de informação necessária para realizar nosso projeto. Esta fase pode incluir a coleta de dados, descrição dos mesmos, exploração e controlo da sua qualidade. Nesta fase, podemos usar técnicas como estatísticas de resumo (com visor variável) ou realizar a análise de agrupamento com o objectivo de identificar padrões ou modelos nos dados.É importante nesta fase que definiu claramente o que queremos analisar, a fim de identificar as informações necessárias para descrever o processo e analisá-lo. Então, precisamos ver quais as informações relavant para análise (porque há aspectos que podem ser rejeitado) e, em seguida, irá verificar se as variáveis ​​identificadas são independentes uns dos outros. Por exemplo, estamos em um projeto de mineração de dados para análise de segmentação de clientes. De todas as informações disponíveis em nossos sistemas ou de fontes externas deve ser identificado que está relacionado com o problema (os dados do cliente, idade, filhos, renda, área de residência) de todas as informações que sejam relevantes (não interessa, por exemplo, os gostos dos clientes) e, finalmente, as variáveis ​​selecionadas, verificar que não estão interligados (o nível de renda e área de residência não são variáveis ​​independentes, por exemplo).A informação geralmente é geralmente classificada em Demografia (educação, renda, número de filhos, idade), sociográfico (hobbies, a filiação de clubes ou instituições), transacional (vendas, gastos em cartões de crédito, cheques emitidos, etc.) Além disso, os dados podem ser quantitativos (dados medidos com valores numéricos) ou qualitativos (informações que definem as categorias, com valor nominal ou ordinal).Os dados quantitativos podem ser representados geralmente por algum tipo de distribuição de probabilidade (que vai determinar como os dados são dispersos e em cluster). Para qualitativa previamente irá codificá-los para números que descrevem as distribuições de freqüência. Informações detalhadas sobre a fase Dataprix.com .
  • Preparação de dados: Uma vez que as fontes de dados são identificados, devem ser selecionados, limpos, transformador para a forma desejada e formatado. Nesta fase, a realizar o processo de limpeza de dados e de transformação de dados, necessárias para a modelagem mais.Nesta fase você pode executar a exploração de dados mais fundo para encontrar padrões semelhantes nos dados. Se você estiver usando um Data Warehouse como uma fonte de dados, que já executou essas tarefas para carregar os dados. Também pode ser o caso de precisarmos de informações agregadas (por exemplo, construir um período de vendas), podemos extrair a informação de nossos DW com as ferramentas típicas de um sistema de BI. Outro tipo de transformações podem ser convertidos para uma escala de valores identificação valor (renda de / para determinar a categoria n rendimentos), ou operações reliza-se em dados (para determinar a idade de um cliente que usa a data atual ea data de nascimento , etc.)Além disso, cada ferramenta de software de mineração de dados pode ter alguns requisitos específicos que nos obrigam a preparar as informações em um formato (como Clementine ou PolyAnalyst têm diferentes tipos de dados). Informações detalhadas sobre a fase Dataprix.com .

Esquema para CRISP

  • Modelagem: fase de modelagem, utilizamos um software específico para mineração de dados e ferramentas de visualização (formatação de dados para estabelecer relações entre eles) ou análise de cluster (para identificar quais as variáveis ​​que são bem combinadas.)Essas ferramentas podem ser úteis para a análise inicial, que pode ser completada com as regras de indução para elaborar as regras de associação inicial e aprofundá-las. Quando você examina os conhecimentos dos dados (muitas vezes através de padrões de reconhecimento obtido por ver a saída de um modelo), pode haver outros modelos adequados de análise de dados (tais como árvores de decisão). Nesta fase, vamos dividir os conjuntos de dados entre a aprendizagem e teste. As ferramentas permitem gerar resultados para várias situações.Além disso, o uso interativo de múltiplos modelos nos permitem aprofundar a descoberta dos dados. Informações detalhadas sobre a fase Dataprix.com .
  • Avaliação: o modelo resultante deve ser avaliada no contexto dos objetivos de negócios estabelecidos na primeira fase. Isso pode levar à identificação de outras necessidades que possam levar para voltar aos estágios anteriores para continuar (se encontrar, por exemplo, uma variável que afeta a análise, mas não temos tido em conta na definição dos dados.) Este será um processo interativo em que iremos ganhar a compreensão dos processos de negócios como resultado de técnicas de visualização, técnicas estatísticas e inteligência artificial, para mostrar ao usuário novas relações entre os dados, o que permitirá compreender melhor os processos da organização.É a fase mais crítica, como estamos fazendo uma interpretação dos resultados. Informações detalhadas sobre a fase Dataprix.com .
  • Implantação: A mineração de dados pode ser usado para verificar a hipótese pré-definida (nós achamos que se fizermos um desconto de 5% de aumento nas vendas, mas não temos verificado com um modelo antes da aplicação da medida), ou para descobrir o conhecimento ( identificar relações úteis e inesperada).Este conhecimento descoberto pode nos ajudar a aplicá-la aos diferentes processos de negócio e implementar mudanças organizacionais, sempre que necessário. Por exemplo, considere um exemplo típico de empresa de telefonia móvel que detecta vazamentos em clientes de longo prazo por mau serviço ao cliente. Esse aspecto detectado ter realizado mudanças organizacionais para melhorar esse aspecto. As alterações podem ser aplicadas para monitorar, verificar de uma correção de tempo determinado ou não, ou se eles têm que ser ajustadas para incluir novas variáveis. Também é importante documento para ser utilizado como base para futuros estudos. Informações detalhadas sobre a fase Dataprix.com .

O processo de seis etapas não é um modelo rígido, onde normalmente há um monte de comentários e das fases anteriores.Além disso, os analistas não terá experimentado a necessidade de cada fase em todos os estudos.

SEMMA (exemplo, explorar, modificar, modelar e avaliar).

A fim de ser devidamente aplicada, uma solução de mineração de dados deve ser visto como um processo e não como um conjunto de ferramentas e técnicas. Este é o objetivo da metodologia desenvolvida pelo Instituto SAS, chamados SEMMA, ou seja, amostra amostra = = explorar explorar, modificar = modificar, modelo AVALIAR = = modelados e avaliados. Este método visa facilitar a realização de pesquisa e técnicas de visualização de estatísticas, selecionar e transformar as variáveis ​​mais significativas preditivo, as variáveis ​​do modelo para prever resultados e, finalmente, confirmar a fiabilidade de um modelo.Como modelo Crisp, é possível, comentários e retornar à fases anteriores do processo. A representação gráfica é:

Esquema del Metodo SEMMA As fases são as seguintes:

  • Exemplo: um grande volume de informação, extrair uma amostra de tamanho bastante significativa e de alimentação adequada para o manuseio ágil.Essa redução no tamanho dos dados nos permite realizar a análise de uma forma mais rápida e também tem informações cruciais a partir dos dados de uma forma mais imediata. As amostras de dados podem ser classificados em três grupos de acordo com a finalidade para a qual utilizados: Treinamento (utilizado para construir o modelo), validação (utilizado para avaliação do modelo) e Teste (usado para confirmar e generalizar os resultados de um modelo).
  • Explorar: nesta fase de exploração o usuário procura as tendências ou anomalias inesperadas para obter uma melhor compreensão do conjunto de dados. Nesta fase, tanto visualmente e numericamente exploradas para tendências ou agrupamentos.Essa exploração contribui para aperfeiçoar e reorientar o processo. No caso em que a análise visual não dá resultados, explorar os dados utilizando técnicas estatísticas como análise fatorial, análise de correspondência e de cluster.
  • Modificar: este é o lugar onde o usuário cria, seleciona e transforma as variáveis ​​a fim de colocar em construir o modelo. Com base nos resultados da fase de exploração, modificar os dados para incluir informações sobre o grupo ou para introduzir novas variáveis ​​que possam ser relevantes, ou remover aqueles que realmente não são.
  • Modelo: quando encontramos uma combinação de variáveis ​​que confiantemente prevê um resultado desejado.Neste ponto estamos prontos para construir um modelo para explicar os padrões nos dados. As técnicas de modelagem incluem redes neurais, árvores de decisão, modelos logísticos ou modelos estatísticos como uma série de tempo, o raciocínio baseado em memória, etc.
  • Avaliar: Nesta fase o usuário avalia a utilidade e confiabilidade das descobertas feitas no processo de datamining. Verifique como ele funciona bem aqui um modelo. Para fazer isso, aplicá-lo em diferentes amostras de dados (teste) ou outros dados conhecidos, e, assim, confirmar a sua vaildez.

técnicas de DataMining

Análise estatística:

Utilizar as seguintes ferramentas:
1.ANOVA: o Análise de Variância, para ver se existem diferenças significativas entre as medidas de uma ou mais variáveis ​​contínuas em diferentes grupos populacionais.

2.Regresión: define a relação entre uma ou mais variáveis ​​e um conjunto de preditores do primeiro.

3.Ji testes quadrados a hipótese de independência entre as variáveis.Principais componentes: Reduza o número de variáveis ​​observadas para um número menor de variáveis ​​artificiais, mantendo a maioria das informações sobre a variação das variáveis.

cluster 4.Análisis: Para classificar uma população em um número de grupos, com base no perfil de semelhanças e diferenças entre os diferentes componentes dessa população.

5.Análisis discriminante: um método de classificação dos indivíduos em grupos que tenham sido previamente estabelecidos, e encontrar a regra que permite a classificação dos elementos desses grupos e, portanto, identificar as variáveis ​​que melhor definem os membros do grupo.

Os métodos baseados em árvores de decisão:

O método CHAID (Chi Quadrado Automatic Interaction Detector) é uma análise que gera uma árvore de decisão para prever o comportamento de uma variável de uma ou mais variáveis ​​de previsão, de modo que os conjuntos do mesmo ramo e do mesmo nível são disjuntos.É útil em situações onde o objetivo é dividir a população em diferentes segmentos com base em algum critério de decisão.

A árvore de decisão é construída através da divisão do conjunto de dados em dois ou mais subconjuntos de observações dos valores assumidos preditores. Cada um desses subconjuntos de volta, então, ser particionado usando o mesmo algoritmo. Este processo continua até que não haja diferenças significativas na influência de variáveis ​​preditivas desses grupos para o valor da variável resposta.

A raiz da árvore é o conjunto completo de dados, subconjuntos e subsubconjuntos até galhos de árvores.Um jogo em que uma partição é chamado de nó.

O número de subconjuntos em uma partição pode ir para dois o número de valores distintos que podem levar a variável utilizada para a separação. A variável indicador usado para criar uma partição é o mais significativamente associada com a variável resposta em teste de independência do Chi quadrado em uma tabela de contingência.

Algoritmos genéticos:

São métodos de otimização numérica, no qual a variável ou variáveis ​​que se destinam a melhorar, juntamente com as variáveis ​​em estudo são uma peça de informação.Essas configurações das variáveis ​​de análise para obter os melhores valores para a variável resposta, correspondem aos segmentos com maior capacidade reprodutiva. Através da brincadeira, os melhores segmentos de permanecer e crescer a sua quota de geração em geração. Também pode introduzir elementos aleatórios para alterar as variáveis ​​(mutações). Depois de um certo número de iterações, a população será composto de boas soluções para o problema de otimização.

Redes Neurais:

São métodos geralmente numérica em processamento paralelo, no qual as variáveis ​​interagem com transformações lineares e não lineares, para obter um rendimento.Estes resultados são comparados com aqueles que deveriam ter ido para fora, apoiando-se em dados de testes, resultando em um processo de feedback, através da qual a rede é reconfigurada de forma a obter um modelo adequado.


Rede Neuronal Microstrategy

Lógica Fuzzy:

É uma generalização do conceito de estatísticas.estatísticas clássicas é baseado na teoria de probabilidade, transformá-lo em técnico conjunto, no qual a relação de pertença a um conjunto é dicotômica (o 2 é mesmo ou não). Se estabelecermos a noção de conjunto fuzzy como aquele em que a associação tem um determinado nível ("um dia a 20 º C é quente?) Teremos um resultado mais amplo estatística e assim estão mais perto de raciocínio humano.

Time Series

É do conhecimento de uma variável ao longo do tempo, a partir desse conhecimento, e sob o pressuposto de que não ocorrerão mudanças estruturais, para fazer previsões.Muitas vezes com base em um estudo das séries em ciclos, tendências e sazonalidade, que diferem entre si pelo espaço de tempo coberto, pela obtenção da série original terminou. abordagens híbridas podem ser aplicadas aos métodos anteriores, em que a série pode ser explicada não só em termos de tempo, mas como uma combinação de outras variáveis ​​de ambiente mais estável e, portanto, mais facilmente previsível.

Classificação das técnicas de mineração de dados

técnicas de mineração de dados pode ser classificada como associação, classificação, clustering e previsões de séries temporais.

  • Association (Associação): a relação entre um item de uma transação e outro item na mesma transação é usado para prever os padrões.Por exemplo, um cliente compra um computador (X) ao comprar um mouse (Y) por 60% dos casos. Este padrão ocorre em 5,6% das compras de computadores. A regra de associação nesta situação é que "X implica Y, onde 60% é o factor de confiança e 5,6% o fator de apoio. Quando o fator de confiança e fator de suporte são representados por variáveis ​​lingüísticas de alta e baixa, a regra de associação pode ser escrita na forma da lógica fuzzy, como "quando o fator de elemento de suporte é baixa, X implica Y é alto" . Este seria um exemplo típico de mineração de dados para estudar a associação entre supermercados vendendo fraldas para bebês e cerveja (ver blog entry Bifacil ).Os algoritmos utilizados regras de associação e de árvores de decisão.

Modelo de associação em Microstrategy - Comprar DVD Filmes

  • Classificação (classificação) na classificação, os métodos que pretendem aprender diferentes características que classificam os dados em um conjunto predefinido de classes.Dada uma nova classe pré-definida, uma série de atributos e um conjunto de dados de treinamento ou de formação, os métodos de classificação podem prever automaticamente a classe de dados previamente classificados. As principais questões mais relacionadas com a classificação são a avaliação dos erros de classificação e poder de predição. A matemática utilizada a maioria das técnicas de classificação são árvores de decisão binária, redes neurais, programação linear e as estatísticas. Usando uma árvore de decisão binária, um modelo de indução de árvores, sob a forma de Si-Não, podemos posicionar os dados em diferentes classes, dependendo do valor de seus atributos.No entanto, essa classificação não pode ser ótimo se o poder de predição é baixa. Usando redes neurais, pode-se construir um modelo de indução neural. Neste modelo, os atributos são camadas de entrada e classes associadas com os dados é camadas de saída. Entre as camadas de entrada e saída são um grande número de conexões ocultas que garantam a confiabilidade da classificação (como se fossem as conexões de um neurônio com aqueles ao seu redor). O modelo de indução neural dá bons resultados na análise de muitos mineração de dados, quando um grande número de relações dificulta a implementação do método para o grande número de atributos.Usando técnicas de programação linear, o problema de classificação é visto como um caso especial de programação linear. A programação linear otimiza a classificação dos dados, mas pode levar a modelos complexos que exigem tempo de computação de grande porte. Outros métodos estatísticos como a regressão linear, ou de regressão logística discriminante também são populares e frequentemente utilizados no processo de classificação .

Árvore de Decisão em Microstrategy

  • Clustering (Segmentação): A análise de agrupamento de dados, sem ter de grupo e usando técnicas automatizadas faz o agrupamento desses.A aglomeração não é supevisado e não requer nenhum conjunto de treinamento. Ações de um conjunto de metodologias com a classificação. Ou seja, muitos dos modelos matemáticos utilizados na classificação também pode ser aplicada à análise de cluster. Usando algoritmos de clustering e clustering de seqüência.
  • Previsão (previsão) / Orçamento: análise de previsão está relacionada com as técnicas de regressão.A idéia principal da análise preditiva é descobrir as relações entre variáveis ​​dependentes e independentes e as relações entre as variáveis ​​independentes. Por exemplo, se as vendas é uma variável independente, o benefición pode ser uma variável dependente.
  • Séries (prognóstico): usando dados históricos, juntamente com técnicas de regressão linear ou não linear, podemos produzir curvas de regressão foram usadas para fazer previsões para o futuro. Algoritmos usando séries temporais.

Exemplo 1. Análise de cesta básica (Associação).

Um exemplo típico é usada para explicar o domínio de uso de mineração de dados (com a associação entre a venda de fraldas e cerveja).No nosso caso, usando os exemplos fornecidos pela MicroStrategy em sua plataforma, projeto de aprendizado, chamado MicroStrategy tutorial, vamos ver um exemplo do uso de técnicas de análise de associação.

No exemplo, analisamos as vendas de DVD's de uma loja de departamento e tentar encontrar a associação entre as vendas de filmes diferentes. Ou seja, tentar encontrar os títulos são vendidos juntamente com o objectivo de estabelecer a promoção do comércio, em seguida, esses filmes (por exemplo, da venda de embalagens, a localização dos filmes juntos nos corredores, a promoção de desconto em compras a segunda unidade, etc ) com o objectivo de aumentar as vendas.Para este tipo de análise utilizaram a análise de regras de associação.

Exemplo 2. Segmentação de clientes (análise de cluster).

Com esta análise, analisamos os nossos clientes e usá-los de informações demográficas (idade, escolaridade, número de filhos, estado civil ou tipo de agregado familiar), fazer a segmentação do mercado para preparar o lançamento de determinados produtos ou fazer promoções.

Neste caso, vamos realizar uma análise de agrupamento, utilizando o algoritmo k-means , que é o Microstrategy apoio.

Exemplo 3.Previsão de vendas em uma campanha (árvore de decisão).

Nesta análise, usando uma árvore de decisão para determinar a resposta de um determinado grupo de clientes descontos em determinados produtos na era da volta à escola. Para este fim, o uso de árvores de decisão binária (lembre-se que as árvores de decisão pode ser usada tanto para classificação e para a análise de regressão, como neste caso). Tente determinar como eles influenciam fatores como sexo, idade ou número de filhos sobre a probabilidade de fazer compras na campanha de vendas.

Na entrada do próximo blog irá detalhar esses exemplos usando as ferramentas de Data Microstrategy Mineração.

 

PDRTJS_settings_712365_post_594 = { "Id": "712365" "Unico": "wp-post-594" "Título": "Exemplo Talend + + para + contato + com + Sap" "Item_id", "_post_594" "Permalink": "http% 3A% 2F% 2F2010% 2F01% 2F13% 2Fchurriwifi.wordpress.com% 2Fejemplo-Talend SAP 2F%" } (Leia em Inglés Língua aqui...
Oracle SQL Developerは、DDL を実行されるクエリは 、SQL、単に、または開発する)開発者PL / SQLにヒキガエルとして使用するサードパーティ製のツール(知られているかは無料ですグラフィカルなツールが必要提供されていないことで 、Oracleへのスクリプトは、両方のDMLとOracleデータベース上。 外観と機能は、他のツールの好みを持っていない場合それを適切なオプションを作る、他のそのようなツールに似ています。 また、内の最新バージョンは、このようなのSQLServer、MySQLやAccessのようなOracle以外のデータベースへの接続が可能となるように改善が組み込まれています。 SQLServerまたはConnectionは、MySQLの簡単な非常には、JDBCを介している行った。接続は、それがOracleをしたかのように、...
Recentemente, discutimos o passo em frente que tinha o Google na área de Business Intelligence . Bem, agora podemos dizer que o Twitter também é próximo ao mundo do BI e adicione Analitycs (ie, Business Intelligence, use painéis, etc ...) Por enquanto, eles estão testando um número limitado de usuários. E disse algo que há alguns meses , e parece que os rumores estão a ser cumpridos. Twitter...