O modelo de referência CRISP-DM

II-O modelo de CRISP-DM

O modelo atual processo de mineração de dados fornece uma visão geral do ciclo de vida do projeto de mineração de dados. Isso inclui as fases de um projecto, as suas responsabilidades e as relações entre essas tarefas. Neste nível de descrição, não é possível identificar todas as relações. As relações podem existir entre todas as tarefas de mineração de dados de acordo com os objectivos, o contexto, e, sobretudo, o interesse dos dados do usuário.

O ciclo de vida do projeto de mineração é composto por seis fases, mostrado na Figura 2.A seqüência de fases não é rígida.

O movimento para frente e para trás entre as diferentes fases é sempre necessária. O resultado de cada fase a fase, ou a tarefa específica de uma fase, tem que ser feita mais tarde. As setas indicam as dependências mais importantes e freqüentes entre as fases.

O círculo exterior na Figura 2 simboliza a natureza cíclica da mineração de dados. A mineração de dados não parar uma vez a solução é implantada. As informações ocultas (lições aprendidas) durante o processo de solução implantada e pode conduzir a novas, muitas vezes mais - as perguntas sobre o negócio.processos de mineração posteriormente irão beneficiar de experiências anteriores. A seguir, descrevemos resumidamente cada fase:

Figura 2: Fases do modelo de referência CRISP-DM

Business Insight

Esta fase inicial se concentra em entender os objetivos do projeto e os requisitos de uma perspectiva de negócios, em seguida, converter o conhecimento dos dados na definição de um problema de mineração de dados e um plano preliminar projetado para atingir os objectivos.

Codados mprensión

A fase de entendimento dos dados começa com a coleta de dados inicial e contínua com as atividades que permitem que você se familiarizar com os dados, identificar problemas de qualidade de dados, veja as primeiras informações sobre os dados, e / ou descobrir subconjuntos interessantes formação de hipóteses sobre a informação escondida.

Preparação dos dados

A fase de preparação de dados abrange todas as atividades necessárias para construir o conjunto final de dados [dados a serem fornecidos nas ferramentas de modelagem] dos dados iniciais primas.As tarefas de preparação de dados são susceptíveis de ser executadas muitas vezes e não em qualquer ordem prescrita. As tarefas incluem a seleção de tabelas, registros e atributos, bem como a transformação e limpeza de dados para ferramentas de modelagem.

Modelando

Nessa fase, várias técnicas de modelagem são selecionadas e aplicadas, e seus parâmetros são calibrados para valores ótimos. Normalmente existem várias técnicas para o mesmo tipo de dados do problema de mineração. Algumas técnicas têm requisitos específicos no formulário de dados. Então, de volta para a fase de preparação de dados é muitas vezes necessário.

Avaliação

Nesta fase do projeto, você construiu um modelo (ou modelos) que parece ter a qualidade de uma perspectiva de análise de dados.

Antes de proceder à implantação definitiva do modelo, é importante avaliar cuidadosamente lo e rever as etapas executadas para criar, para comparar o modelo obtido sucesso com os objetivos de negócios.Um dos objectivos principais é determinar se qualquer assunto importante que não foi suficientemente analisado. No final desta fase, a decisão sobre a utilização dos resultados de mineração de dados deve ser obtida.

Desenvolvimento

A criação do modelo normalmente não é o fim do projeto.Mesmo se o objetivo do modelo é aumentar o conhecimento dos dados, os conhecimentos adquiridos serão organizados e apresentados na forma que o cliente pode usar. Isso muitas vezes envolve a aplicação de modelos "ao vivo" dentro de um processo decisório de uma organização, por exemplo, em tempo real de personalização da página Web ou a produção repetida de bases de dados de marketing. Dependendo dos requisitos, a fase de desenvolvimento pode ser tão simples como gerar um relatório ou tão complexo como fazer um processo de cruzamento repetido de mineração da empresa.Em muitos casos, o cliente, não o analista de dados, que leva a etapa de desenvolvimento. No entanto, mesmo se o analista fazer um esforço de implantação, é importante para o cliente para entender quais ações precisam enfrentar a execução, a fim de fazer uso dos modelos criados hoje.

A Figura 3 apresenta um quadro das fases acompanhadas por tarefas genéricas e saídas. Nas seções seguintes descrevem cada tarefa genérica e os seus resultados em detalhes. Focamos nossa atenção natranscrições de tarefas e os resumos dos resultados.

Figura 3: Tarefas Genéricos (negrito) e saídas (itálico) modelo de referência CRISP-DM