O banco de dados analíticos (armazém de dados ou armazenamento de dados)

Até agora, vimos as várias ferramentas e técnicas que podemos usar para operar nossos sistemas de inteligência de negócios para analisar informações e tomar conhecimento dos dados.

Em alguns casos, das mesmas ferramentas podem estar acessando os nossos sistemas de negociação para analisar os dados (leia ERP, CRM ou outros sistemas), mas com certeza não teríamos problemas em termos de tempos de resposta, a informação é distribuída por diferentes sistemas que não são homogêneas, o que torna o processo de análise, relatórios complexos inflexível, etc, etc

Para resolver isso surgiu o conceito de Dawarehouse ou Data Warehouse. É uma análise do banco de dados orientado e que é o coração de qualquer projeto de business intelligence.Este banco de dados deve ser capaz de suportar todos os tipos de ferramentas de análise que usamos.

Antes de prosseguir, eu recomendo que você veja o vídeo produzido por Josep Curto para seus alunos na Universidade. Ao explicar todos os concenptos DW sobre o Modelo Dimensional e todos os seus componentes. Também recomendo a série de artigos temáticos publicados em seu blog , ótimo trabalho.

Vamos olhar um pouco mais aprofundada, que é:

(Definição retirada do Conselho de Informática, Manual de documentos para a compra de um sistema de Data Warehouse em http://www.csi.map.es/csi/silice/Elogicos.html ).

3.1.justificação histórica

Hoje, as tecnologias da informação automatizados normalmente carácter repetitivo ou administrativa, usando o que chamamos operacionales.Entendemos sistemas de informação para aplicações operacionais, aqueles que atendem as necessidades operacionais da empresa. Nestes sistemas, os conceitos mais importantes são a actualização eo tempo de resposta. Uma vez satisfeitas as necessidades mais prementes operacional, há um novo conjunto de necessidades de sistemas da empresa, a qual qualificam como necessidades informacionais.Para as necessidades de informação, entendemos aqueles que visam obter as informações necessárias como base para a tomada de decisões, tanto estratégicas e táticas. Estes requisitos de informação são amplamente baseadas na análise de um número enorme de dados, que é tão importante para obter um valor comercial muito detalhado como o valor totalizado para o mesmo. Também é vista histórico crucial de todas as variáveis ​​analisadas, ea análise de dados ambientais. Estes requisitos não são, a priori, difícil de resolver porque a informação é, na verdade em sistemas operacionais.Qualquer atividade realizada pela empresa é completamente refletido em suas bases de dados.

A realidade, porém, é diferente, pois satisfazer as necessidades dos fabricantes de tais sistemas de informação são confrontados com vários problemas. Em primeiro lugar, as consultas de informação massiva (a fim de obter a relação de valor, ou conjunto de valores agrupados pedido), podem ser afetados negativamente o nível de serviço a partir de outros sistemas, desde as consultas que estamos a falar tendem a ser muito caro em recursos. Além disso, as necessidades são satisfeitas com a flexibilidade limitada para procurar a informação e sua inconsistência, devido à falta de visão global (visão particular de cada um os dados são armazenados no sistema operacional que executa-lo.)

Nesta situação, o próximo passo evolutivo tem de ser a geração de um ambiente operacional duplo, que é comumente chamado o Centro de Informação, na qual a informação é atualizada com freqüência muito menor do que nos ambientes operacionais e exigências ao nível usuários do serviço são mais flexíveis.Esta estratégia resolve o problema de planejamento de recursos e aplicações que requerem um alto nível de serviço utilizando o ambiente operacional e que necessitam de dados enorme consultas que trabalham no Centro de Informações.Outra vantagem deste novo ambiente, nenhuma inferência é as aplicações operacionais.

Mas os problemas não terminam aqui. A informação permanece a mesma estrutura em aplicações operacionais, tais como consulta deve acessar uma infinidade de lugares para se obter o conjunto de dados desejado. O tempo de resposta aos pedidos de informação é muito alta. Além disso, quando da realização de sistemas de informação diferentes, com diferentes visões e objetivos diferentes, muitas vezes não é possível obter a informação desejada em um fácil e não tem a confiabilidade necessária.

Usuário enfrentar esses problemas significam que não há tempo de as informações solicitadas e deve envolver mais intensamente para obter as informações que a análise do mesmo, onde traz um valor acrescentado.

3.2 .- O que é um data warehouse?

Depois das dificuldades dos sistemas tradicionais para atender às necessidades informacionais, há o conceito de Data Warehouse, como uma solução para as necessidades globais de informação da empresa.Este termo cunhado por Bill Inmon, traduz literalmente como Data Warehouse. No entanto, se o data warehouse foi apenas um armazenamento de dados, os problemas continuariam os mesmos que nos Centros de Informação.

A principal vantagem desses sistemas é baseada em seu conceito fundamental, a estrutura de informação. Este conceito significa que o armazenamento de informações confiáveis ​​e homogêneos em uma estrutura baseada em consultas e tratamentos aninhados na mesma, e uma configuração diferencial dos sistemas operacionais.Conforme definido por Bill Inmon, Data Warehouse é caracterizado por:

Integrado: os dados armazenados no data warehouse devem ser integrados em uma estrutura coerente, de modo que as incoerências entre os vários sistemas operacionais devem ser eliminadas. A informação também é geralmente estruturada em diferentes níveis de detalhe para atender diferentes necessidades dos utilizadores.

Tema: somente os dados necessários para o processo de geração de conhecimento do negócio estão integrados no ambiente operacional.Os dados são organizados por assunto para fácil acesso e compreensão por parte dos usuários finais. Por exemplo, todos os dados do cliente podem ser consolidadas em uma única tabela do Data Warehouse. Desta forma, os pedidos de informação do cliente será mais fácil de responder, porque toda a informação reside no mesmo local.

História: O tempo é uma parte implícita das informações contidas em um Data Warehouse.Em sistemas operacionais, os dados reflectem sempre o estado da atividade empresarial no presente. Pelo contrário, as informações armazenadas no Data Warehouse serve, entre outras coisas, para a análise de tendências. Portanto, o data warehouse é carregado com diferentes valores de uma variável no tempo para permitir comparações.

volátil de armazenamento de informações não-fumadores em um data warehouse existe para ser lido, não modificada. A informação é, portanto, permanentes, ou seja, a atualização do data warehouse incorporando os valores mais recentes, tendo as variáveis ​​nele contidas, sem qualquer ação sobre o que já existia.

EFCodd, considerado o pai dos bancos de dados relacionais, tem vindo a insistir desde o início dos anos noventa, que têm um sistema de bancos de dados relacionais, significa ter o apoio directo à tomada de decisão. Muitas destas decisões são baseadas em uma análise de natureza multidimensional, que está lutando com a tecnologia não está voltada para este tipo. Esta análise multidimensional, parte de uma visão das dimensões da informação e negócios. Estas dimensões do negócio são melhor compreendidos através do exemplo para o que mostrar, por um sistema de gerenciamento de registros, as hierarquiaspoderia lidar com o número do mesmo para as dimensões: área geográfica, tipo de arquivo eo tempo de resolução.

A visão geral das informações de vendas para essas dimensões definidas, representar graficamente como o cubo à direita:

Um gerente de uma área que se interessar em ver as informações de sua área é tempo para todos os produtos que distribui.
Um gerente de produto, mas iria analisar a distribuição geográfica dos seus produtos para qualquer informação histórica armazenados no Data Warehouse.

Ou você também pode examinar os dados em um momento ou particularizada visão.Por sua vez, essas dimensões têm uma hierarquia, tal como interpretada no balde cada cubo elementar é um fato fundamental, que pode extrair informação adicionada.

Assim, por exemplo, você pode querer analisar tendências de vendas em livros de Física da Galiza por mês de fevereiro de 1996 a março de 1997.Ello é fácil de obter (mesmo de "um clique") as informações de vendas armazenadas em um data warehouse, definindo essas hierarquias e as dimensões do negócio.

A este respeito, citando as palavras de D.Wayne Calloway Diretor de Operações da Pepsico em uma assembléia geral de acionistas:

"Dez anos atrás eu poderia dizer como Doritos muitos venderam a oeste do Mississipi. Hoje eu posso dizer não somente isso, mas quantas foram vendidas na Califórnia, Condado de Orange, na cidade de Irvine, o supermercado Von local, em uma promoção especial no final do corredor 4, na quinta-feira. "

Outra característica do Data Warehouse é que ele contém dados sobre os dados, um conceito que tem sido associado com o termo metadados.Os metadados podem manter informações sobre a origem da informação, a freqüência de refrigerante, método fiável de cálculo, etc acordo com os dados da nossa metadados almacén.Estos será para simplificar e automatizar a coleta de informações sistemas operacionais de sistemas de informação.

Os objetivos a serem cumpridas por metadados, como o grupo a que se destina, são os seguintes:

Suporte a usuários finais, ajudando-o a acessar o data warehouse com sua própria linguagem dos negócios, indicando as informações que são eo que isso significa.Ajude a construir consultas, relatórios e análises através de ferramentas de navegação.

Apoio ao Instituto de Data Warehouse nas áreas de auditoria, informações históricas, de gestão de armazém de dados, desenvolvimento de software para extração de informações, a especificação de interfaces de feedback para os sistemas operacionais dos resultados, etc

Para entender o conceito de Data Warehouse, é importante considerar os processos que lhe dão forma.Aqui estão os processos-chave na gestão de um Data Warehouse:

Extração: obtenção de informações de diferentes fontes internas e externas.
Preparação: filtragem, limpeza, limpeza, padronização e agregação de informações.
Carga: organização e atualização de dados e metadados no banco de dados.
Exploração, extração e análise de informação em diferentes níveis de agregação.

Do ponto de vista do usuário, o processo só é visível a exploração do armazém de dados, embora o sucesso do data warehouse está nos três processos iniciais que se alimentam mesmo a informação e representam o maior percentual de esforço (cerca de 80%) para Ao desenvolver a loja.

Diferenças de um Data Warehouse com o sistema tradicional pode ser resumida no seguinte esquema:

Uma das chaves para o sucesso na construção de um data warehouse é o desenvolvimento gradual, a seleção de um departamento como piloto e gradualmente expandindo o armazenamento de dados para outros usuários.Por isso, é importante escolher o usuário inicial ou projectos-piloto, a ser importante como um departamento com poucos usuários, em que a necessidade para este tipo de sistema é muito alto e pode ser coletado e medido resultados a curto prazo.

Finalizamos esta seção resume os benefícios de um Data Warehouse pode oferecer:

• Fornece uma ferramenta para tomada de decisões em qualquer área funcional, com base em informações integradas e globais de negócios.
• Facilita a aplicação de técnicas de modelagem estatística e análise para encontrar relações ocultas entre o armazém de dados, obtendo um valor acrescentado para o negócio de tal informação.
• Oferece a capacidade de aprender a partir de dados passados ​​e prever situações futuras em diferentes cenários.
• Simplifica a empresa no âmbito da implementação de sistemas de gestão integrada do relacionamento com o cliente.
• Assume tecnológico e econômico otimização ambientes Centro de Informação, estatísticas ou relatórios com os retornos de investimento espetacular.

Armazém 3.3.Data vsData Mart

Duplicação de dados em um ambiente diferente é um termo comumente mal interpretado e incompreendido.Isso é usado pelos fabricantes de SGBD, no sentido de simples replicação de dados de um sistema centralizado de funcionamento dos sistemas distribuídos. Em um contexto de data warehousing, a duplicação termo refere-se a criação de Data Marts local ou município com base em subconjuntos das informações contidas no data warehouse central ou mestre.

Tal como definido pela Meta Group ", um Data Mart é uma aplicação de data warehouse construído rapidamente para suportar uma linha de negócio único". Os Data Marts têm as mesmas características de integração, a volatilidade não, a volatilidade não-incidência temática e Data Warehouse.Representam uma estratégia de "dividir e conquistar" para áreas muito geral de um Data Warehouse.

Esta estratégia é particularmente apropriada quando o armazém central de dados cresce muito rapidamente e serviços requerem apenas uma pequena parte dos dados neles contidos. A criação destas Data Marts exige mais do que apenas uma réplica dos dados: tanto a segmentação será necessária como alguns métodos adicionais de consolidação.

A primeira abordagem para uma arquitetura descentralizada do Data Mart pode estar chegando originado de uma situação como a descrita abaixo.

O Departamento de Marketing, realizou o primeiro projecto de Data Warehouse como uma solução departamental, criando o mart primeiros dados da empresa.Dado o sucesso do projeto, outros departamentos, como de risco ou apressar financeiras para criar os seus Data Marts. Marketing, começa a usar outros dados que também usam o Data Marts e riscos financeiros, e estes façam o mesmo. Isto parece uma decisão normal, uma vez que as necessidades de informação de todos os Data Marts crescer com o tempo.

Quando esta situação evolui, o regime geral de integração entre os Data Marts torna-se, o gráfico anterior.Nesta situação, é fácil ver como esta integração de informações do Data Marts, então se transforma em um quebra-cabeça em que a gestão tem sido difícil para transformar esse desejo de informações sobre uma verdadeira dor de cabeça. No entanto, o que tem falhado é a integração dos Data Marts, mas sua forma de integração.

De fato, uma melhor abordagem seria a coordenação da gestão da informação de todos os Data Marts em um data warehouse centralizado. Nesta situação, o Data Marts obter as informações necessárias e pré-carregados e purificada en o Data Warehouse Corporativo, simplificando o crescimento de uma base de conhecimentos para o nível de toda a empresa.

Esta simplificação viria a centralização das tarefas de gestão do Data Marts no armazém de dados corporativos, criando economias de escala na gestão de Data Marts envolvidos.

Um estudo realizado pelo IDC (International Data Corporation), depois de analisar 541 companhias, a distribuição das implementações de Data Warehouse e Data Marts agora, e suas opiniões sobre essa distribuição, no futuro, mostra o seguinte:

A relação atual das implementações de Data Warehouse é quase o dobro do Data Mart.No entanto, provavelmente após a carreira inicial de um desses projetos, Data Mart, é visto como mais favorável para este tipo de abordagem "dividir para conquistar", antecipando-se uma inversão desses papéis e duplicação da implementação de Data Marts para Data Warehouse .
Provavelmente, 5% dos usuários com tecnologia de Data Warehouse e pensando em dá-lo no futuro, ainda não tenham realizado um estudo de fatores envolvidos em um Data Warehouse, ou passaram pela posição inicial de partida, e não propuseram uma reorganização.

3.4.COMPONENTES a considerar ao construir um DW

3.4.1.Hardware

Um componente fundamental para o fornecimento de um Data Warehouse que atenda as necessidades analíticas dos utilizadores, é ter uma infra-estrutura de hardware para suportá-lo.A este respeito são essenciais na avaliação tanto do hardware, duas características principais:

Por um lado, esses sistemas tendem a acessar alguns usuários com necessidades de informação muito grande, ao contrário dos sistemas operacionais com muitos usuários e necessidades de informações específicas. Devido à flexibilidade necessária ao consultar complexos e inesperados, e conseguiu informações são necessários grandes em uma máquina de alto desempenho.
Além disso, porque esses sistemas muitas vezes começam com funcionalidade limitada, que irá expandir ao longo do tempo (situação recomendado), é necessário que os sistemas são escalável para suportar as crescentes necessidades de equipamentos.Nesse sentido, é aconselhável optar por uma arquitetura aberta que nos permite fazer o melhor de cada abricante.

tecnologias baseadas no mercado foram desenvolvidos com a tecnologia de processamento paralelo, dar o apoio necessário para as necessidades de alto desempenho e escalabilidade do Data Warehouse.Estas tecnologias são de dois tipos:

• SMP (multiprocessamento simétrico, ou multiprocessamento simétrico) têm sistemas de múltiplos processadores compartilhando um único ônibus e uma memória, a partilha dos processos de geração do sistema, com o sistema operacional que gerencia a distribuição das tarefas. Essas arquiteturas de sistemas são chamados de "quase todos compartilhada." O aspecto mais importante desses sistemas é o nível de desempenho em relação ao número de processadores atuais, devido ao aumento não-linear.

• MPP (Massively Parallel Processing ou Multiprocessador Paralelo): Uma tecnologia que compete com a PMS, em que os sistemas semi-independentes muitas vezes são ligados por trocas de alta velocidade que permitem gerenciados como um único sistema.Portanto conhecido como arquiteturas "nada compartilhado." Sua capacidade de expansão é maior do que o SMP.

De acordo com o Meta Group, as tendências de mercado indicam que o SMP arquiteturas geralmente oferecem escalabilidade suficiente, com uma maior oferta e menor risco de tecnologia. No entanto, quando as condições são extrema escalabilidade, pode-se considerar a opção da MPP. No entanto, um progresso significativo está sendo feito em arquiteturas SMP, que têm máquinas ogrado com o desempenho do crescimento linear para um 64.

3.4.2. software de armazenamento de dados (DBMS)

Como discutido, o sistema que gerencia o armazenamento de informações (Sistema de Gestão da Base de Dados ou SGBD) é outro elemento-chave em um Data Warehouse.Se as informações armazenadas no data warehouse podem ser analisados ​​pela visão multidimensional, o SGBD pode ser feito bancos de dados usando a tecnologia relacional ou multidimensional.

bancos de dados relacionais tornaram-se populares nos sistemas operacionais, mas têm sido incapazes de atender às necessidades de informações dos ambientes de Data Warehouse. Assim, e dado que, como mencionado, as necessidades de informação normalmente servem de consulta multidimensional, parece que um banco de dados multidimensional, começam com uma vantagem.Nesse sentido, a implementação das observações que fizemos na seção de hardware, requisitos de desempenho, escalabilidade e consolidação da tecnologia.

Tal como no hardware, novos modelos de bancos de dados relacionais, bancos de dados pós-relacional, abrir um leque mais amplo de escolha. Esses bancos de dados pós-relacional, são baseados em uma tecnologia comprovada e responder ao esgotamento das possibilidades de sistemas de gestão de bases de dados relacionais, fornecendo os mesmos benefícios, mesmo se implementadas em uma arquitetura projetada de forma mais eficiente.

Esta maior eficiência é obtida através do estabelecimento de relações lógicas e não físicas, o que significa que não é necessário atribuir mais hardware em uma solução para alcançar a execução das funções exigidas.O resultado é que o mesmo aplicativo executado em um postrelacional BD exige menos do hardware, pode atender um número maior de usuários e uso intensivo de mecanismos de acesso a dados mais complexos. Além disso, esta tecnologia combina as vantagens das bases de dados relacionais e hierárquicos, com um custo menor. Ambos os sistemas têm a vantagem de que não é necessário ter servidores todo-poderoso, mas pode-se supor nívelmodesto hardware e expandir as necessidades crescem as informações da empresa e uso efetivo do sistema.

Saímos fora do escopo deste guia detalhando como fornecedores de banco de dados tem acesso otimizado aos índices, ou as novas possibilidades oferecidas pela compressão de dados (com menos espaço para as mesmas informações que implica, entre outras vantagens, Mais informações podem ser armazenadas em cache), para que se referem à imprensa ou de publicações dos fabricantes.

Software 3.4.3 .- extração e manipulação de dados

Nesta seção, vamos discutir um componente essencial na implementação de um armazém de dados, extração e manipulação.Para este trabalho, que cai no âmbito da tecnologia da informação profissional é essencial ter ferramentas para controlar e automatizar o curso "mimos" e precisa atualizar o Data Warehouse.

Estas ferramentas devem fornecer os seguintes recursos:

Controle de extração de dados e automação, reduzindo o tempo gasto no processo de descoberta documentado, minimizando a margem de erro e permitindo uma maior flexibilidade.
Acesso a diversas tecnologias, fazendo uso eficaz de hardware, software, dados e recursos humanos existentes.
Proporcionar uma gestão integrada do Data Warehouse e Data Marts, integrando simultaneamente a extracção, transformação e carregamento para a construção do Data Warehouse corporativo e Data Marts.
Usando a arquitetura de metadados, facilitando a definição de objetos de negócios e regras de consolidação.
Acesso a uma variedade de fontes de dados diferentes.
A manipulação de exceção.
Planejamento, logs, interfaces com terceiros programadores, o que nos permitirá ter uma gestão de planejamento de todos os processos para carregar o DW.
interface de hardware independentes.
Apoiar o funcionamento do Data Warehouse.

Às vezes, não costuma prestar atenção suficiente a essa fase de Data Warehouse Management, embora uma grande parte do esforço na construção de um Data Warehouse.Existem muitas ferramentas disponíveis no mercado que automatizam parte do trabalho.

Ferramentas de Middleware 3.4.4 .-

Como ferramentas de apoio à fase de gestão de um Data Warehouse, em seguida, discutir dois tipos de ferramentas:

• Ferramentas de Middleware Em primeiro lugar, fornecendo conectividade entre diferentes ambientes, para auxiliar na gestão do Data Warehouse.
• Além disso, o analisador de consultas e aceleradores, para otimizar os tempos de resposta nas necessidades analíticas, ou carregar dados de diferentes sistemas operacionais para o data warehouse.

ferramentas de middleware deve ser escalável para ser capaz de crescer o data warehouse cresce, o volume suave.Eles também devem ser flexíveis e robustos, sem esquecer de fornecer o desempenho adequado. Esteja aberto a todos os tipos de ambientes de armazenamento de dados, tanto por meio de normas de facto (OLE, ODBC, etc) como os mais populares tipos de mercados (DB2, Access, etc) .. Conectividade, o transporte, pelo menos, no padrão(SNA LU6.2, DECnet, etc) devem estar bem fixadas.

Com estas ferramentas, Middleware alcançar:

• Maximizar os recursos pedidos em execução na plataforma mais adequada.
• Integrar dados e aplicativos em uma plataforma distribuída.
• Automatizar a distribuição de dados e aplicativos a partir de um sistema centralizado.
• Reduzir o tráfego de rede, equilibrando os níveis de cliente-servidor (dados mais ou menos locais, mais ou menos locais processo).
• explorar as capacidades dos sistemas de controle remoto sem ter que aprender vários ambientes operacionais.
• Garantir a escalabilidade do sistema.
• Desenvolver e explorar aplicações locais no servidor.

Analisadores e aceleradores querys trabalho virar um arquivo de log das consultas realizadas e os dados a eles associados (tempo de resposta, tabelas acessadas, método de acesso, etc.)Este registro é analisado, automaticamente ou através da monitorização do gerenciador de dados, para melhorar os tempos de acesso.

Esses sistemas de monitoramento pode ser implementado em um teste em separado ou em ambiente real. Se você estiver executando em um ambiente de teste, o desempenho do ambiente real não é afetado. No entanto, é possível otimizar os esforços realizados desde a análise pode ser realizada em consultas não-críticos ou executadas com freqüência pelos usuários.

Implantação de um analisador de consulta no ambiente real também tem uma série de vantagens, tais como:

• Você pode monitorar o tempo de resposta do ambiente real.
• implementar mecanismos de optimização pode consultar, reduzindo a carga do sistema.
• Você pode atribuir custos aos usuários para o custo do Data Warehouse.
• Você pode bloquear os mecanismos de consulta conduzirá a um tempo de resposta excessiva.

3.4.5.Conclusiones e considerações de interesse.

O Data Warehouse será o elemento principal de nosso sistema de business intelligence.A sua própria definição, processamento de dados e carregamento vai depender do sucesso posterior do projeto.

Apesar de o utilizador final ver apenas um conjunto de ferramentas de análise a utilizar para "ataque" aos dados, à frente é uma série de processos que fazem todas as informações dos diferentes sistemas foram identificados, extraído, transformado, homogeneizado, purificado e carregados no data warehouse.Isto é possível através de ferramentas de ETL e middleware. E esta é a parte que normalmente leva mais tempo em qualquer projeto.

Muitas vezes um departamento deve optar por implementar projectos-piloto deste tipo que, em seguida, nos permitem vender internamente na organização do projeto.

Isso vai sempre dar importância à formação como a chave para a utilização de ferramentas.

Os projetos de BI e DW não serão apenas projetos tecnológicos, há muito mais para trás, e apesar de terem usado a tecnologia deve ter conhecimento do negócio para refletir sobre o que é realmente necessário, já que os níveis inferiores ao altos de decisão.Neste momento, consultor de BI também deve ser capaz de proporcionar não só conhecimento tecnológico, mas também o conhecimento da área de negócios e os diversos elementos a serem utilizados na concepção, desenvolvimento e operação de um sistema de BI (veja o artigo de Jorge Fernandez em seu blog: O consultor Bi, que estranha .)

3.4.6.Novas tendências no mundo DW. O Datawarehouse 2.0.

DW sistemas têm evoluído nos últimos anos, novas necessidades surgiram. As razões para essa evolução são muitas, e podem ser assim resumidas:

- Utilização de ferramentas de análise que são exigidos diferentes estruturas optimazadas o uso de certas tecnologias (por exemplo, mineração de dados ou o uso de ferramentas estatísticas).

- Simplificar o gerenciamento de sistemas complexos constituídos de vários data marts DW orientado para cada departamento em que você perde a noção de empresas (que faz com que as oportunidades perdidas).

- A partir da combinação de várias pequenas aplicações (Datamarts ou Datawarehouse), não se coloca todas as informações corporativas.Seria necessário construir este centro a partir do qual irá gerar todos os DW necessária para todas as áreas de análise.

- Processo on-line: o processo de atualização significava que havia muitos momentos em que você não podia acessar os dados. Da mesma forma, pode haver algum atraso na disponibilidade da informação, que nos impediu de fazer imediata (análise mais orientada a operação do negócio).

- A evolução tecnológica em ferramentas de ETL, os custos de tecnologia (os custos estão caindo para que os projetos podem abordar de maneira mais ampla, etc.)

Por tudo isto, vem o conceito de CIF (Corporate Information Factory), que pode incluir todos os elementos que vê na imagem abaixo:

A Fábrica de Informações Corporativas (CIF) é uma arquitetura conceitual que descreve e classifica os armazenamentos de informações usado para operar e gerenciar com sucesso uma infra-estrutura de BI robusta.

Usando essa arquitetura ou outras simples, mas vai depender do tipo de empresa, análise de requisitos e para onde ele quer chegar no uso de BI.Os elementos que compõem o CIF, em breve, são:

Data Warehouse: é o armazém de dados, de acordo com as definições visto até agora.Mas também, nesta arquitetura é o ponto central da integração de dados. Centraliza todas as informações que nos dá uma visão comum de informação através da organização e fornece os dados para preencher o conteúdo restante armazena dados específicos através dos processos de Dados de entrega (condições de extração de dados de filtragem, compactação, etc Para outros tipos de análise).

Operational Data Store: um armazenamento de dados, como o DW, mas orientado para a tomada de decisões táticas. Os dados atuais feeds de sistemas operacionais, nós somos um histórico, é muito mais informações detalhadas e os tempos de atualização são geralmente muito mais rápido para permitir a rápida tomada de decisões sobre os dados operacionais da empresa.Seria um quase em tempo real e muitas vezes inclui informações sobre os clientes, materiais, inventário, vendas, etc

Aquisição de Dados: são todas as ferramentas e sistemas de gestão que nos permite extrair, transformar e carregar dados de sistemas diferentes (sistemas externos, ERP, sistemas internos, arquivos, etc) no nosso armazém de dados. Serian ferramentas ETL e sistemas de gestão de aquisição de dados (Data acervoition Management).

Data de entrega: são as operações de agregação de informação, filtragem por tamanho ou requisitos específicos do negócio, reformatação ou processamento de informações para apoiar o uso de ferramentas específicas de BI e, finalmente, a transmissão de informações em toda a organização (para dar conteúdo a Datamarts específica ou Armazém).

Como podemos construir subconjuntos DW-oriented do uso de técnicas específicas de BI:

Exploração do Armazém: exploração de armazém para uso de ferramentas estatísticas e tipo de exploração.

Mining Data Warehouse: armazém para a utilização de técnicas de mineração de dados.

Olap Data Mart de data warehouse para o uso da análise multidimensional (tipo OLAP).

Operacional Mart: Um subconjunto do ODS (Operational Data Store), para permitir a análise operacional restrita a um espaço menor.

Se você quiser saber mais sobre a nova arquitetura, eu recomendo os livros:

O kit de ferramentas de data warehouse: o guia completo para modelagem dimensional

Ralph Kimball, Margy Ross.- 2 ª ed.
ISBN 0-471-20024-7

Dominando os dados do projeto do armazém

Imhoff, Claudia
Galemmo, Nicholas
Geiger, Jonathan G.
ISBN :978-0-471-32421-8

DW 2.0: A Arquitetura para a próxima geração de Data Warehousing

William Inmon
Derek Strauss
Genia Neushloss
ISBN: 978-0-12-374319-0