Processos num Datawarehouse

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:29 pm

A primeira fase do Datawarehouse é “separar” a sua informação operacional actual, para preservar a segurança e a integridade das aplicações OLTP (”On Line Transaction Processing”) de máxima importância, enquanto dá ao utilizador acesso à Base de Dados. A base de dados resultante ou Datawarehouse pode consumir centenas de “Gigabytes”, ou até “Terabytes”, de espaço de disco e requer técnicas eficientes para armazenar e recuperar quantidades volumosas de informação. Cada vez maiores, as organizações acham que somente sistemas de processamento paralelo oferecem largura de banda suficiente.

O Datawarehouse recupera assim dados de uma variedade de bases de dados operacionais heterogéneas. Os dados são transformados e são entregues ao “Warehouse/Store” (armazém)de dados baseado num modelo seleccionado (ou definição traçada). A transformação dos dados e a movimentação dos processos são executados sempre que é requerida uma actualização para os dados do Datawarehouse, devendo existir alguma forma de automatização para administrar e executar estas funções.

A limpeza dos dados é um aspecto importante para a criação de um Datawarehouse eficiente, naquilo que é a remoção de certos aspectos dos dados operacionais, como a informação de transacção de baixo nível que permite baixar os tempos das consultas.

A fase de limpeza tem que ser tão dinâmica quanto possível, para acomodar todos os tipos de “queries”, até mesmo aqueles que podem requerer informação de baixo nível. Os dados devem ser extraídos das fontes de produção em intervalos regulares e devem ser agrupados centralmente, mas o processo de limpeza tem que remover a duplicação e reconciliar diferenças entre os vários estilos de colecção de dados.

Uma vez limpos os dados, eles são então transferidos para o Datawarehouse que tipicamente ou é uma grande Base de Dados de alto desempenho SMP (”Symmetrical Multi Processing”) ou MPP (”Massive Parallel Processing”).

O poder de análise dos números é outro aspecto importante do Datawarehouse, devido à complexidade envolvida no processamento de “queries ad-hoc” e por causa das vastas quantidades de dados que a organização quer usar no Warehouse. Um Datawarehouse pode ser utilizado de modos diferentes, como por exemplo, uma “loja central” na qual as “queries” são executadas ou como um “mercado de dados”.

A aproximação da loja central, geralmente, usa uma estrutura de dados muito simples com muito pequenas suposições sobre as relações entre os dados, enquanto que os mercados usam frequentemente Bases de Dados multidimensionais que podem acelerar o processamento de “queries”.

Uma aproximação ao Datawarehouse é o “Paradigma da Sandwich” de Parsaye, avançado pelo Dr. Kamran Parsaye, CEO da Hermosa Beach, CA. Este paradigma ou filosofia encoraja a aceitação da probabilidade de que a primeira repetição de um esforço de Datawarehouse requererá uma revisão considerável. Desta forma e para evitar estas revisões caras e demoradas o “Paradigma da Sandwich” defende a seguinte aproximação:

  • Trabalho dos dados para determinar que formatos e dados são necessários para apoiar uma aplicação de Data Mining;

  • Construção de um protótipo de mini Datawarehouse, com a maioria das características imaginadas para o produto final;

  • Revisão das estratégias;

  • Construção do “Warehouse”(armazém) final.

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis

No Comments »

No comments yet.

RSS feed for comments on this post. TrackBack URI

Leave a comment