Critérios para um Datawarehouse

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:30 pm

Os critérios para Datawarehouse RDBMS são :

  • Performance de carregamento - os Datawarehouses requerem um carregamento com incremento de novos dados numa base periódica, dentro de janelas de tempo estreitas; o desempenho do processo de carga deve ser medido em centenas de milhões de linhas de registo e “gigabytes” por hora e não deve, artificialmente, constranger o volume de dados requeridos pelo negócio;

Processamento de carga - existem alguns passos que devem ser levados em linha de conta para carregar dados novos ou actualizados no Datawarehouse, incluindo conversões de dados, filtragem, reformatação, confirmação de integridade, armazenamento físico, indexação e actualização de dados. Estes passos devem ser executados como uma única unidade de trabalho.

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis

Problemas com o Datawarehouse

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:30 pm

Um dos problemas relacionados com o software de Datawarehouse foi a pressa das empresas em colocá-lo no mercado o mais rapidamente possível. “Estas companhias menosprezaram a etiqueta “Datawarehouse” em produtos de tradicional transacção/processamento e adoptaram o léxico da indústria para serem considerados “players” nesta categoria de rápido crescimento.” - Chris Erickson, Presidente e CEO de Red Brick (HPCwire, Oct. 13, 1995)

Os sistemas da “Red Brick” estabeleceram um critério para um sistema de administração de Base de Dados relacional (RDBMS) satisfatório para Datawarehouse e documentaram 10 exigências especializadas para um RDBMS se qualificar como um servidor relacional de Datawarehouse. Este critério é ilustrado no próximo ponto.

De acordo com a “Red Brick”, as exigências para um Datawarehouse RDBMS começam com o carregamento e preparação dos dados para “queries” e análises. Se o “desenhador/consultor” desconhece o critério nesta fase o resto do sistema será inexacto, incerto e indisponível.

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis

Um modelo de Datawarehouse

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:29 pm

O Datawarehouse é o processo de extrair e transformar dados operacionais em dados de informação e carregá-los numa loja de dados central ou Warehouse. Uma vez que os dados estejam carregados são acessíveis por “queries” de “desktop” e ferramentas de análise.

Os dados dentro do actual Warehouse têm uma estrutura distinta com ênfase em níveis diferentes de resumo.

Os dados correntes detalhados são importantes porque:

  • reflectem os mais recentes acontecimentos que normalmente são os mais interessantes;

  • são volumosos porque são armazenados ao mais baixo nível de granularidade;

  • São quase sempre armazenados em unidades de disco de acesso rápido.

Os dados detalhados mais antigos são arquivados e, não sendo frequentemente utilizados, são armazenados num nível detalhado consistente com os dados correntes detalhados.

Os dados resumidos são dados seleccionados do mais baixo nível de detalhe encontrado e, geralmente, são armazenados em unidades de disco.

Os dados altamente resumidos são compactos, facilmente acessíveis e podem ser encontrados até mesmo fora do Warehouse.

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis

Datawarehouse e sistemas OLTP

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:29 pm

Os sistemas OLTP (”On Line Transaction Processing”) utilizados em soluções de Datawarehouse são muito bons para armazenar informações em BD de forma rápida, eficiente e segura, mas deixam muito a desejar em relação à extracção e análise qualitativa das informações. Por essas razões, as técnicas e ferramentas de Data Mining podem trazer grandes resultados para as empresas que as adoptarem. Por outro lado, se os projectos de Data Mining forem mal planeados e implementados, também se podem tornar simplesmente uma decepção. Embora as técnicas e ferramentas de Data Mining estejam ainda muito imaturas, muitas empresas já têm investido e usado satisfatoriamente essa tecnologia.

Uma Base de Dados que é construída para processamento de transacções on-line, OLTP, geralmente é considerada inadequada para um Datawarehouse, pois foi projectada com um conjunto diferente de necessidades e com a sua capacidade processual maximizada.

O Datawarehouse é interessante no processamento de “queries” e não na referida execução de transacções.

Os servidores de Datawarehouse têm uma finalidade diferente da dos sistemas de OLTP, pois permitem responder a questões de análise empresariais em vez de “agregações” simples como “qual o saldo actual da conta para este cliente?” Questões típicas de Datawarehouse incluem tais coisas como “Que linha de produto vende melhor e como é que isso corresponde a dados demográficos?”

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis

Processos num Datawarehouse

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:29 pm

A primeira fase do Datawarehouse é “separar” a sua informação operacional actual, para preservar a segurança e a integridade das aplicações OLTP (”On Line Transaction Processing”) de máxima importância, enquanto dá ao utilizador acesso à Base de Dados. A base de dados resultante ou Datawarehouse pode consumir centenas de “Gigabytes”, ou até “Terabytes”, de espaço de disco e requer técnicas eficientes para armazenar e recuperar quantidades volumosas de informação. Cada vez maiores, as organizações acham que somente sistemas de processamento paralelo oferecem largura de banda suficiente.

O Datawarehouse recupera assim dados de uma variedade de bases de dados operacionais heterogéneas. Os dados são transformados e são entregues ao “Warehouse/Store” (armazém)de dados baseado num modelo seleccionado (ou definição traçada). A transformação dos dados e a movimentação dos processos são executados sempre que é requerida uma actualização para os dados do Datawarehouse, devendo existir alguma forma de automatização para administrar e executar estas funções.

A limpeza dos dados é um aspecto importante para a criação de um Datawarehouse eficiente, naquilo que é a remoção de certos aspectos dos dados operacionais, como a informação de transacção de baixo nível que permite baixar os tempos das consultas.

A fase de limpeza tem que ser tão dinâmica quanto possível, para acomodar todos os tipos de “queries”, até mesmo aqueles que podem requerer informação de baixo nível. Os dados devem ser extraídos das fontes de produção em intervalos regulares e devem ser agrupados centralmente, mas o processo de limpeza tem que remover a duplicação e reconciliar diferenças entre os vários estilos de colecção de dados.

Uma vez limpos os dados, eles são então transferidos para o Datawarehouse que tipicamente ou é uma grande Base de Dados de alto desempenho SMP (”Symmetrical Multi Processing”) ou MPP (”Massive Parallel Processing”).

O poder de análise dos números é outro aspecto importante do Datawarehouse, devido à complexidade envolvida no processamento de “queries ad-hoc” e por causa das vastas quantidades de dados que a organização quer usar no Warehouse. Um Datawarehouse pode ser utilizado de modos diferentes, como por exemplo, uma “loja central” na qual as “queries” são executadas ou como um “mercado de dados”.

A aproximação da loja central, geralmente, usa uma estrutura de dados muito simples com muito pequenas suposições sobre as relações entre os dados, enquanto que os mercados usam frequentemente Bases de Dados multidimensionais que podem acelerar o processamento de “queries”.

Uma aproximação ao Datawarehouse é o “Paradigma da Sandwich” de Parsaye, avançado pelo Dr. Kamran Parsaye, CEO da Hermosa Beach, CA. Este paradigma ou filosofia encoraja a aceitação da probabilidade de que a primeira repetição de um esforço de Datawarehouse requererá uma revisão considerável. Desta forma e para evitar estas revisões caras e demoradas o “Paradigma da Sandwich” defende a seguinte aproximação:

  • Trabalho dos dados para determinar que formatos e dados são necessários para apoiar uma aplicação de Data Mining;

  • Construção de um protótipo de mini Datawarehouse, com a maioria das características imaginadas para o produto final;

  • Revisão das estratégias;

  • Construção do “Warehouse”(armazém) final.

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis
« Previous PageNext Page »