ETL (Extracção, Transformação e Carregamento dos Dados)
A etapa de ETL (”Extract, Transform and Load” - Extracção, Transformação e Carregamento) é uma das mais críticas num projecto de Datawarehouse, pois uma informação carregada erradamente trará consequências imprevisíveis nas fases posteriores. O objectivo desta fase é fazer a integração de informações de fontes múltiplas e complexas. Basicamente, divide-se esta etapa em três passos: extracção, transformação e carregamento dos dados. Embora tenhamos hoje em dia ferramentas que auxiliam na execução do trabalho, ainda assim é um processo trabalhoso, complexo e também muito detalhado.
-
Carregamento. Num processo de ETL, devemos definir em primeiro lugar as origens das fontes de dados e fazer a extracção dos mesmos. As origens podem ser várias e provenientes de diferentes formatos, onde poderemos encontrar desde os sistemas transaccionais das empresas (por exemplo: SAP, BPCS, etc.) até arquivos de texto e arquivos DBF (”dBase”) ou Microsoft Access.
-
Limpeza. Definidas as fontes, partimos para o segundo passo que consiste em transformar e limpar esses dados. A limpeza é necessária, porque os dados normalmente provêm, muitas vezes, de uma fonte desconhecida, concebida há muito tempo, contendo muito lixo e inconsistências. Por exemplo: se a empresa vender cartões de crédito (Citibank ou outras), o vendedor está mais preocupado em vender o produto (cartão) do que na qualidade de dados que está a inserir. Se o cliente não facultar o número do telefone na altura da compra, o vendedor introduzirá um número qualquer para agilizar a venda. Se for feita uma consulta posterior, levando-se em conta o número do telefone dos clientes, no mínimo informações como: número 99999999-99 poderão aparecer. Por isso, nessa fase do Datawarehouse, faz-se a limpeza desses dados, para haver compatibilidade entre eles.
-
Transformação. Uma vez que os dados pode ter origem em sistemas diferentes, às vezes é necessário padronizar os diferentes formatos. Por exemplo: em alguns sistemas, a informação sobre o sexo do cliente pode estar armazenada no seguinte formato : “M” para Masculino e “F” para Feminino. Porém, em algum outro sistema pode estar guardado como “H” para Masculino e “M” para Feminino e assim sucessivamente. Quando levamos esses dados para o Datawarehouse, deve-se ter uma padronização deles, ou seja, quando o utilizador for consultar o Datawarehouse, ele não pode ver informações iguais em formatos diferentes. Portanto, fazemos o processo de ETL, transformamos esses dados e deixamos num formato uniforme normalmente sugerido pelo próprio utilizador. No Datawarehouse, teremos somente M e F, facto esse que facilitará a análise dos dados que serão recuperados pela ferramenta OLAP.
Apesar de existirem ferramentas de ETL como o “Data Stage” (Ardent/Informix), o DTS (Microsoft) e o “Sagent” (da própria Sagent), às vezes é necessário criar rotinas de carga para atender determinadas situações que poderão ocorrer. Todos têm as suas características e cada um poderá ser utilizado dependendo do caso de cada empresa. O mais importante é que uma ferramenta de ETL tem grande valia, principalmente se os sistemas OLTP (transaccionais) são muitos, pois elas são uma poderosa fonte de geração de metadados e podem contribuir muito para a produtividade da equipa.






































