Técnicas e Algoritmos para Data Mining

Posted by Shenron | Conceitos Chave | Wednesday 16 July 2008 4:38 pm

A abordagem clássica consiste em usar as eficientes e sintetizadoras fórmulas estatísticas para pesquisa e visualização de resultados, mas a estatística tem duas grandes desvantagens: a primeira é a dificuldade em apresentar resultados em tempo útil devido à dimensão dos Warehouses. A segunda, e parece-nos a mais relevante, é a de “esconder” ou omitir informação que pode ser importante ao retirar “apenas” amostras do conjunto de dados e perder assim informação de subconjuntos não usados.

Resumimos aqui as técnicas e algoritmos mais usados:

“Market Basket Analysis” (MBA)

A análise do cabaz de compras permite inferir regras a partir de grupos de itens ou produtos que surgem numa transacção (ou compra) do ponto-de-venda.

Sendo as transacções anónimas, esta técnica serve para analisar produtos juntamente com a localização geográfica e a partir daí promover investimentos em determinados produtos em zonas diferentes. Se as transacções não forem anónimas e soubermos a identificação dos clientes, então podemos traçar perfis para promoções directas e personalizadas.

“Memory-Based Reasoning” (MBR)

Uso das instâncias conhecidas como modelo para aferir e fazer previsões de instâncias desconhecidas. Ou seja, para determinarmos se vale a pena investigar mais num “alvo”, recolhemos informação sobre os seus “vizinhos” similares e consoante o “estado” dos vizinhos tomamos uma decisão. A fiabilidade da opção dependerá da distância a que estiverem os “alvos vizinhos”.

Pode ser utilizado com quase todos os tipos de dados, o que é uma grande vantagem desta técnica e também apreende novas classificações apenas com a introdução de novas instâncias na base de dados.

“Cluster Detection” (CD)

Detecção de grupos de registos similares. Esta técnica permite construir modelos para a pesquisa de registos que são similares.

Esta é uma forma indirecta de fazer Data Mining, pois a pesquisa de informação para agregar registos similares é uma primeira fase para entender que tipos de dados é que temos.

“Link Analysis” (LA)

Análise de relações entre os vários registos da base de dados com o objectivo de construir modelos baseados nos padrões existentes nessas relações. Sendo uma ferramenta de Data Mining directa, não é muito eficiente para a pesquisa em Bases de Dados relacionais.

“Decision Trees and Rule Induction” (DTRI)

Aferência de regras e árvores de decisão. Esta técnica de Data Mining directa consiste na criação e treino de subconjuntos disjuntos de informação para os quais é aferida uma regra num ou mais campos do registo (record).

Tem a vantagem de ser bastante explícita e de se poder usar Structured Query Language (SQL) como linguagem de pesquisa, pois a lógica das regras é bastante simples.

“Artificial Neural Networks” (ANN)

As redes neuronais são uma das técnicas mais conhecidas e usadas em Data Mining. Utilizam um modelo idêntico ao dos neurónios e as suas ligações (sinapses) no cérebro humano como suporte para aumentarem o seu volume de dados. Apreendem a partir do “treino” sobre esses dados, generalizando padrões e aplicando-os, internamente, para classificação e previsão de resultados.

É uma técnica excelente, muito vantajosa, mas que tem dois aspectos negativos: o primeiro é a complexidade dos modelos gerados. O segundo é o problema de exigir que o formato dos dados seja imutável; para diferentes representações dos dados surgem resultados diferentes, portanto existe um trabalho importante a fazer na preparação dos dados.

“Genetic Algorithms” (GA)

É uma técnica que utiliza o “algoritmo” natural, ou seja, os mecanismos de selecção que a natureza utiliza para a evolução das espécies.

Tem como ponto forte o seu modo de funcionamento estatístico, o qual utiliza a selecção, o cruzamento de dois indivíduos e a mutação para seleccionar as possíveis soluções que prevalecerão para uma próxima geração até convergir na solução óptima (difícil de atingir mas podemos aproximarmo-nos o suficiente).

É uma excelente técnica de optimização para ser utilizada em complemento às técnicas de MBR ou de Redes Neuronais.

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • Furl
  • Live
  • Ma.gnolia
  • Propeller
  • Reddit
  • Slashdot
  • SphereIt
  • Spurl
  • StumbleUpon
  • Technorati
  • TwitThis

1 Comment »

  1. Comment by Sofia — September 5, 2008 @ 5:32 pm

    Parabéns, os seus textos estão óptimos.

RSS feed for comments on this post. TrackBack URI

Leave a comment