Técnicas e Algoritmos para Data Mining
A abordagem clássica consiste em usar as eficientes e sintetizadoras fórmulas estatísticas para pesquisa e visualização de resultados, mas a estatística tem duas grandes desvantagens: a primeira é a dificuldade em apresentar resultados em tempo útil devido à dimensão dos Warehouses. A segunda, e parece-nos a mais relevante, é a de “esconder” ou omitir informação que pode ser importante ao retirar “apenas” amostras do conjunto de dados e perder assim informação de subconjuntos não usados.
Resumimos aqui as técnicas e algoritmos mais usados:
“Market Basket Analysis” (MBA)
A análise do cabaz de compras permite inferir regras a partir de grupos de itens ou produtos que surgem numa transacção (ou compra) do ponto-de-venda.
Sendo as transacções anónimas, esta técnica serve para analisar produtos juntamente com a localização geográfica e a partir daí promover investimentos em determinados produtos em zonas diferentes. Se as transacções não forem anónimas e soubermos a identificação dos clientes, então podemos traçar perfis para promoções directas e personalizadas.
“Memory-Based Reasoning” (MBR)
Uso das instâncias conhecidas como modelo para aferir e fazer previsões de instâncias desconhecidas. Ou seja, para determinarmos se vale a pena investigar mais num “alvo”, recolhemos informação sobre os seus “vizinhos” similares e consoante o “estado” dos vizinhos tomamos uma decisão. A fiabilidade da opção dependerá da distância a que estiverem os “alvos vizinhos”.
Pode ser utilizado com quase todos os tipos de dados, o que é uma grande vantagem desta técnica e também apreende novas classificações apenas com a introdução de novas instâncias na base de dados.
“Cluster Detection” (CD)
Detecção de grupos de registos similares. Esta técnica permite construir modelos para a pesquisa de registos que são similares.
Esta é uma forma indirecta de fazer Data Mining, pois a pesquisa de informação para agregar registos similares é uma primeira fase para entender que tipos de dados é que temos.
“Link Analysis” (LA)
Análise de relações entre os vários registos da base de dados com o objectivo de construir modelos baseados nos padrões existentes nessas relações. Sendo uma ferramenta de Data Mining directa, não é muito eficiente para a pesquisa em Bases de Dados relacionais.
“Decision Trees and Rule Induction” (DTRI)
Aferência de regras e árvores de decisão. Esta técnica de Data Mining directa consiste na criação e treino de subconjuntos disjuntos de informação para os quais é aferida uma regra num ou mais campos do registo (record).
Tem a vantagem de ser bastante explícita e de se poder usar Structured Query Language (SQL) como linguagem de pesquisa, pois a lógica das regras é bastante simples.
“Artificial Neural Networks” (ANN)
As redes neuronais são uma das técnicas mais conhecidas e usadas em Data Mining. Utilizam um modelo idêntico ao dos neurónios e as suas ligações (sinapses) no cérebro humano como suporte para aumentarem o seu volume de dados. Apreendem a partir do “treino” sobre esses dados, generalizando padrões e aplicando-os, internamente, para classificação e previsão de resultados.
É uma técnica excelente, muito vantajosa, mas que tem dois aspectos negativos: o primeiro é a complexidade dos modelos gerados. O segundo é o problema de exigir que o formato dos dados seja imutável; para diferentes representações dos dados surgem resultados diferentes, portanto existe um trabalho importante a fazer na preparação dos dados.
“Genetic Algorithms” (GA)
É uma técnica que utiliza o “algoritmo” natural, ou seja, os mecanismos de selecção que a natureza utiliza para a evolução das espécies.
Tem como ponto forte o seu modo de funcionamento estatístico, o qual utiliza a selecção, o cruzamento de dois indivíduos e a mutação para seleccionar as possíveis soluções que prevalecerão para uma próxima geração até convergir na solução óptima (difícil de atingir mas podemos aproximarmo-nos o suficiente).
É uma excelente técnica de optimização para ser utilizada em complemento às técnicas de MBR ou de Redes Neuronais.

















Parabéns, os seus textos estão óptimos.