Algoritmos de Mineração       Ferramentas de Mineração      

Tecnologias Relacionadas       Data Wharehouse

2.3 - Tecnologias relacionadas à mineração de dados


Muitas técnicas e ferramentas existentes têm sido utilizadas como ferramentas de mineração de dados. Estas técnicas e ferramentas fornecem soluções complementares para a mineração de dados. Por exemplo, o elemento inicial da mineração de dados envolve o armazenamento e a acessabilidade de elementos de dados de transações on-line para o uso de ferramentas mais sofisticadas. O próximo nível fornece resumos de computações selecionadas realizadas no nível inicial. Este nível então inclue OLAP (On-Line Analytical Processing), bancos de dados multidimensionais e ferramentas de análise de planilhas.

O OLAP envolve sistemas estatísticos tais como SASTM e SPSSTM para detectar padrões e tendências utilizando modelos estatísticos tais como modelos lineares e não-lineares. Estes sistemas resultam em análises mais diretas baseadas nos resultados da mineração de dados. Sistemas de geração de relatórios utilizam elementos de sistemas de suporte à decisão (decision suport systems - DSS) e sistemas de informações executivas (executive information systems - EIS) e fornecem suporte à tomada de decisões. Entretanto, com a mineração de dados a ênfase e o foco serão dados em um uso mais efetivo destes sistemas.

A utilização de planilhas multidimensionais e bancos de dados de visões resumidas dos dados através de múltiplas dimensões, embora populares, necessitam de formulação e revisão do usuário. As mais modernas ferramentas de mineração de dados (por exemplo, Excel 97) utilizam uma técnica denominada pivotação, envolvendo tabulações cruzadas pelo arrasto de um atributo ou campo. Análise multidimensional é um método de visualização de dados agregados denominados medidas (por exemplo, vendas ou gastos com propaganda) sobre um conjunto de dimensões tais como produto, ramo, data da venda e região. Um banco de dados multidimensional (multi-dimensional database - MDB) consiste tipicamente de 3 tokens conceituais: dimensões - similar a campos em uma tabela; medidas - computações agregadas para visualização; e hierarquias - imposição de estruturas em algumas dimensões (por exemplo, {mês, semestre, ano} é uma hierarquia baseada no tempo). Tecnologias de mineração de dados realizarão análises automáticas que poderão melhorar o valor da exploração dos dados, suportado por estas ferramentas multidimensionais. [Dmi02]

2.3.1 - Aprendizagem induzida


Indução é a inferência de informação através de dados e aprendizagem induzida é o processo de construção de modelos onde o ambiente, por exemplo - um banco de dados é analisado em uma visão para a procura de padrões. Objetos similares são agrupados em classes e regras são formuladas onde for possível prever as classes de novos objetos. Estes processo de classificação identifica classes de forma que cada classe tenha um único padrão de valores que forma a descrição da classe. A natureza do ambiente é dinâmica, pois o ambiente deve ser adaptativa de forma que possa aprender.

Geralmente só é possível a utilização de um pequeno número de propriedades para a caracterização de objetos, então fazemos abstrações em que os objetos que satisfazem um mesmo subconjunto de propriedades são mapeados na mesma representação interna.

A aprendizagem induzida em que o sistema infere conhecimento por si só através da observação de seu ambiente tem duas estratégias principais:

  • aprendizagem supervisionada - é a aprendizagem através de exemplo onde o professor auxilia o sistema a construir um modelo através da definição de classes e fornecimentos de exemplos para cada uma. O sistema deve achar uma descrição de cada classe, tal como as propriedades comuns dos exemplos. Uma vez que a descrição tenha sido formulada, a descrição e a classe formam uma regra de classificação que pode então ser utilizada para a previsão de classes de objetos ainda não vistos. Esta técnica é similar a análise discriminativa em estatística.
  • aprendizagem não-supervisionada - é a aprendizagem através de observação e descoberta. O sistema de mineração de dados é suprido com objetos mas nenhuma classe é definida de forma que este deve observar os exemplos e reconhecer padrões (descrição das classes) por si mesmo. Este sistema resulta em um conjunto de descrições de classes, uma cada para classe descoberta no ambiente. Novamente, isto é similar a análise de grupos em estatística.

Logo, indução pode ser entendido como a extração de padrões. A qualidade do modelo produzido pelos métodos de aprendizagem induzida é tal que o modelo pode ser utilizado para prever o desenvolvimento de situações futuras. O problema é que a maioria dos ambientes têm diferentes estados e conseqüentementes diferentes mudanças entre eles, de modo que não é possível sempre verificar um modelo através de todas as suas situações possíveis.

Dado um conjunto de exemplos, o sistema pode construir múltiplos modelos - alguns dos quais podem ser mais simples que os outros. Os modelos mas simples têm maior probabilidade de estarem corretos se nós aderirmos ao Ockhams razor, que especifica que se existirem múltiplas explicações sobre um fenômeno particular, fará sentido a escolha do mais simples, porque é mais provável que este capture a natureza do fenômeno.

2.3.2 - Estatística


A estatística tem uma sólida fundamentação teórica, mas os resultados da estatística podem ser grandes demais e difíceis de interpretar, pois necessitam do usuário para verificar onde e como analisar os dados. A mineração de dados, entretanto, permite que o conhecimento do especialista sobre os dados e técnicas de análise avançadas do computador trabalhem de maneira conjunta.

Sistemas de análise estatística tais como SAS e SPSS têm sido utilizados por analistas para a detecção de padrões incomuns e explicação de padrões utilizando modelos estatísticos tais como modelos lineares. A análise estatística tem um campo enorme de utilização e a mineração de dados não irá substituir tais análises, e sim utilizar análises mais diretas baseadas nos resultados da mineração de dados. Por exemplo, a técnica de indução estatística é algo como a taxa média de falha nas máquinas.

2.3.3 - Aprendizagem de máquinas


Aprendizagem de máquinas é a automação de um processo de aprendizagem; e a aprendizagem é equivalente à construção de regras baseadas em observações de estados e transições ambientais. Este é um enorme campo que inclui não somente a aprendizagem através de exemplos, mas também aprendizagem reforçada, aprendizagem com professor, etc. Um algoritmo de aprendizagem utiliza o conjunto de dados e a informação que o acompanha como entrada e retorna uma declaração - ou seja, um conceito representando os resultados da aprendizagem como saída. A aprendizagem de máquinas examina os exemplos anteriores e suas saídas e aprende a como reproduzi-los e faz generalizações sobre novos casos.

Geralmente um sistema de aprendizagem de máquinas não utiliza simples observações de seu ambiente, mas sim todo um conjunto finito chamado de conjunto de treinamento de uma única vez. Este conjunto contem exemplos, tais como observações codificadas em alguma forma legível pela máquina. O conjunto de treinamento é finito, logo nem todos os conceitos podem ser aprendidos exatamente.

2.3.4 - Diferenças entre Aprendizagem de Máquinas e Mineração de Dados


Knowledge Discovery in Databases (KDD), ou mineração de dados, é a parte da Aprendizagem de Máquinas (Machine Learning - ML) responsável pelo manejamento da aprendizagem através de exemplos através de algoritmos e problemas utilizados.

As principais diferenças são:

  • KDD é direcionado na procura de conhecimento compreensível, enquanto que a ML é direcionada à otimização do desempenho de um agente. Logo, o treinamento de uma rede neural para o balanceamento de uma balança é parte da ML, mas não de KDD. Entretanto, existem casos em que a extração de conhecimento através de redes neurais são muito relevantes para KDD.
  • KDD é concentrado em enormes bancos de dados reais, enquanto que ML é tipicamente (mas não sempre) concentrada em conjuntos de dados menores. Assim, as questões de desempenho são muito mais importantes para KDD.
  • ML é um campo muito mais amplo, que não inclui somente a aprendizagem através de máquinas, mas também aprendizagem reforçada, aprendizagem com professor, etc.

KDD é a parte da ML direcionada na procura de conhecimento compreensível em grandes conjuntos de exemplos reais. Na integração de técnicas de aprendizagem de máquinas em sistemas de bancos de dados para a implementação de KDD alguns bancos de dados requerem:

  • algoritmos de aprendizagem mais eficientes devido ao fato de que bancos de dados reais são normalmente enormes e contêm inconsistências. Normalmente, os bancos de dados são desenvolvidos para propósitos diferentes da mineração de dados (vide a seção de data warehouse); e propriedades ou atributos que simplificariam a tarefa de aprendizagem não estão presentes nem podem ser requisitados no mundo real. Bancos de dados são normalmente contaminados por erros de modo que os algoritmos de mineração de dados devem lidar com ruídos, enquanto que a ML utiliza exenplos acadêmicos que estão o mais perto do perfeito possível.
  • representaçõs mais expressivas para os dados, tais como tuplas em bancos de dados relacionais, que representação instâncias do domínio do problema; e conhecimento, tais como regras em sistema baseado em regras, que podem então serem utilizadas para solucionar problemas do usuário no domínio, e a informação semântica contida no esquema relacional.

Na prática, sistemas de KDD devem incluir três fases:

  • transformação de informações contidas em bancos de dados relacionais em uma forma apropriada para ser utilizada em técnicas de aprendizagem;
  • utilização de técnicas de aprendizagem de máquinas para produzir conhecimento baseado em bancos de dados; e
  • interpretação do conhecimento produzido para solucionar problemas dos usuários e/ou reduzir a quantidade de dados.

[Dmi03]

anterior / próximo / topo da página
©1998 GSI - Grupo de Sistemas Inteligentes - Mineração de Dados.
DIN - Departamento de Informática. UEM - Universidade Estadual de Maringá.