Capítulo 1 : Prospeção de dados
A mineração de dados é a prática de usar técnicas de aprendizado de máquina, estatísticas e sistemas de gerenciamento de banco de dados para extrair e descobrir padrões em conjuntos de big data. Quando se referem a abordagens específicas, as expressões inteligência artificial e machine learning são muitas vezes mais adequadas do que as análises e análises de dados mais genéricas (em larga escala).
Análise de cluster, identificação de anomalias e análise de dependência são exemplos do trabalho real da mineração de dados: a exploração semi ou totalmente automatizada de conjuntos de dados massivos para descobrir insights ocultos (mineração de regras de associação, mineração de padrões sequenciais). Para o efeito, são frequentemente utilizados índices geográficos e outras abordagens baseadas em bases de dados. Os padrões resultantes podem ser utilizados como uma abreviação para os dados originais em análises posteriores ou em aplicações como aprendizado de máquina e análise preditiva. A mineração de dados pode ajudar a encontrar padrões nos dados e organizá-los em agrupamentos significativos que um sistema de apoio à decisão pode utilizar para fazer melhores previsões. Embora a coleta de dados, a preparação de dados e a interpretação e relatórios de resultados sejam partes importantes do processo KDD como um todo, elas não fazem parte do estágio de mineração de dados especificamente.
Em contraste com a mineração de dados, a análise de dados pode ser realizada em qualquer tamanho de conjunto de dados (como os resultados de uma campanha de marketing) para avaliar hipóteses e modelos. A mineração de dados, por outro lado, faz uso de aprendizado de máquina e modelos estatísticos para revelar padrões ocultos ou secretos em um vasto conjunto de dados.
A espionagem de dados, a pesca de dados e a dragagem de dados referem-se à mesma prática de usar técnicas de mineração de dados para tirar conclusões de amostras de um conjunto de dados populacionais que são (ou podem ser) muito pequenas para serem estatisticamente significativas. Novas hipóteses podem ser geradas usando essas técnicas e, em seguida, testadas em conjuntos de dados maiores.
O hábito impróprio de avaliar dados sem uma hipótese a priori foi chamado de "pesca de dados" ou "dragagem de dados" por estatísticos e economistas na década de 1960. O economista Michael Lovell usou a expressão "mineração de dados" de maneira igualmente crítica em um artigo de 1983 para a Review of Economic Studies. De acordo com Lovell, esse comportamento "mascara sob uma série de pseudônimos, que vão desde experimentar" (um bom rótulo) até "pescar" ou "bisbilhotar" (rótulos ruins) (negativos).
Por volta de 1990, a comunidade de banco de dados começou a usar a expressão "mineração de dados.", tendo um tom geralmente otimista.
Durante o início da década de 1980,, uma expressão "mineração de banco de dados", T foi usada, HNC, no entanto, tem registrado esta expressão, um negócio com raízes em San Diego, para que eles possam vender-lhe o seu Software de Mineração de Dados; Atualmente, não há diferença entre mineração de dados e descoberta de conhecimento como termos de referência.
Há muito tempo que as pessoas extraem manualmente padrões dos dados. O teorema de Bayes (de 1700) e a análise de regressão (de 1900) são dois exemplos das primeiras técnicas para descobrir padrões em dados (1800). em bases de dados extensas. Ao tirar partido da forma como os dados são armazenados e indexados em bases de dados para executar os algoritmos reais de aprendizagem e descoberta de forma mais eficiente, preenche a lacuna entre a estatística aplicada e a inteligência artificial (que normalmente fornecem a base matemática) e a gestão da base de dados. Isso torna possível que tais métodos sejam aplicados a conjuntos de dados cada vez maiores.
As definições comuns do processo KDD incluem as seguintes etapas::
Seleção
Pré-processamento
Transformação
Prospeção de dados
Interpretação/avaliação.
No entanto, existem várias iterações desse conceito por aí, como o processo padrão intersetorial para mineração de dados (CRISP-DM), que descreve um procedimento simplificado de seis etapas:
Compreensão do negócio
Compreensão de dados
Preparação dos dados
Modelação
Avaliação
Implantação
ou um método simplificado como "Pré-processamento", "Mineração de dados" e "Validação de resultados".
A abordagem CRISP-DM demonstrou ser a técnica de mineração de dados mais popular em pesquisas realizadas em 2002, 2004, 2007 e 2014.
Uma coleta de dados de destino deve ser construída antes que os métodos de mineração de dados possam ser usados. O conjunto de dados de destino tem que ser grande o suficiente para incluir os padrões a serem extraídos, enquanto ainda é gerenciável o suficiente para ser minerado em um período razoável de tempo. Data warehouses e data marts são lugares frequentes para obter informações úteis. A mineração de dados não pode começar sem primeiro pré-processar os conjuntos de dados multivariados. O conjunto de destino limpo é usado. As observações cheias de ruído e em branco são filtradas durante todo o processo de limpeza de dados.
Existem seis categorias principais de trabalho de mineração de dados:
Deteção de anomalias (também conhecida como mudança/desvio/deteção atípica) - deteção de registros de dados fora do comum que podem ser de interesse ou indicar problemas de dados que precisam de exame adicional.
Procura ligações entre variáveis através da utilização de "aprendizagem de regras de associação" (modelação de dependência). Os padrões de compra são um tipo de informação que uma mercearia pode recolher. O supermercado pode utilizar a regra de associação para ver quais itens geralmente são comprados juntos e adaptar sua publicidade a essas combinações. A análise da cesta de mercado é outro nome para isso.
O termo "clustering" refere-se ao processo de identificação de agrupamentos e estruturas nos dados que são "semelhantes", sem depender de estruturas preexistentes nos dados.
Quando aplicada a dados novos, a classificação é o processo de generalização da estrutura previamente estabelecida. Um cliente de e-mail pode, por exemplo, tentar determinar se uma mensagem é spam ou não.
Com a finalidade de prever as conexões entre diferentes conjuntos de dados, a regressão procura uma função que melhor os represente.
A visualização de dados e a criação de relatórios são exemplos de representação sucinta da coleta de dados feita pela sumarização.
O uso inadvertido da mineração de dados pode levar a descobertas aparentemente significativas que não preveem verdadeiramente o comportamento futuro e não podem ser repetidas em uma nova amostra de dados, tornando os resultados inúteis. Às vezes, isso acontece quando os pesquisadores tentam examinar muitas hipóteses sem usar métodos estatísticos apropriados. A forma mais simples desse problema no aprendizado de máquina é conhecida como overfitting, mas pode se desenvolver a qualquer momento do processo, então uma divisão de trem/teste pode não ser suficiente para evitá-lo.
A descoberta de conhecimento a partir de dados culmina na verificação para ver se os padrões descobertos pelas técnicas de mineração de dados estão realmente presentes em todo o conjunto de dados. Os algoritmos podem, por vezes, encontrar padrões ilegítimos. Os algoritmos de mineração de dados geralmente descobrem padrões no conjunto de treinamento que estão ausentes do conjunto de testes. Overfitting descreve esta situação. Para contornar isso, o algoritmo de mineração de dados é avaliado usando um conjunto de dados de teste não treinado. O conjunto de testes é usado para aplicar os padrões aprendidos e comparar os resultados reais com os esperados. Um sistema de mineração de dados que visa identificar spam de e-mails reais, por exemplo, precisaria de treinamento em um conjunto de dados composto por mensagens representativas. Depois de ser ensinado, o sistema usaria o lote de teste de e-mails para aplicar os padrões que havia aprendido. Quantos e-mails são classificados com sucesso é, portanto, um bom indicador da eficácia dos padrões. A eficácia do algoritmo pode ser determinada usando uma variedade de técnicas estatísticas, incluindo curvas ROC.
É vital reavaliar e modificar os procedimentos de pré-processamento e mineração de dados se os padrões resultantes não satisfizerem os critérios exigidos. A última etapa é analisar os padrões adquiridos e transformá-los em conhecimento, se eles de fato se encaixam nos requisitos adequados.
O SIG de Descoberta de Conhecimento e Data Mining da Association for Computing Machinery (ACM) é a organização profissional de maior prestígio na área (SIGKDD).
Conferências em ciência da computação que se concentram na mineração de dados:
Conferência de Gestão da Informação e do Conhecimento (CIKM)
Descoberta de Conhecimento em Bases de Dados: Princípios e Práticas e a Conferência Europeia sobre Aprendizagem Automática
Conferência de Descoberta de Conhecimento e Mineração de Dados (KDD): Conferência Anual ACM SIGKDD
Muitas conferências de gerenciamento de dados e banco de dados, como a ICDE Conference, a SIGMOD Conference e a International Conference on Very Large Data Bases, também incluem sessões sobre mineração de dados.
Os padrões de mineração de dados foram definidos em...