Text Mining se apresenta como a abordagem correta para construir a tão sonhada ponte entre as ciências chamadas hard, tais como as engenharias e a ciência da computação, e as ciências soft, tais como a sociologia e o marketing.
Nos últimos anos assistimos a um marcante crescimento da capacidade de processamento e armazenamento dos computadores, aliado a uma popularização do uso da Web. Passamos a coletar fotos, notícias, páginas Web, emails, apresentações de slides, e outros arquivos, resultantes de elaboração própria ou de pesquisas em sítios da Internet, repositórios de intranets ou portais corporativos. Pessoas e organizações passaram a poder saciar seus desejos de informação sobre os mais diferentes assuntos pesquisando documentos espalhados pelas redes. Antes disto, as buscas de informação estavam restritas às bibliotecas, freqüentemente com o auxílio de um bibliotecário, ou a um sistema proprietário de fornecimento de informações. A menos que o tópico fosse muito abrangente, não era de se esperar que fôssemos inundados com um grande volume de informações.
Entretanto, o imenso volume de documentos e informações a que passamos a ter acesso, cria ilusão de que temos muita informação disponível, mas gera uma frustração quando percebemos que não temos condições de tratá-la ou de encontrar o realmente desejamos ou nos interessa.
Os motores de busca se tornaram muito importantes com a difusão da web e pareceram ser a solução óbvia para manejar este fluxo de informações. Entretanto, eles apenas exacerbam o problema, fazendo com que mais e mais documentos fiquem disponíveis imediatamente, mas sem um modo adequado de tratar desse grande volume de informações. Conseqüentemente, nos vemos na contingência de lidar apenas com aquilo que conseguimos manipular manualmente e torcer para que o resto não seja importante.
Além disto, a busca de informações em uma fonte de dados textuais é uma tarefa que consome muito tempo e nem sempre o volume de documentos envolvidos permite que certas co-relações entre informações sejam identificadas. Ou seja, muito conhecimento contido na coleção de documentos pode passar desapercebido.
Constatamos que a quantidade de dados disponíveis está constantemente crescendo, enquanto nossa capacidade de absorver e processar esta informação permanece constante, ou seja, estamos vivenciando um novo problema: a sobrecarga de informações. Juntamente com ele, surgiu a necessidade de encontrarmos uma forma de extrair conhecimento de grandes coleções de textos, de forma dinâmica e automática, uma tarefa que os motores de busca não são capazes de cumprir.
A partir de pesquisas em Recuperação de Informação, Processamento de Linguagem Natural, Estatística, Inteligência Artificial e Teoria da Informação, surgiram novas técnicas e ferramentas que podem lidar bem com este problema e que, em conjunto, recebem o nome de Text Mining.
Embora não exista uma definição padronizada, podemos dizer de uma maneira geral que Text Mining é um campo multidisciplinar que reúne técnicas de Data Mining, Lingüística, Aprendizado de Máquina, Recuperação de Informação, Gestão do Conhecimento, Reconhecimento de Padrões, Estatística, Bancos de Dados e Visualização, para atingir o objetivo de, rapidamente, extrair informações de grandes bases de dados textuais, buscando, desta forma, resolver a crise de sobrecarga de informações.
Uma definição mais formal restringe o significado de Text Mining à capacidade de criar uma informação nova e que não seja óbvia, em uma coleção de documentos. Informação nova é definida como um padrão, tendência, ou correlação que não pode ser facilmente detectada pela leitura de documentos individuais. O termo documento é utilizado para referenciar qualquer unidade de texto, tal como uma página web, um email, um artigo formatado, um conjunto de slides, ou um arquivo contendo texto puro.
Uma descrição ainda mais específica de Text Mining segue sua contrapartida para dados numéricos - o Data Mining - que consagrou-se como uma técnica que permite explorar grandes coleções de dados nas bases de grandes empresas.
Há uma distinção entre processamento de base de dados e Data Mining. Enquanto o processamento de base de dados lida com as operações típicas de buscar, atualizar e deletar dados armazenados em bases de dados, o Data Mining tem o objetivo de encontrar informações escondidas nestas bases. Um exemplo de uma informação escondida em bases de dados de uma companhia poderia ser a identificação de grupos de clientes com relação a atributos comuns, que permitissem à companhia ou prever a fidelidade de clientes, ou detectar fraudes.
As principais aplicações de Data Mining tradicionalmente foram o planejamento de campanhas de marketing, o entendimento do comportamento de clientes e a construção de visões globais de dados.
De forma análoga, Text Mining procura extrair informação útil de bases de dados textuais, através da identificação e exploração de padrões. A diferença básica é que, no caso de Text Mining, as bases de dados são constituídas por coleções de documentos e os padrões interessantes são encontrados, não em meio a registros estruturados de bases de dados, mas em dados textuais não-estruturados, presentes nos documentos destas coleções.
Conseqüentemente, enquanto o uso efetivo de aplicações de Data Mining é condicionado à disponibilidade de fontes confiáveis, Text Mining é assumidamente impreciso, pois, além de nem sempre ser possível a remoção de todas as inconsistências dos dados textuais, é muito provável que o texto contenha informações que não poderão ser utilizadas, podendo, até mesmo, conter erros que não podem ser facilmente eliminados. Métodos de Text Mining considerados aceitáveis utilizam informações apenas suficientes para a construção de um modelo geral e ignoram os dados que não podem ser utilizados para fazer predições seguras. Este objetivo é atingido procurando-se as características principais que definem os dados de um conjunto de treinamento e desprezando-se características que sejam raras ou não usuais, partindo-se do princípio de que tais características não serão úteis em um modelo geral.
3. Visualização das Informações
As ferramentas de Text Mining oferecem algumas soluções para o problema de manusear grandes volumes de informações oriundas de diversas fontes. Em muitos casos, estas ferramentas fazem parte de uma aplicação maior e os detalhes de sua utilização ficam escondidos do usuário final, que vê apenas uma interface. Isto porque a utilidade das ferramentas de Text Mining depende da facilidade de uso e de ter uma interface de usuário amigável.
Os cientistas foram os primeiros adeptos de ferramentas de visualização para mostrar grandes quantidades de dados numéricos em forma de gráficos. Entretanto, ferramentas de visualização idênticas a essas não poderão ser utilizadas para mostrar as informações, pois o dado textual necessita de ferramentas visuais separadas que combinem informações numéricas e textuais. A maior dimensionalidade do texto torna sua visualização mais difícil do que a de dados numéricos. Entretanto, os mesmos princípios de utilização de 3D, animação e colorido para revelar padrões e relações se aplicam.
Um dos objetivos da visualização de informação é acelerar o processo de se encontrar informação relevante. Uma coleção de documentos pode ser visualizada como pontos em um espaço 3D onde cada documento está localizado próximo a um documento semelhante. O usuário final pode usar os controles para navegar pelo espaço em busca de documentos úteis. O resumo do documento pode aparecer quando o mouse estiver sobre o documento. As cores e os raios dos pontos podem ser usados para representar outros atributos dos documentos. Os resultados de uma busca na Web podem ser mostrados nesta visualização. Assim, ao invés de simplesmente ver alguns resultados em uma janela, centenas ou até milhares de resultados podem ser visualizados em um único gráfico, sem necessidade de rolagem da tela.
4. Facilitadores e propiciadores da expansão de Text Mining
O primeiro deflagrador é a explosão de dados, com o crescimento acelerado de dados textuais nas organizações - muitas empresas aplicam o crescimento dos dados textuais para detectar novas oportunidades e realizar novos negócios. Usar esses dados corretamente é como desenvolver uma poderosa ferramenta de resultados operacionais.
O segundo deflagrador é o valor que uma extração precisa e pertinente de informação crítica tem para empresas e governos, seja visando a sobrevivência, seja para fins de segurança nacional - o desenvolvimento, na última década, do campo de Text Mining tem simplificado significativamente a recuperação da informação documental para uso pessoal e profissional.
O terceiro e mais importante deflagrador é o desenvolvimento tecnológico e novas pesquisas relacionadas à recuperação da informação, ao processamento da linguagem natural e tratamento semântico de textos, bem como a aprendizagem de máquina - a pesquisa e o desenvolvimento recente de novas descobertas que criam novas aplicações para a tecnologia de Text Mining nas empresas e organizações governamentais estimulam novas iniciativas.
Completando os esforços e iniciativas, temos que empresas de software e universidades vem se dedicando ao desenvolvimento do campo de novas e significativas tecnologias de mineração de textos, e isso pode ser classificado em três categorias:
5. Minha empresa precisa de Text Mining?
Data warehouses podem ser enormes e as empresas têm uma quantidade substancial de dados nestes repositórios estruturados. Entretanto, é na forma de textos não estruturados que estão armazenadas 80% ou mais das informações das empresas. Estas informações normalmente encontram-se dispersas em muitos computadores e, por isto, não há um único repositório para ser minerado, como no caso de Data Mining.
Além disso, a simples conversão de textos para dados numéricos com posterior aplicação de ferramentas de Data Mining não conduz a bons resultados, pois a representação numérica de documentos textuais está necessariamente baseada em probabilidades, devido à incerteza inerente à extração de significado de textos.
Portanto, mesmo que os algoritmos de Data Mining e Text Mining tenham origens comuns é preferível que sejam aplicadas ferramentas distintas para cada tipo de dados.
Text Mining procura respostas para consultas que são difíceis ou impossíveis de serem respondidas apenas por motores de busca. A seguir estão citados alguns exemplos do que poderiam ser tais necessidades de informação:
Encontrar respostas para tais perguntas requer bem mais do que apenas submeter algumas consultas a um motor de busca. Os resultados das consultas deverão ser analisados, organizados e reduzidos a uma forma que seja fácil de ser compreendida. As ferramentas de Text Mining podem usar os resultados de um motor de busca e encontrar informações escondidas tais como tendências e co-relações.
6. Em que áreas Text Mining se aplica?
Text Mining é uma tecnologia que, por sua própria natureza, é conduzida pelas aplicações. Pode ser aplicada à solução dos mais diversos tipos de problemas nas áreas de Inteligência, CRM (Customer Relationship Management), Gestão do Conhecimento e outras.
As aplicações em Inteligência surgem devido ao crescimento da quantidade de documentos liberados pelas organizações e líderes políticos e corporativos (patentes, normas, artigos científicos, notícias, comentários, análises), contendo informações potencialmente estratégicas para a compreensão de idéias, sentimentos e estratégias das organizações e previsão de suas ações.
As aplicações CRM decorrem de uma demanda cada vez maior de responder com rapidez e qualidade as solicitações dos clientes, geralmente expressas em documentos textuais (principalmente emails).
As aplicações de Gestão do Conhecimento são originadas pela popularização da internet e pela sobrecarga de informações a que estamos submetidos. Organizar todas estas informações para permitir um fácil acesso tem sido um problema há décadas.
7. Algumas aplicações típicas de Text Mining
Para ilustrar, citamos algumas aplicações típicas para uma ferramenta de Text Mining:
8. Que benefícios podem ser esperados da utilização de Text Mining?
Ferramentas de Text Mining são particularmente adequadas para automatizar, aperfeiçoar e transformar atividades de BI (Business Intelligence) tradicionalmente realizadas por meio de trabalho intensivo de revisão manual da literatura industrial em busca de padrões contidos nas informações. Estas revisões utilizam tipicamente grandes quantidades de dados textuais, que podem ser referenciados como coleções de documentos, relativos a empresas, executivos de empresas, produtos, transações financeiras e tendências da indústria. O número de documentos em tais coleções pode variar de milhares até dezenas de milhões.
As coleções de documentos podem ser estáticas ou dinâmicas, sendo que coleções de documentos extremamente grandes ou que apresentem taxas de variação de documentos muito altas podem impor problemas de otimização de desempenho para vários componentes de um sistema de Text Mining.
Uma ilustração de uma coleção típica de documentos da área médica cuja utilização pode ser muito beneficiada pela utilização de um sistema de Text Mining é o PubMed, um repositório de informações para pesquisadores da área biomédica, disponibilizada on-line pela National Library of Medicine.
PubMed representa a mais abrangente coleção on-line de relatórios de pesquisa publicados em língua inglesa e abriga também dados relativos a uma considerável seleção de publicações em outros idiomas. As datas de publicação da maior parte dos artigos se estendem de 1966 até os dias atuais. A coleção, dinâmica e crescente, contém abstracts mais de 12 milhões de artigos, sendo estimada a adição de 40.000 novos abstracts por mês.
Mesmo sub-seções dos dados do repositório PubMed podem representar coleções de documentos que justificam aplicações específicas de Text Mining. Por exemplo, uma busca relativamente recente no PubMed para encontrar os abstracts que continham as palavras protein ou gene retornou um resultado com mais de 2.800.000 documentos, sendo que mais de 66% desses foram publicados durante a última década. Mesmo uma busca bem restrita, definida mencionando a expressão epidermal growth factor receptor retornou mais de 10.000 documentos.
O tamanho de coleções de documentos, como a representada por PubMed, torna qualquer tentativa manual de correlacionar dados em documentos, mapear relacionamentos complexos e identificar tendências extremamente laboriosa e, em muitos casos, até impossível de ser concluída com êxito. Métodos automáticos de identificação e exploração de relacionamentos de dados entre documentos aumentam dramaticamente a velocidade e a eficiência das atividades de pesquisa. Na verdade, em alguns casos, as técnicas de exploração automatizadas, como aquelas encontradas em Text Mining são não apenas uma ajuda, mas constituem um requisito indispensável para que os pesquisadores tornem-se aptos para, em uma forma prática, reconhecer padrões sutis ao longo de grande número de documentos em linguagem natural.
Nas empresas que praticam BI, os custos de pesquisas em grandes coleções de documentos são elevados, pois demandam grande dedicação de profissionais altamente especializados, sejam da própria empresa, sejam de alguma consultoria contratada. Portanto, podemos concluir que as ferramentas de Text Mining são cruciais para a redução do custo operacional destas empresas.
9. Características básicas de um software de Text Mining
Certamente, Text Mining deriva muito da sua inspiração e direcionamento das pesquisas originais em Data Mining. Portanto, não é surpreendente perceber que os sistemas de Text Mining e de Data Mining compartilham muitas similaridades de arquitetura de alto nível. Por exemplo, ambos os tipos de sistema apóiam-se em rotinas de pré-processamento, algoritmos de descoberta de padrões e elementos da camada de apresentação, tais como, ferramentas de visualização, para facilitar a navegação pelos conjuntos de resultados.
Além disto, Text Mining adota, em seu núcleo de operações de descoberta de conhecimento, muitos dos tipos de padrões específicos que foram inicialmente introduzidos e avaliados em pesquisas de Data Mining.
Uma das principais diferenças entre estes sistemas decorre do fato de que Data Mining pressupõe que os dados já estejam armazenados em um formato estruturado, enquanto Text Mining lida com coleções de documentos em liguagem natural, muitas vezes sem nenhuma estruturação em sua formatação.
Portanto, enquanto a maior parte do pré-processamento em sistemas de Data mining se focaliza em duas tarefas críticas: limpeza e normalização dos dados e criação de grandes quantidades de associações de tabelas, para os sistemas de Text Mining, as operações de pré-processamento são centralizadas na identificação e extração de características representativas dos documentos, sendo responsáveis pela transformação dos dados não-estruturados armazenados em coleções de documentos em um formato intermediário mais explicitamente estruturado.
Além do pré-procesamento, Text Mining envolve o armazenamento de representações intermediárias, técnicas para analisar estas representações, tais como análise de distribuição, agrupamento, análise de tendências e regras de associação, e ainda técnicas de visualização dos resultados.
Em relação a sistemas de Data Mining, os problemas para a realização de Text mining são ampliados, não apenas pelo grande volume de informações, mas porque a representação de texto requer dimensões muito elevadas. Com isto, os métodos de clusterização e categorização calculam milhares de similaridades entre vetores, mesmo em pequenas coleções de documentos. O que viabiliza este tipo de aplicação, além do fato de que as capacidades de processamento dos computadores têm crescido muito, é que podemos considerar a precisão mais importante do que a velocidade em aplicações de Text Mining.
Um software de Text Mining deve atender aos seguintes requisitos básicos:
DifBrain é o software de Text Mining desenvolvido pela Diferencial.
DifBrain organiza e analisa documentos de texto de forma qualitativa e quantitativa, extrai informação importante dos mesmos e facilita sua visualização. Suas principais funções são: