Text Mining - a nova fronteira da inteligência e do conhecimento

Text Mining se apresenta como a abordagem correta para construir a tão sonhada ponte entre as ciências chamadas hard, tais como as engenharias e a ciência da computação, e as ciências soft, tais como a sociologia e o marketing.

1. Sobrecarga de Informações

Nos últimos anos assistimos a um marcante crescimento da capacidade de processamento e armazenamento dos computadores, aliado a uma popularização do uso da Web. Passamos a coletar fotos, notícias, páginas Web, emails, apresentações de slides, e outros arquivos, resultantes de elaboração própria ou de pesquisas em sítios da Internet, repositórios de intranets ou portais corporativos. Pessoas e organizações passaram a poder saciar seus desejos de informação sobre os mais diferentes assuntos pesquisando documentos espalhados pelas redes. Antes disto, as buscas de informação estavam restritas às bibliotecas, freqüentemente com o auxílio de um bibliotecário, ou a um sistema proprietário de fornecimento de informações. A menos que o tópico fosse muito abrangente, não era de se esperar que fôssemos inundados com um grande volume de informações.

Entretanto, o imenso volume de documentos e informações a que passamos a ter acesso, cria ilusão de que temos muita informação disponível, mas gera uma frustração quando percebemos que não temos condições de tratá-la ou de encontrar o realmente desejamos ou nos interessa.

Os motores de busca se tornaram muito importantes com a difusão da web e pareceram ser a solução óbvia para manejar este fluxo de informações. Entretanto, eles apenas exacerbam o problema, fazendo com que mais e mais documentos fiquem disponíveis imediatamente, mas sem um modo adequado de tratar desse grande volume de informações. Conseqüentemente, nos vemos na contingência de lidar apenas com aquilo que conseguimos manipular manualmente e torcer para que o resto não seja importante.

Além disto, a busca de informações em uma fonte de dados textuais é uma tarefa que consome muito tempo e nem sempre o volume de documentos envolvidos permite que certas co-relações entre informações sejam identificadas. Ou seja, muito conhecimento contido na coleção de documentos pode passar desapercebido.

Constatamos que a quantidade de dados disponíveis está constantemente crescendo, enquanto nossa capacidade de absorver e processar esta informação permanece constante, ou seja, estamos vivenciando um novo problema: a sobrecarga de informações. Juntamente com ele, surgiu a necessidade de encontrarmos uma forma de extrair conhecimento de grandes coleções de textos, de forma dinâmica e automática, uma tarefa que os motores de busca não são capazes de cumprir.

A partir de pesquisas em Recuperação de Informação, Processamento de Linguagem Natural, Estatística, Inteligência Artificial e Teoria da Informação, surgiram novas técnicas e ferramentas que podem lidar bem com este problema e que, em conjunto, recebem o nome de Text Mining.

2. O que é Text Mining?

Embora não exista uma definição padronizada, podemos dizer de uma maneira geral que Text Mining é um campo multidisciplinar que reúne técnicas de Data Mining, Lingüística, Aprendizado de Máquina, Recuperação de Informação, Gestão do Conhecimento, Reconhecimento de Padrões, Estatística, Bancos de Dados e Visualização, para atingir o objetivo de, rapidamente, extrair informações de grandes bases de dados textuais, buscando, desta forma, resolver a crise de sobrecarga de informações.

Uma definição mais formal restringe o significado de Text Mining à capacidade de criar uma informação nova e que não seja óbvia, em uma coleção de documentos. Informação nova é definida como um padrão, tendência, ou correlação que não pode ser facilmente detectada pela leitura de documentos individuais. O termo documento é utilizado para referenciar qualquer unidade de texto, tal como uma página web, um email, um artigo formatado, um conjunto de slides, ou um arquivo contendo texto puro.

Uma descrição ainda mais específica de Text Mining segue sua contrapartida para dados numéricos - o Data Mining - que consagrou-se como uma técnica que permite explorar grandes coleções de dados nas bases de grandes empresas.

Há uma distinção entre processamento de base de dados e Data Mining. Enquanto o processamento de base de dados lida com as operações típicas de buscar, atualizar e deletar dados armazenados em bases de dados, o Data Mining tem o objetivo de encontrar informações escondidas nestas bases. Um exemplo de uma informação escondida em bases de dados de uma companhia poderia ser a identificação de grupos de clientes com relação a atributos comuns, que permitissem à companhia ou prever a fidelidade de clientes, ou detectar fraudes.

As principais aplicações de Data Mining tradicionalmente foram o planejamento de campanhas de marketing, o entendimento do comportamento de clientes e a construção de visões globais de dados.

De forma análoga, Text Mining procura extrair informação útil de bases de dados textuais, através da identificação e exploração de padrões. A diferença básica é que, no caso de Text Mining, as bases de dados são constituídas por coleções de documentos e os padrões interessantes são encontrados, não em meio a registros estruturados de bases de dados, mas em dados textuais não-estruturados, presentes nos documentos destas coleções.

Conseqüentemente, enquanto o uso efetivo de aplicações de Data Mining é condicionado à disponibilidade de fontes confiáveis, Text Mining é assumidamente impreciso, pois, além de nem sempre ser possível a remoção de todas as inconsistências dos dados textuais, é muito provável que o texto contenha informações que não poderão ser utilizadas, podendo, até mesmo, conter erros que não podem ser facilmente eliminados. Métodos de Text Mining considerados aceitáveis utilizam informações apenas suficientes para a construção de um modelo geral e ignoram os dados que não podem ser utilizados para fazer predições seguras. Este objetivo é atingido procurando-se as características principais que definem os dados de um conjunto de treinamento e desprezando-se características que sejam raras ou não usuais, partindo-se do princípio de que tais características não serão úteis em um modelo geral.

3. Visualização das Informações

As ferramentas de Text Mining oferecem algumas soluções para o problema de manusear grandes volumes de informações oriundas de diversas fontes. Em muitos casos, estas ferramentas fazem parte de uma aplicação maior e os detalhes de sua utilização ficam escondidos do usuário final, que vê apenas uma interface. Isto porque a utilidade das ferramentas de Text Mining depende da facilidade de uso e de ter uma interface de usuário amigável.

Os cientistas foram os primeiros adeptos de ferramentas de visualização para mostrar grandes quantidades de dados numéricos em forma de gráficos. Entretanto, ferramentas de visualização idênticas a essas não poderão ser utilizadas para mostrar as informações, pois o dado textual necessita de ferramentas visuais separadas que combinem informações numéricas e textuais. A maior dimensionalidade do texto torna sua visualização mais difícil do que a de dados numéricos. Entretanto, os mesmos princípios de utilização de 3D, animação e colorido para revelar padrões e relações se aplicam.

Um dos objetivos da visualização de informação é acelerar o processo de se encontrar informação relevante. Uma coleção de documentos pode ser visualizada como pontos em um espaço 3D onde cada documento está localizado próximo a um documento semelhante. O usuário final pode usar os controles para navegar pelo espaço em busca de documentos úteis. O resumo do documento pode aparecer quando o mouse estiver sobre o documento. As cores e os raios dos pontos podem ser usados para representar outros atributos dos documentos. Os resultados de uma busca na Web podem ser mostrados nesta visualização. Assim, ao invés de simplesmente ver alguns resultados em uma janela, centenas ou até milhares de resultados podem ser visualizados em um único gráfico, sem necessidade de rolagem da tela.

4. Facilitadores e propiciadores da expansão de Text Mining

O primeiro deflagrador é a explosão de dados, com o crescimento acelerado de dados textuais nas organizações - muitas empresas aplicam o crescimento dos dados textuais para detectar novas oportunidades e realizar novos negócios. Usar esses dados corretamente é como desenvolver uma poderosa ferramenta de resultados operacionais.

O segundo deflagrador é o valor que uma extração precisa e pertinente de informação crítica tem para empresas e governos, seja visando a sobrevivência, seja para fins de segurança nacional - o desenvolvimento, na última década, do campo de Text Mining tem simplificado significativamente a recuperação da informação documental para uso pessoal e profissional.

O terceiro e mais importante deflagrador é o desenvolvimento tecnológico e novas pesquisas relacionadas à recuperação da informação, ao processamento da linguagem natural e tratamento semântico de textos, bem como a aprendizagem de máquina - a pesquisa e o desenvolvimento recente de novas descobertas que criam novas aplicações para a tecnologia de Text Mining nas empresas e organizações governamentais estimulam novas iniciativas.

Completando os esforços e iniciativas, temos que empresas de software e universidades vem se dedicando ao desenvolvimento do campo de novas e significativas tecnologias de mineração de textos, e isso pode ser classificado em três categorias:

Reconhecimento inteligente de texto: a habilidade de conhecer o contexto gramatical e relacionamentos lógicos entre conceitos dentro dos textos;
Classificação inteligente de texto: a habilidade de classificar documentos entre um ou outro conjunto pré-definido ou de gerar categorias automáticas.
Manejo e processamento de múltiplos idiomas: a habilidade de trabalhar simultaneamente com documentos escritos em diferentes línguas ou que contem diferentes línguas.

5. Minha empresa precisa de Text Mining?

Data warehouses podem ser enormes e as empresas têm uma quantidade substancial de dados nestes repositórios estruturados. Entretanto, é na forma de textos não estruturados que estão armazenadas 80% ou mais das informações das empresas. Estas informações normalmente encontram-se dispersas em muitos computadores e, por isto, não há um único repositório para ser minerado, como no caso de Data Mining.

Além disso, a simples conversão de textos para dados numéricos com posterior aplicação de ferramentas de Data Mining não conduz a bons resultados, pois a representação numérica de documentos textuais está necessariamente baseada em probabilidades, devido à incerteza inerente à extração de significado de textos.

Portanto, mesmo que os algoritmos de Data Mining e Text Mining tenham origens comuns é preferível que sejam aplicadas ferramentas distintas para cada tipo de dados.

Text Mining procura respostas para consultas que são difíceis ou impossíveis de serem respondidas apenas por motores de busca. A seguir estão citados alguns exemplos do que poderiam ser tais necessidades de informação:

Encontrar e resumir documentos que descrevam o consumo de cigarros na Europa Oriental.
Listar os diferentes tipos de automóveis elétricos fabricados, com base em características em comum, tais como tamanho do motor, tipo de bateria, material da carroceria, capacidade e espaço para carga.
Identificar as comunidades mais ativas, no Leste dos Estados Unidos, de pessoas que praticam o mergulho por longo período de tempo, e descrever as relações entre elas.
Monitorar os níveis de poluição por monóxido de carbono em Los Angeles para o próximo mês e notificar por email os dias em que o nível de poluição exceder a média.
Identificar as universidades que se destacam em pesquisa e desenvolvimento de fontes de energia solar e encontrar os nomes e endereços eletrônicos dos profissionais envolvidos nestas atividades.
Classificar em categorias os emails considerados spam que foram recebidos nos últimos três meses, descrever as categorias e especificar a freqüência destes em cada categoria.

Encontrar respostas para tais perguntas requer bem mais do que apenas submeter algumas consultas a um motor de busca. Os resultados das consultas deverão ser analisados, organizados e reduzidos a uma forma que seja fácil de ser compreendida. As ferramentas de Text Mining podem usar os resultados de um motor de busca e encontrar informações escondidas tais como tendências e co-relações.

6. Em que áreas Text Mining se aplica?

Text Mining é uma tecnologia que, por sua própria natureza, é conduzida pelas aplicações. Pode ser aplicada à solução dos mais diversos tipos de problemas nas áreas de Inteligência, CRM (Customer Relationship Management), Gestão do Conhecimento e outras.

As aplicações em Inteligência surgem devido ao crescimento da quantidade de documentos liberados pelas organizações e líderes políticos e corporativos (patentes, normas, artigos científicos, notícias, comentários, análises), contendo informações potencialmente estratégicas para a compreensão de idéias, sentimentos e estratégias das organizações e previsão de suas ações.

As aplicações CRM decorrem de uma demanda cada vez maior de responder com rapidez e qualidade as solicitações dos clientes, geralmente expressas em documentos textuais (principalmente emails).

As aplicações de Gestão do Conhecimento são originadas pela popularização da internet e pela sobrecarga de informações a que estamos submetidos. Organizar todas estas informações para permitir um fácil acesso tem sido um problema há décadas.

7. Algumas aplicações típicas de Text Mining

Para ilustrar, citamos algumas aplicações típicas para uma ferramenta de Text Mining:

Setor de Inteligência Competitiva - investigação de alvos como consumidores, competidores, fornecedores e tecnologias.
Setor de Inteligência Governamental - estudos econômicos e de assuntos de interesses e segurança nacionais.
Gerenciamento de clientes - pesquisas de opinião, respostas a solicitações e encaminhadas em documentos textuais, manutenção de listas com as perguntas mais freqüentes de consumidores (FAQs).
Monitoramento de empresas do mesmo ramo em relação a investimentos, fusões, situação financeira, etc.
Análise de patentes - como tirar o melhor proveito da sua propriedade intelectual e evitar problemas relativos a propriedades intelectuais de outras empresas.
Coleta e organização de dados obtidos em reclamações dos consumidores e anotações de oficinas de reparos de veículos para encontrar modelos de automóveis com um tipo particular de defeito persistente.
Análise da eficiência financeira de hospitais com base nos custos e fatores de risco dos pacientes. Os dados de certos períodos podem ser categorizados separadamente para a pesquisa de tendências.
Pesquisas em bases textuais de grande porte tais como as encontradas nas áreas médica e jurídica, utilizando análises por similaridade ou relacionamentos.
Elaboração de taxonomias e aprimoramento de técnicas de busca na internet.
Monitoramento de opinião pública - analisar sentimentos expressos em bases textuais pode automaticamente revelar atitudes altamente positivas ou negativas em relação a algum tema. Durante campanhas eleitorais, candidatos políticos estão interessados em seguir de perto as tendências e detectar mudanças em pontos de vista tão precisamente quanto possível.
Pesquisa Acadêmica - a Academia é o maior produtor de informações - milhares de relatórios de pesquisas, livros e artigos são publicados anualmente. Uma parte destas informações é disponível on-line. As universidades que têm interesses comuns podem ser localizadas e podem ser identificadas relações entre departamentos através de referências explícitas ou por citações nas publicações.
Análise pessoal em questões de Segurança Nacional visando a compreender o comportamento das pessoas e as razões destes comportamentos.
Extração e análise de opiniões e sentimentos de emails, chats, fóruns, para conquistar, conservar e aumentar a rentabilidade de clientes.
Exame de balanços financeiros de empresas - identificar atributos e classificar as empresas com bases nos padrões e tendências identificadas nesses atributos.
Exploração de informações sobre medicamentos usados em tratamentos clínicos - número de ocorrências de termos, correlação entre ocorrências de medicamentos e doenças, associações entre efeitos colaterais e drogas, índice de sucesso e custo do medicamento, etc.

8. Que benefícios podem ser esperados da utilização de Text Mining?

Ferramentas de Text Mining são particularmente adequadas para automatizar, aperfeiçoar e transformar atividades de BI (Business Intelligence) tradicionalmente realizadas por meio de trabalho intensivo de revisão manual da literatura industrial em busca de padrões contidos nas informações. Estas revisões utilizam tipicamente grandes quantidades de dados textuais, que podem ser referenciados como coleções de documentos, relativos a empresas, executivos de empresas, produtos, transações financeiras e tendências da indústria. O número de documentos em tais coleções pode variar de milhares até dezenas de milhões.

As coleções de documentos podem ser estáticas ou dinâmicas, sendo que coleções de documentos extremamente grandes ou que apresentem taxas de variação de documentos muito altas podem impor problemas de otimização de desempenho para vários componentes de um sistema de Text Mining.

Uma ilustração de uma coleção típica de documentos da área médica cuja utilização pode ser muito beneficiada pela utilização de um sistema de Text Mining é o PubMed, um repositório de informações para pesquisadores da área biomédica, disponibilizada on-line pela National Library of Medicine.

PubMed representa a mais abrangente coleção on-line de relatórios de pesquisa publicados em língua inglesa e abriga também dados relativos a uma considerável seleção de publicações em outros idiomas. As datas de publicação da maior parte dos artigos se estendem de 1966 até os dias atuais. A coleção, dinâmica e crescente, contém abstracts mais de 12 milhões de artigos, sendo estimada a adição de 40.000 novos abstracts por mês.

Mesmo sub-seções dos dados do repositório PubMed podem representar coleções de documentos que justificam aplicações específicas de Text Mining. Por exemplo, uma busca relativamente recente no PubMed para encontrar os abstracts que continham as palavras protein ou gene retornou um resultado com mais de 2.800.000 documentos, sendo que mais de 66% desses foram publicados durante a última década. Mesmo uma busca bem restrita, definida mencionando a expressão epidermal growth factor receptor retornou mais de 10.000 documentos.

O tamanho de coleções de documentos, como a representada por PubMed, torna qualquer tentativa manual de correlacionar dados em documentos, mapear relacionamentos complexos e identificar tendências extremamente laboriosa e, em muitos casos, até impossível de ser concluída com êxito. Métodos automáticos de identificação e exploração de relacionamentos de dados entre documentos aumentam dramaticamente a velocidade e a eficiência das atividades de pesquisa. Na verdade, em alguns casos, as técnicas de exploração automatizadas, como aquelas encontradas em Text Mining são não apenas uma ajuda, mas constituem um requisito indispensável para que os pesquisadores tornem-se aptos para, em uma forma prática, reconhecer padrões sutis ao longo de grande número de documentos em linguagem natural.

Nas empresas que praticam BI, os custos de pesquisas em grandes coleções de documentos são elevados, pois demandam grande dedicação de profissionais altamente especializados, sejam da própria empresa, sejam de alguma consultoria contratada. Portanto, podemos concluir que as ferramentas de Text Mining são cruciais para a redução do custo operacional destas empresas.

9. Características básicas de um software de Text Mining

Certamente, Text Mining deriva muito da sua inspiração e direcionamento das pesquisas originais em Data Mining. Portanto, não é surpreendente perceber que os sistemas de Text Mining e de Data Mining compartilham muitas similaridades de arquitetura de alto nível. Por exemplo, ambos os tipos de sistema apóiam-se em rotinas de pré-processamento, algoritmos de descoberta de padrões e elementos da camada de apresentação, tais como, ferramentas de visualização, para facilitar a navegação pelos conjuntos de resultados.

Além disto, Text Mining adota, em seu núcleo de operações de descoberta de conhecimento, muitos dos tipos de padrões específicos que foram inicialmente introduzidos e avaliados em pesquisas de Data Mining.

Uma das principais diferenças entre estes sistemas decorre do fato de que Data Mining pressupõe que os dados já estejam armazenados em um formato estruturado, enquanto Text Mining lida com coleções de documentos em liguagem natural, muitas vezes sem nenhuma estruturação em sua formatação.

Portanto, enquanto a maior parte do pré-processamento em sistemas de Data mining se focaliza em duas tarefas críticas: limpeza e normalização dos dados e criação de grandes quantidades de associações de tabelas, para os sistemas de Text Mining, as operações de pré-processamento são centralizadas na identificação e extração de características representativas dos documentos, sendo responsáveis pela transformação dos dados não-estruturados armazenados em coleções de documentos em um formato intermediário mais explicitamente estruturado.

Além do pré-procesamento, Text Mining envolve o armazenamento de representações intermediárias, técnicas para analisar estas representações, tais como análise de distribuição, agrupamento, análise de tendências e regras de associação, e ainda técnicas de visualização dos resultados.

Em relação a sistemas de Data Mining, os problemas para a realização de Text mining são ampliados, não apenas pelo grande volume de informações, mas porque a representação de texto requer dimensões muito elevadas. Com isto, os métodos de clusterização e categorização calculam milhares de similaridades entre vetores, mesmo em pequenas coleções de documentos. O que viabiliza este tipo de aplicação, além do fato de que as capacidades de processamento dos computadores têm crescido muito, é que podemos considerar a precisão mais importante do que a velocidade em aplicações de Text Mining.

Um software de Text Mining deve atender aos seguintes requisitos básicos:

Realizar buscas reativas em bases de dados textuais, recuperando arquivos a partir de palavras ou expressões de entrada, ordenando os resultados com base na contagem de palavras, organizando esses arquivos em clusters e fornecendo o resumo dos arquivos solicitados.
Realizar buscas pró-ativas em subconjuntos específicos dessa base de dados, identificando quais são as idéias centrais de um documento, quais delas são comuns a todo o conjunto e quais são particulares a um ou mais documentos e, se possível, encontrar relações entre estas idéias na forma de "a idéia A normalmente aparece junto com a idéia B".

10. O software DifBrain

DifBrain é o software de Text Mining desenvolvido pela Diferencial.

DifBrain organiza e analisa documentos de texto de forma qualitativa e quantitativa, extrai informação importante dos mesmos e facilita sua visualização. Suas principais funções são:

Geração de dados estatísticos a partir de uma base documental, identificando termos e conceitos presentes nos textos que possam ser de interesse para o usuário, bem como sua freqüência relativa.
Agrupamento de documentos em clusters, identificando características comuns e estabelecendo co-relações entre eles - promove o agrupamento de documentos afins, permitindo a visualização de relações recíprocas entre os documentos e sua análise numa perspectiva sinóptica, o que não seria facilmente perceptível numa postura de análise "ad hoc" dos documentos. A análise de clusters é uma função poderosa que permite ao usuário extrapolar seus horizontes de análise, identificando possibilidades e perspectivas não imaginadas anteriormente, analisando, conceitos, tendências, comportamentos, relações entre diferentes fatos e realidades que sejam relevantes em seu contexto de trabalho.
Identificação automatizada da estrutura de documentos e criação de um modelo relacional a partir dos dados estruturados.
Gestão de dicionários temáticos e classificação automática de documentos em categorias com base em seu conteúdo.
Sumarização automática de documentos para facilitar a leitura. Processo de geração de resumos sensível ao contexto e customizável - diminui a quantidade de texto a ser lido pelo usuário, reduzindo o tempo de análise de um documento.
Busca pró-ativa - descobre novidades e aspectos relevantes em textos, agilizando a percepção de tendências e o comportamento de um fenômeno ao longo do tempo, apresentando ao usuário informações tempestivas e significativas.
Busca reativa - recupera informações, sendo promovida diretamente pelo usuário, a partir de critérios de busca. Tem como benefício a recuperação dos documentos de forma organizada, agrupando-os e classificando-os de acordo com critérios informados pelos usuários.
Pré-processamento dos textos - prepara documentos para serem processados por outras funções. Automatiza o processo de adequação dos documentos, liberando o usuário para tarefas mais especializadas e adequadas ao seu contexto de trabalho.
Armazenamento - mantém em arquivos cópias íntegras dos textos analisados, com o acréscimo de informações que facilitem a recuperação dos documentos.
Voltar ao Início
Entre em contato conosco