Objetivo
Este estudo tem como objetivo principal comparar a eficácia das técnicas Latent Dirichlet Allocation (LDA) e TopicGPT na descoberta de tópicos presentes em conversas de suporte. O foco foi entender como essas abordagens podem ser aplicadas para melhorar a análise de grandes volumes de textos, oferecendo insights úteis para suportar decisões estratégicas.
Estrutura
O estudo foi dividido em 3 partes:
1. Introdução teórica sobre modelagem de tópicos.
2. Análise das técnicas LDA e TopicGPT.
3. Aplicação em conversas de suporte e uma avaliação comparativa dos resultados.
O que é Modelagem de Tópicos?
A modelagem de tópicos é uma técnica poderosa de análise de texto que visa identificar temas ou tópicos em um conjunto de documentos. Essa abordagem é amplamente utilizada para descobrir tópicos implícitos em grandes volumes de textos, proporcionando uma compreensão mais profunda do conteúdo analisado.
Esta técnica possui diversas aplicações práticas, incluindo:
1. Classificação de Documentos: Classificação de documentos com base em seu conteúdo.
2. Recuperação de Informação: Auxílio a motores de busca na identificação dos documentos mais relevantes para uma determinada consulta.
3. Segmentação de Clientes: Agrupamento de clientes com base em seus feedbacks ou avaliações.
4. Análise Exploratória de Dados: Descoberta de padrões e temas ocultos em um grande corpus de dados textuais.
Este artigo explora duas técnicas de modelagem de tópicos: Latent Dirichlet Allocation (LDA) e TopicGPT, destacando suas capacidades e diferenças.
LDA: A Abordagem Tradicional
Latent Dirichlet Allocation (LDA) é um modelo probabilístico generativo amplamente utilizado para a análise de coleções de documentos, especialmente no campo do Processamento de Linguagem Natural (NLP). Ele é particularmente eficaz na modelagem de tópicos, onde busca identificar padrões ocultos em um conjunto de documentos, tratando cada documento como uma combinação de vários tópicos e cada tópico como uma distribuição de palavras.
Processo de Modelagem com LDA
Para aplicar o LDA na modelagem de tópicos, seguimos algumas etapas fundamentais:
1. Pré-processamento dos Documentos:
Sumarização das Conversas: Resumimos cada documento visando destacar o assunto principal, reduzindo ruídos e padronizando o formato dos documentos.
Tokenização: Dividimos o texto em palavras individuais.
Remoção de Stopwords: Eliminamos palavras comuns que não são úteis para a identificação de tópicos, como “e”, “de”, “a”, para focar nas palavras mais relevantes.
Remoção de Pontuação e Caracteres Especiais: Excluímos elementos desnecessários para a análise, como pontuação e caracteres especiais.
Lematização: Reduzimos as palavras à sua forma base, para uniformizar termos semelhantes.
Criação da Bag of Words: Construímos uma matriz onde cada linha representa uma conversa e cada coluna uma palavra do vocabulário, com a contagem de ocorrências de cada palavra.
Após o pré-processamento dos documentos, o LDA utiliza um processo estatístico para descobrir os tópicos presentes no corpus.
2. Descoberta de Tópicos:
Distribuição de Tópicos nos Documentos: Para cada documento, o LDA atribui uma distribuição de tópicos. Isso significa que, em vez de cada documento pertencer a um único tópico, ele pode estar relacionado a vários tópicos em diferentes proporções.
Distribuição de Palavras nos Tópicos: Cada tópico é representado por uma distribuição de palavras, indicando a probabilidade de cada palavra aparecer em um tópico específico. Palavras com maior probabilidade são consideradas mais representativas do tópico.
Inferência Bayesiana: O LDA utiliza inferência bayesiana para ajustar as distribuições de tópicos nos documentos e as distribuições de palavras nos tópicos. Isso é feito através de algoritmos como a amostragem de Gibbs ou a variação de inferência, que interativamente refinam as distribuições até que elas se estabilizam.
Iteração e Convergência: O processo é iterativo; o LDA ajusta continuamente as distribuições de tópicos e palavras até que as mudanças entre as iterações sejam mínimas, indicando que o modelo convergiu.
Por fim, o LDA gera uma lista de tópicos, onde cada tópico é constituído por um conjunto de palavras que frequentemente aparecem juntas nos documentos analisados.

TopicGPT: A Revolução Contextual
O TopicGPT é uma técnica introduzida pelos pesquisadores Chau Minh Pham, Alexander Hoyle, Simeng Sun, Philip Resnik e Mohit Iyyer no paper “TopicGPT: A Prompt-based Topic Modeling Framework”, que consiste na utilização de Large Language Models (LLMs) para identificar tópicos ocultos em um conjunto de documentos.
Diferente dos métodos tradicionais, como o LDA, que se baseiam no agrupamento de palavras, o TopicGPT explora o contexto completo dos documentos para gerar tópicos. Isso resulta em rótulos e descrições em linguagem natural, tornando os tópicos mais fáceis de entender e interpretar.
Etapas Envolvidas na Implementação do TopicGPT
Geração e Descoberta de Tópicos
1. Seed de Tópicos: O processo começa com uma seed, um conjunto inicial de tópicos que serve como guia para o modelo. Esses exemplos ajudam o LLM a aprender o estilo e a granularidade desejados dos tópicos.
2. Análise de Documentos: Um LLM analisa cada documento iterativamente, buscando novos tópicos. Durante essa análise, o modelo decide se o documento se encaixa em um dos tópicos existentes ou se um novo tópico precisa ser criado. Novos tópicos são adicionados à lista conforme identificados.
3. Refinamento de Tópicos: Este processo iterativo permite que o LLM aprimore continuamente sua compreensão dos tópicos presentes no corpus, revisando e refinando o conjunto de tópicos descobertos.
Associação de Documentos
1. Fornecemos ao LLM a lista de tópicos gerados, 2-3 exemplos e um documento cujo tópico(s) estamos interessados em identificar.
2. O modelo então atribui um ou mais tópicos ao documento, gerando um rótulo de tópico, uma descrição específica do documento e uma citação que sustenta essa atribuição.
Essa citação melhora a verificabilidade das atribuições do TopicGPT, abordando uma preocupação de longa data com métodos tradicionais como o LDA.

Desempenho e Comparação
De acordo com o paper, em testes realizados com conjuntos de dados da Wikipédia e de projetos de lei do Congresso Americano, o TopicGPT demonstrou um alinhamento significativamente maior com tópicos anotados por humanos em comparação com o LDA, SeededLDA e BERTopic.
Por exemplo, na Wikipédia, o TopicGPT atingiu uma pontuação de coerência média de 0,74, em contraste com 0,64 para o LDA. Isso destaca a capacidade dos LLMs de compreender e contextualizar melhor os temas dos documentos analisados.
Análise Qualitativa das Técnicas
Para avaliar a eficácia das técnicas, aplicamos tanto o TopicGPT quanto o LDA em um conjunto de dados formado por conversas de suporte sobre consórcios, onde cada documento contém o diálogo entre um cliente e um agente especializado.
Análise com TopicGPT
A aplicação do TopicGPT em conversas de suporte demonstrou várias características notáveis, especialmente em sua adaptação e flexibilidade. Inicialmente, foram realizadas modificações na implementação da técnica e nos prompts para que se adequasse melhor ao formato das conversas. Uma das grandes vantagens do TopicGPT é que ele não requer pré-processamento de texto, o que simplifica significativamente a preparação dos dados em comparação com métodos tradicionais como o LDA.
O TopicGPT é projetado para trabalhar com hierarquias de tópicos, permitindo a identificação de tópicos em diferentes níveis de granularidade. Isso inclui desde tópicos mais gerais, conhecidos como tópicos de nível superior, até sub-tópicos e sub-sub-tópicos. Na primeira etapa da análise, o foco foi na descoberta desses tópicos mais gerais (Nível 1). O modelo foi iniciado com uma seed contendo um único tópico: “[1] Formas de Pagamento: Refere-se às diferentes formas de pagamento aceitas pela empresa.”
Como esperado, a primeira etapa resultou na descoberta de um tópico generalista: “[1] Consórcio: Refere-se ao sistema de consórcio, onde um grupo de pessoas se reúne para adquirir bens ou serviços por meio de parcelas mensais.
” Durante o processo de refinamento, o tópico “Formas de Pagamento”, no qual foi iniciado pela seed foi removido, demonstrando a capacidade do modelo de ajustar e refinar os tópicos conforme necessário.Após a identificação dos tópicos de nível superior, o modelo prosseguiu para a descoberta de tópicos mais específicos, ou sub-tópicos. Esta fase da análise resultou em um total de 9 assuntos distintos, mostrando a eficácia do TopicGPT em capturar a complexidade e a especificidade das conversas. Para realizar essa análise, utilizamos o modelo gpt-4o-mini, configurado com temperatura=0 e top_p=1, conforme descrito no artigo original. Essa configuração ajudou a garantir a precisão e a consistência dos tópicos gerados.
Análise com LDA
A aplicação do LDA em conversas de suporte seguiu um processo mais tradicional, exigindo um pré-processamento cuidadoso dos dados. Para facilitar a utilização do LDA, todas as interações dos clientes foram resumidas, o que ajudou a reduzir ruídos e a padronizar o formato das conversas. Este passo foi crucial para garantir que o modelo pudesse trabalhar de maneira eficaz com o conjunto de dados. Além disso, conduzimos todos os pré-processamentos necessários, como tokenização, remoção de topwords e lematização, para preparar o texto para a análise.
Na configuração do LDA, definimos a quantidade de tópicos (k) como 9, para permitir uma comparação direta com os resultados obtidos pelo TopicGPT. Os parâmetros do modelo foram ajustados conforme as recomendações do artigo, utilizando alpha=1.0 e beta=0.1. Esses parâmetros ajudaram a definir a distribuição de tópicos nos documentos e a suavizar a distribuição de palavras dentro dos tópicos, respectivamente.
O LDA gera uma lista de tópicos, onde cada tópico é constituído por um conjunto de palavras que frequentemente aparecem juntas nos documentos analisados. No entanto, interpretar e rotular esses tópicos pode ser desafiador, uma vez que eles são apresentados apenas como listas de palavras. Para superar essa limitação e garantir uma análise qualitativa consistente, utilizamos o modelo gpt-4o-mini para interpretar e rotular os tópicos gerados pelo LDA. Essa abordagem permitiu uma interpretação mais rica e contextual dos dados, alinhando os resultados do LDA com o TopicGPT.
Resultados
TopicGPT
Consórcio: Refere-se ao sistema de consórcio, que permite a aquisição de bens por meio de um grupo de pessoas que contribuem mensalmente para um fundo comum.
Simulação e Contratação de Consórcio: Refere-se ao processo de simular diferentes opções de consórcio, incluindo valores e prazos, e ao processo de contratar um consórcio, incluindo informações sobre como proceder e o que é necessário.
Consultoria de Consórcio: Refere-se ao atendimento especializado para esclarecer dúvidas e fornecer informações sobre consórcios.
Lance e Formas de Contemplação em Consórcio: Refere-se à prática de ofertar um valor adicional sobre a parcela mensal para antecipar a contemplação no consórcio e às diferentes maneiras pelas quais os participantes podem ser contemplados, como sorteio e lances.
Taxas de Consórcio: Refere-se às diferentes taxas associadas ao consórcio, como taxa de adesão, taxa de administração e outros encargos.
Cancelamento de Consórcio: Refere-se ao processo e condições para cancelar um consórcio já contratado.
Promoções e Vantagens do Consórcio: Refere-se a campanhas e descontos oferecidos para a contratação de consórcios, como redução nas parcelas, e às vantagens e benefícios que os clientes podem ter ao participar de um consórcio, como descontos e condições especiais.
Modalidades de Consórcio: Refere-se às diferentes modalidades de consórcio disponíveis, como automóvel, imóvel, e outros.
Grupos de Consórcio: Refere-se a informações sobre diferentes grupos de consórcio disponíveis, incluindo características e condições.
Redução de Parcelas: Refere-se ao benefício que permite pagar parcelas menores até a contemplação, e como isso afeta o valor das parcelas após a contemplação.
LDA
Processo de Contratação de Consórcio
Palavras mais relevantes: consórcio, parcela, contemplação, consultor, interesse, contrato, explicar, simulação, demonstrar, lance, contratação, enviar, possibilidade, pergunta, solicitar.
Descrição: Este tópico aborda o processo de contratação de consórcios, destacando a explicação sobre parcelas, a contemplação e o papel do consultor. Ele realça a importância de simulações e lances, além de esclarecer dúvidas e possibilitar o envio de propostas.
Dúvidas e Propostas de Consórcio
Palavras-chave: cliente, consórcio, parcela, consultor, crédito, pagamento, dúvida, proposta, simulação, interesse, demonstrar, apresentar, processo, contrato, optar.
Descrição: Foca nas dúvidas dos clientes em relação ao consórcio, incluindo questões sobre parcelas, crédito e pagamento. O consultor desempenha um papel crucial ao apresentar propostas e simulações, ajudando o cliente a optar pelo melhor processo de contratação.
Atendimento ao Cliente via WhatsApp
Palavras-chave: consultor, cliente, consórcio, atendimento, interesse, demonstrar, informar, conversa, simular, automóvel, WhatsApp, bot, encerrar, optar, parcela.
Descrição: Concentra-se no atendimento ao cliente realizado por consultores, especialmente via WhatsApp. As interações incluem simulações de consórcio para automóveis e a capacidade de encerrar conversas, refletindo o interesse do cliente e a eficiência no atendimento.
Simulação e Propostas de Compra de Consórcio
Palavras-chave: consórcio, cliente, consultor, conversa, parcela, carta, demonstrar, interesse, simular, compra, apresentar, simulação, pergunta, possibilidade, proposta.
Descrição: Explora as conversas entre clientes e consultores sobre simulações de compra de consórcio, incluindo a apresentação de propostas e a possibilidade de esclarecer dúvidas, com foco no interesse do cliente em entender melhor as opções disponíveis.
Simulação de Consórcio para Automóveis
Palavras-chave: parcela, consórcio, automóvel, simular, interesse, consultor, demonstrar, cliente, simulação, apresentar, transferir, conversa, optar, atendimento, confirmar.
Descrição: Trata da simulação de consórcios voltados para a compra de automóveis. O consultor ajuda o cliente a entender as parcelas e a confirmar o atendimento, demonstrando interesse em transferir informações relevantes e facilitar a tomada de decisão.
Contemplação e Lances em Consórcios
Palavras-chave: parcela, consórcio, contemplação, consultor, lance, interesse, proposta, apresentar, demonstrar, explicar, crédito, simulação, questionar, opção, cliente.
Descrição: Aborda aspectos relacionados à contemplação e lances em consórcios, com foco nas propostas apresentadas pelo consultor. O cliente é incentivado a questionar opções e entender melhor o crédito disponível, além de simular diferentes cenários.
Avaliação de Propostas de Consórcio
Palavras-chave: consórcio, parcela, proposta, consultora, interesse, simulação, apresentar, atendimento, avaliar, conversa, crédito, demonstrar, bot, ótimo, automóvel.
Descrição: Concentra-se na avaliação de propostas de consórcio, com ênfase na simulação de parcelas e no atendimento prestado pela consultora. O uso de bots para facilitar a conversa e demonstrar opções de crédito para automóveis é abordado como aspecto importante.
Lances e Contato com Consultores
Palavras-chave: lance, consultor, carta, crédito, cliente, consórcio, contato, interesse, demonstrar, simular, embutir, poder, apresentar, conversa.
Descrição: Explora a dinâmica entre clientes e consultores em relação a lances e cartas de crédito. O interesse do cliente em simular diferentes cenários e a apresentação de opções são fundamentais para a conversa, refletindo a importância do contato direto.
Informações sobre Consórcios Imobiliários
Palavras-chave: consórcio, informação, interesse, taxa, consultora, Ana, demonstrar, imóvel, cliente, crédito, campanha, fornecer, proposta, conversa, parcela.
Descrição: Aborda informações sobre consórcios voltados para imóveis, destacando a consultora Ana e seu papel em fornecer informações sobre taxas e propostas. O interesse do cliente em entender as opções de crédito e as campanhas disponíveis é central para as conversas.
Desafios do TopicGPT
A implementação do TopicGPT enfrenta alguns desafios notáveis, que impactam sua eficiência e acessibilidade. Um dos principais desafios é o custo associado ao uso de modelos de código fechado. Cada execução da técnica implica em custos, o que pode ser uma barreira significativa, especialmente para análises em larga escala. No entanto, a tendência do mercado é que esses custos diminuam com o tempo, tornando a técnica mais acessível para análises de corpus maiores e mais complexos.
Outro desafio importante está relacionado aos limites de contexto dos modelos. Certas vezes, é necessário truncar documentos para se adequar ao limite de comprimento do contexto que pode ser processado de uma vez. Isso significa que, ao trabalhar com documentos parciais, o modelo pode perder informações contextuais valiosas, correndo o risco de representar erroneamente o conteúdo dos documentos completos. Essa limitação pode impactar a precisão e a qualidade dos tópicos gerados.
Além disso, há um desafio em relação à geração de tópicos em LLMs de código aberto. Embora esses modelos sejam eficazes na atribuição de tópicos, eles ainda enfrentam dificuldades na geração de tópicos de forma clara e precisa. Melhorar a capacidade de geração de tópicos em LLMs de código aberto é uma direção importante para trabalhos futuros, visando aumentar a acessibilidade e reduzir a dependência de soluções de código fechado.
Conclusão
A modelagem de tópicos é uma ferramenta essencial para a análise de grandes volumes de texto, permitindo a identificação de temas subjacentes que podem informar decisões estratégicas em diversas áreas. Neste artigo, exploramos duas abordagens distintas: a tradicional Latent Dirichlet Allocation (LDA) e a inovadora TopicGPT. Enquanto a primeira continua a ser uma técnica confiável e amplamente utilizada, a segunda oferece uma perspectiva revolucionária ao incorporar o contexto completo dos documentos, gerando tópicos mais interpretáveis e alinhados com a linguagem natural.
A análise comparativa entre essas técnicas, aplicada a conversas de suporte sobre consórcios, revelou as vantagens e limitações de cada abordagem. O TopicGPT se destacou por sua flexibilidade e capacidade de gerar hierarquias de tópicos sem a necessidade de pré-processamento extensivo, embora enfrente desafios como custos operacionais e limitações de contexto. Por outro lado, o LDA, apesar de exigir um pré-processamento mais rigoroso, provou ser eficaz na identificação de padrões temáticos através de listas de palavras, embora sua interpretabilidade seja mais complexa.
Os desafios enfrentados pelo TopicGPT, como o custo e os limites de contexto, apontam para áreas de melhoria e inovação futura. A tendência de redução de custos e o avanço na capacidade de geração de tópicos em LLMs de código aberto são promissores para tornar essa técnica mais acessível e eficaz. A busca por soluções que combinem a precisão do LDA com a contextualização do TopicGPT pode abrir novos horizontes na modelagem de tópicos, beneficiando uma ampla gama de aplicações.
Em suma, a escolha entre as duas técnicas deve ser guiada pelos objetivos específicos da análise e pelos recursos disponíveis, com a compreensão de que cada técnica oferece contribuições valiosas para a compreensão de dados textuais complexos.
Referências
- Topic Modelling – Text Analysis – Guides at Penn Libraries : Link
- Topic Modeling and Latent Dirichlet Allocation (LDA) using Gensim and Sklearn :
Link - TopicGPT: A Prompt-based Topic Modeling Framework : Link
- BLEI, D. M. Probabilistic topic models. Communications of the ACM, 55 (2012).