Quero propor uma rápida reflexão, usando com o base um estudo que avalia como modelos de linguagem influenciam o raciocínio diagnóstico médico, comparando-os com recursos convencionais. Esse estudo é um paralelo interessante e que traz evidências que trabalhar em conjunto com IA, como uma ferramenta ou um assistente, pode potencializar resultados e tempo empregado nas atividades e iniciativas do dia a dia.
A precisão diagnóstica é fundamental, principalmente quando falamos em saúde, ou seja, na prática médica. Erros diagnósticos podem levar a resultados ruins para os pacientes. Com o avanço da inteligência artificial (IA), modelos de linguagem de grande escala (LLMs) passam a ser usados como ferramentas promissoras para auxiliar médicos no processo diagnóstico. Um estudo recente publicado no JAMA Network Open investigou o efeito desses modelos no raciocínio diagnóstico dos médicos, comparando-os com métodos convencionais.
Metodologia do Estudo e Resultados
O estudo buscou entender como os participantes se saíam em uma avaliação padronizada de diagnóstico médico. Essa avaliação considerava a:
- Precisão da lista de possíveis diagnósticos (diagnóstico diferencial);
- Adequação dos fatores que apoiavam ou contradiziam cada diagnóstico;
- Próximas etapas recomendadas para investigar o caso em análise.
Especialistas avaliaram e classificaram as respostas dos pontos acima sem saber de qual grupo cada participante fazia parte, essa diretriz foi adotada para evitar vieses dos referidos especialistas.
Objetivos secundários:
- Tempo gasto por caso: quanto tempo, em segundos, que cada participante levou para analisar cada caso;
- Precisão do diagnóstico final: se o diagnóstico final dado estava correto;
- Metodologia: todas as análises foram feitas seguindo o princípio da “intenção de tratar”, o que significa que todos os participantes foram incluídos nos resultados conforme o grupo original ao qual foram designados, mesmo que não tenham seguido todas as instruções.
Análise adicional:
O estudo também fez uma análise extra para ver como LLM funcionava sozinho. Eles compararam os resultados principais entre:
- Um grupo que usou apenas o LLM;
- Um grupo que usou recursos convencionais (como livros e bases de dados tradicionais) – grupo controle.
Os resultados indicam que:
- Os médicos que usaram apenas recursos convencionais obtiveram 74% acertos nos diagnósticos;
- Os médicos que utilizaram o LLM apresentaram uma taxa de 76% de acertos nos diagnósticos;
- No caso de uso somente do LLM apresentou uma taxa de acerto de 92% nos diagnósticos.
Discussão, Implicações Clínicas e Limitações do Estudo
Apesar dos resultados promissores, o estudo apresenta algumas limitações. A amostra de médicos participantes pode não representar a diversidade da prática médica global. Além disso, os casos clínicos utilizados foram selecionados pelos pesquisadores, o que pode não refletir a complexidade dos casos encontrados na prática diária. Vale reforçar futuras pesquisas devem considerar amostras mais amplas e variadas para validar os achados.
A incorporação de LLMs na prática médica pode revolucionar o processo diagnóstico. Esses modelos têm a capacidade de processar vastas quantidades de informações médicas rapidamente, oferecendo sugestões diagnósticas baseadas em dados atualizados. No entanto, é crucial que os médicos mantenham o julgamento clínico e utilizem os LLMs como ferramentas complementares, não substitutivas. A integração adequada desses modelos pode levar a uma medicina mais precisa e personalizada.
No entanto, é essencial que sua implementação seja feita de forma cuidadosa, garantindo que os médicos permaneçam no centro do processo decisório, utilizando a IA como uma ferramenta de suporte.
Entendendo o resultado C:
Mas espere um minuto, pois é possível que você esteja se perguntando:
– Como o LLM foi melhor sozinho quando comparada ao uso grupo de médicos que usaram o LLM como seu assistente?
Boa pergunta! Considerando o resultado – C. No caso de uso somente do LLM apresentou uma taxa de acerto de 92% nos diagnósticos – é importante entender como foi realizado o teste. Os resultados sugerem que os LLMs podem ser ferramentas importantes no suporte ao raciocínio clínico de diagnósticos, aumentando a eficiência e a precisão diagnóstica. Porém, como o LLM “sozinho” apresentou melhor resultado?
Foram usados princípios já conhecidos para criar perguntas para o LLM, ou seja, princípios estabelecidos de engenharia de prompt (maneiras de formular perguntas ao LLM).
Iterativamente foi desenvolvido um “prompt de zero disparos” (zero-shot): Isso significa que foi criado e ajustado a pergunta ao modelo sem fornecer exemplos anteriores, onde foram ajustando a pergunta até que ela funcionasse bem.
O médico pesquisador que inseriu as perguntas no modelo não alterou as respostas do modelo. Isso significa que apenas colocaram as perguntas e deixaram o modelo responder por conta própria, sem interferir ou ajustar as respostas dadas pelo LLM.
Resumindo, a intenção foi registar como o LLM se sairia sozinho, sem ajuda humana, em responder aos casos clínicos. Para isso, criaram uma pergunta padrão para o modelo e mantiveram todo o processo o mais neutro possível, sem influenciar nas respostas geradas.
A Importância de estar Capacitado no Uso de Modelos de Algoritmos:
Os médicos participantes tiveram acesso ao LLM, mas não receberam treinamento especial em técnicas de engenharia de prompt, o que poderia ter melhorado a qualidade das interações deles com o LLM.
A hipótese que se buscou confirmar era a de entender se essa abordagem mostraria resultados que representassem como as pessoas normalmente usam essas ferramentas hoje em dia, sem treinamento especializado.
Embora todos os médicos do grupo que usou o LLM tenham pelo menos tentado usá-lo, eles não foram obrigados a usá-lo de forma consistente ao longo do estudo, considerando técnicas de engenharia de prompt.
Isso indica que precisamos melhorar a forma como humanos e algoritmos (modelo de linguagem pré-treinado – LLM) interagem para realmente aproveitar o potencial da inteligência artificial em sistemas de apoio à decisão clínica, é necessário desenvolver melhor a colaboração entre pessoas e IA, tornando-se o Centauro da IA