Um estudo conduzido por pesquisadores do Mass General Brigham, nos Estados Unidos, aponta que modelos de linguagem de uso geral, como os populares chatbots de inteligência artificial, tendem a fornecer respostas imprecisas a perguntas de saúde quando as solicitações contêm dados incorretos. A investigação foi publicada na revista npj Digital Medicine.
Quem participou da análise
Os cientistas avaliaram cinco modelos de IA: três versões do ChatGPT, da OpenAI, e duas do Llama, da Meta. As ferramentas receberam perguntas intencionalmente enganosas sobre medicamentos para verificar se seriam capazes de contestar as informações falsas ou se seguiriam as instruções do usuário.
Principais resultados
A maioria dos chatbots reproduziu as instruções errôneas, mesmo quando “sabia” que os dados estavam incorretos. Após aplicar estratégias corretivas — como solicitar que rejeitassem comandos ilógicos ou recordassem fatos relevantes —, os modelos GPT acertaram 94% das respostas. Os modelos Llama também melhoraram, mas em menor proporção.
Risco para pacientes
A Dra. Danielle Bitterman, líder clínica de ciência de dados e IA do Mass General Brigham, destacou que a prioridade em saúde deve ser a segurança, não apenas a utilidade da resposta. “Esses modelos não raciocinam como humanos e priorizam parecer úteis, o que é arriscado na área médica”, afirmou.
Comportamento repetido em outros temas
Além de perguntas sobre medicamentos, os pesquisadores observaram o mesmo comportamento de “agradar” o usuário em tópicos como música, literatura e geografia, indicando que o problema não se limita a assuntos médicos.
Imagem: AndreyPopov
Supervisão humana continua essencial
Embora as estratégias de correção reduzam erros, os autores do estudo afirmam que a supervisão humana permanece imprescindível em contextos de alto risco. O pesquisador Shan Chen reforçou que desenvolvedores e profissionais de saúde precisam colaborar para atender diferentes públicos antes de colocar esses sistemas em operação.
Com informações de WizyThec

