Inteligência artificial multimodal
Por Anderson Fedel Marques
Nos últimos anos, temos assistido a um salto considerável nas aplicações da Inteligência Artificial (IA) em diversos setores, incluindo o da saúde. Na odontologia, essa onda de inovação tem potencial para transformar diagnósticos, tratamentos e a gestão de práticas odontológicas. Até ao momento, no entanto, as soluções que surgiram se baseiam essencialmente em modelos unimodais. Ou seja, são projetados para entender e processar apenas um tipo de dado. Por exemplo, os primeiros chatbots estavam limitados ao processamento de texto. Da mesma forma, os diversos sistemas de IA com uso na radiologia se limitam a analisar imagens. Agora imagine um sistema que é capaz de analisar imagens em conjunto com um texto fornecido pelo usuário. Não só isso, imagine que ele seja capaz de encontrar relações entre os objetos dentro de uma imagem, dado o significado do que eles representam. Essa é a proposta do sistema multimodal, popularizado pela empresa OpenAi através do lançamento recente da atualização do ChatGPT, seu produto mais famoso. Nas próximas linhas vamos entender melhor o que esse tipo de ferramenta já é capaz e por que a tecnologia multimodal pode impactar diretamente a prática e a assistência odontológica em um longo prazo.
O que é uma IA multimodal?
O termo “multimodal” se refere à capacidade de um sistema processar como entrada tipos diversos de dados. Portanto, modelos multimodais englobam não apenas sistemas que assimilam imagens em conjunto com textos, como falado anteriormente, mas também todas as possibilidades de combinar diferentes estruturas de dados como entrada (input) e obter um resultado (output) a partir disso. Essa tecnologia eleva a um novo patamar o uso de IAs para solucionar problemas. Imagine a combinação de imagens clínicas, históricos médicos e até dados genéticos para fornecer diagnósticos e planos de tratamento. Esse é o tipo de horizonte que a abordagem multimodal pode abrir.
O que mudou no ChatGPT?
A última atualização da ferramenta introduziu uma série de melhorias, entre elas a combinação de imagens e textos na solicitação do usuário. Agora também é possível interagir com o ChatGPT por meio de áudio, embora esse recurso essencialmente converta áudio para texto (speech-to-text) e texto para áudio (text-to-speech) para facilitar a interação. Neste artigo, focaremos no uso de imagens em conjunto com texto, uma funcionalidade proporcionada pelo modelo GPT-4V, que tem gerado respostas particularmente interessantes.
Identificação do contexto da imagem
Em um artigo intitulado “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)”, pesquisadores da Microsoft exploraram diversas possibilidades de uso do modelo para interagir com o usuário em tarefas que envolvem imagens. Desde receitas culinárias e resolução de quebra-cabeças até a interpretação de imagens médicas, o modelo frequentemente consegue identificar corretamente tanto os objetos presentes na imagem quanto o contexto em que estão inseridos. Nas próximas seções, apresentaremos exemplos de aplicação na Odontologia. Para a solicitação “Você poderia me dizer do que se trata a imagem” essa foi a resposta da ferramenta: ChatGPT: A imagem mostra uma pessoa despejando um líquido azul de uma garrafa em uma tampa, com uma escova de dentes próxima. Esse líquido é, muito provavelmente, um enxaguante bucal, comumente usado após a escovação para ajudar na limpeza da boca, combater bactérias e proporcionar um hálito fresco. O uso regular de enxaguantes bucais pode ajudar a prevenir a formação de placa bacteriana e gengivite, mas é importante lembrar que ele não substitui a escovação e o uso de fio dental. Note que a imagem não possui qualquer referência textual a enxaguante ou mesmo a higiene bucal. O modelo infere que essa combinação de elementos na imagem está associada ao uso de enxaguante bucal e que esse seria o conteúdo do frasco. É importante mencionar que ele cometeu um erro ao descrever uma escova de dentes presente na imagem. Na mesma interação com o chat, inserimos uma nova imagem e questionamos sobre a existência de uma relação com a imagem anterior. De fato, é possível inserir múltiplas imagens e estabelecer relações entre elas diretamente na ferramenta. Confira o resultado: ChatGPT: Sim, ambas as imagens têm relação com a higiene bucal. A imagem atual mostra uma mulher segurando uma escova de dentes. A escovação é uma parte essencial da rotina de higiene bucal, assim como o uso do enxaguante bucal, que foi o foco da imagem anterior. Ambas as ações visam manter a saúde bucal e prevenir problemas dentários. Novamente, o modelo acerta na interpretação do conteúdo da imagem. Observe a sutileza do contexto criado: ele identificou não somente uma mulher e uma escova de dentes, mas também capturou a cena em que a mulher está segurando a escova. Além disso, estabeleceu corretamente uma relação com a imagem anterior, ambas abordando o tema de “saúde bucal”. Vejamos a próxima imagem inserida na conversa: ChatGPT: A imagem mostra uma mulher em um consultório odontológico, usando um babador dental e fazendo um gesto de positivo com o polegar. Ela parece estar satisfeita ou aliviada após um procedimento dentário.Sim, a imagem tem relação com as anteriores no contexto da saúde bucal. Enquanto as primeiras imagens focaram na higiene bucal pessoal, como escovação e uso de enxaguante bucal, esta imagem destaca o ambiente profissional e os cuidados dentários realizados por profissionais. Todas as imagens refletem diferentes aspectos do cuidado e da manutenção da saúde bucal. Observe que a primeira informação fornecida pelo ChatGPT é que a imagem retrata uma mulher em um consultório odontológico. Contudo, os elementos na imagem que remetem a um consultório odontológico não são tão explícitos. Apenas o encosto da cadeira odontológica é visível, e ele está desfocado. Um equipamento odontológico ao fundo parece presente, mas é ainda mais difícil de discernir. Mais uma vez, a ferramenta parece capturar todo o contexto: a combinação da mulher com babador, do encosto e do equipamento é comumente associada a consultórios odontológicos. E, claro, o modelo novamente identifica que essa imagem se relaciona com as anteriores, concluindo agora que estamos diante de “cuidados dentários realizados por profissionais”. Impressionante.
Imagens clínicas
Neste último exemplo, em uma conversa separada, submetemos ao ChatGPT uma imagem de radiografia panorâmica. É importante ressaltar que a OpenAI, empresa responsável pelo modelo, não endossa o uso da ferramenta para fins médicos e classifica o GPT-4V como “não confiável” para essa aplicação. O que realizamos aqui é meramente um experimento para avaliar as capacidades da ferramenta. Veja o resultado: ChatGPT: Com base na imagem fornecida, que parece ser uma radiografia panorâmica, é possível observar os dentes e suas estruturas. Os terceiros molares, também conhecidos como “dentes do siso”, são os últimos molares de cada lado dos maxilares superior e inferior. Pelo que posso ver, parece que há terceiros molares presentes, mas é importante notar que minha avaliação é baseada apenas na observação visual e não pode substituir a de um especialista em radiologia ou odontologia. Para uma interpretação precisa e diagnóstico adequado, é recomendável consultar um profissional da área odontológica. Vale ressaltar que, na pergunta, não especificamos que se tratava de uma radiografia, muito menos que era uma panorâmica. Todavia, o ChatGPT identificou corretamente essas informações. À pergunta “há terceiros molares nesta imagem?”, a resposta foi adequada: parece que há, mas é crucial a avaliação de um profissional. Realizamos mais uma pergunta, ainda baseada na mesma imagem: Usuário:Os terceiros molares presentes estão em qual ou quais arcadas? ChatGPT:Analisando a radiografia panorâmica fornecida, parece que há terceiros molares visíveis na arcada inferior. Não consigo identificar com clareza terceiros molares na arcada superior. Porém, vale ressaltar que a interpretação de radiografias odontológicas deve ser realizada por profissionais treinados, como dentistas ou radiologistas, pois eles possuem o conhecimento técnico e a experiência necessária para identificar e interpretar detalhes específicos nas imagens. Bastante impressionante. Realmente os terceiros molares inferiores parecem estar presentes, embora essa não seja uma constatação simples de se fazer. É preciso um conhecimento mais específico para avaliar a presença de terceiros molares nesta radiografia. Na arcada superior, de fato não há clareza na presença de terceiros molares, tornando mais desafiador afirmar isso com precisão. Novamente a ferramenta informa que é necessário “profissionais treinados, como dentistas ou radiologistas, pois eles possuem o conhecimento técnico e a experiência necessária para identificar e interpretar detalhes específicos nas imagens”.
Impacto nos cuidados em saúde
O desempenho demonstrado pela ferramenta é mais um dentre os vários indícios de que as tecnologias empregando IA têm mantido um ritmo acelerado de evolução. Enquanto antes os algoritmos de IA eram treinados para tarefas com dados unimodais, agora esses sistemas estão começando a mostrar bons resultados com dados multimodais. Isso se assemelha à percepção humana, já que nosso cérebro processa informações recebidas de todos os sentidos de forma conjunta. Os modelos multimodais permitem a criação de ferramentas mais versáteis que, potencialmente, podem oferecer recursos mais alinhados às expectativas das tarefas realizadas por humanos. Mais do que isso, o uso dessas ferramentas tem o potencial de impulsionar os cuidados em saúde de uma forma inédita, uma vez que o suporte oferecido por esses sistemas pode ser facilmente replicado e escalado. O ChatGPT é apenas uma ferramenta de uso geral. Modelos utilizando essa mesma tecnologia podem ser treinados para tarefas mais específicas, e é provável que os resultados nesses cenários se tornem ainda mais precisos. É crucial que os profissionais estejam atualizados sobre as mudanças em curso e o ritmo em que as inovações estão surgindo.
Referências
- https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
- https://arxiv.org/abs/2309.17421
- https://openai.com/research/gpt-4v-system-card
- https://www.techopedia.com/definition/multimodal-ai-multimodal-artificial-intelligence
ODONTOLOGIA NEWs
Odontologia News tem como principal objetivo oferecer um conteúdo rico sobre o universo odontológico para os profissionais, pensando também nos pacientes e no público em geral.
Nossos artigos apresentam atualidades e dicas preciosas sobre tecnologia, inovação e gestão para seu consultório. Fique atento ao nosso blog para manter-se sempre bem-informado