criando imagens com genai
Por Anderson Fedel Marques
Já abordamos algumas vezes nesta coluna o uso de Inteligência Artificial na Odontologia. No geral, temos falado sobre como essa tecnologia pode impactar a prática clínica e ampliar as capacidades dos profissionais envolvidos. Porém, neste post vamos explorar outra forma de utilizar a IA a nosso favor. Mais especificamente, vamos falar sobre um modelo chamado “text-to-image” ou “texto para imagem” em português. Esse tipo de IA generativa (GenAI) tem se popularizado ultimamente devido à facilidade com que ela proporciona a geração de imagens completamente novas por pessoas sem qualquer habilidade ou experiência artística. Vejamos nas próximas linhas como ela funciona.
Fale-me o que queres e eu desenharei
Assim como em outras IAs mais recentes, os modelos de geração de imagem baseiam-se em estruturas computacionais chamadas redes neurais, que imitam de alguma forma o funcionamento do cérebro humano. Estas arquiteturas conseguem identificar padrões complexos a partir de grandes conjuntos de dados. Diferente de modelos como o GPT-3.5 (espinha dorsal do ChatGPT na versão gratuita), que recebem um texto e retornam outro texto, estes são configurados explicitamente para receber um comando de texto e retornar uma imagem inédita. Sempre que um usuário faz uma solicitação a esse tipo de ferramenta, uma nova imagem é gerada. Algo interessante vale ser ressaltado: assim como outras IAs generativas, esses modelos retornam um resultado diferente a cada interação. Por isso, é bem comum que duas solicitações exatamente iguais retornem resultados distintos em momentos diferentes.
Conhecendo as ferramentas
Empresas têm desenvolvido diversas soluções baseadas nessa tecnologia, e vários modelos diferentes estão disponíveis, inclusive gratuitos. Vamos dar ênfase às duas ferramentas mais populares, que têm apresentado bons resultados: Midjourney e DALL·E 3. Para fins de esclarecimento, o nome técnico do texto utilizado para gerar a imagem é chamado de “prompt”. Adotaremos essa nomenclatura daqui em diante. Midjourney. Prompt: “dentist lover garage sale in Abstract”
Midjourney
“Midjourney: Este modelo teve sua primeira versão (v1) apresentada em fevereiro de 2022 e, desde o começo, tem chamado atenção pela qualidade de suas imagens. Atualmente, na sexta versão (v6), ele oferece as imagens mais realistas e com maior nitidez. Alguns produtores de conteúdo têm feito comparações com as diversas versões e a evolução das imagens é impressionante. Confira uma delas:Fonte: https://aituts.com/midjourney-versions/ Ao longo das versões, esse modelo tem se destacado por apresentar os melhores resultados com figuras humanas, sendo aquele que entrega a maior dose de realismo.Midjourney. Prompt: “beautiful smiling female dentist in dentist’s office (…)” Infelizmente, a interface de uso do Midjourney não é muito intuitiva. As solicitações são feitas através de uma plataforma terceirizada, o Discord, sendo também necessário a assinatura para acesso. A empresa não oferece versão gratuita. Vale notar que, apesar de ser bastante realista, ele não pareceu captar bem a solicitação do usuário. O fundo da imagem não parece ser exatamente um ‘consultório odontológico’. Esse comportamento, comum nesse tipo de modelo, já foi reportado por vários usuários, o que nos leva a falar do seu maior concorrente.…
DALL·E 3
Este modelo pertence à mesma empresa responsável pelo ChatGPT, a OpenAI, e pode ser acessado por assinantes do ChatGPT Plus e ChatGPT Enterprise de forma integrada. Porém, existe a possibilidade de uso da ferramenta de forma totalmente gratuita através do Chat Bing. Basta digitar comandos do tipo ‘crie uma imagem de uma…’ e o chat fornecerá a imagem solicitada. É possível, no entanto, que a Microsoft (empresa responsável pelo Bing) exija login em sua plataforma antes de fornecer o serviço. Dalle-3. Prompt: “smiling dentist in a modern dental office” Algo interessante a ser notado é que o DALL·E 3 tende a captar melhor a ideia do que o usuário solicitou, sendo mais fiel à descrição. No entanto, a qualidade da imagem tende a ser menos realista, assemelhando-se mais a um desenho do que a uma foto, principalmente ao serem retratadas figuras humanas. Com a evolução do algoritmo, é possível que esse tipo de barreira seja superada no futuro.
Considerações
Apesar de termos falado apenas de duas ferramentas, já existem várias empresas desenvolvendo soluções semelhantes. No entanto, como vimos aqui, a forma de entregar resultados pode diferir significativamente entre elas. Uma dica importante é ressaltar que esses modelos, atualmente, funcionam melhor no idioma inglês. Ou seja, ao solicitar a criação de uma imagem, dê preferência a uma descrição neste idioma. Solicitações em outros idiomas são primeiramente traduzidas pelo sistema e podem gerar inconsistências. No geral, modelos de geração de imagem têm o potencial de mudar significativamente a criação de conteúdo. Levando em consideração que vivemos em um mundo com cada vez mais apelo visual e forte influência das redes sociais, habilidades com este tipo de ferramenta podem ser um diferencial.
Referências:
https://en.wikipedia.org/wiki/Text-to-image_modelhttps://openai.com/dall-e-3https://www.midjourney.com ODONTOLOGIA NEWs
Odontologia News tem como principal objetivo oferecer um conteúdo rico sobre o universo odontológico para os profissionais, pensando também nos pacientes e no público em geral.
Nossos artigos apresentam atualidades e dicas preciosas sobre tecnologia, inovação e gestão para seu consultório. Fique atento ao nosso blog para manter-se sempre bem-informado