Apple não é um dos principais players no mercado de inteligência artificial, mas o novo modelo de IA de código aberto da gigante da tecnologia para edição de imagens mostra o quanto a empresa poderia contribuir para a área.
O modelo, denominado Edição de Imagem Guiada por MLLM (MGIE), usa modelos multimodais de linguagem grande (MLLM) para interpretar comandos de texto no processamento de imagens. Ou seja, com esta ferramenta o usuário tem a possibilidade de editar fotos com base no texto que insere. Embora não seja a primeira ferramenta que pode fazer isso, “as instruções humanas às vezes são muito curtas para serem capturadas e executadas por métodos modernos”, diz o documento do projeto.
A empresa desenvolveu o MGIE em conjunto com pesquisadores da Universidade da Califórnia. Os MLLMs são capazes de transformar instruções de texto simples ou ambíguas em instruções mais detalhadas e compreensíveis que um editor de fotos pode seguir. Por exemplo, se um usuário quiser editar a foto de uma pizza de pepperoni para “torná-la mais saudável”, o MLLM pode interpretar isso como “adicionar coberturas vegetais” e editar a foto de acordo.
Além de fazer alterações básicas na imagem, o MGIE também pode cortar, redimensionar e girar fotos, bem como melhorar o brilho, o contraste e o equilíbrio de cores, tudo com instruções de texto. Você também pode usar a ferramenta para editar determinadas áreas da foto e, por exemplo, alterar o cabelo, os olhos e as roupas da pessoa que está nela ou remover elementos do fundo.
Apple lançou o modelo através GitHub, mas os interessados também podem experimentar a versão demo, que atualmente está hospedada no Hugging Face Spaces. A empresa ainda não disse se planeja usar o que aprender com o projeto como ferramenta ou recurso que poderá incluir em algum de seus produtos.
Leia também: