O ImageBind AI da Meta pode imitar a percepção humana

A Meta publica o código na inteligência artificial de acesso aberto sob o nome imagebind, que prevê relações entre dados semelhantes a como as pessoas percebem ou imaginam seu ambiente. Enquanto geradores de imagens como Midjourney, Stable Diffusion e DALL-E 2 ligam palavras a imagens, permitindo que você crie cenas visuais com base apenas em uma descrição textual, o ImageBind vai além disso. Ele pode vincular texto, imagens ou vídeo, áudio, medições 3D, dados de temperatura e dados de movimento – e faz isso sem a necessidade de pré-treinamento em todas as oportunidades. Este é um estágio inicial de uma estrutura que eventualmente será capaz de gerar ambientes complexos a partir de entradas simples, como um prompt de texto, imagem ou áudio (ou uma combinação deles).

Você pode pensar no ImageBind como uma aproximação do aprendizado de máquina ao aprendizado humano. Por exemplo, se você estiver em um ambiente dinâmico, como uma rua movimentada da cidade, seu cérebro (principalmente inconscientemente) absorve imagens, sons e outras sensações sensoriais para obter informações sobre carros que passam, prédios altos, clima e muito mais . Humanos e outros animais evoluíram para processar esses dados para nossas vantagens genéticas: sobrevivência e transmissão de nosso DNA. (Quanto mais você souber sobre o ambiente, mais poderá evitar o perigo e se adaptar ao ambiente para sobreviver e prosperar). À medida que os computadores se aproximam de imitar as conexões multissensoriais dos animais, eles podem usar essas conexões para gerar cenas totalmente realizadas com base apenas em dados limitados.

Portanto, embora você possa usar o Midjourney para criar “um basset hound em uma fantasia de Gandalf se equilibrando em uma bola de praia” e obter uma foto relativamente realista dessa cena estranha, uma ferramenta de IA multimodal como o ImageBind pode acabar criando um vídeo com o cachorro com relevância sons, incluindo uma sala de estar detalhada, temperatura ambiente e a localização exata do cachorro e de todos os outros na cena. "Isso cria uma excelente oportunidade para criar animações a partir de imagens estáticas, combinando-as com prompts de áudio", observam os pesquisadores da Meta em seu blog voltado para desenvolvedores. "Por exemplo, um criador pode combinar uma imagem com um despertador e um galo cantando e usar uma sugestão de áudio para segmentar o galo ou o som do despertador para segmentar o relógio e animar ambos em uma sequência de vídeo."

Quanto ao que mais pode ser feito com este novo brinquedo, ele aponta claramente para uma das principais ambições da Meta: VR, realidade mista e metaespaço. Por exemplo, imagine um futuro fone de ouvido que pode criar cenas 3D totalmente realizadas (com som, movimento, etc.) em tempo real. Ou os desenvolvedores de jogos virtuais podem eventualmente usá-lo para economizar uma parte significativa do trabalho meticuloso no processo de design. Da mesma forma, os criadores de conteúdo podem criar vídeos imersivos com trilhas sonoras realistas e movimentos baseados apenas em texto, imagens ou áudio. Também é fácil imaginar como uma ferramenta como ImageBind abre novas portas em acessibilidade ao gerar descrições multimídia em tempo real para ajudar pessoas com deficiência visual ou auditiva a entender melhor seu ambiente.

Também interessante: As melhores ferramentas baseadas em inteligência artificial

“Em sistemas típicos de IA, existe uma incorporação específica (ou seja, vetores de números que podem representar dados e suas relações no aprendizado de máquina) para cada modalidade relevante”, diz Meta. “O ImageBind mostra que é possível criar um espaço de incorporação comum para várias modalidades sem ter que treinar os dados com cada combinação individual de modalidades. Isso é importante porque os pesquisadores não podem criar conjuntos de dados com amostras que contenham, por exemplo, dados de áudio e dados térmicos de uma rua movimentada da cidade, ou dados de profundidade e uma descrição textual de um penhasco à beira-mar”.

Meta acredita que essa tecnologia acabará por ir além dos atuais seis "sentidos", por assim dizer. “Embora tenhamos investigado seis modalidades em nosso estudo atual, acreditamos que a introdução de novas modalidades que conectam tantos sentidos quanto possível – como toque, fala, olfato e sinais cerebrais fMRI – permitirá modelos de IA centrados no ser humano mais ricos”. Os desenvolvedores interessados em explorar esse novo sandbox podem começar mergulhando no código-fonte aberto do Meta.

Leia também:

FonteEngadget

Inscrever-se

0 Comentários

Avaliações incorporadas

Ver todos os comentários

Outros artigos

O ImageBind AI da Meta pode imitar a percepção humana

Comentários recentes