Microsoft Kosmos-1 abre caminho para a IA de nível humano

No início desta semana, pesquisadores do Microsoft apresentou o Kosmos-1, um modelo de inteligência artificial multimodal que pode analisar imagens em busca de conteúdo, resolver quebra-cabeças visuais, realizar reconhecimento visual de texto, fazer testes de QI visual e compreender instruções de linguagem natural. Segundo os pesquisadores, esses modelos de IA são o primeiro passo para a criação de uma inteligência artificial geral (IA) que possa realizar tarefas conjuntas de nível humano. Ou seja, esta tecnologia poderá substituir uma pessoa em qualquer tarefa intelectual. E este é o objetivo declarado da OpenAI, um importante parceiro de negócios Microsoft no campo da inteligência artificial.

Neste caso, Kosmos-1 é um desenvolvimento puramente pessoal da empresa Microsoft. Os pesquisadores chamam sua criação de “modelo de linguagem ampla multimodal” (MLLM) porque suas raízes estão no processamento de linguagem natural somente de texto, como o LLM, como o ChatGPT. Para que o modelo seja capaz de aceitar imagens de entrada, os pesquisadores devem primeiro converter as imagens em uma série especial de tokens (principalmente texto) que o LLM possa compreender.

Kosmos-1 foi treinado em um banco de dados da Internet, incluindo extratos de The Pile (um recurso de texto em inglês de 800 GB) e Common Crawl. O modelo foi então testado com vários testes de compreensão de fala, geração de fala, classificação de texto sem reconhecimento óptico de caracteres, legendagem de imagens, resposta visual a perguntas, resposta a perguntas em páginas da web e classificação de imagens com localização. De acordo com Microsoft, o Kosmos-1 superou os modelos atuais em muitos desses testes.

Particularmente interessante foi o teste de Raciocínio Progressivo de Raven, que mede o QI visual apresentando uma sequência de formas e pedindo ao sujeito para completar a sequência. Kosmos-1 foi capaz de dar a resposta correta em 22% dos casos.

Essas etapas iniciais, que com otimização futura, podem gerar resultados ainda mais significativos, permitindo que os modelos de IA percebam e influenciem qualquer forma de mídia, expandindo muito as capacidades dos assistentes artificiais.

Leia também:

FonteArstechnica

Inscrever-se

0 Comentários

Avaliações incorporadas

Ver todos os comentários

Outros artigos

Microsoft apresentou uma abordagem multimodal abrindo caminho para a IA de nível humano

Comentários recentes