Pesquisadores Apple desenvolveram um sistema de inteligência artificial chamado ReALM (Reference Resolution as Language Modeling), que visa melhorar radicalmente a forma como os assistentes de voz entendem e respondem aos comandos.
Em um artigo de pesquisa Apple descreve uma nova estrutura de como grandes modelos de linguagem abordam o problema de resolução de referência, que inclui decifrar referências ambíguas a objetos na tela, bem como compreender o contexto de conversação e de fundo. Como resultado, o ReALM pode levar a uma interação mais intuitiva e natural com os dispositivos.
O reconhecimento de referências é uma parte importante da compreensão da linguagem natural, permitindo que os usuários usem pronomes e outras referências indiretas em conversas sem confusão. Para os assistentes digitais, esta capacidade tem sido historicamente um desafio significativo, limitada pela necessidade de interpretar uma vasta gama de sinais verbais e informações visuais. O sistema ReALM de Apple visa resolver este problema transformando o complexo processo de reconhecimento de referência em uma tarefa de modelagem de linguagem pura. Dessa forma, ela consegue compreender as referências aos elementos visuais exibidos na tela e integrar esse entendimento ao fluxo conversacional.
O ReALM reconstrói a estrutura visual da tela usando representações de texto. Isso inclui analisar objetos de tela e organizá-los para criar um formato de texto que reflita o conteúdo e a estrutura da tela. Pesquisadores Apple descobriram que esta estratégia, combinada com o ajuste especial de modelos de linguagem para problemas de resolução de benchmark, supera significativamente os métodos tradicionais, incluindo os recursos GPT-4 da OpenAI.
O ReALM pode permitir que os usuários interajam de maneira muito mais eficaz com assistentes digitais com base no que é exibido na tela no momento, sem a necessidade de instruções precisas e detalhadas. Isto poderia tornar os assistentes de voz muito mais úteis em diversas situações, como ajudar os condutores a navegar nos sistemas de infoentretenimento enquanto conduzem ou ajudar os utilizadores com deficiência, fornecendo meios mais fáceis e precisos de interação indireta.
Apple já publicou vários artigos de pesquisa na área de IA. No mês passado, a empresa revelou um novo método para aprender grandes modelos de linguagem que integra perfeitamente informações textuais e visuais. É esperado que Apple apresentará uma série de recursos de IA na conferência WWDC em junho.
Leia também: