Phi-3-mini é um avanço Microsoft no campo da inteligência artificial?

Modelo de inteligência artificial Phi por Microsoft - pequeno, barato e não sofre de “alucinações”. É o que dizem sobre o novo modelo de linguagem, que se prevê ter um grande futuro.

O GPT é absolutamente ótimo, mas ao mesmo tempo é terrivelmente caro e não pode ser perfeito para todos. Por estas e muitas outras razões Microsoft está experimentando modelos de IA muito menores. Diz-se que o Phi-3-mini até envergonha o trabalho dos engenheiros da OpenAI.

Também interessante: Transistores do futuro: uma nova era de chips nos espera

CONTENTE

1. ChatGPT não é uma panacéia

2. O que se sabe sobre Microsoft Fi

3. Como usar o Phi-3-mini?

4. Microsoft Phi substituirá os modelos do tipo ChatGPT?

5. Phi-3 de Microsoft entende apenas inglês

ChatGPT não é uma panacéia

ChatGPT é uma invenção financiada, curada e melhorada Microsoft. Na verdade, não pertence Microsoft, e a empresa OpenAI, que Microsoft não possui (ela é a principal investidora, embora não a maior). O modelo de linguagem GPT deu Microsoft uma vantagem gigantesca sobre o resto das grandes corporações tecnológicas que agora se apressam a recuperar o atraso. No entanto, há um grande número de problemas com o GPT, muitos dos quais ainda não podem ser resolvidos.

Em primeiro lugar, este é um modelo de linguagem que consome muitos recursos. Orientado para a Web Microsoft O Copilot ou ChatGPT da OpenAI geram custos operacionais muito elevados para Microsoft. Este é um recurso não apenas do GPT, mas também de todos os principais modelos de linguagem. Além disso, a GPT, assim como seus concorrentes, é propensa a “alucinações”, ou seja, pode gerar respostas a consultas que contenham informações falsas ou enganosas. Quanto mais dados esse modelo absorve, mais tende a gerar conteúdo semelhante. Portanto, alucinações e declarações falsas não são um mito sugado de um dedo digital. Os usuários costumam notar que grandes modelos de linguagem muitas vezes cometem erros, fornecem dados imprecisos e operam com base em fatos inexistentes.

Ambos os problemas são muito graves, por isso a OpenAI, Microsoft, Meta, Google e outros estão trabalhando no desenvolvimento não apenas da tecnologia Large Language Model, mas também do Small Language Model, que na prática pode produzir resultados muito melhores.

O assistente de um contador digital não precisa saber muito sobre física quântica. Pode ser muito menor e menos complexo (e, portanto, mais barato) e, treinando apenas com os dados necessários para o seu propósito, deveria, teoricamente, alucinar menos. Embora seja mais fácil falar do que fazer. A tecnologia GenAI ainda é um empreendimento de TI selvagem. E embora o trabalho esteja a progredir a um ritmo sem precedentes, ainda é difícil conseguir avanços práticos em questões fundamentais. Mas a empresa Microsoft anunciou recentemente tal avanço. Estamos falando de um modelo de linguagem pequeno Microsoft Fi.

Também interessante: Como Taiwan, China e Estados Unidos lutam pelo domínio tecnológico: a grande guerra dos chips

O que se sabe sobre Microsoft Fi

Em primeiro lugar, importa referir que a experiência foi realizada sem a participação da empresa OpenAI. Ou seja, é o desenvolvimento de engenheiros Microsoft.

- Propaganda -

Modelos Microsoft Phi é uma série de modelos de linguagem pequena (SLMs) que alcançam resultados excepcionais em uma variedade de testes. O primeiro modelo, Phi-1, tinha 1,3 bilhão de parâmetros e alcançou os melhores resultados de codificação Python entre os SLMs existentes.

Os desenvolvedores então se concentraram na compreensão e no pensamento da linguagem, criando o modelo Phi-1.5, que também tinha 1,3 bilhão de parâmetros e apresentava desempenho comparável a modelos com cinco vezes mais parâmetros.

Phi-2 é um modelo de 2,7 bilhões de parâmetros que demonstra excelentes capacidades de raciocínio e compreensão de linguagem, com desempenho no nível dos melhores modelos básicos com 13 bilhões de parâmetros. Phi-2 se destaca entre outros modelos por suas inovações em escalonamento de modelos e treinamento em curadoria de dados.

Está disponível no catálogo de modelos do Azure AI Studio, o que facilita a pesquisa e o desenvolvimento na área de modelos de linguagem. Phi-2 foi lançado em dezembro de 2023. Os desenvolvedores garantem que funciona tão bem quanto Mistral ou lhama 2 da Meta. E o Phi-3 funciona ainda melhor que a versão anterior.

No entanto, o modelo Phi-3 que acaba de ser anunciado é completamente novo em qualidade. Pelo menos é o que você pode julgar pelas informações fornecidas Microsoft. Segundo a empresa, de acordo com os indicadores de todos os benchmarks conhecidos, o Phi-3 tem desempenho melhor do que qualquer outro modelo de tamanho semelhante, incluindo análise de linguagem, trabalho de programação ou trabalho matemático.

O Phi-3-mini, a menor versão deste modelo, acaba de ficar disponível para todos os interessados. Ou seja, está disponível desde 23 de abril. Phi-3-mini possui 3,8 bilhões de parâmetros e, segundo medições Microsoft, duas vezes mais eficiente que qualquer outro modelo do mesmo tamanho. Pode ser encontrado no catálogo de modelos de IA do serviço em nuvem Microsoft Azure, a plataforma de modelo de aprendizado de máquina Hugging Face, e Ollama, uma estrutura para executar modelos em um computador local.

Como ele afirma Microsoft, Phi-3-mini não requer chips poderosos Nvidia. O modelo pode funcionar em chips de computador comuns. Ou cabe até mesmo em um telefone que não esteja conectado à Internet.

Menos potência também significa que os modelos não serão tão precisos. Phi-3 não será adequado para médicos ou contadores fiscais, mas ajudará em tarefas mais simples. Por exemplo, para direcionar publicidade ou resumir avaliações na Internet.

Como os modelos menores exigem menos processamento, serão mais baratos para uso por empresas privadas. Que está em Microsoft haverá mais clientes que gostariam de envolver a IA em seu trabalho, mas consideraram isso muito caro. No entanto, ainda não está claro quanto custarão.

Ainda não se sabe quando surgirão os modelos pequenos e médios. Mas este último será mais potente e mais caro. Embora já se saiba que Phi-3-small terá 7 bilhões de parâmetros, e Phi-3-medium terá até 14 bilhões de parâmetros.

- Propaganda -

Leia também:

Como usar o Phi-3-mini?

O GPT-4 Turbo requer chips de IA poderosos, que ainda são muito caros. O modelo de fala pequena Phi-3 pode funcionar offline, sem nuvem, mesmo com um chip em um telefone celular.

Phi-3 não é um produto para usuários finais, mas sim uma tecnologia que os desenvolvedores poderão utilizar e implementar em suas aplicações – tanto as baseadas em nuvem, ou seja, localizadas remotamente, quanto as que funcionam localmente e offline. Espera-se que funcione perfeitamente com dispositivos e seus componentes, como telefones celulares, carros e seus sistemas de infoentretenimento, ou mesmo sensores IoT. Em alguns cenários, esta tecnologia pode ser inestimável.

Microsoft até dá um exemplo concreto para que não tenhamos que forçar a imaginação. Imagine um agricultor inspecionando suas plantações e vendo sinais de doenças nas folhas, caules e galhos. Estando longe dos postes de telecomunicações, ele só precisará tirar o telefone, tirar uma foto do dano, colocá-lo em um aplicativo que usa a tecnologia Phi-3 - e o modelo analisará a foto de forma rápida e offline e dará conselhos sobre como exatamente combater esta doença.

Como ele explica Microsoft, a chave para o sucesso do GPT foi utilizar grandes quantidades de dados para treinamento. Com conjuntos de dados tão grandes, a alta qualidade dos dados está fora de questão. Enquanto isso, ao treinar o modelo Phi, foi usada a abordagem OpenAI exatamente oposta. Em vez de sobrecarregar o modelo com informações, o foco estava no aprendizado incremental e completo.

Em vez de usar dados brutos da Internet, os pesquisadores Microsoft criou o conjunto de dados TinyStories, gerando milhões de histórias de “bebês” em miniatura. Essas histórias foram usadas para treinar modelos de linguagem muito pequenos. Os pesquisadores então foram além, criando o conjunto de dados CodeTextbook, que usou dados cuidadosamente selecionados e disponíveis publicamente que foram filtrados por valor educacional e qualidade de conteúdo. Esses dados foram então filtrados várias vezes e realimentados em um modelo de linguagem grande (LLM) para síntese posterior.

Tudo isso possibilitou a criação de um conjunto de dados suficiente para treinar um SLM mais capaz. Além disso, foi utilizada uma abordagem multinível à gestão e mitigação de riscos no desenvolvimento do modelo Phi-3, incluindo avaliação, testes e ajustes manuais. Como resultado, como ele afirma Microsoft, os desenvolvedores que usam a família de modelos Phi-3 podem aproveitar o conjunto de ferramentas disponível no Azure AI para criar aplicativos mais seguros e confiáveis.

Microsoft Phi substituirá os modelos do tipo ChatGPT?

De jeito nenhum. Os modelos de linguagem pequena (SLMs), mesmo quando treinados com dados de alta qualidade, têm suas limitações e não são projetados para aprendizagem profunda. Os modelos de linguagem grande (LLMs) superam os SLMs em raciocínio complexo devido ao seu tamanho e poder computacional. Os LLMs são, e continuarão a ser, particularmente úteis em áreas como a descoberta de medicamentos, onde é necessário pesquisar vastas coleções de artigos científicos e analisar padrões complexos. Por outro lado, o SLM pode ser usado para tarefas mais simples, como resumir os pontos principais de um documento de texto longo, criar conteúdo ou potencializar chatbots de atendimento ao cliente.

Microsoft, disse ela, já usa conjuntos de modelos híbridos internamente, onde o LLM assume a liderança, direcionando certas consultas que exigem menos poder de computação para o SLM enquanto ele próprio lida com outras consultas mais complexas. Phi está posicionado para computação em dispositivos, sem usar a nuvem. No entanto, ainda haverá uma lacuna entre os modelos de linguagem pequena e o nível de inteligência que pode ser obtido com modelos grandes na nuvem. Esta lacuna, graças ao desenvolvimento contínuo do LLM, não deverá desaparecer tão cedo.

Phi-3 ainda não foi verificado por entidades externas independentes. Microsoft às vezes fala de eficiência ou eficiência energética 25 vezes maior em casos extremos, em comparação com os concorrentes, o que parece bastante fabuloso. Embora, por outro lado, não se possa esquecer que estes anos se passaram Microsoft nos afastou um pouco do fato de que é um líder claro em inovações de TI, e talvez seja por isso que realmente não acreditamos nisso. Programas baseados em IA que respondem instantaneamente e são executados offline em vez de gerar? Este seria um culminar digno da revolução actual. Infelizmente, há um problema fundamental.

Phi-3 de Microsoft entende apenas inglês

Phi-3 não engoliu os petabytes lançados em massa. O treinamento cuidadoso e escrupuloso do modelo envolve um pequeno problema. Phi-3 foi treinado com informações em inglês e ainda não tem ideia de outro idioma. Não só ucraniano, mas também alemão, espanhol, francês ou chinês. Claro, isso reduz muito o seu apelo para a maioria dos usuários em todo o mundo.

Mas em Microsoft garantiu que o trabalho para seu desenvolvimento e aprimoramento está em andamento. Embora não se deva enganar pelo facto de o mercado ucraniano ser uma prioridade para qualquer uma das grandes corporações. Portanto, teremos que esperar muito tempo pelo suporte da língua ucraniana. Mas este facto nunca impediu os entusiastas e aqueles que querem acompanhar o progresso.

Leia também:

Mais do autor

Inscrever-se

0 Comentários

Avaliações incorporadas

Ver todos os comentários

Outros artigos