Nova IA Microsoft pode imitar a voz de qualquer pessoa

Na quinta-feira, pesquisadores Microsoft anunciou um novo modelo de inteligência artificial (IA) chamado VALL-E que pode imitar com precisão uma voz humana quando recebe uma amostra de áudio de três segundos. Depois de aprender uma voz específica, o VALL-E pode sintetizar o áudio dessa pessoa dizendo qualquer coisa, preservando o tom emocional do locutor.

Seus autores sugerem que o VALL-E pode ser usado para conversão de texto em fala de alta qualidade, edição de fala, onde a gravação de uma pessoa pode ser editada e alterada a partir de uma transcrição de texto (fazendo-a dizer coisas que não disse originalmente) e para criar conteúdo de áudio combinado com outros modelos generativos de IA, como GPT-3.

Microsoft chama VALL-E de “modelo de linguagem de codec neural” e é baseado em uma tecnologia chamada EnCodec que Meta anunciou em outubro de 2022. Ao contrário de outros métodos de conversão de texto em fala, que normalmente sintetizam a fala manipulando formas de onda, VALL-E gera áudio discreto códigos de codec de prompts de texto e acústicos. Basicamente, ele analisa o som de uma pessoa, divide essas informações em componentes discretos (chamados de “tokens”) graças ao EnCodec e usa dados de treinamento para comparar o que “sabe” sobre como aquela voz soaria se falasse outras frases fora. da amostra de três segundos.

Microsoft treinou os recursos de síntese de fala do VALL-E em uma biblioteca de áudio compilada pela Meta chamada LibriLight. Ele contém 60 horas de transmissões em inglês de mais de 7 locutores, a maioria retirada de audiolivros LibriVox disponíveis ao público.

Além de preservar o timbre da voz e o tom emocional do locutor, o VALL-E também pode simular o “ambiente acústico” da amostra de áudio. Por exemplo, se a amostra foi obtida de uma conversa telefônica, a saída de áudio sintetizada simulará as propriedades acústicas e de frequência da conversa telefônica. Também amostras Microsoft demonstram que VALL-E pode gerar variações de timbre vocal.

Talvez devido à capacidade do VALL-E de facilitar potencialmente a fraude e o engano, Microsoft não forneceu o código VALL-E para que outros possam experimentar, portanto não poderemos testar suas capacidades. Os investigadores parecem estar conscientes dos potenciais danos sociais que esta tecnologia pode trazer. Na conclusão do artigo, eles escrevem:

“Como o VALL-E pode sintetizar a fala que preserva a identidade do locutor, ele pode apresentar riscos potenciais de abuso de modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para reduzir tais riscos, um modelo de reconhecimento será construído para distinguir se um clipe de áudio foi sintetizado usando VALL-E."

Você pode ajudar a Ucrânia a lutar contra os invasores russos. A melhor maneira de fazer isso é doar fundos para as Forças Armadas da Ucrânia através Salva vida ou através da página oficial NBU.

Leia também:

FonteArstechnica

Inscrever-se

0 Comentários

Avaliações incorporadas

Ver todos os comentários

Outros artigos

Nova IA Microsoft imita a voz de qualquer pessoa a partir de uma amostra de áudio de 3 segundos

Comentários recentes