Microsoft cria IA que pode copiar a voz humana em apenas 3 segundos

Microsoft está desenvolvendo a ferramenta VALL-E, capaz de copiar a voz de alguém com menos de 3 segundos de escuta (SAUL LOEB/AFP via Getty Images)
Microsoft está desenvolvendo a ferramenta VALL-E, capaz de copiar a voz de alguém com menos de 3 segundos de escuta (SAUL LOEB/AFP via Getty Images)
  • Projeto foi descrito em novo artigo por pesquisadores da Universidade de Cornell;

  • Intitulado de VALL-E, modelo de IA foi treinado com 60 mil horas de falas em inglês;

  • Pesquisadores alertam para uso anti-ético da ferramenta.

A Microsoft anunciou que está trabalhando em uma nova ferramenta de inteligência artificial (IA) de conversão de texto em fala. Chamada de VALL-E, o programa também será capaz de clonar a voz de alguém a partir de um áudio de apenas três segundos.

Desenvolvida em parceria com pesquisadores da Cornell University, o VALL-E foi treinado com 60 mil horas de falas em inglês e é capaz de imitar uma voz em "cenários zero-shot", o que significa que ela é capaz de fazer uma voz dizer palavras que nunca ouviu antes. O artigo dos cientistas também ressalta que a IA consegue converter palavras escritas em faladas e é capaz de articular um discurso "personalizado de alta qualidade".

Para treinar o VALL-E foram usadas mais de 7 mil falantes reais do LibriLight, uma plataforma que disponibiliza audiolivros de domínio público lidos por voluntários. A ferramenta atualmente não está disponível para uso público e a Microsoft não afirmou para qual finalidade está sendo criada.

Segundo os pesquisadores, os resultados obtidos até agora demonstram que o VALL-E "supera significativamente" os seus competidores mais avançados "em termos de naturalidade da fala e similaridade do locutor". No entanto, eles destacam também que ainda há uma falta de sotaques e que algumas das palavras nos discursos sintetizados eram "incertas, fora de contexto ou duplicadas".

Em seu artigo, os cientistas ainda incluíram um aviso sobre o VALE e seus ricos, afirmando que a ferramenta pode ser mal utilizada para "falsificar a identificação de voz ou personificando um falante específico".

“Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E”, afirmam os desenvolvedores, sem dar mais detalhes sobre como tal algoritmo pode ser feito.

Eles ainda acrescentaram mais detalhes sobre um uso ético da ferramenta de IA, dizendo que se o modelo for lançado ao público, deveria haver um "protocolo para garantir que o locutor aprove o uso de sua voz".