Mercado abrirá em 7 h 32 min
  • BOVESPA

    114.177,55
    -92,52 (-0,08%)
     
  • MERVAL

    38.390,84
    +233,89 (+0,61%)
     
  • MXX

    55.164,01
    +292,65 (+0,53%)
     
  • PETROLEO CRU

    81,38
    +0,37 (+0,46%)
     
  • OURO

    1.922,10
    -7,90 (-0,41%)
     
  • BTC-USD

    22.848,55
    -314,28 (-1,36%)
     
  • CMC Crypto 200

    517,35
    -9,83 (-1,86%)
     
  • S&P500

    4.060,43
    +44,21 (+1,10%)
     
  • DOW JONES

    33.949,41
    +205,57 (+0,61%)
     
  • FTSE

    7.761,11
    +16,24 (+0,21%)
     
  • HANG SENG

    22.555,27
    -11,51 (-0,05%)
     
  • NIKKEI

    27.361,48
    -1,27 (-0,00%)
     
  • NASDAQ

    12.032,75
    -74,00 (-0,61%)
     
  • BATS 1000 Index

    0,0000
    0,0000 (0,00%)
     
  • EURO/R$

    5,5110
    -0,0087 (-0,16%)
     

Microsoft cria IA que pode copiar a voz humana em apenas 3 segundos

Microsoft está desenvolvendo a ferramenta VALL-E, capaz de copiar a voz de alguém com menos de 3 segundos de escuta (SAUL LOEB/AFP via Getty Images)
Microsoft está desenvolvendo a ferramenta VALL-E, capaz de copiar a voz de alguém com menos de 3 segundos de escuta (SAUL LOEB/AFP via Getty Images)
  • Projeto foi descrito em novo artigo por pesquisadores da Universidade de Cornell;

  • Intitulado de VALL-E, modelo de IA foi treinado com 60 mil horas de falas em inglês;

  • Pesquisadores alertam para uso anti-ético da ferramenta.

A Microsoft anunciou que está trabalhando em uma nova ferramenta de inteligência artificial (IA) de conversão de texto em fala. Chamada de VALL-E, o programa também será capaz de clonar a voz de alguém a partir de um áudio de apenas três segundos.

Desenvolvida em parceria com pesquisadores da Cornell University, o VALL-E foi treinado com 60 mil horas de falas em inglês e é capaz de imitar uma voz em "cenários zero-shot", o que significa que ela é capaz de fazer uma voz dizer palavras que nunca ouviu antes. O artigo dos cientistas também ressalta que a IA consegue converter palavras escritas em faladas e é capaz de articular um discurso "personalizado de alta qualidade".

Para treinar o VALL-E foram usadas mais de 7 mil falantes reais do LibriLight, uma plataforma que disponibiliza audiolivros de domínio público lidos por voluntários. A ferramenta atualmente não está disponível para uso público e a Microsoft não afirmou para qual finalidade está sendo criada.

Segundo os pesquisadores, os resultados obtidos até agora demonstram que o VALL-E "supera significativamente" os seus competidores mais avançados "em termos de naturalidade da fala e similaridade do locutor". No entanto, eles destacam também que ainda há uma falta de sotaques e que algumas das palavras nos discursos sintetizados eram "incertas, fora de contexto ou duplicadas".

Em seu artigo, os cientistas ainda incluíram um aviso sobre o VALE e seus ricos, afirmando que a ferramenta pode ser mal utilizada para "falsificar a identificação de voz ou personificando um falante específico".

“Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E”, afirmam os desenvolvedores, sem dar mais detalhes sobre como tal algoritmo pode ser feito.

Eles ainda acrescentaram mais detalhes sobre um uso ético da ferramenta de IA, dizendo que se o modelo for lançado ao público, deveria haver um "protocolo para garantir que o locutor aprove o uso de sua voz".