Mercado fechará em 2 h 6 min
  • BOVESPA

    113.357,99
    +1.084,98 (+0,97%)
     
  • MERVAL

    38.390,84
    +233,89 (+0,61%)
     
  • MXX

    54.533,54
    +12,11 (+0,02%)
     
  • PETROLEO CRU

    78,82
    +0,92 (+1,18%)
     
  • OURO

    1.943,90
    +4,70 (+0,24%)
     
  • BTC-USD

    23.118,25
    -55,47 (-0,24%)
     
  • CMC Crypto 200

    525,19
    +6,39 (+1,23%)
     
  • S&P500

    4.044,03
    +26,26 (+0,65%)
     
  • DOW JONES

    33.799,29
    +82,20 (+0,24%)
     
  • FTSE

    7.771,70
    -13,17 (-0,17%)
     
  • HANG SENG

    21.842,33
    -227,40 (-1,03%)
     
  • NIKKEI

    27.327,11
    -106,29 (-0,39%)
     
  • NASDAQ

    12.074,25
    +106,25 (+0,89%)
     
  • BATS 1000 Index

    0,0000
    0,0000 (0,00%)
     
  • EURO/R$

    5,5326
    -0,0144 (-0,26%)
     

Microsoft cria IA capaz de imitar vozes a partir de amostras de 3 segundos

A Microsoft desenvolveu uma inteligência artificial capaz de replicar vozes humanas a partir de amostras de pelo menos três segundos. Treinada com mais de 60 mil horas de áudios em inglês, a IA VALL-E consegue simular criar falas a partir de texto simulando emoções, diferentes tons de voz e até criar expressões e falas inexistentes no áudio original.

O VALL-E é uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS) e é objeto de estudo de um projeto apresentado na Universidade de Cornell, em Nova York, Estados Unidos. Trata-se de um modelo de linguagem codec natural capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de três segundos.

A IA VALL-E consegue imitar vozes humanas e sintetizar palavras inéditas a partir de amostras de três segundos (Imagem: MegiasD/Envato)
A IA VALL-E consegue imitar vozes humanas e sintetizar palavras inéditas a partir de amostras de três segundos (Imagem: MegiasD/Envato)

A plataforma toma pequenas faixas de voz como exemplo e as modifica para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.

No GitHub, a Microsoft apresentou vários resultados de simulações de voz feitas pelo VALL-E. Algumas das vozes simuladas são convincentes e leem o trecho apresentado de forma coesa e coerente, enquanto outros exemplos são claramente gerados por computador, mais travados e robotizados.

Questões éticas

Assim como a geração de imagens a partir de referências, a IA VALL-E é significativamente perigosa. A ferramenta serviria perfeitamente para simular vozes de outras pessoas sem a devida autorização, apesar de o resultado não ser tão convincente em todos os cenários.

A IA poderia, por exemplo, ser colocada para simular discursos de políticos e dar voz a figuras públicas importantes, aproveitando também da compactação de áudio das redes sociais e mensageiros para mascarar as falhas da amostra. Se disponível para o público de forma indiscriminada, qualquer um poderia inserir amostras de um político, artista ou amigos, e criar qualquer discurso.

As vozes sintéticas também poderiam ser usadas para atacar pessoas específicas, como simular sequestros, pedidos de dinheiro e ofensas. Além disso, as faixas geradas pela VALL-E também poderiam ser utilizadas para conversar com bancos e pessoas de confiança, e se passar por alguém.

IA de uso restrito

Por conta desse perigo, a VALL-E não está disponível para o público geral e somente pode ser conferida a partir das amostras divulgadas pela companhia.

"Os experimentos deste trabalho foram realizados sob a suposição de que o usuário do modelo é o locutor alvo e foi aprovado pelo locutor", esclareceu os autores do estudo.

Fonte: Canaltech

Trending no Canaltech: