Mercado fechado
  • BOVESPA

    98.829,27
    +902,93 (+0,92%)
     
  • MERVAL

    38.390,84
    +233,89 (+0,61%)
     
  • MXX

    52.771,12
    -56,81 (-0,11%)
     
  • PETROLEO CRU

    69,20
    -0,76 (-1,09%)
     
  • OURO

    1.981,00
    -14,90 (-0,75%)
     
  • Bitcoin USD

    27.605,23
    -679,68 (-2,40%)
     
  • CMC Crypto 200

    597,33
    -21,06 (-3,41%)
     
  • S&P500

    3.970,99
    +22,27 (+0,56%)
     
  • DOW JONES

    32.237,53
    +132,28 (+0,41%)
     
  • FTSE

    7.405,45
    -94,15 (-1,26%)
     
  • HANG SENG

    19.915,68
    -133,96 (-0,67%)
     
  • NIKKEI

    27.385,25
    -34,36 (-0,13%)
     
  • NASDAQ

    12.922,75
    +68,75 (+0,53%)
     
  • BATS 1000 Index

    0,0000
    0,0000 (0,00%)
     
  • EURO/R$

    5,6520
    -0,0780 (-1,36%)
     

OpenAI lança API de IA que transforma áudio em texto

Nesta quarta-feira (1°), a OpenAI apresentou a API Whisper, uma versão hospedada do modelo de inteligência artificial que transcreve falas em tempo real. Desenvolvedores podem implementar o ferramentas com a IA pagando US$ 0,006 por minuto de uso.

A API Whisper teve código aberto para o público em setembro de 2022, suporta os de formatos de arquivos, como M4A, MP3, MP4, MPEG, WAV e WEBM, e é compatível com uma variedade de idiomas, sendo capaz de traduzir o texto obtido para inglês.

O Whisper da OpenAI transcreve falas em texto em tempo real, mas não é perfeito (Imagem: Tobias Heine/Pixabay)
O Whisper da OpenAI transcreve falas em texto em tempo real, mas não é perfeito (Imagem: Tobias Heine/Pixabay)

Em funcionalidade, o Whisper é como a ferramenta de transcrição automática do Google Meet. A IA consegue interpretar o conteúdo falado num áudio ou vídeo e colocá-lo em texto, como em legendas automáticas. A diferença dele, porém, seria o preparo: foram mais de 680 mil horas de áudio multilingual e "multitarefa" para refinar o modelo, segundo o presidente da OpenAI Greg Brockman.

Ao disponibilizar uma API do Whisper, a OpenAI espera abrir portas para companhias explorarem a companhia por conta própria e criem ferramentas inovadoras com os poderes da transcrição de texto. O modelo é menos impressionante do que o chatbot ChatGPT, mas pode ser uma engrenagem importante de recursos de acessibilidade e comunicação empresarial.

IA de transcrição é limitada

O sistema do Whisper é treinado com milhões de minutos de conteúdo barulhento e indefinido e, por isso, pode apresentar resultados errados. De acordo com a OpenAI, o modelo tem a tendência de mostrar palavras erradas que ainda não foram ditas, na tentativa de "prever" o que vai ser falado pelo locutor.

Além disso, o Whisper não é perfeito em outros idiomas e pode apresentar problemas em línguas em que foi menos treinado. A OpenAI não especificou em quais dialetos isso deve acontecer com mais frequência.

"Lançamos um modelo, mas isso não foi suficiente para fazer com que todo o ecossistema de desenvolvedores se desenvolvesse em torno dele", disse o presidente da OpenAI ao TechCrunch. "A API Whisper é o mesmo modelo grande que você pode obter de código aberto, mas otimizamos ao extremo", acrescentou.

Fonte: Canaltech

Trending no Canaltech: