Mercado abrirá em 5 h 13 min

Com IA, Apple quer reduzir falsas ativações da Siri e melhorar entendimento

Felipe Demartini

A Apple publicou na última semana um conjunto de pesquisas voltadas para melhoria dos sistemas de detecção da Siri, principalmente no que toca a identificação de usuários, redução de falsos positivos e um melhor entendimento de sotaques. Os trabalhos com a inteligência artificial ainda estão em andamento, mas, de acordo com os estudos, já apresentaram resultados bem satisfatórios, devendo representar, em um futuro próximo, mudanças importantes na maneira como o sistema funciona.

No primeiro e mais importante paper, a Apple realiza uma mudança de paradigma na forma como a assistente funciona. Hoje, ela detecta separadamente o comando de voz usado para ativação, o famoso “e aí, Siri”, e a voz do usuário para que a tecnologia não seja ativada por terceiros. Com uma mudança na abordagem, ambas as tarefas poderiam ser realizadas ao mesmo tempo e aprenderem com o estilo de fala do usuário para que sua utilização se torne mais veloz, consuma menos poder de processamento e bateria.

Usando mais de 16 mil horas de áudio gravadas e um total superior a 100 voluntários em diferentes ambientes, desde salas silenciosas até festas com música ao vivo ou som de TV, os pesquisadores da Apple criaram três modelos capazes de unir essas duas ideias em uma só, mesmo que a maioria das amostras não contivesse exatamente as mesmas informações. 2.000 horas de podcasts, seriados e programas de televisão também foram usadas como métrica para criar o que a Maçã chamou de “taxa de alarme falso”.

O resultado é que, na união das duas características de análise, os resultados iniciais já foram tão bons quanto os do método atual de detecção, com amplo espaço para melhoria. Um dos modelos, considerado mais bem-sucedido, teve um saldo 7,6% superior do que a forma atual pela qual a Siri funciona, um resultado que se mostrou real, principalmente, em economia de memória e na redução da latência entre o comando feito pelo utilizador e a resposta da assistente de voz.

Por meio de uma pesquisa relacionada, os cientistas da Apple também disseram ser capazes de mitigar 87% das ativações acidentais da Siri. Aqui, foi usado um gráfico de rede neural onde cada nó detectado é associado a uma característica positiva ou negativa; a partir do aprendizado com o uso, o sistema passa a ser capaz de detectar se uma chamada é ou não real e reage a partir disso, evitando atender a frases parecidas com seu comando, por exemplo, ou a ruídos de fundo ou sons do ambiente.

Para a Maçã, a pesquisa é um passo importante rumo à privacidade, principalmente no que toca a sensação dos usuários de que a Siri está “sempre” escutando. De acordo com o paper, esse aspecto ainda vai exigir mais trabalho, mas o mesmo sistema também pode ser usado para outros fins, bem como aplicado de maneiras diferentes para reduzir falsos positivos e ativações acidentais.

Outro ponto de sucesso foi o trabalho com o que a Apple chamou de “usuários multilíngues”, aqueles que não possuem o idioma usado pela Siri como nativo. Sotaques, gírias e vícios de linguagem, notoriamente, foram uma pedra no sapato não só da empresa, mas de toda a pesquisa com assistente de voz, com o paper da Maçã também citando melhorias preliminares oriundas do sistema de deep learning.

De acordo com o estudo, a nova tecnologia foi capaz de melhorar em 87% o entendimento geral dos comandos dados por diferentes tipos de combinações idiomáticas, com uma taxa 60% maior no chamado “pior cenário”, onde são considerados aqueles de detecção mais difícil. Também houve redução no lag da resposta, de dois segundos para 1,2 segundo, enquanto o impacto em poder de processamento foi de apenas 0,05%.

Isso foi obtido a partir de padrões de comportamento alimentados pelos pesquisadores em um sistema de ditado, capaz de realizar tarefas em mais de 60 idiomas diferentes, além de entender conjunções entre todos eles. Utilizando também características do aparelho, como idiomas instalados e dados de localização, a inteligência artificial foi capaz de realizar previsões mais acertadas sobre o que está sendo dito e reduzir a confusão entre palavras semelhantes. Um exemplo dado foi o “não”, que em alemão, pode soar parecido com o numeral “nove”, em inglês.

De acordo com o estudo, mesmo quando dois idiomas estão instalados ao mesmo tempo no celular, a nova dinâmica se mostrou adequada, pois é capaz de detectar o contexto do pedido e, também, se alimenta da própria utilização do usuário. Essa mesma dinâmica se aplica também aos outros papers publicados pela Apple, cujas aplicações práticas ainda estão longe de acontecer, apesar dos resultados promissores apresentados.

Fonte: Canaltech

Trending no Canaltech: