Mercado abrirá em 7 h 3 min

Amazon desenvolve IA capaz de identificar texto escrito em curva

Rafael Rodrigues da Silva

O reconhecimento óptico de caracteres (OCR) é uma tecnologia que vem sendo desenvolvida desde a década de 1970 e que tem como objetivo a conversão de texto escrito à mão ou presente em imagens (como logos de empresas, por exemplo) em um formato que consegue ser lido por máquinas. Mas esses algoritmos sempre tiveram uma falha muito específica: a detecção de textos que fossem escritos em “curvas”, sem estar em paralelo com um plano horizontal. Contudo isso está prestes a mudar, já que pesquisadores da Amazon parecem finalmente ter criado uma solução para esse problema.

A tecnologia de TextTubes consegue detectar com precisão texto curvados em ambientes naturais (como, por exemplo, na fachada de restaurantes). De acordo com o documento que explica o funcionamento do algoritmo, a solução para isso foi criar um programa que faz a leitura das imagens através de “tubos”, procurando a presença de texto ao longo do eixo medial.

Os autores do projeto explicam que as IAs que fazem esse tipo de detecção de texto dividem a tarefa em duas etapas sucessivas: a de detecção de texto e a de reconhecimento do texto. Enquanto a primeira etapa envolve a localização de caracteres, linhas e palavras utilizando pistas contextuais, a segunda faz a leitura da mensagem e a transcrição dela para uma linguagem de máquina. Apesar de parecer algo simples, é difícil de fazer esse processo funcionar corretamente quando há a necessidade de identificar palavras em fachadas de prédios ou em outros lugares que não são exatamente dentro das páginas de um livro, já que essas palavras não apenas são afetadas por deformações na escrita, mas também por mudanças arbitrárias no tipo de fonte usado e na orientação base delas.

Diferença no tipo de identificação possível com a leitura por retângulos (b), por quadriláteros (c) e por tubo (d) (Imagem: TextTubes for Detecting Curved Text in the Wild)

Mas como mesmo nesses casos todas as letras costumam ter mais ou menos o mesmo tamanho, os pesquisadores se aproveitaram dessa característica para desenvolver um algoritmo que faz a leitura em “tubo”. Ao invés dos programas de reconhecimento tradicional, que vasculham áreas baseadas em quadrados e retângulos, o algoritmo da Amazon o faz em áreas semelhantes a tubos, o que permite identificar a diferença de orientação e levar em conta o raio de deformação de palavras escritas em curva.

Assim, ao modelar a leitura baseada no eixo medial e no raio médio de uma circunferência, é possível capturar informações não apenas de uma pequena sessão da imagem, mas dela como um todo, o que permite uma precisão acima da média na captura de palavras que não seguem o padrão horizontal.

Ao usar o TextTubes em um banco de dados identificado como CTW-1500 (que consiste de 1500 imagens coletadas de fachadas reais que contam com mais de 10 mil instâncias de texto entre elas, com pelo menos uma palavra curvada em cada uma) foi possível obter uma precisão de 83,65% no reconhecimento das palavras existentes nessas imagens, contra 75,6% do melhor método existente que não utiliza a abordagem por tubos.

Caso o TextTubes chegue ao mercado, poderá significar uma nova fonte de rendimentos para a Amazon: como cerca de 97% dos pequenos negócios ainda utilizam notas e outros documentos fiscais em papel, há um enorme mercado para um programa de OCR que consegue identificar com precisão letras cursivas escritas fora da linha, e a estimativa é que esse mercado valha cerca de US$ 13,38 bilhões até 2025.

Fonte: Canaltech

Trending no Canaltech: