O Google lança um OCR de código aberto

O Google lança um OCR de código aberto

Mountain View (EUA) - O Google adicionou um aplicativo, chamado Tesseract, para reconhecimento óptico de caracteres (OCR) à sua impressionante coleção de software livre. É um programa que permite converter o texto contido em uma imagem, normalmente obtida por meio de um scanner, em caracteres que podem ser compreendidos por um processador de texto.

O motor por trás do Tesseract foi originalmente criado pela HP , que, no entanto, está paralisado de desenvolvimento desde 1995: isto apesar do fato de que na época era considerado um dos melhores softwares de OCR da época. Cerca de dois anos atrás, a HP doou o código para a Universidade de Nevada em Las Vegas (UNLV), que tem trabalhado na correção de bugs desde então. Há alguns meses, o Google patrocina a iniciativa tornando-o um projeto de código aberto e agora ele afirma que o programa "é estável o suficiente para ser republicado como código aberto".

Tesseract, no entanto, ainda sofre de algumas limitações importantes : o primeiro é o suporte da língua inglesa apenas (sem corretor ortográfico italiano, por assim dizer); a segunda é a incapacidade de preservar o layout das páginas (como colunas e tabelas); a terceira é a pouca habilidade de reconhecer textos impressos em folhas cinza ou coloridas (em outras palavras, ela dá o seu melhor apenas com o clássico texto preto em branco). Como o próprio Google admite, Tesseract é muito menos preciso do que os melhores pacotes de OCR do mercado hoje .

Deve-se considerar que, embora os desenvolvedores do UNLV tenham corrigido o código aqui e ali, a tecnologia por trás do Tesseract permaneceu essencialmente a mesma de dez anos atrás.

No entanto, o Google afirma que Tesseract " é muito mais preciso do que qualquer OCR de código aberto disponível " “Além disso, a sua licença permite a qualquer pessoa melhorá-lo e integrá-lo a outras aplicações: o que não é pouca coisa.

O grande G prometeu que continuará trabalhando com este software, e para isso está contratando especialistas em tecnologias relacionadas a esse OCR.

O interesse do Google em OCR não é surpreendente : BigG está fazendo grande uso desta tecnologia para a digitalização de livros (ver Google Book Search), além disso, como um motor de busca, está particularmente interessado em acelerar a transição de todo o conhecimento humano para formatos digitais que podem ser indexados por suas aranhas .

Atualmente, o Tesseract está disponível apenas na forma de código-fonte, que pode ser baixado desta página do SourceForge.net.

O Google lança um OCR de código aberto

A Amazon também bloqueia a tecnologia FLoC do Google ❯

itens relacionados

Imagens do Google: como restaurar o botão

Imagens do Google: como restaurar o botão "visualizar imagem"

Kill-switch do Google: como excluir rapidamente suas consultas de pesquisa nos últimos 15 minutos

Kill-switch do Google: como excluir rapidamente suas consultas de pesquisa nos últimos 15 minutos

Como instalar um tema no Google Chrome?

Como instalar um tema no Google Chrome?

Postagens mais visitadas!

El Viento Mega Drive Cheats E Codigos

Adicione um comentário do O Google lança um OCR de código aberto

End of content

No more pages to load

2024 / androidbasement.com