O Google lança um OCR de código aberto

    O Google lança um OCR de código aberto

    Mountain View (EUA) - O Google adicionou um aplicativo, chamado Tesseract, para reconhecimento óptico de caracteres (OCR) à sua impressionante coleção de software livre. É um programa que permite converter o texto contido em uma imagem, normalmente obtida por meio de um scanner, em caracteres que podem ser compreendidos por um processador de texto.


    O motor por trás do Tesseract foi originalmente criado pela HP , que, no entanto, está paralisado de desenvolvimento desde 1995: isto apesar do fato de que na época era considerado um dos melhores softwares de OCR da época. Cerca de dois anos atrás, a HP doou o código para a Universidade de Nevada em Las Vegas (UNLV), que tem trabalhado na correção de bugs desde então. Há alguns meses, o Google patrocina a iniciativa tornando-o um projeto de código aberto e agora ele afirma que o programa "é estável o suficiente para ser republicado como código aberto".


    Tesseract, no entanto, ainda sofre de algumas limitações importantes : o primeiro é o suporte da língua inglesa apenas (sem corretor ortográfico italiano, por assim dizer); a segunda é a incapacidade de preservar o layout das páginas (como colunas e tabelas); a terceira é a pouca habilidade de reconhecer textos impressos em folhas cinza ou coloridas (em outras palavras, ela dá o seu melhor apenas com o clássico texto preto em branco). Como o próprio Google admite, Tesseract é muito menos preciso do que os melhores pacotes de OCR do mercado hoje .


    Deve-se considerar que, embora os desenvolvedores do UNLV tenham corrigido o código aqui e ali, a tecnologia por trás do Tesseract permaneceu essencialmente a mesma de dez anos atrás.


    No entanto, o Google afirma que Tesseract " é muito mais preciso do que qualquer OCR de código aberto disponível " “Além disso, a sua licença permite a qualquer pessoa melhorá-lo e integrá-lo a outras aplicações: o que não é pouca coisa.


    O grande G prometeu que continuará trabalhando com este software, e para isso está contratando especialistas em tecnologias relacionadas a esse OCR.

    O interesse do Google em OCR não é surpreendente : BigG está fazendo grande uso desta tecnologia para a digitalização de livros (ver Google Book Search), além disso, como um motor de busca, está particularmente interessado em acelerar a transição de todo o conhecimento humano para formatos digitais que podem ser indexados por suas aranhas .


    Atualmente, o Tesseract está disponível apenas na forma de código-fonte, que pode ser baixado desta página do SourceForge.net.

    O Google lança um OCR de código aberto
    Adicione um comentário do O Google lança um OCR de código aberto
    Comentário enviado com sucesso! Vamos analisá-lo nas próximas horas.

    End of content

    No more pages to load