A digitalização de textos pode ser auxiliada pela utilização do software Óptical Character Recognition (OCR), o qual consiste em um processo de reconhecimento óptico de caracteres gerados de forma mecânica (impressa, datilografada), possibilitando a conversão de uma figura digitalizada em texto editável.
Já o Intelligent Character Recognition (ICR), possibilita o mesmo processo, entretanto seu reconhecimento se dá em caracteres gerados manualmente.
No caso do OCR, o reconhecimento do caracter só é possível se for utilizado pelo software um banco de dados onde cada caracter é comparado, e é escolhido o caracter mais semelhante na identificação.
Segundo Andrade (2004, p. 4)
Ambos exemplos deixam claro que um dos fatores de sucesso no reconhecimento é a existência de uma base de grafia que contenha a grafia a ser reconhecida (o que nem sempre ocorre com os produtos importados).
Etapas do processo de digitalização de textos
Identificação;
Reconhecimento de caracteres;
Identificação e reconhecimento de palavras;
Correção;
Saída.
Formato PDF
O formato de arquivo pdf é produzido pela Adobe Systems. É reconhecido por gerar documentos que podem ser impresso como original, pode gerar arquivos compactos, preserva as fontes, formatação (independente da plataforma utilizada para sua geração).
Além disso, é amplamente utilizado na internet, e a visualização de seus arquivos é possível através de um programa distribuído gratuitamente chamado Adobe Acrobat Reader.