¿Que é o recoñecemento óptico de carácteres (OCR)?

O recoñecemento óptico de carácteres (OCR) refírese a un software que crea unha versión dixital dun documento impreso, escrito ou manuscrito que as computadoras poden ler sen necesidade de escribir ou introducir manualmente o texto. OCR úsase generalmente en documentos escaneados en formato PDF , pero tamén pode crear unha versión lexible por computadora de texto dentro dun ficheiro de imaxe.

¿Que é OCR?

OCR, tamén coñecido como recoñecemento de texto, é unha tecnoloxía de software que transforma personaxes como números, letras e puntuación (tamén chamados glifos) a partir de documentos impresos ou escritos nunha forma electrónica máis fácilmente recoñecida e lida por computadoras e outros programas de software. Algúns programas de OCR fan isto a medida que un documento é escaneado ou fotografado cunha cámara dixital e outros poden aplicar este proceso a documentos que foron escaneados previamente ou fotografados sen OCR. OCR permite aos usuarios buscar dentro de documentos PDF, editar texto e volver formatar documentos.

Para que serve o OCR?

Para unha rápida e cada día de escaneo precisa, OCR pode non ser un gran negocio. Se fai unha gran cantidade de dixitalización, poder buscar en PDFs para atopar o exacto que precisa pode aforrar moito tempo e fai que a función OCR no seu programa de escáner sexa máis importante. Aquí están algunhas outras cousas coas que OCR axuda:

Por que usar OCR?

Por que non sacar unha foto, non? Porque non poderías editar nada nin buscar o texto porque só sería unha imaxe. Escanear o documento e executar o software OCR pode converter ese ficheiro en algo que pode editar e poder buscar.

Historia da OCR

Aínda que o uso moi antigo do recoñecemento de texto data de 1914, o desenvolvemento e uso de tecnoloxías relacionadas con OCR comezou en serio nos anos cincuenta, especialmente coa creación de fontes moi simplificadas que eran máis fáciles de converter ao texto lexible dixitalmente. O primeiro destes fontes simplificadas foi creado por David Shepard e comunmente coñecido como OCR-7B. OCR-7B aínda está en uso na industria financeira para a fonte estándar utilizada nas tarxetas de crédito e débito. Na década de 1960, os servizos postais en varios países comezaron a utilizar tecnoloxía OCR para acelerar rapidamente a selección de correo, incluídos Estados Unidos, Gran Bretaña, Canadá e Alemaña. OCR segue sendo a tecnoloxía básica utilizada para clasificar correo para os servizos postais en todo o mundo. En 2000, o coñecemento clave dos límites e capacidades da tecnoloxía OCR foi usado para desenvolver os programas CAPTCHA usados ​​para deter bots e spammers.

Ao longo das décadas, OCR creceu de forma máis precisa e máis sofisticada debido a avances en áreas tecnolóxicas relacionadas, como intelixencia artificial , aprendizaxe de máquinas e visión por computadora. Hoxe, o software OCR usa o recoñecemento de patróns, a detección de recursos e a minería de texto para transformar os documentos de forma máis rápida e precisa que nunca.