O recoñecemento óptico de carácteres (OCR) refírese a un software que crea unha versión dixital dun documento impreso, escrito ou manuscrito que as computadoras poden ler sen necesidade de escribir ou introducir manualmente o texto. OCR úsase generalmente en documentos escaneados en formato PDF , pero tamén pode crear unha versión lexible por computadora de texto dentro dun ficheiro de imaxe.
¿Que é OCR?
OCR, tamén coñecido como recoñecemento de texto, é unha tecnoloxía de software que transforma personaxes como números, letras e puntuación (tamén chamados glifos) a partir de documentos impresos ou escritos nunha forma electrónica máis fácilmente recoñecida e lida por computadoras e outros programas de software. Algúns programas de OCR fan isto a medida que un documento é escaneado ou fotografado cunha cámara dixital e outros poden aplicar este proceso a documentos que foron escaneados previamente ou fotografados sen OCR. OCR permite aos usuarios buscar dentro de documentos PDF, editar texto e volver formatar documentos.
Para que serve o OCR?
Para unha rápida e cada día de escaneo precisa, OCR pode non ser un gran negocio. Se fai unha gran cantidade de dixitalización, poder buscar en PDFs para atopar o exacto que precisa pode aforrar moito tempo e fai que a función OCR no seu programa de escáner sexa máis importante. Aquí están algunhas outras cousas coas que OCR axuda:
- Procesamento automatizado de datos e entrada de datos (exemplo: sistemas de rastreamento de solicitantes de emprego para currículos)
- Facer libros escaneados en busca
- Conversión de escaneos manuscritos a textos legibles por computadora
- Facer documentos máis utilizables por programas de lector que axuden aos usuarios con discapacidade visual
- Preservar documentos históricos e xornais, á vez que os fai buscar
- Extracción e transferencia de datos a programas contables (Exemplo: recibos e facturas)
- Indexación de documentos para uso por motores de busca
- Recoñecemento de placas de matrículas por cámara de velocidade e software de cámara de luz vermella
- Os sintetizadores de voz para persoas que non poden falar - o físico teórico, Stephen Hawking, é quizais o usuario máis coñecido dun programa de sintetizador de voz
Por que usar OCR?
Por que non sacar unha foto, non? Porque non poderías editar nada nin buscar o texto porque só sería unha imaxe. Escanear o documento e executar o software OCR pode converter ese ficheiro en algo que pode editar e poder buscar.
Historia da OCR
Aínda que o uso moi antigo do recoñecemento de texto data de 1914, o desenvolvemento e uso de tecnoloxías relacionadas con OCR comezou en serio nos anos cincuenta, especialmente coa creación de fontes moi simplificadas que eran máis fáciles de converter ao texto lexible dixitalmente. O primeiro destes fontes simplificadas foi creado por David Shepard e comunmente coñecido como OCR-7B. OCR-7B aínda está en uso na industria financeira para a fonte estándar utilizada nas tarxetas de crédito e débito. Na década de 1960, os servizos postais en varios países comezaron a utilizar tecnoloxía OCR para acelerar rapidamente a selección de correo, incluídos Estados Unidos, Gran Bretaña, Canadá e Alemaña. OCR segue sendo a tecnoloxía básica utilizada para clasificar correo para os servizos postais en todo o mundo. En 2000, o coñecemento clave dos límites e capacidades da tecnoloxía OCR foi usado para desenvolver os programas CAPTCHA usados para deter bots e spammers.
Ao longo das décadas, OCR creceu de forma máis precisa e máis sofisticada debido a avances en áreas tecnolóxicas relacionadas, como intelixencia artificial , aprendizaxe de máquinas e visión por computadora. Hoxe, o software OCR usa o recoñecemento de patróns, a detección de recursos e a minería de texto para transformar os documentos de forma máis rápida e precisa que nunca.