Tecnología

Inicio

Las desventajas de OCR

Las desventajas de OCR


El Servicio Postal de Estados Unidos utiliza la tecnología de reconocimiento óptico de caracteres (OCR) para leer las direcciones de piezas de correo. Para el correo pueda ser leído por un clasificador de correo OCR, sin embargo, las direcciones y las fuentes deben tener formato de una determinada manera. El software de OCR es útil para convertir imágenes escaneadas de documentos mecanografiados o escritos a mano para realizar búsquedas de texto electrónico, pero tiene desventajas que limitan sus aplicaciones.

Documentos limitados

OCR funciona mejor con documentos de buena calidad con tipo. documentos escritos a mano no pueden ser leídos fácilmente por el software de OCR. Del mismo modo, mecanografiado fuentes que se asemejan a la escritura -, así como fuentes no latinas - crear muchos errores durante el proceso de OCR. Si el documento ha contraste pobre, está arrugado o sucio, o bien el texto y el fondo son similares en la oscuridad, a continuación, el OCR ya no puede funcionar bien. OCR tiene dificultad con los documentos que tienen ambas imágenes y texto. Las hojas de cálculo también producirán más errores.

Exactitud

Ningún software de OCR es 100 por ciento exacta. El número de errores depende de la calidad y tipo de documento, incluyendo la fuente utilizada. Los errores que se producen durante el OCR incluyen cartas mala interpretación, pasando por alto las letras que son ilegibles, o mezclando texto de columnas adyacentes o pies de fotos. Si se requiere una gran precisión - al igual que con la conversión de los libros digitales a formato electrónico - a continuación, una limpieza del texto electrónico serán necesarios.

Soluciones temporales

OCR tiene dificultades para diferenciar entre caracteres, tales como el número cero y la letra mayúscula "O" Para evitar esto, una fuente especial de OCR se puede utilizar, como anotar cero. Sin embargo, esto sólo funciona para los documentos creados con OCR en cuenta, tales como los cuestionarios. Al crear cuestionarios que serán escritos a mano, los investigadores también utilizan cajas para cada letra.

Trabajo adicional

Incluso si la imagen escaneada del documento original es de alta calidad, medidas adicionales deben ocurrir para limpiar el texto OCR. Es muy intensivos en mano de obra para corregir los errores creados por OCR. Una persona tiene que comparar manualmente el documento original y el texto electrónico. Las personas también cometen errores al escribir texto de un documento, pero a veces es más rápido para saltar el paso de OCR.