Convertir pdf a editable DOC
Convierta los documentos escaneados e imágenes en archivos editables de los formatos de salida de Word, PDF, Excel y TXT (texto).
¿Cómo se hace el reconocimiento de texto?
Subir archivo
Elegir idioma y formato de salida
Convertir y descargar el archivo
Reconocimiento óptico de caracteres (OCR)
El reconocimiento óptico de caracteres (OCR) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina, ya sea de un documento escaneado, una foto de un documento, una foto de escena (por ejemplo, el texto en letreros y vallas publicitarias en una foto de paisaje) o de texto de subtítulos superpuestos en una imagen (por ejemplo, de una emisión de televisión). El OCR es la conversión de imágenes de texto en texto codificado por máquina, ya sea de un documento escaneado, una foto de un documento, una foto de escena o de texto de subtítulos superpuestos en una imagen.
Ampliamente utilizado como una forma de ingresar datos de registros impresos en papel - ya sean documentos de pasaporte, facturas, estados de cuenta bancarios, recibos computarizados, tarjetas de visita, correo, impresiones de datos estáticos o cualquier documentación adecuada- es un método común de digitalización de textos impresos para que puedan ser editados electrónicamente, buscados, almacenados de manera más compacta, mostrados en línea y utilizados en procesos mecánicos como la computación cognitiva, la traducción automática, (extraídos) texto a voz, datos clave y minería de texto. OCR es un campo de investigación en reconocimiento de patrones, inteligencia artificial y visión por computadora.
Las primeras versiones requerían ser entrenadas con imágenes de cada personaje y trabajadas en una fuente a la vez. Los sistemas avanzados que son capaces de producir un alto grado de precisión de reconocimiento para la mayoría de las fuentes son ahora comunes, y tienen soporte para una variedad de entradas de formato de archivo de imagen digital. Algunos sistemas son capaces de reproducir una salida formateada que se aproxima mucho a la página original, incluyendo imágenes, columnas y otros componentes no textuales.