Tecnología

Inicio

Cómo extraer el texto de un documento PDF

Puede ser muy frustrante para tratar de extraer el texto de un archivo PDF para su uso en otra aplicación. No es raro que los gráficos para ponerse en el camino o para el diseño del documento para que sea difícil para que la prueba se transfiere en frases con sentido. Aunque no es imposible extraer texto con un enfoque de copiar y pegar, que puede llevar mucho tiempo y no permite para el texto de archivos PDF para ser exportado como un formato diferente. Hay, sin embargo, algunas maneras de extraer el texto de un archivo PDF.

Instrucciones

Extracto de texto usando Acrobat Reader

1 Abra el archivo en Acrobat Reader. En Windows, seleccione "Archivo -> Exportar Documento de texto", el nombre del documento y guardarlo.

2 Copiar el texto en un Mac OS o Linux accediendo al menú Ver y seleccionando "continuo" o "Continuous-Orientación." (El primero le proporcionará el texto de una columna, mientras que el segundo formato al texto como páginas de lado a lado.) Ir a "Editar -> Seleccionar todo" y luego "Editar -.> Copiar"

3 Utilice la herramienta Seleccionar si solo desea extraer parte del texto. Haga clic en la herramienta "Texto Seleccionar" y luego elegir la información que desea. En un documento con formato de múltiples columnas, tendrá que utilizar la herramienta "Seleccionar Columna" en primer lugar. Ir a "Editar -> Copiar".

Convertir PDF a HTML

4 Usar Gmail como un acceso directo. Adjuntar el archivo PDF a un correo electrónico y enviarlo a su cuenta de Gmail. Al abrir el correo electrónico, verá una serie de opciones junto al archivo adjunto. Seleccione la opción "Ver como HTML" y guardar el archivo que se abre en una ventana separada. Aunque usted no será capaz de ver los gráficos, el archivo HTML se conserva el formato de texto del documento.

5 Extraer y convertir archivos en la línea de comandos. Los usuarios de Linux pueden utilizar un dominio básico de conversión que va a cambiar un archivo .pdf en un archivo .txt: "filename.pdf pdftotext." Asegúrese de cambiar el nombre del archivo con el nombre del archivo PDF.

6 Descargar un archivo PDF con el programa de conversión de texto. Hay un número de código abierto y freeware programas disponibles, tales como PDFBox y pdf fácil al convertidor del texto (ver Recursos más adelante). Muchos de estos programas también puede convertir archivos PDF a HTML también.

Consejos y advertencias

  • Determinar si el documento está formateado para contener texto y gráficos. El enfoque de Adobe Acrobat sólo funcionará si el archivo PDF contiene ambos; que no funcionará para los archivos con sólo imágenes. En algunos casos, el texto de un documento PDF es en realidad el formato como una imagen. Esto sucede a menudo cuando un documento original se escanea y un archivo PDF se creó a partir de la imagen escaneada.
  • Esté preparado para volver a formatear la parte del texto cuando se utiliza Acrobat Reader. Esta forma de extracción simplemente exporta el archivo PDF a un archivo de texto - no va a retener necesariamente conservar el formato. Sin embargo, si sólo tiene que utilizar las palabras esto no debería ser un problema.