Tecnología

Inicio

Cómo analizar los documentos PDF en Java

Los archivos PDF se proporcionan con un formato estándar de programación abierta y analizan los datos de un documento de sólo lectura. Puede utilizar las bibliotecas de Java PDF para abrir un documento y leer la información que contiene. Que o bien almacenar esta información en una base de datos o se muestre la información de vuelta al lector en la aplicación Java.

Instrucciones

1 Haga clic en el archivo Java que desea utilizar para analizar la información PDF. Haga clic en "Abrir con" y elija el editor de Java.

2 Importar la biblioteca de lector de PDF. Agregue el código siguiente al principio del archivo de Java para importar la biblioteca:

com.asprise.util.pdf.PDFReader importación;

3 Abra el archivo PDF. El analizador se encuentra en la clase "PDFReader" en la biblioteca que acaba de añadir. Agregue el código siguiente a la función que desea utilizar para analizar el archivo, en sustitución de "thepdf.pdf" con su propio nombre de archivo PDF:

PDFReader pdf = new PDFReader (nuevo archivo ( "thepdf.pdf"));
pdf.open ();

4 Analizar el texto del archivo PDF. El siguiente código analiza el contenido desde la primera página en el PDF:

Cadena de los contenidos PDF = pdf.extractTextFromPage (0);

Vuelva a colocar el "0" con el número de página que desea extraer del fichero. La primera página comienza en 0, por lo que cada índice de página adicional es el número de página que desea extraer menos 1 para compensar el desplazamiento.

5 Cierre el archivo después de haber terminado el análisis de los datos. El siguiente código cierra el archivo:

pdf.close ();