Tecnología

Inicio

Cómo código para extraer el texto de un archivo DOCX

Cómo código para extraer el texto de un archivo DOCX


En el mundo de la programación, saber leer el formato de archivo de Microsoft Word DOCX le puede ahorrar tiempo cuando se necesita contenidos en un archivo DOCX. DOCX es un nuevo formato disponible en Microsoft Office 2007 y mayor. Este formato es compatible con estándar XML, el cual fue desarrollado para estas versiones de productos de Microsoft Office. XML es simplemente un conjunto de reglas de codificación de documentos tales como un DOCX. Puede utilizar Microsoft Visual Basic .NET (VB.NET) para leer y mostrar el contenido de un archivo DOCX.

Instrucciones

1 Abra Microsoft Visual Basic Express y seleccionar "Nuevo proyecto ..." en el panel izquierdo de la pantalla. Haga clic en "Visual Basic" en "Plantillas instaladas" y haga doble clic en "Aplicación de consola."

2 Haga clic en el panel "Herramientas" y haga doble clic en "botón" para añadir un nuevo botón a su formulario. Haga doble clic en "Cuadro de texto" para añadir un nuevo control de cuadro de texto al formulario.

3 Haga clic en el menú "Proyecto" y seleccione "<proyecto> Propiedades". Haga clic en "Referencias", a continuación, seleccione "Agregar". Seleccione "NET" y haga clic en "DocumentFormat.OpenXml." Haga clic en Aceptar." Haga doble clic en "Button1" para abrir la ventana de VB.

4 Copia y pega el código siguiente en la parte superior de su módulo de VB.NET para declarar los espacios de nombres:

Imports System.IO

Las importaciones DocumentFormat.OpenXml.Packaging

Las importaciones DocumentFormat.OpenXml.Wordprocessing

5 Copia y pega el siguiente código en "Button1" para definir la ruta y el documento que desea abrir:

Dim strDoc As String = "C:\docxFile.docx"

Dim txt As String

Dim corriente como corriente = File.Open (strDoc, FileMode.Open)

Editar la siguiente línea de código y escriba la ruta y el nombre de su documento:

Dim strDoc As String = "C:\docxFile.docx"

6 Copia y pega el siguiente para llamar al procedimiento para leer realmente el documento:

OpenAndAddToWordprocessingStream(stream, txt)

stream.Close ()

7 Copia y pega el siguiente para mostrar el texto leído en el control de cuadro de texto:

Me.TextBox1.Text = txt

8 Copiar y pegar el siguiente procedimiento para abrir el archivo DOCX y devolver los contenidos leídos:

Public Sub OpenAndAddToWordprocessingStream(ByVal stream As Stream, ByRef txt As String)

Dim wordprocessingDocument Como WordprocessingDocument = wordprocessingDocument.Open (corriente, True)

Como cuerpo tenue Cuerpo = wordprocessingDocument.MainDocumentPart.Document.Body

txt = body.InnerText.ToString

wordprocessingDocument.Close ()

End Sub

9 Pulse la tecla "F5" para ejecutar el programa, a continuación, haga clic en "Button1" para ejecutar el código.