Tecnología

Inicio

Cómo: expresión regular para analizar XML

Cómo: expresión regular para analizar XML


Análisis de XML representa un desafío para el analizador de texto a los posibles debido a la extensibilidad de XML. convenciones de formato XML son de naturaleza jerárquica, es decir, algunas etiquetas dominan otras etiquetas. Las expresiones regulares (expresiones regulares) identificar patrones de texto XML - Una expresión regular para coincidir etiquetas XML coincidirá con todo dentro de las etiquetas XML <>, pero no mostrarán la organización jerárquica de estas etiquetas. Es posible separar esta estructura de la etiqueta del texto utilizando el lenguaje de programación Python y el paquete de lenguaje natural Toolkit, que incorpora expresiones regulares y manipulación de texto y puede mostrar las etiquetas XML y su organización.

Instrucciones

1 Abra una ventana de terminal y escriba el comando "pitón -v" en el indicador para comprobar la presencia y la versión de Python en su ordenador. Ir a la página principal NLTK y descargar el paquete de instalación NLTK apropiado para su sistema operativo. Comprobar que se ha instalado correctamente NLTK introduciendo el comando ">>> NLTK importación" en el indicador de Python.

2 Tipo ">>> nltk.download ()" para abrir una ventana. Elija la fila denominada "todos" y haga clic en el botón de descarga. Esto descargará una serie de textos para trabajar con NLTK, entre ellos de Shakespeare "El mercader de Venecia" formateado con etiquetas XML especiales para obras de teatro.

3 Importe el comerciante de Venecia etiquetado en XML con el siguiente comando en el indicador de Python:

merchant_file = nltk.data.find ( 'corpus / Shakespeare / merchant.xml')

Asignar el archivo de una variable para que pueda manipularlo con comandos de Python:

prima = abierto (merchant_file) .read ()

Sólo para asegurarse de que está ahí, introduzca el siguiente comando para ver los primeros 168 caracteres:

imprimir prima [0: 168]

Podrás ver las etiquetas de cabecera XML y las etiquetas especiales de reproducción XML.

4 Introduzca el siguiente comando en el indicador de Python:

de nltk.etree.ElementTree elementtree importación

y pulse "Return", a continuación, escriba lo siguiente en el indicador de Python:

comerciante = elementtree (). analizar (merchant_file)

El comando de análisis permite al usuario ver las etiquetas XML y su contenido. Para construir una visión jerárquica de etiquetas XML anidados correctamente, introduzca el siguiente comando en el indicador de Python:

merchant.getchildren ()

Esto le mostrará todas las etiquetas especiales de reproducción XML en su orden jerárquico. El resultado de este comando debe tener este aspecto:

[<Elemento título en 2261b48>, <Elemento PERSONAE en 2261b20>, <Elemento SCNDESCR en 22cc260>, <Elemento PLAYSUBT en 22cc198>, <Elemento ACT en 22cc0f8>, <Elemento ACT en f2bff08>, <Elemento ACT en f3218a0>, <Elemento ACT en f0e8a30>, <Elemento ACT en ee07328>]