-
Cómo leer una página web utilizando Python
-
Esto le mostrará cómo leer una página web desde un script en Python, se proporciona una URL.
Instrucciones
1 Instalar el constructor pitón de aquí. Es gratis.
http://www.python.org/download/releases/2.5.2/
2 Después de haber instalado Python se puede ejecutar desde el menú de inicio
Python 2.5 - IDLE (Python GUI)
3 Una vez que la aplicación se abre, se ve como el bloc de notas. Seleccionar archivo en el menú en la parte superior y una nueva ventana. Esto abrirá una nueva ventana de texto que puede guardar su código Python para.
4
Copia el código de seguimiento en la nueva ventana que se acaba de abrir.shutil importación
import os
tiempo de importación
fecha y hora de importación
import math
urllib importación
de tabla de importación matrizgestor de archivo = urllib.urlopen ( 'http://www.loothog.com')
En las líneas de filehandle.readlines ():
print lines
filehandle.close ()
5 Seleccione Archivo - Guardar, y el nombre de su archivo que desea nada.
6 Presione F5 para ejecutar el código.Para detener el programa se ejecute, haga clic en la primera ventana que se abre y seleccionar en el menú de Shell - Reiniciar Shell
7 Puede guardar todas esas líneas en un archivo de texto mediante la modificación del código para tener este aspecto.
myFile = open ( "test.html ',' w ')
En las líneas de filehandle.readlines ():print lines
myFile.write(lines)myFile.close ()
filehandle.close ()8
Tal vez usted tiene algunas cotizaciones de acciones que parecen esto
AAAC, D, 20071210,8.2,8.2,8.2,9.5,1000y quiere conseguir el precio de cierre de 9,5, entonces se puede dividir en la alineación de las comas y el acceso sólo el 9,5 como este
myFile = open ( "test.html ',' w ')
En las líneas de filehandle.readlines ():section = lines.split(',')
print str(sections[6].strip())
myFile.write(str(sections[6].strip()))myFile.close ()
filehandle.close ()Nota: La str () convierte el número en una cadena y la .strip () quitará espacios en blanco adicionales al final.
Consejos y advertencias
- Las líneas después "para las líneas en filehandle.readlines ():" están sangrados 5 espacios.