Tecnología

Inicio

Cómo utilizar Apache rastreo mediante Java

Apache Nutch es una aplicación de rastreador Web de código abierto escrito en el lenguaje de programación Java. Fue desarrollado por la Apache Software Foundation. Para utilizar el rastreador desarrollado por Apache, debe tener Apache Tomcat y Java 1.4 por Sun o IBM instalado en su ordenador con Linux. Una vez instalado, use Apache Nutch como un buscador web para sembrar una base de datos con una lista de direcciones de un sitio web, al igual que los gigantes de Internet como Google y Yahoo hacen con sus motores de búsqueda.

Instrucciones

1 Abra un editor de texto y editar el archivo "arrastre-urlfilter.txt" en el directorio "conf". Vuelva a colocar el nombre de dominio con el nombre del sitio web que desea rastrear. Por ejemplo, la línea completa de texto debe tener este aspecto una vez editado, con el nombre de dominio real en lugar de "example.com":

+ ^ Http: // (. [A-z0-9] * \) * example.com /

2 Poner en marcha la línea de órdenes en el equipo y realizar un rastreo del sitio web designado. Tipo "./nutch rastreo ../urls -dir ../crawled/ -depth 1" y pulsar la tecla "Enter".

3 Iniciar el servidor Apache Tomcat. Tipo "catalina.sh comenzar" en el símbolo y pulsa el botón "Enter".

4 Abra un navegador Web y visite "http: // localhost:. 8080 / & quot; para acceder a la función de búsqueda Escriba una o más palabras clave en el cuadro de búsqueda de la interfaz y haga clic en el botón" Buscar "Los resultados de la búsqueda se muestran en el. siguiente página.