Tecnología

Inicio

Cómo agregar PAO Dmoz datos a su sitio

Además de ser un lugar práctico para encontrar nuevos sitios web, el proyecto DMOZ Open Directory (ODP) es un sitio impulsado por la comunidad de datos abiertos. Esto significa que los datos están disponibles en su forma cruda en un país libre - como en la libertad y cero precio - licencia para su uso y agregar a su propio sitio. Como siempre y cuando tenga algún conocimiento de programación de computadoras, puede agregar los datos de ODP a su sitio con relativa facilidad.

Instrucciones

1 Elige una categoría que desea mostrar en su sitio. El proyecto DMOZ Open Directory es enorme - hay miles de categorías y cientos de miles de sitios entre los que elegir. La elección de una categoría pequeña, centrado es importante.

2 Navegue hasta RDF índice de DMOZ (Resource Description Framework) en su navegador web (ver Recursos más adelante). Esta página no es la misma que la página principal de DMOZ Open Directory. Es un listado de directorio no gráficamente intensivas de todos sus datos de dominio público.

3 Descargar "categories.txt" haciendo clic derecho sobre el enlace "categories.txt" y seleccionando "Guardar enlace como ..." Este es un listado de todas y cada categoría. Aunque la mayoría son archivos de texto (o archivos de texto comprimido gzip), la mayoría son muy grandes y no es recomendable intentar abrirlos en su navegador web.

4 Buscar a través de este listado con la función de búsqueda de su editor de texto favorito o simplemente navegando en el archivo. Guarde el archivo para su posterior consulta, pues también puede usar esto para generar enlaces a directorios DMOZ o validar los nombres de directorio.

5 Descargar "content.example.txt" haciendo clic derecho sobre "content.example.txt" y seleccionando "Guardar enlace como ..." El archivo XML es un ejemplo del formato de listados de directorios y puede ser leído por cualquier lenguaje de programación o una herramienta con capacidades de análisis XML.

6 Tenga en cuenta que cada sección "Tema" en el archivo contiene una lista de enlaces a páginas relacionadas. En cada sección "Tema" es una serie de secciones "ExternalPage" que contienen más datos sobre los enlaces que aparecen en la sección "Tema". Los datos incluyen información como el título y la descripción del enlace.

7 Descargar los datos completos. Haga clic derecho sobre "content.rdf.u8.gz" y seleccione "Guardar enlace como ..." Este archivo es muy grande - sin comprimir puede ser tan grande como 1 gigabyte. Debido a que es tan grande y ocupa a muchos de los recursos del ordenador, asegúrese de que ya se ha guardado completa y correctamente. Puede que no necesite para descomprimir este archivo, ya que será sin comprimir durante el proceso de análisis.

8 Filtrar los datos. Es probable que sólo desea agregar una pequeña cantidad de estos datos a su sitio, pero con el fin de filtrarla que necesita algún conocimiento de programación (o ayuda) y herramientas básicas de UNIX.

9 Escribir un programa en un analizador XML orientado a flujo y un lenguaje de consulta (como XPath) para adquirir solamente los datos que desea. Por ejemplo, si usted quiere conseguir todas las reseñas de película de la película "The 13th Warrior" de los datos, le tomaría todas las etiquetas Tema cuyos r: campo id es "Top/Arts/Movies/Titles/1/13th_Warrior,_The" así como todas las etiquetas ExternalLinks cuyo campo es el mismo tema.

10 Crear el programa de tomar la secuencia XML de entrada estándar con el fin de utilizar el archivo de datos comprimidos. Utilice un comando similar al siguiente:

gunzip content.rdf.u8.gz | ./my_filter_program

11 Incorporar los datos en su sitio. Si su sitio es un guión, esto puede ser un proceso automatizado. Ahora que tiene una lista de enlaces en un pequeño archivo XML, puede analizar este archivo en tiempo de ejecución para generar una lista de enlaces o copiar y pegar la lista de enlaces en su sitio web.

12 Automatizar el proceso. El proyecto DMOZ Open Directory es un proyecto en curso. Enlaces mueren y se eliminan y se añaden nuevos enlaces. Cuando los cambios de base de datos, es mejor tener todo el proceso automatizado en un archivo de secuencia de comandos para el objeto de actualizar la lista de enlaces, sólo tiene que ejecutar el archivo de script de nuevo.

Consejos y advertencias

  • Se requiere un analizador XML orientado a la corriente (o analizador "SAX") debido al tamaño del archivo. Un analizador DOM XML no se puede utilizar en este caso, ya que requeriría muchos gigabytes de memoria RAM y un analizador de flujo puede hacer lo mismo.