Tecnología

Inicio

Google araña Teoría

Con el fin de crear y mantener su base de datos de páginas web, Google utiliza programas automatizados llamados arañas o rastreadores Web, para atravesar la Internet y registrar información acerca de los sitios. Estas arañas descarga páginas a medida que viajan, la recogida de la información para la tabulación en la base de datos del motor de búsqueda. Google utiliza un sistema único para clasificar y ordenar las páginas de sus arañas descubrir, y que el sistema ha sido una de las razones de la popularidad del motor de búsqueda y el éxito en los últimos años.

arañas

arañas web comienzan su viaje a través de Internet con un conjunto de direcciones URL de siembra previstas por su creador. El programa de visitas de la primera página de la lista, las transferencias directas, y toma nota de los hipervínculos en la página, añadiéndolos a la parte inferior de la lista. Luego se visita la página siguiente y se repite el procedimiento. A medida que el programa se desplaza, se acumula una lista de URL vinculados a visitar, y si se deja correr indefinidamente con el tiempo se descarga cada página en el Internet que es accesible a través de hipervínculos. Las arañas también suelen tener un algoritmo que los envía de vuelta a las páginas después de un período determinado, a su instrucción para cualquier cambio.

Rastreo Web temprana

Cuando los motores de búsqueda comenzaron a utilizar arañas para catalogar las páginas web, los algoritmos implicados eran simples. Los primeros motores de búsqueda clasifican las páginas por la frecuencia con una determinada palabra clave aparece en la página, en el supuesto de que más repeticiones significaban más información sobre el tema seleccionado. autores de la tela aprendieron rápidamente a abusar de este sistema, sin embargo, por una práctica conocida como relleno de palabras clave. creadores de páginas usarían palabras clave varias veces en el texto, y a veces ocultar grandes bancos de palabras clave de texto invisible en algún lugar de la página para inflar sus clasificaciones.

google

En 1996, los estudiantes de Stanford, Larry Page y Sergey Brin decidieron la metodología actual de motores de búsqueda era demasiado fácil de manipular y producir resultados de calidad inferior. Propusieron un nuevo sistema que tenga en cuenta la relación entre las páginas Web en lugar de sólo contar palabras en una página. Sus arañas podrían contar el número de enlaces que apuntan a una página determinada y utilizar esa cifra como una representación del valor relativo de la página, en el supuesto de que las páginas de alta calidad, naturalmente, reunir muchos de estos "retroceso" en la comunidad en línea. Inicialmente, llamaron a su motor de búsqueda "BackRub", pero eventualmente se cambie su nombre por "Google", ya que pasó de ser un proyecto de la universidad en un nuevo negocio.

Rango de página

sistema de PageRank de Google cuenta hipervínculos a una página como "votos de apoyo." Cuanto más apoyo a una página tiene, mayor es su ranking. A medida que aumenta el rango de una página, lo mismo ocurre con el peso de sus votos, lo que significa que un solo voto de un alto rango página puede significar más de múltiples votos de los sitios menos prominentes. Este sistema reduce el énfasis en la práctica de inflar su PageRank mediante la creación de una serie de páginas de bajo contenido de todos apuntando a un solo objetivo, y puede permitir que las páginas web a cohete a través de las filas meramente atrayendo la atención de otros sitios de alto rango.