Una de las características más interesantes en Internet y su componente más conocido, que es la WWW, es que hay cientos de millones de páginas Web disponibles y esperando a proporcionar información en una gran variedad de temas. El problema es exactamente el mismo que lo que acabamos de decir, que hay cientos de millones de páginas disponibles, muchas de ellas con nombres que no tienen nada que ver con el tema del que hablan. A su vez, muchas páginas en Internet están hospedadas en servidores Web con nombres irreconocibles y sin una lógica aparente.
Cuando necesitas saber algo sobre un asunto en particular ¿Cómo sabes qué páginas leer? Por regla general, harás uso de los buscadores de Internet. Los buscadores de Internet son sitios Web especiales que están diseñados para ayudar a la gente a encontrar información almacenada es otros sitios. Hay diferencias en las maneras en que los buscadores trabajan, pero todos ellos realizan tres tareas básicas. Estas tareas son buscar en Internet o seleccionar partes de la red basándose en palabras importantes. Mantiene un índice de las palabras que encuentra y donde las encuentra. Permite a los usuarios buscar palabras o combinaciones de las palabras en ese índice.
Los primeros buscadores de Internet tenían unos índices de cientos de miles de páginas y documentos, y recibían quizá mil o dos mil peticiones a diario. Hoy en día, los principales buscadores tienen indexados cientos de millones de páginas y responden a millones de peticiones a diario.
¿Cómo hacen todo esto en una red tan inmensa y compleja sin equivocarse? Cuando la mayoría de la gente habla de los buscadores de Internet, lo que realmente quieren decir es buscadores del World Wide Web. Antes de que la Web se volviera la parte visible, ya había buscadores para ayudar a la gente a encontrar información en la red. Programas con nombres como “gopher” y “Archie” mantenían índices de archivos almacenados en servidores conectados a Internet, y reducían mucho el tiempo para encontrar documentos y programas. A finales de los años ochenta, estos eran algunos de los buscadores más populares para poder navegar por Internet sin perderse.
Hoy en día, la mayoría de los usuarios limitan sus búsquedas en la Web comentada al principio. Antes de que un buscador de Internet te pueda decir donde está un archivo o documento, tiene que encontrarlo. Para encontrar información entre millones de páginas virtuales existentes, los buscadores usan un software especial conocidos como “spiders” o arañas, que realmente podemos llamar rastreadores.
Lo que hacen es construir listas de palabras que encuentra en la Web. Cuando un rastreador está construyendo sus listas, tiene que revisar un buen número de páginas para que las listas sean realmente útiles. ¿Cómo empieza un rastreador su viaje por la red? Los puntos de comienzo más usuales son listas de servidores muy usados y páginas muy populares.
El rastreador empezará con un sitio Web muy popular haciendo un índice en sus páginas siguiendo cada enlace que encuentre en los sitios que va revisando. De esta manera, el sistema de rastreo rápidamente comienza a viajar esparciéndose por las partes más usadas de la red.
Google comenzó como un buscador académico. En el documento que describe como el sistema fue construido, sus creadores mostraron como de rápido funcionaban sus rastreadores. Construyeron su sistema inicial para que usara varios rastreadores, normalmente tres al mismo tiempo. Cada rastreador podía mantener sobre 300 conexiones a páginas de Internet al mismo tiempo.
A Pleno rendimiento, usando cuatro rastreadores, su sistema podía verificar cientos páginas por segundo, generando más de quinientos kilobytes de datos por segundo. Tener todo funcionando de una forma dinámica y rápida significa construir un sistema que alimente con información a los buscadores. El primer sistema de Google tenía un servidor dedicado para proveer de URLs a los rastreadores. En lugar de depender de un ISP (proveedor de Internet) para traducir los nombres de los servidores mediante un DNS, Google tenía su propio DNS para poder mantener los retrasos al mínimo.
Cuando el rastreador de Google echaba un vistazo a una página HTML, tomaba nota de dos cosas, que eran las palabras que contenía la página y donde se encontraban las palabras. Las palabras que se encontraban en el título, subtítulo, etiquetas y otras posiciones de relativa importancia, eran anotadas para una consideración especial durante una búsqueda.
El rastreador fue construido para indexar cada una de las palabras significativa en la página, dejando otras palabras menos relevantes fuera (como los artículos “el”, “la”, “lo”, etc.). Otros rastreadores lo hacen de otra manera. Hay otras formas de hacerlo donde los rastreadores solo miran las etiquetas en la cabecera y las palabras más frecuentes que se usan en la página y cada palabra en las veinte primeras líneas de texto. Otros sistemas indexen cada palabra en la página, incluyendo los artículos y otras palabras menos relevantes para la búsqueda.
De todos modos, uno de los elementos más importantes son las etiquetas, las cuales explicaremos en el siguiente artículo. También veremos como se construye el índice. Haz clic en el botón para ver la siguiente parte del artículo: