Mecanismos/motores de búsqueda: ¿qué es lo que buscan?

Es bien sabido que los motores de búsqueda y los índices han surgido como herramienta para ayudar a encontrar información en el enorme y rápidamente creciente volumen de páginas web: su origen se inscribe en el contexto académico, al igual que ocurrió con la propia Red, para pasar posteriormente al escenario comercial.

El primer paquete de software que aparece como motor de búsqueda es Archie, desarrollado en la universidad Mc Gill (Montreal) en 1990 y cuyo modo de funcionamiento se basaba en buscar en los ficheros de servidores Internet FTP; poco más tarde, surgen Veronica en 1992 y Jughead en 1993, el primero desarrollado en la universidad de Nevada y el segundo en la de Utah.
Hoy día el motor de búsqueda aparece con fuerza en el ámbito comercial donde se ha convertido en una herramienta enormemente extendida y utilizada: se calcula que en torno al 70% de los usuarios de Internet utilizan motores de búsqueda; Yahoo, Infoseek, Excite, Lycos y AltaVista aparecen como los buscadores más utilizados. Se observa, por otra parte, una migración, en el negocio de los buscadores, hacia el concepto de portal, un entorno o “habitáculo” en la Red donde el usuario puede acceder no sólo a búsquedas sino a un abanico de servicios como, por ejemplo, información sobre diversos temas, información meteorológica, información bursátil/financiera, tiendas, etc.), comercio electrónico o entornos de chat.

Funcionamiento
El modo de funcionamiento de un motor de búsqueda se basa en visitar las páginas e indexarlas siempre según el interés del usuario que ha sido expresado mediante unas determinadas palabras clave usando operadores booleanos como and/or/not (en realidad, los motores más tradicionales se basan en los mecanismos de búsqueda booleana que surgieron en los años 60): el motor atraviesa los lugares, localiza páginas, las analiza y, después, construye índices, elabora un ranking sobre lo encontrado y lo devuelve al usuario. En la aproximación más primitiva el motor cuenta las veces que la palabra/palabras clave que ha dado el usuario aparecen en las páginas que visita y esto se considera un criterio de adaptación a los intereses de la búsqueda del usuario en términos de relevancia/importancia de página.
También se buscan palabras clave en metatags (un tag HTML que proporciona información relativa a contenidos y palabras clave sobre las páginas). Cuando el usuario utiliza el motor para encontrar la información que le interesa, lo que se le proporciona finalmente es una lista de páginas por orden de importancia/relevancia.

El problema
Es fácil ver que el problema fundamental, en este contexto de los motores de búsqueda, es que no existe modo de garantizar, de momento, en el mercado, que las páginas que se han obtenido sean realmente las más relevantes y que el ranking obedezca a la realidad en términos de la relevancia de la información que se proporciona. Es decir, dado el estado del escenario actual, el problema que se plantea de forma más inmediata consiste en tratar de obtener una explicación razonada en detalle, en definitiva, en tratar de conocer el fundamento de por qué el motor proporciona unas páginas y no otras, o lo que es lo mismo, se trata de resolver el problema de la asignación de relevancia a las páginas que se escanean durante la búsqueda.
Este problema surge fundamentalmente, además de por las propias limitaciones de la tecnología en su estado actual, porque existen también claros intereses, por parte de los propietarios de las páginas web, en que sus páginas aparezcan en la búsqueda y que aparezcan en la mejor posición. Este interés, legítimo en principio, puede dejar de serlo cuando se utilizan mecanismos que distorsionan la realidad en ese afán por aparecer en los procesos de búsqueda. A modo de ejemplo de esas malas prácticas se puede citar el bien conocido spamming que consiste en que el creador de la página web inserta palabras clave de forma múltiple para aumentar la probabilidad de que su página sea recogida en las búsquedas, esa inserción no es detectable por un usuario pero sí por el spider. Es decir, algunos motores de búsqueda incorporan mecanismos para detectar este tipo de actuación según afirman sus autores.
Otras prácticas indeseables sobre las que hay menos evidencias, se refieren, según la información que circula en este contexto, a supuestas ventas de posiciones en el ranking, o bien a otros tipos de negociación. A este problema, que era de esperar que ocurriera, dado que, en su concepción, se puede considerar de carácter antropológico (la lucha por el poder, esta vez con una nueva tecnología) y máxime teniendo en cuenta las cifras de negocio que se están moviendo en la Web, se une el hecho bien reconocido y consensuado de que las estrategias que siguen los motores de búsqueda no son lo suficientemente transparentes como para garantizar que realmente proporcionan lo que se busca.
No garantizan de forma rigurosa, que los intereses del motor de búsqueda y los del usuario coincidan. Y, obviamente, resultaría ligeramente arriesgado afirmar que la satisfacción del usuario es una medida de la excelencia del sistema, debido a que el usuario no puede conocer qué es lo que no se le ha proporcionado y si en ese grupo de información excluida existe algo que realmente encaja con sus intereses. Por otra parte, se ha comprobado que el usuario típico de Internet utiliza palabras clave en su búsqueda que son de carácter muy generalista y que incluso pueden dar lugar a diferentes interpretaciones lo cual genera un grado más de complejidad debido a que se van a recibir demasiados resultados y muchos de ellos irrelevantes. Este problema concreto no aparece de forma acuciante con un usuario experimentado capaz de elaborar una estrategia de búsqueda mediante palabras clave y combinaciones de ellas con un razonable nivel de especificidad.

Estrategias y conceptos
La estrategia general del motor de búsqueda es normalmente pública, pero el detalle permanece prácticamente siempre secreto, un detalle que se refiere a qué lugares se visitan y con qué frecuencia. En cualquier caso, a partir del comportamiento de los spiders se puede llegar a deducir los algoritmos en que se basa su funcionamiento.
Básicamente, un motor de búsqueda se puede describir como un programa de software conformado por tres elementos fundamentales; el crawler, conocido también como spider, el índice y el software de búsqueda. Un spider (araña) o crawler es un programa o robot de software (softbot) que peina la Web buscando información al mismo tiempo que crea índices de URLs, palabras clave, enlaces y textos.
En el proceso de búsqueda el software del motor recorre el índice para encontrar las páginas que encajan en su descripción con las palabras clave dadas por el usuario y coloca esas páginas según un determinado orden (creado por el motor) que es lo que se le proporciona al usuario.
Los crawlers son elementos característicos de los motores de búsqueda automatizados pues son esos robots de software o softbots los que escanean los lugares web. La filosofía/concepción de funcionamiento de los motores basados en crawlers se basa en empezar con la URL para una página inicial que podremos llamar P0; el crawler recoge (retrieve) esa P0, extrae las URLs que hay en ella y las añade a una cola de URLs que van a ser escaneadas. El crawler va tomando las URLs de la cola siguiendo un orden predeterminado y se repite el proceso. El crawler, o lo que es lo mismo, el motor, tiene que decidir qué URLs va a escanear y en qué orden (el problema de la relevancia/importancia de la página) y además tiene que ser capaz de monitorizar la Web en el sentido de poder informar acerca de los cambios que se han producido para lo cual debe dirigirse a las páginas ya visitadas con una frecuencia que debe predeterminarse en base a modelización estadística, en concreto a técnicas aleatorias.
Esta necesidad de detectar los cambios que se producen en la Web se está convirtiendo en un elemento de creciente importancia: el carácter dinámico de la Web es cada día más patente, con páginas que desaparecen (aproximadamente el 5% de los resultados de una búsqueda pueden referirse a lugares ya desaparecidos) y páginas que cambian sus contenidos (a un ritmo que es necesario monitorizar así como qué tipo de cambio se produce), lo que introduce un factor más de complejidad al simple crecimiento. Se está creando un escenario con un carácter cada día más dinámico que es necesario monitorizar cuidadosamente si se pretende que el motor de búsqueda mantenga unos niveles de prestaciones razonables en términos de ofrecer una visión real de qué es lo que hay realmente en la Web y para qué sirve.
Existen otros motores de búsqueda que no utilizan crawlers y, en consecuencia, no trabajan con los índices mencionados anteriormente; estos motores, conocidos como directorios en base a su modo de comportamiento más convencional trabajan utilizando descripciones de las páginas proporcionadas por los propietarios/autores del lugar web y los responsables/propietarios del motor revisan la página actuando como “references” o árbitros que juzgan su excelencia y conveniencia y en base a esa revisión se incluye o no la página. En este tipo de motores los cambios en las páginas web se detectan sólo si el propietario lo comunica ya que no existen crawlers que lo hagan de forma automática. Entre los motores que usan crawlers están AltaVista (que puede describirse como un motor basado en indexación terminológica) y HotBot. Yahoo, que utiliza directorios, puede describirse como una extensa taxonomía de temas, basada en árbol donde cada nodo del árbol corresponde a un tema específico y aparece conformado por las páginas web consideradas relevantes; esta taxonomía de temas aparece compilada de forma manual donde las listas de recursos las crean equipos de ontólogos.

El tamaño no importa
Tradicionalmente, los motores de búsqueda se han comparado frente al número de páginas capaces de indexar, que es lo que se conoce como tamaño del motor, algo que ha venido dado normalmente sólo por la declaración de los propietarios del motor, es decir, la calidad del motor se ha asociado prácticamente sólo a su tamaño.
Actualmente se están buscando formas de medir esa calidad, o sea, métricas, que funcionan con criterios más objetivos y más representativos de la realidad, es decir, se buscan métodos para medir, de una forma objetiva, el tamaño real del motor. La tendencia aparece, en definitiva, en la búsqueda de métodos rigurosos, del ámbito de la investigación científica, para evaluar las prestaciones de estos motores. De hecho, la tecnología de búsqueda en la Web, que cubre áreas como las ya bien conocidas de information retrieval (extracción de información) o search&indexing techniques (técnicas de búsqueda e indexación), constituye un tema de máximo interés en la comunidad científica internacional del área Internet y tecnologías de la información, algo que se observa por el importante aumento de artículos publicados en la literatura científica. A modo de ejemplo, cabe citar que en los Proceedings de la segunda conferencia internacional WWW de 1998, el 20% de los artículos presentados se referían a information retrieval y el 17% a search&indexing techniques, lo que constituye prácticamente el doble de artículos que en otras áreas más extensas y consolidadas.
Es importante señalar que el tema del análisis de la búsqueda en la Web no tiene por qué inscribirse en un marco político determinado acerca del papel de estado en la sociedad y en la vida económica. El hecho de que se acepte, por ejemplo, que sean las leyes del mercado las que gobiernen completamente la economía, nada tiene que ver o no tiene por qué enfrentarse a una exigencia en términos de rigor científico demostrable en el proceso de concepción y desarrollo del producto (en nuestro caso el motor de búsqueda) que puedan garantizar su eficacia y su propósito y que constituye un valor añadido para el fabricante del motor.

Hablemos de la eficacia
En el tema de los motores de búsqueda se han identificado tres aspectos clave para definir su eficacia y/o excelencia:
1) Tamaño (cuántas páginas recorre).
2) Importancia o relevancia (qué páginas considera importantes y, en consecuencia las envía al usuario).
3) Ranking (en qué orden presenta al usuario esas páginas).
Resulta obvio que el tamaño y, para mayor abundamiento un tamaño preconizado por los propietarios del motor, sirvió en su momento como prácticamente único criterio, pero hoy día está dando paso a otros criterios debido a que el tamaño actual de la Web, su velocidad de crecimiento y cambio han modificado el escenario de una manera notable.
El tamaño ha dejado de ser el factor fundamental para evaluar el motor de búsqueda debido a que, el motor no puede adaptarse al ritmo de crecimiento de la Web. El tamaño de la Web se estima actualmente en más de 350 millones de páginas web y de esos 350 millones los motores de búsqueda, en su estado actual, pueden llegar a contemplar en torno a 140 millones como máximo.
El crecimiento de la Web conlleva que cada vez se necesite más espacio de almacenamiento en el que alojar un número cada vez mayor de páginas y más potencia de procesamiento para poder trabajar con ellas. Además, aunque se consigan estos objetivos con relativa facilidad, el resultado no estaría a la altura del esfuerzo en términos de utilidad para el usuario. No se trata de cubrir muchas páginas sino de localizar con rapidez las que interesan.
Los criterios de excelencia se desplazan hoy día hacia el tema de la indexación y el ranking. Se ha comprobado, a través de estudios, que el usuario clásico de un motor de búsqueda es más bien impaciente, se centra normalmente en la primera página de los resultados que le proporciona el motor y que, en cuanto encuentra la primera información que se adecua a sus intereses no continúa viendo las siguientes páginas ofrecidas por el buscador. A parte, el 60% de las consultas se hacen con una o dos palabras clave lo cual indica que el tipo de información demandado con más frecuencia es de carácter muy general, con un débil nivel de especificidad, lo cual conlleva que el motor no tendrá que buscar, de momento, páginas muy concretas, “raras”, para las que tenga que rastrear fuertemente la Web. Al contrario, accederá fácilmente a las páginas que contienen la información buscada, aunque esto da lugar a que se generen muchas páginas como respuesta a la búsqueda y que gran parte de ellas sean irrelevantes.
La posible controversia aparece más bien en temas relativos a cómo se construye el ranking o a la propia indexación, es decir, cómo se decide qué páginas son las más relevantes o importantes para el usuario y consecuentemente cómo se asigna la calidad a las páginas. Esta necesidad de tener que decidir qué páginas son las más importantes viene del hecho de que el motor no puede visitar todas las páginas web existentes y por lo tanto, se necesita realizar una selección en respuesta a un determinado mecanismo de decisión. Aunque el motor pudiera visitar todas las páginas no podría resultar nunca viable pues el tiempo que se necesitaría para hacer esto nunca sería suficiente ya que al cabo de un cierto tiempo de funcionamiento, antes de visitar todas las páginas, debería volver a visitar las primeras páginas para encontrar cambios, con lo que habría páginas que nunca podrían ser visitadas. Hay que tener en cuenta que la magnitud de los cambios en la Web es extremadamente elevada, en torno a los 100 GB.
Estos factores surgen de un perfil de usuario que hoy día resulta el modelo típico, un usuario con intereses generales, poco experimentado y que es de esperar que evolucione rápidamente. La evolución de ese usuario en lo que se refiere a su forma de interrogar la Web determinará la vigencia de lo anterior respecto a tamaño-calidad del motor. Por otro lado, la aparición de motores con un mayor nivel de sofisticación hará evolucionar también el perfil del usuario, todo ello en base a un modelo de relaciones sinérgicas.

Hacia un modelo objetivo
Si se acepta el criterio de la calidad de índice como criterio fundamental para evaluar un motor de búsqueda es necesario desarrollar modelos objetivos y rigurosos para establecer ese criterio de forma que sea aplicable de forma coherente y sin ambigüedades. Que la aplicación de esos modelos recaiga en organismos independientes gubernamentales o no, o incluso que esos modelos se apliquen o no, constituye un tema secundario. Lo importante realmente es que esos métodos existan, que el usuario sepa que existen y, a partir de ahí dejar al mercado libre. El usuario será libre de escoger un motor u otro dependiendo de la credibilidad que puedan ofrecer en materia de rigor científico en su concepción y funcionamiento.
El tema de la construcción de un esquema relativo a la calidad en la indexación de un motor constituye un tema de investigación muy activo dentro las diferentes áreas que afectan a los motores de búsqueda. Existen una serie de líneas fundamentales a partir de las cuales se generan trabajos de refinamiento y, dentro de estas líneas fundamentales, se puede citar la asociada al motor de búsqueda de Google y a Rankdex basado en el PageRank ranking que indica que la medida de la calidad de una página viene dada por el número de páginas que la referencian o, lo que es lo mismo, por el número de enlaces. Dicho de otro modo, un enlace desde una página A a una página B significa que el propietario/autor de A recomienda a B. Sobre esta idea se han generado variaciones como PageRank que evalúa la calidad no sólo en términos del número de enlaces que apuntan a una página sino también del número de enlaces que apuntan a los primeros. Es decir, si a la página B le apuntan enlaces de páginas A1....AN, la calidad de B viene medida no sólo en función de esos A1... AN que apuntan a B sino también de los enlaces C1.....CN que apuntan a A1, de D1....DN que apuntan a A2, y así sucesivamente.
Es fácil observar que el concepto asociado a este modelo de evaluación proviene del esquema de citaciones (referencias) en el que los autores de un trabajo citan a otros autores en los que, por regla general, basan o enmarcan su propio trabajo; este esquema de citaciones ha sido utilizado históricamente en la literatura científica y sigue vigente a pesar de las controversias que indudablemente genera. Un ejemplo bien conocido es el SCI (Science Citation Index) del ISI (Institute for Scientific Information) que se utiliza ampliamente para medir la calidad de las publicaciones científicas. Un esquema que ha sido importado, a su vez, del ámbito de la jurisprudencia en el sentido de que la estructura legislativa se va creando a partir de la jurisprudencia impartida (donde las sentencias actúan como referencias/citaciones). El problema aparece aquí, y esto no es aplicable sólo a la Web, en qué tipo de criterio se utiliza para citarse. Los trabajos más brillantes tardan tiempo en ser referenciados, algo que el propio ISI reconoce e incluso recomienda que el sistema se utilice con cautela, debido a que la citación es una medida objetiva pero no es un espejo absoluto de lo que es la calidad. Esta problemática, trasladada a la Web aparece, como mínimo con la misma fuerza.
Google, que es el sistema que se puede considerar el núcleo generador de estos enfoques, fue desarrollado en el seno de la universidad de Stanford: de una manera resumida se puede describir como un sistema que utiliza un crawler al que sus autores (Sergei Brin y Lawrence Page) han llamado Googlebot que se dedica a buscar hyperenlaces. Cuando se produce una petición de búsqueda sobre un determinado tema, el sistema se dedica a buscar las páginas que tienen enlaces con otras páginas relevantes en el tema gracias a técnicas como, por ejemplo, la aproximación textual o text-matching. En concreto, Google calcula, en primer lugar, una puntuación (score) que llama PageRank para cada página que indexa. La puntuación de cada página se asigna al componente del autovalor principal de una matriz M que aparece como una matriz adyacente con una constante muy pequeña que se añade a cada entrada. PageRank es el sistema que genera el ranking de los resultados (páginas) que se proporcionan al usuario.

Tecnologías y filtros
Dentro del estado del arte en el campo de productos comerciales (no de investigación científica) en términos de motores que utilizan técnicas que incorporan mecanismos avanzados (aunque ya probados en el mercado) cabe citar a iAtlas y Northern Light. Estos utilizan una tecnología de filtrado para tratar de conseguir las páginas más relevantes al soslayar en cierta medida el problema del carácter generalista de las palabras clave que se utilizan habitualmente. El usuario introduce, al mismo tiempo que las palabras clave, unos impresos electrónicos que reducen el espacio de búsqueda. Por ejemplo, les da opción a indicar que su búsqueda se ciñe a determinadas zonas geográficas o determinados entornos de actividad o aspectos industriales.
El lenguaje natural constituye un elemento que presenta un futuro indudable aunque algo lejano en toda su extensión debido a dificultades de carácter tecnológico ya que se necesitan importantes esfuerzos en la investigación y desarrollo de algoritmos de procesamiento de lenguaje natural: su funcionamiento se basa en analizar la estructura gramatical de la pregunta en términos de significado (en el mercado está ahora AskJeeves). El punto fuerte de estos sistemas aparece en el hecho de gran parte de las preguntas que se plantean a un motor de búsqueda están estructuradas de la misma forma.
Por otra parte, IBM ha desarrollado el motor Clever basado en un algoritmo que sus autores denominan HITS (Hyperlink-Induced Topic Search); su concepción se basa en contemplar la Web como un grafo directo.
En HITS se establece una jerarquía, a las páginas con muchos enlaces se les da el nombre de autoridades que aparecen como las páginas que constituyen la mejor fuente de información sobre un determinado tema; las páginas que enlazan con las autoridades reciben el nombre de hubs y se consideran herramientas de referencia. El algoritmo de HITS se desarrolla en dos partes o fases:
1) Fase de muestreo donde se construye un conjunto de páginas con una probabilidad importante de ser autoridades.
2) Fase de proceso iterativo en la que se determinan las estimaciones numéricas del peso asociado a hubs y autoridades mediante un componente de propagación de peso. De esta forma, el usuario obtiene las páginas hub y autoridades con más peso.
Cabe citar, finalmente y abundando en lo que se ha indicado anteriormente acerca del carácter dinámico de la Web, el problema, de monitorizar los cambios en la Web, un tema que se inscribe en el ámbito de la monitorización de fuentes de información dinámicas y que es crítico para cualquier motor de búsqueda.
Aparece de nuevo la restricción que impone el gran tamaño de la Web y la rapidez con que cambian las páginas, conjuntamente con el factor no sólo de la importancia/relevancia de la página sino de la importancia/relevancia del cambio que se ha podido producir lo que introduce un nuevo y adicional nivel de complejidad al tema de las velocidades de reindexación.
La situación de un hipotético motor que controle todos los lugares de la Web y en todo momento para detectar los cambios es totalmente inviable e innecesaria. La estadística constituye una herramienta eficaz para tratar este problema que constituye un tema en el que se requieren importantes esfuerzos en investigación para tratar de obtener esquemas de funcionamiento que representen, de una manera razonable, la dinámica del sistema.
El tema de los motores de búsqueda y/o del information retrieval o search&indexing techniques aparece como una rama de la tecnología donde la actividad científica internacional aparece extremadamente activa. Se necesitan importantes esfuerzos para conseguir estructuras que den respuesta a las necesidades crecientes y rápidas que impone el rápido crecimiento de la Web, que lejos de consistir en una simple extensión de carácter simplemente numérico, aparece cada vez más, como una compleja estructura de relaciones sinérgicas con un impacto social y económico extremadamente importante.

 M.A. y M. Grado-Caffaro. [01/10/2000 ]