Mecanismos/motores
de búsqueda: ¿qué es lo que buscan?
Es bien sabido que los motores de búsqueda y los índices han surgido como
herramienta para ayudar a encontrar información en el enorme y rápidamente
creciente volumen de páginas web: su origen se inscribe en el contexto
académico, al igual que ocurrió con la propia Red, para pasar posteriormente al
escenario comercial.
El primer paquete de software que aparece como motor de búsqueda es Archie,
desarrollado en la universidad Mc Gill (Montreal) en 1990 y cuyo modo de
funcionamiento se basaba en buscar en los ficheros de servidores Internet FTP;
poco más tarde, surgen Veronica en 1992 y Jughead en 1993, el primero
desarrollado en la universidad de Nevada y el segundo en la de Utah.
Hoy día el motor de búsqueda aparece con fuerza en el ámbito comercial donde se
ha convertido en una herramienta enormemente extendida y utilizada: se calcula
que en torno al 70% de los usuarios de Internet utilizan motores de búsqueda;
Yahoo, Infoseek, Excite, Lycos y AltaVista aparecen como los buscadores más
utilizados. Se observa, por otra parte, una migración, en el negocio de los
buscadores, hacia el concepto de portal, un entorno o “habitáculo” en la Red
donde el usuario puede acceder no sólo a búsquedas sino a un abanico de
servicios como, por ejemplo, información sobre diversos temas, información
meteorológica, información bursátil/financiera, tiendas, etc.), comercio
electrónico o entornos de chat.
Funcionamiento
El modo de funcionamiento de un motor de búsqueda se basa en visitar las
páginas e indexarlas siempre según el interés del usuario que ha sido expresado
mediante unas determinadas palabras clave usando operadores booleanos como
and/or/not (en realidad, los motores más tradicionales se basan en los
mecanismos de búsqueda booleana que surgieron en los años 60): el motor
atraviesa los lugares, localiza páginas, las analiza y, después, construye
índices, elabora un ranking sobre lo encontrado y lo devuelve al usuario. En la
aproximación más primitiva el motor cuenta las veces que la palabra/palabras
clave que ha dado el usuario aparecen en las páginas que visita y esto se
considera un criterio de adaptación a los intereses de la búsqueda del usuario
en términos de relevancia/importancia de página.
También se buscan palabras clave en metatags (un tag HTML que proporciona
información relativa a contenidos y palabras clave sobre las páginas). Cuando
el usuario utiliza el motor para encontrar la información que le interesa, lo
que se le proporciona finalmente es una lista de páginas por orden de
importancia/relevancia.
El problema
Es fácil ver que el problema fundamental, en este contexto de los motores de
búsqueda, es que no existe modo de garantizar, de momento, en el mercado, que
las páginas que se han obtenido sean realmente las más relevantes y que el
ranking obedezca a la realidad en términos de la relevancia de la información
que se proporciona. Es decir, dado el estado del escenario actual, el problema
que se plantea de forma más inmediata consiste en tratar de obtener una
explicación razonada en detalle, en definitiva, en tratar de conocer el
fundamento de por qué el motor proporciona unas páginas y no otras, o lo que es
lo mismo, se trata de resolver el problema de la asignación de relevancia a las
páginas que se escanean durante la búsqueda.
Este problema surge fundamentalmente, además de por las propias limitaciones de
la tecnología en su estado actual, porque existen también claros intereses, por
parte de los propietarios de las páginas web, en que sus páginas aparezcan en
la búsqueda y que aparezcan en la mejor posición. Este interés, legítimo en
principio, puede dejar de serlo cuando se utilizan mecanismos que distorsionan
la realidad en ese afán por aparecer en los procesos de búsqueda. A modo de
ejemplo de esas malas prácticas se puede citar el bien conocido spamming que
consiste en que el creador de la página web inserta palabras clave de forma
múltiple para aumentar la probabilidad de que su página sea recogida en las
búsquedas, esa inserción no es detectable por un usuario pero sí por el spider.
Es decir, algunos motores de búsqueda incorporan mecanismos para detectar este
tipo de actuación según afirman sus autores.
Otras prácticas indeseables sobre las que hay menos evidencias, se refieren,
según la información que circula en este contexto, a supuestas ventas de
posiciones en el ranking, o bien a otros tipos de negociación. A este problema,
que era de esperar que ocurriera, dado que, en su concepción, se puede
considerar de carácter antropológico (la lucha por el poder, esta vez con una
nueva tecnología) y máxime teniendo en cuenta las cifras de negocio que se
están moviendo en la Web, se une el hecho bien reconocido y consensuado de que
las estrategias que siguen los motores de búsqueda no son lo suficientemente
transparentes como para garantizar que realmente proporcionan lo que se busca.
No garantizan de forma rigurosa, que los intereses del motor de búsqueda y los
del usuario coincidan. Y, obviamente, resultaría ligeramente arriesgado afirmar
que la satisfacción del usuario es una medida de la excelencia del sistema,
debido a que el usuario no puede conocer qué es lo que no se le ha
proporcionado y si en ese grupo de información excluida existe algo que
realmente encaja con sus intereses. Por otra parte, se ha comprobado que el
usuario típico de Internet utiliza palabras clave en su búsqueda que son de
carácter muy generalista y que incluso pueden dar lugar a diferentes interpretaciones
lo cual genera un grado más de complejidad debido a que se van a recibir
demasiados resultados y muchos de ellos irrelevantes. Este problema concreto no
aparece de forma acuciante con un usuario experimentado capaz de elaborar una
estrategia de búsqueda mediante palabras clave y combinaciones de ellas con un
razonable nivel de especificidad.
Estrategias y conceptos
La estrategia general del motor de búsqueda es normalmente pública, pero el
detalle permanece prácticamente siempre secreto, un detalle que se refiere a
qué lugares se visitan y con qué frecuencia. En cualquier caso, a partir del
comportamiento de los spiders se puede llegar a deducir los algoritmos en que
se basa su funcionamiento.
Básicamente, un motor de búsqueda se puede describir como un programa de
software conformado por tres elementos fundamentales; el crawler, conocido
también como spider, el índice y el software de búsqueda. Un spider (araña) o
crawler es un programa o robot de software (softbot) que peina la Web buscando
información al mismo tiempo que crea índices de URLs, palabras clave, enlaces y
textos.
En el proceso de búsqueda el software del motor recorre el índice para
encontrar las páginas que encajan en su descripción con las palabras clave
dadas por el usuario y coloca esas páginas según un determinado orden (creado
por el motor) que es lo que se le proporciona al usuario.
Los crawlers son elementos característicos de los motores de búsqueda
automatizados pues son esos robots de software o softbots los que escanean los
lugares web. La filosofía/concepción de funcionamiento de los motores basados
en crawlers se basa en empezar con la URL para una página inicial que podremos
llamar P0; el crawler recoge (retrieve) esa P0, extrae las URLs que hay en ella
y las añade a una cola de URLs que van a ser escaneadas. El crawler va tomando
las URLs de la cola siguiendo un orden predeterminado y se repite el proceso.
El crawler, o lo que es lo mismo, el motor, tiene que decidir qué URLs va a
escanear y en qué orden (el problema de la relevancia/importancia de la página)
y además tiene que ser capaz de monitorizar la Web en el sentido de poder
informar acerca de los cambios que se han producido para lo cual debe dirigirse
a las páginas ya visitadas con una frecuencia que debe predeterminarse en base
a modelización estadística, en concreto a técnicas aleatorias.
Esta necesidad de detectar los cambios que se producen en la Web se está
convirtiendo en un elemento de creciente importancia: el carácter dinámico de
la Web es cada día más patente, con páginas que desaparecen (aproximadamente el
5% de los resultados de una búsqueda pueden referirse a lugares ya
desaparecidos) y páginas que cambian sus contenidos (a un ritmo que es
necesario monitorizar así como qué tipo de cambio se produce), lo que introduce
un factor más de complejidad al simple crecimiento. Se está creando un
escenario con un carácter cada día más dinámico que es necesario monitorizar
cuidadosamente si se pretende que el motor de búsqueda mantenga unos niveles de
prestaciones razonables en términos de ofrecer una visión real de qué es lo que
hay realmente en la Web y para qué sirve.
Existen otros motores de búsqueda que no utilizan crawlers y, en consecuencia,
no trabajan con los índices mencionados anteriormente; estos motores, conocidos
como directorios en base a su modo de comportamiento más convencional trabajan
utilizando descripciones de las páginas proporcionadas por los
propietarios/autores del lugar web y los responsables/propietarios del motor
revisan la página actuando como “references” o árbitros que juzgan su
excelencia y conveniencia y en base a esa revisión se incluye o no la página.
En este tipo de motores los cambios en las páginas web se detectan sólo si el
propietario lo comunica ya que no existen crawlers que lo hagan de forma
automática. Entre los motores que usan crawlers están AltaVista (que puede
describirse como un motor basado en indexación terminológica) y HotBot. Yahoo,
que utiliza directorios, puede describirse como una extensa taxonomía de temas,
basada en árbol donde cada nodo del árbol corresponde a un tema específico y
aparece conformado por las páginas web consideradas relevantes; esta taxonomía
de temas aparece compilada de forma manual donde las listas de recursos las
crean equipos de ontólogos.
El tamaño no importa
Tradicionalmente, los motores de búsqueda se han comparado frente al número de
páginas capaces de indexar, que es lo que se conoce como tamaño del motor, algo
que ha venido dado normalmente sólo por la declaración de los propietarios del
motor, es decir, la calidad del motor se ha asociado prácticamente sólo a su
tamaño.
Actualmente se están buscando formas de medir esa calidad, o sea, métricas, que
funcionan con criterios más objetivos y más representativos de la realidad, es
decir, se buscan métodos para medir, de una forma objetiva, el tamaño real del
motor. La tendencia aparece, en definitiva, en la búsqueda de métodos
rigurosos, del ámbito de la investigación científica, para evaluar las
prestaciones de estos motores. De hecho, la tecnología de búsqueda en la Web,
que cubre áreas como las ya bien conocidas de information retrieval (extracción
de información) o search&indexing techniques (técnicas de búsqueda e
indexación), constituye un tema de máximo interés en la comunidad científica
internacional del área Internet y tecnologías de la información, algo que se
observa por el importante aumento de artículos publicados en la literatura
científica. A modo de ejemplo, cabe citar que en los Proceedings de la segunda
conferencia internacional WWW de 1998, el 20% de los artículos presentados se
referían a information retrieval y el 17% a search&indexing techniques, lo
que constituye prácticamente el doble de artículos que en otras áreas más
extensas y consolidadas.
Es importante señalar que el tema del análisis de la búsqueda en la Web no
tiene por qué inscribirse en un marco político determinado acerca del papel de
estado en la sociedad y en la vida económica. El hecho de que se acepte, por
ejemplo, que sean las leyes del mercado las que gobiernen completamente la
economía, nada tiene que ver o no tiene por qué enfrentarse a una exigencia en
términos de rigor científico demostrable en el proceso de concepción y
desarrollo del producto (en nuestro caso el motor de búsqueda) que puedan garantizar
su eficacia y su propósito y que constituye un valor añadido para el fabricante
del motor.
Hablemos de la eficacia
En el tema de los motores de búsqueda se han identificado tres aspectos clave
para definir su eficacia y/o excelencia:
1) Tamaño (cuántas páginas recorre).
2) Importancia o relevancia (qué páginas considera importantes y, en
consecuencia las envía al usuario).
3) Ranking (en qué orden presenta al usuario esas páginas).
Resulta obvio que el tamaño y, para mayor abundamiento un tamaño preconizado
por los propietarios del motor, sirvió en su momento como prácticamente único
criterio, pero hoy día está dando paso a otros criterios debido a que el tamaño
actual de la Web, su velocidad de crecimiento y cambio han modificado el
escenario de una manera notable.
El tamaño ha dejado de ser el factor fundamental para evaluar el motor de
búsqueda debido a que, el motor no puede adaptarse al ritmo de crecimiento de
la Web. El tamaño de la Web se estima actualmente en más de 350 millones de
páginas web y de esos 350 millones los motores de búsqueda, en su estado
actual, pueden llegar a contemplar en torno a 140 millones como máximo.
El crecimiento de la Web conlleva que cada vez se necesite más espacio de
almacenamiento en el que alojar un número cada vez mayor de páginas y más
potencia de procesamiento para poder trabajar con ellas. Además, aunque se
consigan estos objetivos con relativa facilidad, el resultado no estaría a la
altura del esfuerzo en términos de utilidad para el usuario. No se trata de cubrir
muchas páginas sino de localizar con rapidez las que interesan.
Los criterios de excelencia se desplazan hoy día hacia el tema de la indexación
y el ranking. Se ha comprobado, a través de estudios, que el usuario clásico de
un motor de búsqueda es más bien impaciente, se centra normalmente en la
primera página de los resultados que le proporciona el motor y que, en cuanto
encuentra la primera información que se adecua a sus intereses no continúa
viendo las siguientes páginas ofrecidas por el buscador. A parte, el 60% de las
consultas se hacen con una o dos palabras clave lo cual indica que el tipo de
información demandado con más frecuencia es de carácter muy general, con un
débil nivel de especificidad, lo cual conlleva que el motor no tendrá que buscar,
de momento, páginas muy concretas, “raras”, para las que tenga que rastrear
fuertemente la Web. Al contrario, accederá fácilmente a las páginas que
contienen la información buscada, aunque esto da lugar a que se generen muchas
páginas como respuesta a la búsqueda y que gran parte de ellas sean
irrelevantes.
La posible controversia aparece más bien en temas relativos a cómo se construye
el ranking o a la propia indexación, es decir, cómo se decide qué páginas son
las más relevantes o importantes para el usuario y consecuentemente cómo se
asigna la calidad a las páginas. Esta necesidad de tener que decidir qué
páginas son las más importantes viene del hecho de que el motor no puede
visitar todas las páginas web existentes y por lo tanto, se necesita realizar
una selección en respuesta a un determinado mecanismo de decisión. Aunque el
motor pudiera visitar todas las páginas no podría resultar nunca viable pues el
tiempo que se necesitaría para hacer esto nunca sería suficiente ya que al cabo
de un cierto tiempo de funcionamiento, antes de visitar todas las páginas,
debería volver a visitar las primeras páginas para encontrar cambios, con lo
que habría páginas que nunca podrían ser visitadas. Hay que tener en cuenta que
la magnitud de los cambios en la Web es extremadamente elevada, en torno a los
100 GB.
Estos factores surgen de un perfil de usuario que hoy día resulta el modelo
típico, un usuario con intereses generales, poco experimentado y que es de
esperar que evolucione rápidamente. La evolución de ese usuario en lo que se
refiere a su forma de interrogar la Web determinará la vigencia de lo anterior
respecto a tamaño-calidad del motor. Por otro lado, la aparición de motores con
un mayor nivel de sofisticación hará evolucionar también el perfil del usuario,
todo ello en base a un modelo de relaciones sinérgicas.
Hacia un modelo objetivo
Si se acepta el criterio de la calidad de índice como criterio fundamental para
evaluar un motor de búsqueda es necesario desarrollar modelos objetivos y
rigurosos para establecer ese criterio de forma que sea aplicable de forma
coherente y sin ambigüedades. Que la aplicación de esos modelos recaiga en
organismos independientes gubernamentales o no, o incluso que esos modelos se
apliquen o no, constituye un tema secundario. Lo importante realmente es que
esos métodos existan, que el usuario sepa que existen y, a partir de ahí dejar
al mercado libre. El usuario será libre de escoger un motor u otro dependiendo
de la credibilidad que puedan ofrecer en materia de rigor científico en su
concepción y funcionamiento.
El tema de la construcción de un esquema relativo a la calidad en la indexación
de un motor constituye un tema de investigación muy activo dentro las
diferentes áreas que afectan a los motores de búsqueda. Existen una serie de
líneas fundamentales a partir de las cuales se generan trabajos de refinamiento
y, dentro de estas líneas fundamentales, se puede citar la asociada al motor de
búsqueda de Google y a Rankdex basado en el PageRank ranking que indica que la
medida de la calidad de una página viene dada por el número de páginas que la
referencian o, lo que es lo mismo, por el número de enlaces. Dicho de otro
modo, un enlace desde una página A a una página B significa que el
propietario/autor de A recomienda a B. Sobre esta idea se han generado
variaciones como PageRank que evalúa la calidad no sólo en términos del número
de enlaces que apuntan a una página sino también del número de enlaces que
apuntan a los primeros. Es decir, si a la página B le apuntan enlaces de páginas
A1....AN, la calidad de B viene medida no sólo en función de esos A1... AN que
apuntan a B sino también de los enlaces C1.....CN que apuntan a A1, de D1....DN
que apuntan a A2, y así sucesivamente.
Es fácil observar que el concepto asociado a este modelo de evaluación proviene
del esquema de citaciones (referencias) en el que los autores de un trabajo
citan a otros autores en los que, por regla general, basan o enmarcan su propio
trabajo; este esquema de citaciones ha sido utilizado históricamente en la
literatura científica y sigue vigente a pesar de las controversias que
indudablemente genera. Un ejemplo bien conocido es el SCI (Science Citation
Index) del ISI (Institute for Scientific Information) que se utiliza
ampliamente para medir la calidad de las publicaciones científicas. Un esquema
que ha sido importado, a su vez, del ámbito de la jurisprudencia en el sentido
de que la estructura legislativa se va creando a partir de la jurisprudencia
impartida (donde las sentencias actúan como referencias/citaciones). El
problema aparece aquí, y esto no es aplicable sólo a la Web, en qué tipo de
criterio se utiliza para citarse. Los trabajos más brillantes tardan tiempo en
ser referenciados, algo que el propio ISI reconoce e incluso recomienda que el
sistema se utilice con cautela, debido a que la citación es una medida objetiva
pero no es un espejo absoluto de lo que es la calidad. Esta problemática,
trasladada a la Web aparece, como mínimo con la misma fuerza.
Google, que es el sistema que se puede considerar el núcleo generador de estos
enfoques, fue desarrollado en el seno de la universidad de Stanford: de una
manera resumida se puede describir como un sistema que utiliza un crawler al
que sus autores (Sergei Brin y Lawrence Page) han llamado Googlebot que se
dedica a buscar hyperenlaces. Cuando se produce una petición de búsqueda sobre
un determinado tema, el sistema se dedica a buscar las páginas que tienen
enlaces con otras páginas relevantes en el tema gracias a técnicas como, por
ejemplo, la aproximación textual o text-matching. En concreto, Google calcula,
en primer lugar, una puntuación (score) que llama PageRank para cada página que
indexa. La puntuación de cada página se asigna al componente del autovalor
principal de una matriz M que aparece como una matriz adyacente con una
constante muy pequeña que se añade a cada entrada. PageRank es el sistema que
genera el ranking de los resultados (páginas) que se proporcionan al usuario.
Tecnologías y filtros
Dentro del estado del arte en el campo de productos comerciales (no de
investigación científica) en términos de motores que utilizan técnicas que
incorporan mecanismos avanzados (aunque ya probados en el mercado) cabe citar a
iAtlas y Northern Light. Estos utilizan una tecnología de filtrado para tratar de
conseguir las páginas más relevantes al soslayar en cierta medida el problema
del carácter generalista de las palabras clave que se utilizan habitualmente.
El usuario introduce, al mismo tiempo que las palabras clave, unos impresos
electrónicos que reducen el espacio de búsqueda. Por ejemplo, les da opción a
indicar que su búsqueda se ciñe a determinadas zonas geográficas o determinados
entornos de actividad o aspectos industriales.
El lenguaje natural constituye un elemento que presenta un futuro indudable
aunque algo lejano en toda su extensión debido a dificultades de carácter
tecnológico ya que se necesitan importantes esfuerzos en la investigación y
desarrollo de algoritmos de procesamiento de lenguaje natural: su
funcionamiento se basa en analizar la estructura gramatical de la pregunta en
términos de significado (en el mercado está ahora AskJeeves). El punto fuerte
de estos sistemas aparece en el hecho de gran parte de las preguntas que se
plantean a un motor de búsqueda están estructuradas de la misma forma.
Por otra parte, IBM ha desarrollado el motor Clever basado en un algoritmo que
sus autores denominan HITS (Hyperlink-Induced Topic Search); su concepción se
basa en contemplar la Web como un grafo directo.
En HITS se establece una jerarquía, a las páginas con muchos enlaces se les da
el nombre de autoridades que aparecen como las páginas que constituyen la mejor
fuente de información sobre un determinado tema; las páginas que enlazan con
las autoridades reciben el nombre de hubs y se consideran herramientas de
referencia. El algoritmo de HITS se desarrolla en dos partes o fases:
1) Fase de muestreo donde se construye un conjunto de páginas con una
probabilidad importante de ser autoridades.
2) Fase de proceso iterativo en la que se determinan las estimaciones numéricas
del peso asociado a hubs y autoridades mediante un componente de propagación de
peso. De esta forma, el usuario obtiene las páginas hub y autoridades con más
peso.
Cabe citar, finalmente y abundando en lo que se ha indicado anteriormente
acerca del carácter dinámico de la Web, el problema, de monitorizar los cambios
en la Web, un tema que se inscribe en el ámbito de la monitorización de fuentes
de información dinámicas y que es crítico para cualquier motor de búsqueda.
Aparece de nuevo la restricción que impone el gran tamaño de la Web y la
rapidez con que cambian las páginas, conjuntamente con el factor no sólo de la
importancia/relevancia de la página sino de la importancia/relevancia del
cambio que se ha podido producir lo que introduce un nuevo y adicional nivel de
complejidad al tema de las velocidades de reindexación.
La situación de un hipotético motor que controle todos los lugares de la Web y
en todo momento para detectar los cambios es totalmente inviable e innecesaria.
La estadística constituye una herramienta eficaz para tratar este problema que
constituye un tema en el que se requieren importantes esfuerzos en
investigación para tratar de obtener esquemas de funcionamiento que
representen, de una manera razonable, la dinámica del sistema.
El tema de los motores de búsqueda y/o del information retrieval o
search&indexing techniques aparece como una rama de la tecnología donde la
actividad científica internacional aparece extremadamente activa. Se necesitan
importantes esfuerzos para conseguir estructuras que den respuesta a las
necesidades crecientes y rápidas que impone el rápido crecimiento de la Web,
que lejos de consistir en una simple extensión de carácter simplemente
numérico, aparece cada vez más, como una compleja estructura de relaciones
sinérgicas con un impacto social y económico extremadamente importante.
M.A.
y M. Grado-Caffaro. [01/10/2000 ]