RECUPERACIÓN DE INFORMACIÓN EN LOS BUSCADORES
En Internet resulta difícil encontrar una información pertinente y fiable.
Para encontrarla, hay que partir de unos conocimientos previos sobre las herramientas de búsqueda que hay a nuestra disposición, saber qué tipo de información queremos y utilizar la herramienta idónea para el tipo de información buscada. Es a estos elementos o conjuntos de herramientas que podemos llamar Sistemas de Recuperación de la Información en Internet.
Hoy hablaremos de la recuperación de información en los buscadores.
Los
motores de búsqueda se basan en un robot o software que recorre la red
automáticamente para localizar documentos, los indiza y los introduce en
una base de datos. Esta base de datos será interrogada por los usuarios
a través de un formulario, que lanza la búsqueda, la compara con los
recursos indizados en la base de datos y devuelve como resultado un
conjunto de links.
La
forma de búsqueda en estos sistemas es a través de palabras clave
introducidas en el formulario de consulta, permitiendo la mayoría de
ellos realizar búsquedas simples y avanzadas. Las búsquedas suelen ser
más exhaustivas que en los directorios, pero por el contrario devuelven
entre los resultados información que no nos es muy útil. Son útiles para
responder a necesidades concretas de información.
Funcionamiento de los Motores de Búsqueda:
Un
motor de búsqueda en Internet se compone de diversos elementos, los
cuales serán evaluables, a la hora de valorar su rendimiento o utilidad a
la hora de satisfacer una demanda de información:
- El robot que recorre Internet para localizar direcciones y documentos y que genera una base de datos textual.
- Un sistema de indización automática, según distintos criterios (full-text, parcial o utilizando las etiquetas propias del lenguaje de marcas).
- Un sistema de interrogación: que incluye un lenguaje de consulta y una serie de procedimientos más o menos documentales para precisarlas.
- Un interface: evaluable tanto a nivel de página de consulta, como a nivel de presentación de resultados.
Modelos de recuperación de la información
Bajo
el término modelos de recuperación se engloban todas aquellas técnicas
que tienen por objetivo facilitar el proceso de comparación entre una
consulta determinada y un conjunto de textos sobre los que se realiza la
consulta. Se trata de herramientas muy utilizadas dentro del campo de
la recuperación y organización de la información.
Hoy
en día, los buscadores son las herramientas más utilizadas en el ámbito
de Internet para acceder de forma rápida a la información sobre un
determinado tema. Por ello, parece conveniente conocer cuáles son los
principales modelos de recuperación utilizados por los buscadores para
permitir el acceso a la información de una consulta.
Presentaremos cuatro tipos de modelos de recuperación clásicos:
- Modelo booleano: Se basa en un criterio de decisión binario (pertinente o no pertinente) para saber si un documento tiene relación con una pregunta.
- Modelo vectorial: Trabaja asignando pesos no binarios a los términos índice de las preguntas y de los documentos. Estos pesos se utilizan para comprobar el grado de similitud entre un documento guardado en el sistema y la pregunta realizada por el usuario.
- Modelo probabilístico: Se basa en el cálculo de la probabilidad de que un documento se corresponda con un pregunta.
- Modelo Relevance Feedback: Modelo que trata de refinar las búsquedas a partir de los términos más relevantes en búsquedas anteriores.
Estos modelos de recuperación están pensados únicamente para documentos de contenido textual.
Técnicas y métodos de recuperación de información en internet.
Las
aproximaciones a la Recuperación de la Información en Internet pueden
establecerse según la creación de recursos, o según la herramienta
utilizada. Ambos enfoques, al igual que en casos anteriores no son
excluyentes.
- Según la creación del recurso:
La
creación de listados, índices y catálogos ordenados por áreas o
materias, de forma que el usuario dispusiese de un conjunto de fuentes
seleccionadas en las que empezar a buscar. El ejemplomáss conocido es el
norteamericano Yahoo!. Han ido añadiendo motores internos a sus
prestaciones de forma que permiten consultar mediante ecuaciones sus
bases de datos.
La
creación automática de bases de datos basadas en índices o ficheros
inversos, mediante unas aplicaciones que rastrean o exploran todo el
ámbito Web, llamados robots, spiders o wanderers.
Estos robots rastrean el Web a la búsqueda de documentos, obtienen una
copia, la indizan, y usan los enlaces presentes en los mismos para
localizar nuevos documentos
- Según la herramienta utilizada:
- Directa:
El
navegador se conecta al servidor Web que actúa como interfaz del motor
de búsqueda correspondiente a la base de datos que desea consultar. El
servidor le envía una página Web que actúa como interfaz de
interrogación, a través de la cual formula la consulta. El servidor la
recibe, procesa y envía como respuesta una nueva página Web, generada de
forma dinámica, que contiene las respuestas más pertinentes a la
ecuación formulada por el usuario
- Por intermediario:
El
navegador se conecta a un servidor Web que le ofrece una interfaz de
interrogación propia. Esta interfaz le permite interrogar una base de
datos correspondiente a un motor de búsqueda situado en un servidor Web
diferente al que ofrece la interfaz. La interfaz actúa como
intermediario entre el motor de búsqueda de destino y el usuario. El
interés de estos intermediarios (meta buscadores) se da cuando consultan
a múltiples motores de búsqueda.
- Por agente:
El
usuario instala en su computador una aplicación que permite formular
las ecuaciones de búsqueda y remitirlas a uno o varios motores de
búsqueda. La aplicación lanza conexiones simultáneas al conjunto de
motores que se trate, recibe las respuestas, y las entrega al usuario en
una presentación única que puede ofrecer diferentes formas. Finalmente y
dependiendo de las prestaciones del agente, las respuestas pueden ser
filtradas, aplicando criterios propios de eliminación de duplicados,
reordenación de resultados, etc.
- Por robot personal:
No hay comentarios:
Publicar un comentario