El rincón de la información: Recuperación de información en los buscadores

RECUPERACIÓN DE INFORMACIÓN EN LOS BUSCADORES

En Internet resulta difícil encontrar una información pertinente y fiable.

Para encontrarla, hay que partir de unos conocimientos previos sobre las herramientas de búsqueda que hay a nuestra disposición, saber qué tipo de información queremos y utilizar la herramienta idónea para el tipo de información buscada. Es a estos elementos o conjuntos de herramientas que podemos llamar Sistemas de Recuperación de la Información en Internet.

Hoy hablaremos de la recuperación de información en los buscadores.

Los motores de búsqueda se basan en un robot o software que recorre la red automáticamente para localizar documentos, los indiza y los introduce en una base de datos. Esta base de datos será interrogada por los usuarios a través de un formulario, que lanza la búsqueda, la compara con los recursos indizados en la base de datos y devuelve como resultado un conjunto de links.

La forma de búsqueda en estos sistemas es a través de palabras clave introducidas en el formulario de consulta, permitiendo la mayoría de ellos realizar búsquedas simples y avanzadas. Las búsquedas suelen ser más exhaustivas que en los directorios, pero por el contrario devuelven entre los resultados información que no nos es muy útil. Son útiles para responder a necesidades concretas de información.

Funcionamiento de los Motores de Búsqueda:

Un motor de búsqueda en Internet se compone de diversos elementos, los cuales serán evaluables, a la hora de valorar su rendimiento o utilidad a la hora de satisfacer una demanda de información:

El robot que recorre Internet para localizar direcciones y documentos y que genera una base de datos textual.
Un sistema de indización automática, según distintos criterios (full-text, parcial o utilizando las etiquetas propias del lenguaje de marcas).
Un sistema de interrogación: que incluye un lenguaje de consulta y una serie de procedimientos más o menos documentales para precisarlas.
Un interface: evaluable tanto a nivel de página de consulta, como a nivel de presentación de resultados.

Modelos de recuperación de la información

Bajo el término modelos de recuperación se engloban todas aquellas técnicas que tienen por objetivo facilitar el proceso de comparación entre una consulta determinada y un conjunto de textos sobre los que se realiza la consulta. Se trata de herramientas muy utilizadas dentro del campo de la recuperación y organización de la información.

Hoy en día, los buscadores son las herramientas más utilizadas en el ámbito de Internet para acceder de forma rápida a la información sobre un determinado tema. Por ello, parece conveniente conocer cuáles son los principales modelos de recuperación utilizados por los buscadores para permitir el acceso a la información de una consulta.

Presentaremos cuatro tipos de modelos de recuperación clásicos:

Modelo booleano: Se basa en un criterio de decisión binario (pertinente o no pertinente) para saber si un documento tiene relación con una pregunta.
Modelo vectorial: Trabaja asignando pesos no binarios a los términos índice de las preguntas y de los documentos. Estos pesos se utilizan para comprobar el grado de similitud entre un documento guardado en el sistema y la pregunta realizada por el usuario.
Modelo probabilístico: Se basa en el cálculo de la probabilidad de que un documento se corresponda con un pregunta.
Modelo Relevance Feedback: Modelo que trata de refinar las búsquedas a partir de los términos más relevantes en búsquedas anteriores.

Estos modelos de recuperación están pensados únicamente para documentos de contenido textual.

Técnicas y métodos de recuperación de información en internet.

Las aproximaciones a la Recuperación de la Información en Internet pueden establecerse según la creación de recursos, o según la herramienta utilizada. Ambos enfoques, al igual que en casos anteriores no son excluyentes.

Según la creación del recurso:

La creación de listados, índices y catálogos ordenados por áreas o materias, de forma que el usuario dispusiese de un conjunto de fuentes seleccionadas en las que empezar a buscar. El ejemplomáss conocido es el norteamericano Yahoo!. Han ido añadiendo motores internos a sus prestaciones de forma que permiten consultar mediante ecuaciones sus bases de datos.

La creación automática de bases de datos basadas en índices o ficheros inversos, mediante unas aplicaciones que rastrean o exploran todo el ámbito Web, llamados robots, spiders o wanderers. Estos robots rastrean el Web a la búsqueda de documentos, obtienen una copia, la indizan, y usan los enlaces presentes en los mismos para localizar nuevos documentos

Según la herramienta utilizada:

Directa:

El navegador se conecta al servidor Web que actúa como interfaz del motor de búsqueda correspondiente a la base de datos que desea consultar. El servidor le envía una página Web que actúa como interfaz de interrogación, a través de la cual formula la consulta. El servidor la recibe, procesa y envía como respuesta una nueva página Web, generada de forma dinámica, que contiene las respuestas más pertinentes a la ecuación formulada por el usuario

Por intermediario:

El navegador se conecta a un servidor Web que le ofrece una interfaz de interrogación propia. Esta interfaz le permite interrogar una base de datos correspondiente a un motor de búsqueda situado en un servidor Web diferente al que ofrece la interfaz. La interfaz actúa como intermediario entre el motor de búsqueda de destino y el usuario. El interés de estos intermediarios (meta buscadores) se da cuando consultan a múltiples motores de búsqueda.

Por agente:

El usuario instala en su computador una aplicación que permite formular las ecuaciones de búsqueda y remitirlas a uno o varios motores de búsqueda. La aplicación lanza conexiones simultáneas al conjunto de motores que se trate, recibe las respuestas, y las entrega al usuario en una presentación única que puede ofrecer diferentes formas. Finalmente y dependiendo de las prestaciones del agente, las respuestas pueden ser filtradas, aplicando criterios propios de eliminación de duplicados, reordenación de resultados, etc.

Por robot personal:

Se trata de aplicaciones que se instalan en el computador del usuario, y que son capaces de acceder a un servidor Web, construir un mapa de índices de sus contenidos, y utilizar los mismos para acceder a la información que sea interesante para el usuario, obteniendo copias de las páginas o documentos Web contenidos en el mismo.

El rincón de la información

sábado, 4 de mayo de 2013

Recuperación de información en los buscadores

Modelos de recuperación de la información

Técnicas y métodos de recuperación de información en internet.

No hay comentarios:

Publicar un comentario