Presentación Taller Búsqueda de información avanzada en Internet

Post on 12-Jun-2015

7.797 views 3 download

description

Presentación de Leonardo Machett - Docente de Ciencia de la Información - Bibliotecología - Pontificia Universidad Javeriana.Participación en la jornada de capacitación del Primer Encuentro de Bibliotecas en Tecnologías de Información y Comunicación - Bibliotic 2009Bogotá - Colombia, mayo 12 al 15 de 2009

Transcript of Presentación Taller Búsqueda de información avanzada en Internet

Búsqueda Avanzada de Información

en Internet

Leonardo Machett

Bogotá, 2009

¿Por qué la búsqueda y la

recuperación de información en

Internet son tareas frecuentemente

tediosas y difíciles?

El fases de la Historia según Giambattista Vico en su obra: Principios de una Ciencia Nueva

Edad Teocrática

Edad Aristocrática

Edad Democrática

Edad de Caos

Nueva Edad Democrática

La imprenta de

Johannes Gutenberg (Fresco Biblioteca Pública de Nueva York)

Quino. Sociedad de la información.

Vinton G. Cerf

Sir Timothy John Berners-Lee

Azul profundo: net, ca, us

Verde: com, org

Rojo: mil, gov, edu

Amarillo: jp, cn, tw, au, de

Magenta: uk, it, pl, fr

Dorado: br, kr, nl

Blanco: desconocidoMapa parcial de Internet por Opte Project (15 de enero de 2005)

El ciclo de la Información

http://www.libraries.psu.edu/instruction/infocycle/infocycle.html

¿Qué es Internet?

HTTP (WWW)

FTP y P2P

GOPHER y WHAIS

Acceso Remoto a otras máq. (juegos en

línea)

SMTP (mail), VoIP e IRC

NNTP (news) y IPTV (Tv)

TELNET

TCP/IP

¿Qué es y no es la Web?

¿Qué no es la Web?

¿Qué es la Web?

¿Qué diferencias hay entre la recuperación en la Web y la recuperación tradicional?

Recuperación tradicional

Recuperación en la WWW

carencia de control terminológico

interfaces diversas

intentos de normalización en la descripción de

contenidos

no hay permanencia, los documentos cambian de

forma y lugar

control terminológico

interfaz homogénea de interrogación

uso de lenguajes documentales

principio de autoridad

Una anatomía de la URL (Localizador Uniforme de Recursos)

http://www.javeriana.edu.co/biblos/tesis/TESIS16.pdf

Una anatomía de la URL

Dominios de primer nivel• com para compañías y empresas

comerciales • net para organizaciones relacionadas

con Internet• org para organizaciones que no se

pueden clasificar en ninguna otra categoría

• edu para instituciones educativas• gov para el gobierno• mil para las Fuerzas Armadas• biz para negocios y empresas

comerciales• info para proveedores de servicios de

información• name o ~ para páginas personales

Dominios geográficos:

• co Colombia

• uk Reino Unido

• es España

• fr Francia

• ca Canadá

• it Italia

• eu Unión Europea

• tv Tuvalu

Dominios: La ICANN es el acrónimo en inglés de la Corporación de Internet para la Asignación de Nombres y Números.

La Web

Fuente: Ricardo Baeza Yates. http://www.dcc.uchile.cl/~rbaeza/inf/webfaces.gif

Pública

Semántica

Dinámica

Indizable

Invisible

Estática

"Un exceso de información puede ser tan peligroso como una carencia"

SEGÚN UMBERTO ECO, LOS EUROPEOS SABEN CADA VEZ MENOS DE HISTORIA POR CULPA DE INTERNET. En : El Clarín [Texto en línea], Buenos Aires : (24, Oct., 2006); [Citado el 24 de octubre de 2006]. Disponible en

Internet: <http://www.clarin.com/diario/2006/10/24/um/m-01296295.htm>

Umberto Eco

La Recuperación de Información

Recuperación de

Información

ciencias de la computación

matemáticas

ciencias de la información

bibliotecología

psicología cognitiva

arquitectura de información

Lingüística

estadística

física

La RI como sistema de comunicación asíncrono

Productor de Información

(Autores de Documentos)

Consumidores de Información

(Usuarios de Información)

Selección de documentos

Problema de los tres lenguajes

Lenguaje de interrogación del

Motor

•Transformar las expresiones resultantes en un lenguaje que extrae del sistema y aquellos documentos que cumplen los requisitos establecidos (práctica)

Lenguaje controlado:

•Adecuar lo expresado por el usuario en expresiones de conceptos delineados y relaciones a los términos y relaciones que puedan haber sido utilizados para representar el contenido de los documentos (predicción)

Lenguaje natural

(humano):

•Es en el que el usuario plantea la necesidad

Modelo elemental para la RI según Ingwersen

http://vip.db.dk/pi/iri/files/Ingwersen_IRI.pdf

Representación del Documento

Consulta del usuarioArchivo Invertido

(Función de emparejamiento)

El Proceso Genérico de Recuperación de Información Tramullas (2001)

Necesidad de Información

Definición de la necesidad del usuario

Selección y ordenación de las fuentes y recursos de información a utilizar

Consulta de los recursos de información

Evaluación de resultados

Presentación al usuario

Revisión y toma de decisiones

Páginas HTML

Archivo Indice

Página de Resultados

Solicitud de información

Motor de Búsqueda

Crawler o Indexador

El usuario abre una de las paginas encontradas

Regresa resultados en formato HTML (Vínculos)

Envía la consulta

Busca en el Índice

Almacena Información

Adquiere Información

Consigue la lista de concordancias

¿Cómo funciona un motor de búsqueda?

Zipf y Luhn

Términos con baja frecuencia

Términos cercanos a la Constante

Términos con mucha frecuencia

¿Qué significa Pensar? La clave de buscar gravita en preguntarse: ¿Cómo pensamos? (El pensador de Rodin exposición en Suiza)

Charles Sanders Peirce

Tipos de razonamiento analizados por Pierce

Razonamiento

Abductivo

Inductivo

Deductivo

Aplicando lo anterior a la Recuperación de Información

• Directorios WebDeductivo

• Motores de Búsqueda

• MetabuscadoresInductivo

• En desarrollo (Búsqueda y recuperación en lenguaje natural)Abductivo

David Filo Jerry Wang

Captura de pantalla enero 1997 fuente: www.archive.org

http://www.yahoo.com/

Larry PageSergey Brin

http://www.google.com/

Stephen Wolfram

http://www.wolframalpha.com/

A la hora de preparar una búsqueda… ¿Qué escoger?

http://www.dmoz.org/

Directorio Web

http://www.exalead.com/search/

Motor de Búsqueda

http://www.dogpile.com/

Metabuscador

Recuperar a partir de operadores búsqueda en Google

Link: Lista todos los enlaces, que teniendo page rank 4 o más, apuntan a nuestra página. Su uso es sencillo: link:www.direccion.comAllinurl: Muestra todas las páginas indexadas de un dominio indicado, o bien, las páginas que tienen todas las palabras especificadas en su url. Su sintaxis es: allinurl:www.dominio.comAllintitle: Muestra las páginas que tienen todas las palabras especificadas en su título. allintitle: palabra1 palabra2Devuelve las páginas que tienen palabra1 y palabra2 en su título.Allintext: Páginas que tengan todas las claves especificadas dentro de su body.Allinanchor: Páginas que tengan en el texto que las apuntan las palabras especificadas.Site: Indica un determinado dominio que le indiquemos para realizar la búsqueda. Carece de sentido si no le especificamos algo más. Un ejemplo de su uso sería: site:www.dominio.com+palabra Esto busca todas las páginas con alguna ocurrencia 'palabra' dentro del dominio especificado.Info: Nos muestra información sobre la página principal de un dominio especificado.info:www.dominio.com

Inurl: Busca la palabra que le especifiquemos en la url, pero no pide que todas estén en la url como allinurl.Intitle: Busca la palabra que le especifiquemos en el título, pero no es necesario que todas estén en el título. Por ejemplo intile:clave1 clave2 Busca clave1 en la url.Cache: Nos lleva directamente a la versión que tiene googlede una determinada página. cache:www.dominio.com Y directamente a la caché que tiene almacenada google de www.dominio.com.Related: Según google nos muestra sitios relacionados con la dirección que le especifiquemos, a saber que criterio sigue, porque los resultados más que malos, son nulos. No merece la pena usarlo.Stocks: Nos lleva a Yahoo Finance y nos muestra información de tipo financiero relacionada con la marca que le indiquemos.Filetype: Busca un tipo de documento especificado, por ejemplo: filetype:doc clave Busca ficheros '.doc' relacionados con 'clave'. ¿Útil, no?.Define: Este es el comando más reciente; busca la definición de una palabra indicada, de momento sólo funciona con palabras en inglés. Uso: define:mouth.

http://www.google.com/

Motores de Multimedia

• Sonidos

• http://www.musicovery.com/

• http://www.midomi.com/

• http://www.musipedia.org/query_by_humming.0.html

• http://tunespotting.com/

• Imágenes

• http://www.snaptell.com/

• http://pro.corbis.com/

• http://browse.deviantart.com/

Web invisible

• www.internetinvisible.com

• www.completeplanet.com

Otros recursos para recuperar información en la web

http://www.archive.org/

http://pro.corbis.com/

http://www.midomi.com/

http://www.kartoo.com/

¿Qué es la Web Semántica?

Fuente: Mapa conceptual de la Web Semántica. Keilyn Rodríguez Perojo y Rodrigo Ronda León.

"Web Semántica: un nuevo enfoque para la organización y recuperación de información en la web".

Acimed, vol. 13, núm. 6, November-December 2005.

http://bvs.sld.cu/revistas/aci/vol13_6_05/aci030605.htm

El objetivo de la Web Semántica es que la Web

pase de ser una colección de documentos a

convertirse en una base de conocimiento.

Es una extensión de la Web actual dotada de significado, esto es, un

espacio donde la información tendría un significado bien definido, de manera

que pudiera ser interpretada tanto por agentes humanos como por agentes

computerizados. (Tomado de: Lamarca)

DESARROLLAR HABILIDADES INFORMATIVAS

Shiyali Ramamrita Ranganathan

4. Salve el tiempo del lector, o él salvara su propio tiempo tomando un atajo a la información , a costa de su calidad

1. Los libros están para el uso

2. Cada libro tiene su lector

3. Cada lector tiene su libro

5. La biblioteca es un organismo vivo que crece

NecesidadDecisión

ExpresiónInicio

LocalizaciónBúsquedaSelección

Recuperación

ValoraciónAnálisis

GeneralizaciónEvaluación

OrganizaciónCategorizaciónEstructuraciónOrganización

Uso de la InformaciónAplicación

AprendizajeUso

ComunicaciónUso ético

ReconocimientosEstándares de estilo

[*] IFLA. Guidelines on information literacy for lifelong learning. Veracruz : La federación, 2006. 60 p. [Texto en línea]. [Consultado el: 3 de septiembre de 2006]. Disponible en Internet: <http://www.ifla.org/VII/s42/pub/IL-Guidelines2006.pdf>.

Nini Marshall en la película: “hay que educar a Nini” Afiche de la Biblioteca Nacional de la Argentina 2005

… La Biblioteca generalmente esta

orientada al usuario pero…

… Existe algo llamado ¡Ansiedad causada por la Biblioteca!

La Ansiedad de la Biblioteca ¿Qué es y Por qué sucede?

Ansiedad Satisfacción

La Ansiedad de la Biblioteca ¿Qué es y Por qué sucede?

Bibliotecario ayer

Bibliotecario hoy

Guías

Ayudantes

Guardián

Custodio

¿Qué es la Ansiedad causada por la Biblioteca?

Es una combinación de emociones experimentadas por muchos usuarios (especialmente por los que pisan por primera vez una biblioteca. Se caracteriza porque el usuario:

• Comienza a sentirse abrumado por el tamaño de los libros o de los resultados de una búsqueda.

• No sabe como buscar información, ni como esta organizada la biblioteca o la web.

Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm

¿Qué es la Ansiedad causada por la Biblioteca?

– Carece de seguridad en si mismo acerca de cómo comenzar a trabajar en las tareas y trabajos asignados.

– Sentimiento de ineptitud (“Soy el único que no sabe”)

– Vacila para preguntar (“Yo se que esta es una pregunta tonta…”)

Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm

(continuación)

¿Qué es la Ansiedad causada por la Biblioteca?El usuario e incluso el referencista son de cierta manera detectives que tiene que descifrar códigos confusos , perderse en laberintos y hoy en día lidiar con las TIC, la cual aumenta su ansiedad en caso de no dominarla

Ante ello uno como bibliotecario debe tener una… ena disposición de servicio

Ante ello uno como referenciasta debe tener una buena disposición para ayudar

¿Qué Podemos Hacer para Aliviar la Ansiedad de la Biblioteca?

“que cada ojo trate por cuenta propia, sin fiarse en mediador .”

William Shakespeare,

Mucho ruido y pocas nueces

¿Qué es el pensamiento crítico?

• Mona McCormick:

– Es la habilidad para distinguir los hechos de la ficción, para establecer opiniones, y para reflexionar sobre el por qué aceptamos los “hechos” y estamos de acuerdo con las opiniones de otros.

Evaluar sitios Web

• Accesibilidad

– W3C MarkUp ValidationService. http://validator.w3.org/ Servicio de Verificación de marcas o etiquetas del W3C que chequea si los documentos HTML son conformes con las Recomendaciones del W3C World WideWeb Consortium para los estándares HTML y XHTML.

Taller de Evaluación

• http://lemachett.googlepages.com/tallerbibliotic

Si consideramos los motores de búsqueda en la Web actuales llegamos a la conclusión:

•Se siguen utilizando los índices que son muy similares a los utilizados por los bibliotecarios hace un siglo.

•¿Qué ha cambiado entonces en la Búsqueda?

Cambios en la RI en un entorno “interactivo”

Es más barato tener acceso a

diversas fuentes de información

1El avance en las

TIC ha proporcionado

un mayor acceso a las redes.

2Por primera vez

en la historia, muchas personas

tienen acceso libre a la

publicación en un gran medio

3

Preguntas a futuro de la RI en un entorno “interactivo”

• En el mundo dinámico de la Web y de las Bibliotecas digitales ¿Cuáles son las técnicas que permiten recuperar información de mayor calidad? A gente que le resulta difícil o imposible hacerlo

1

• ¿Cuáles son las técnicas que indizan más rápido, reduciendo el tiempo de consulta? 2

• ¿Cómo mejoramos la comprensión del comportamiento del usuario en relación al diseño y desarrollo de nuevas estrategias de recuperación de información?3

Cuestiones prácticas

Seguridad

• Transacciones Seguras

Intimidad

• Con frecuencia, las personas están dispuestas a sacrificar su intimidad por información con tal de que no se convierta esta en información pública

Derechos de autor

• Legislación , Fare use, CC, Derechos de Autor, Canón,

Digitalización

• OCR (Google Books)

El intercambio de idioma de la recuperación

• Se consulta en un idioma y se recuperan los documentos en otros idiomas

Recuerde que de usted depende hacer un buen uso de las herramientas e igualmente debe velar

por lograr que sus usuarios desarrollen sus propias habilidades en el acceso, la evaluación y

el uso de la información en la Web.

Leonardo MACHETTALFABETIZACIÓN INFORMACIONAL

lemachett@gmail.comhttp://bajoelmanzano.blogspot.com

Twitter: lemachett