TeSeBaDa - U4

download TeSeBaDa - U4

of 52

description

Temas Selectos de Base de Datos

Transcript of TeSeBaDa - U4

  • Unidad 4

    Bases de Datos Semi-estructuradas

    Temas Selectos de Bases de Datos

  • Introduccin a las BD SE

  • Modelos de datos.

    Bajo la estructura de las bases de datos se encuentra el modelo de

    datos: una coleccin de herramientas conceptuales para describir los

    datos, sus relaciones, su semntica y las restricciones de consistencia.

    Los modelos de datos ofrecen un modo de describir el diseo de las

    bases de datos en los niveles fsico, lgico y de vistas.

    En este texto se van a tratar varios modelos de datos diferentes. Los

    modelos de datos pueden clasificarse en cuatro categoras diferentes:

    Introduccin a las BD SE

  • Modelo relacional. El modelo relacional usa una coleccin de tablas

    para representar tanto los datos como sus relaciones. Cada tabla tiene

    varias columnas, y cada columna tiene un nombre nico. El modelo

    relacional es un ejemplo de un modelo basado en registros.

    Los modelos basados en registros se denominan as porque la base de

    datos se estructura en registros de formato fijo de varios tipos. Cada

    tabla contiene registros de un tipo dado. Cada tipo de registro define un

    nmero fijo de campos, o atributos. Las columnas de la tabla se

    corresponden con los atributos del tipo de registro. El modelo de datos

    relacional es el modelo de datos ms ampliamente usado, y una gran

    mayora de sistemas de bases de datos actuales se basan en el modelo

    relacional.

    Introduccin a las BD SE

  • El modelo entidad-relacin. El modelo de datos entidad-relacin

    (E-R) se basa en una percepcin del mundo real que consiste en una

    coleccin de objetos bsicos, denominados entidades, y de las relaciones

    entre ellos. Una entidad es una cosa u objeto del mundo real que es

    distinguible de otros objetos. El modelo entidad-relacin se usa mucho

    en el diseo de bases de datos.

    Modelo de datos orientado a objetos. El modelo de datos

    orientado a objetos es otro modelo de datos que est recibiendo una

    atencin creciente. El modelo orientado a objetos se puede considerar

    como una extensin del modelo E-R con los conceptos de la

    encapsulacin, los mtodos (funciones) y la identidad de los objetos.

    Introduccin a las BD SE

  • Modelo de datos semiestructurados.

    El modelo de datos semiestructurados permite la especificacin de datos

    donde los elementos de datos individuales del mismo tipo pueden tener

    diferentes conjuntos de atributos. Esto lo diferencia de los modelos de

    datos mencionados anteriormente, en los que cada elemento de datos de

    un tipo particular debe tener el mismo conjunto de atributos.

    El lenguaje de marcas extensible (XML, eXtensible Markup

    Language) se emplea mucho para representar datos semiestructurados.

    Introduccin a las BD SE

  • Los datos semi-estructurados son datos que pueden ser irregulares

    o completos, cuya estructura puede cambiar de forma rpida o

    impredecible. No se adaptan a un esquema fijo.

    En un sistema de bases de datos basado en datos semi-estructurados el

    esquema se descubre a partir de los datos. Se pueden utilizar para

    manejar fuentes de informacin web desde una base de datos pero sin la

    imposicin de un esquema.

    La mayora de las tcnicas para el manejo de este tipo de datos se basan

    en lenguajes de consulta que recorren representaciones de los datos en

    forma de rbol etiquetado.

    Introduccin a las BD SE

  • Introduccin a las BD SE

  • Modelo de intercambio de objetos OEM.

    OEM (Object Exchange Model) es un modelo propuesto para el manejo

    de datos semiestructurados. El objetivo del modelo es realizar la

    integracin de datos de diferentes orgenes de datos.

    Los OEM carecen de esquema y son auto-descriptivos. Se pueden

    visualizar como grficas dirigidas etiquetadas.

    Un OEM se compone de un identificador nico, de una etiqueta

    descriptiva, un tipo y un valor.

    Introduccin a las BD SE

  • Modelo de intercambio de objetos OEM.

    Los objetos pueden ser atmicos y complejos.

    Objeto atmico: Contiene un valor para un tipo base. En una grfica

    son los nodos sin aristas salientes.

    Objeto complejo: Son un conjunto de identificadores de objetos.

    Tienen una o ms aristas salientes.

    Un objeto hijo puede tener cualquier nmero de objetos padre y un

    objeto padre puede tener cualquier cantidad de hijos. Ejemplos:

    {Empleado, &3, set, {&8}}

    {Nombre, &9, string, Juan}

    {Salario, &8, decimal, 5000}

    Introduccin a las BD SE

  • HTML

  • El lenguaje HTML.

    El lenguaje de marcado de hipertexto HTML (HyperText Markup

    Language) es utilizado para presentar informacin en forma de texto.

    La mayora de los documentos Web se almacenan y transmiten mediante

    HTML. Aunque HTML es simple de utilizar, por s solo no permite el

    suficiente dinamismo que los documentos en la Web requieren.

    W3C World Wide Web Consortium es una comunidad internacional que

    desarrolla estndares abiertos para asegurar el crecimiento de la Web.

    Introduccin a las BD SE

  • Introduccin a las BD SE

  • Introduccin a las BD SE

  • Introduccin a las BD SE

  • Introduccin al XML

  • El lenguaje XML.

    El lenguaje de marcado extendible XML (eXtensible Markup Language)

    es un metalenguaje que permite a los diseadores Web crear sus propias

    etiquetas personalizadas.

    En el 2000, W3C publica su recomendacin para utilizar XML 1.0

    (creado en 1998), con el objetivo de hacer un HTML ms portable y ms

    poderoso.

    El objetivo de XML es proporcionar ciertas funcionalidades no

    disponibles en HTML. XML fue derivado de SGML el cual fue

    estandarizado en 1986..

    Introduccin a las BD SE

  • El lenguaje de marcado generalizado estndar SGML (Standard

    Generalized Markup Language) es un sistema que permite definir tipos

    de documentos estructurados y lenguajes de composicin para

    representar instancias de dichos tipos de documentos. SGML es muy

    potente, pero muy complejo y requiere una gran cantidad de software

    para procesarlo.

    Las principales caractersticas de SGML son ampliabilidad, estructura y

    validacin. SGML permite separar en dos partes un documento:

    Una parte define la estructura del documento.

    En la otra parte se encuentra el contenido del documento.

    Introduccin al XML

  • Cualquier sistema compatible con SGML puede leer documentos XML.

    XML permite realizar aportaciones considerables a las interfaces

    grficas, los sistemas embebidos, los sistemas distribuidos y las bases de

    datos.

    Puesto que XML describe la estructura de datos, podra ser un

    mecanismo para definir la estructura de diversas bases de datos y

    orgenes de datos heterogneos.

    Introduccin al XML

  • Propiedades del XML.

    Simplicidad. Es un estndar sencillo, descrito en alrededor de

    cincuenta pginas.

    Independencia. Es independiente de la plataforma y del fabricante.

    Ampliabilidad. Permite a los usuarios definir sus propias etiquetas.

    Reutilizacin. Se pueden crear bibliotecas de etiquetas XML.

    Separacin. Permite separar el contenido de un documento de la

    forma en que va a presentarse.

    Introduccin al XML

  • Propiedades del XML.

    Equilibrio de carga. Los clculos pueden ser realizados de manera

    local, aligerando la carga del servidor.

    Soporte para la integracin de datos. Permite integrar datos de

    mltiples fuentes heterogneas. Para esto pueden utilizarse agentes

    software.

    Capacidad de descripcin. Puede utilizarse para describir datos

    contenidos en una amplia variedad de aplicaciones.

    Motores de bsqueda avanzados. Basta con que los motores de

    bsqueda analicen las etiquetas donde se describe el contenido de los

    datos.

    Introduccin al XML

  • Propiedades del XML.

    Lenguaje basado en tags para la especificacin de datos semi-

    estructurados.

    Ha sido tomado como estndar por World Wide Web

    Consortium (W3C) para el intercambio de datos.

    Los tags son definidos por el usuario y representan el

    significado de los datos que encierran.

    Introduccin al XML

  • Declaracin XML.

    Primero se indica la versin de XML utilizada para componer el

    documento, la codificacin y si se hace o no referencia a declaraciones

    externas. Lo siguiente es el cuerpo del documento.

    Introduccin al XML

  • Sintaxis Bsica de XML.

    Elementos XML.

    Componentes bsicos en un documento XML.

    Atributos XML.

    Representan propiedades de los elementos.

    Son definidos como pares (nombre, valor) en un tag.

    En un tag pueden ser definidos mltiples atributos.

    En un tag un atributo puede ser definido una sola vez.

    Los atributos no estn predefinidos.

    Atributos pueden introducir ambigedad de cmo representar las

    caractersticas estructurales de un objeto del mundo real.

    Introduccin al XML

  • Sintaxis Bsica de XML.

    Comentarios.

    Instrucciones de Procesamiento:

    Permite al documento contener instrucciones para aplicaciones.

    Entidades:

    Permiten definir macros

    DTD (Document Type Definition):

    Define el esquema de un documento XML

    Introduccin al XML

  • Diferentes usos de los atributos de XML.

    Jose Perez

    24

    [email protected]

    O

    O

    Jose Perez

    [email protected]

    Introduccin al XML

  • Representacin de un documento XML en un rbol.

    Introduccin al XML

  • Interrelaciones en Documentos XML.

    XML permite:

    Asociar identificadores a elementos, como el valor de un cierto

    atributo.

    MD

    Maryland

    Introduccin al XML

  • Interrelaciones en Documentos XML.

    XML permite:

    Hacer referencias entre elementos haciendo uso del atributo idref .

    Introduccin al XML

  • Definicin de Tipos de Datos (Data Type Def.) en XML.

    Un Data Type Definition (DTD) define la estructura de un documento

    XML.

    Un DTD se expresa en XML.

    Un DTD es una gramtica libre de contexto para un documento.

    Donde: [markupdeclaration] puede ser:

    Introduccin al XML

  • Ejemplo de DTD en XML.

    Introduccin al XML

  • Ejemplo de DTD en XML.

    ]>

    Introduccin al XML

  • Ejemplo:

    Orden de Compra, Orden.xml

    Alicia Snchez

    Calle A. Rosales1294

    GuadalupeCuliacn

    Sinaloa80120

  • Ejemplo:

    Urgente!

    Teclado101Teclas

    11489.95

    Confirmar

    < pieza NumParte="926-AA">

    Baby Monitor

    13999.98

    05-12-2014

    Introduccin al XML

  • Lenguaje XML-Schema:

    El esquema de datos se define en base a:

    Un elemento schema.

    Varios subelementos:

    Element.

    ComplexType. Contiene elementos, referencias a elementos y

    atributos (attribute). Los atributos solo pueden ser simpleType.

    SimpleType: Hay tipos primitivos de datos.

    Sequence. Determina un orden de los elementos.

    Restricciones de nmero de ocurrencias.

    Definiciones de tipos annimos.

    Introduccin al XML

  • Lenguaje XML-Schema:

    Purchase order schema for Example.com.

    Copyright 2000 Example.com. All rights reserved.

    Introduccin al XML

  • Motores de Bsqueda

  • Por el tipo de tecnologa que utilizan, los sistemas de bsqueda en

    internet se pueden clasificar en dos:

    Motores de bsqueda: Son sistemas de bsqueda por palabras clave,

    consisten en bases de datos que incorporan automticamente pginas

    web mediante "robots" de bsqueda por la red. Como operan en forma

    automtica, los motores de bsqueda contienen generalmente ms

    informacin que los directorios.

    ndices temticos o directorios: Son sistemas de bsqueda por

    temas o categoras jerarquizados, aunque tambin incluyen sistemas de

    bsqueda por palabras clave. Se trata de bases de datos de direcciones

    Web elaboradas "manualmente", es decir, hay personas que se encargan

    de asignar cada pgina web a una categora o tema determinado.

    Motores de Bsqueda

  • Motor de bsqueda.

    Un motor de bsqueda es un software que busca y clasifica documentos

    almacenados en los diversos servidores de Internet, mediante un proceso

    denominado: indexacin.

    Un ejemplo son los buscadores de internet (algunos buscan slo en la

    Web pero otros buscan adems en News, Gopher, FTP, etc.) cuando les

    pedimos informacin sobre algn tema. Las bsquedas se hacen con

    palabras clave o con rboles jerrquicos por temas; como resultado de la

    bsqueda se obtiene un listado de direcciones Web en las que se

    mencionan temas relacionados con las palabras clave buscadas.

    Motores de Bsqueda

  • Motor de bsqueda.

    El primer sistema de bsqueda popular en Internet se llam: Archie y

    estaba orientado de manera exclusiva a la investigacin y clasificacin de

    los nombres de los archivos almacenados en servidores FTP, es por ello

    que obtiene su nombre aludiendo a: Archive.

    Nuevos mecanismos de bsqueda fueron apareciendo con la llegada de

    nuevas aplicaciones de Internet, tal fue el caso de la aplicacin. Veronica,

    que permita indexar archivos del sistema Gopher (precedente del

    WWW) y cuyo nombre hacia a referencia a la compaera de Archie,

    personaje principal de un popular comic.

    Motores de Bsqueda

  • Motor de bsqueda.

    Con la llegada del Word Wide Web, aparece el primer motor de

    bsqueda, desarrollado por el Instituto Tecnolgico de Massachusetts en

    1993, denominado Wandex. Posteriormente fueron apareciendo otros

    motores de bsqueda como: Lycos, Altavista, Excite, Google, Yahoo Search,

    MSN Search y Wikiseek.

    Los motores de bsqueda incorporan automticamente y de manera

    constante informacin de internet mediante los denominados robots

    de bsqueda y por medio de algoritmos que organizan los resultados.

    Motores de Bsqueda

  • Motor de bsqueda.

    Dichos robots o spiders, recorren las pginas recopilando

    informacin sobre los contenidos de los sitios de Internet en bases de

    datos. Estas bases de datos contienen, generalmente, el titulo de la

    pgina, una descripcin del sitio, palabras clave e informacin de sus

    enlaces.

    Cuando buscamos una informacin en los motores, ellos consultan

    su base de datos, y nos la presentan clasificados por su relevancia.

    Si buscamos una palabra, por ejemplo "educacin", en los

    resultados que nos ofrecer el motor de bsqueda, aparecern

    pginas que contengan esta palabra en alguna parte de su texto.

    Motores de Bsqueda

  • Motor de bsqueda.

    Cada cierto tiempo, los motores de bsqueda revisan los sitios web, para

    actualizar los contenidos de su base de datos, por lo que pudiera darse el

    caso de que los resultados de la bsqueda no estn actualizados. Los

    motores de bsqueda, tienen una coleccin de programas simples y

    potentes con diferentes cometidos. Se suelen dividir en tres partes: los

    programas que exploran la red spiders, los que construyen la base de

    datos y los que utiliza el usuario: el programa que explora la base de

    datos.

    Motores de Bsqueda

  • Motor de bsqueda.

    Motores de Bsqueda

  • Motor de bsqueda.

    Para lograr posicionar un sitio web en la lista de resultados de un motor

    de bsqueda, se utilizan un conjunto de algoritmos que consideran entre

    otros elementos:

    a) La popularidad del sitio web (Cuantos otros sitios llevan a un

    determinado sitio?)

    b) El titulo de la pgina.

    c) Los encabezados.

    d) El texto del sitio

    e) El nombre de las imgenes

    f) Los enlaces hacia otras pginas.

    Motores de Bsqueda

  • Motor de bsqueda.

    Es por ello que un sitio especifico, tendr mayores posibilidades de

    posicionarse en la lista del resultados de un motor de bsqueda en tanto

    sea ms popular, es decir, en tanto exista un mayor nmero de sitios web

    que apunten hacia l.

    Es posible conocer que tal popular es un sitio web, mediante diversas

    herramientas, como utilizar el motor de bsqueda de Google insertando

    antes de la direccin URL la instruccin: link:, por ejemplo: si se desea

    saber que tan popular es el sitio de Greenpeace, insertamos en la barra

    de bsqueda de Google la siguiente instruccin: link:www.greenpeace.org

    Motores de Bsqueda

  • Motor de bsqueda.

    Motores de Bsqueda

  • Motor de bsqueda.

    En este caso, el motor de bsqueda responder con un resultado como el

    siguiente:

    Directorios.

    Los directorios son una tecnologa ms barata que los buscadores y son

    ampliamente utilizados porque no se requieren muchos recursos de

    informtica, en cambio, se requiere ms soporte humano y

    mantenimiento.

    Motores de Bsqueda

  • Motor de bsqueda.

    Los algoritmos son mucho ms sencillos, presentando la informacin

    sobre las webs registradas como una coleccin de directorios. No

    recorren las webs ni almacenan sus contenidos, solo registran algunos de

    los datos de la pgina a la que se hace referencia tales como el ttulo y la

    descripcin de la misma.

    Los directorios, diferencia de los motores, son revisados por operadores

    humanos, y clasificados segn categoras, de forma que es fcil encontrar

    pginas web del tema de nuestro inters. Un ejemplo de directorio lo

    constituye el portal espaol Terra.

    Motores de Bsqueda

  • Motor de bsqueda.

    Motores de Bsqueda

  • Motor de bsqueda.

    Actualmente existen portales mixtos que integran la funcionalidad de un

    motor de bsqueda pero ofrecen el servicio de directorio mediante webs

    registradas en catlogos sobre contenidos como: informtica, cultura,

    sociedad, deportes, entre otros, que a su vez se dividen en subsecciones,

    en ejemplo de este tipo de portales es: Yahoo! Mxico.

    Motores de Bsqueda

  • Motor de bsqueda.

    Motores de Bsqueda