Almacenamiento en bases de datos

18
ALMACENAMIENTO Miguel Orquera

description

 

Transcript of Almacenamiento en bases de datos

Page 1: Almacenamiento en bases de datos

ALMACENAMIENTO

Miguel Orquera

Page 2: Almacenamiento en bases de datos

Velocidad con la cual puede ser accesada. Costo por unidad de dato. Seguridad

Pérdida de datos por fallas de energía o caída del sistema

Falla física de un medio de almacenamiento. Puede diferenciarse el almacenamiento entre:

Almacenamiento Volátil: pierde su contenido cuando se corta la energía.

Almacenamiento no volátil: Su contenido persiste aún cuando se corta la energía. Incluye almacenamiento secundario y terciario, y memoria

RAM con baterías.

CLASIFICACION DE LOS MEDIOS FISICOS DE ALMACENAMIENTO

Page 3: Almacenamiento en bases de datos

Cache – El mas rápido y costoso medio de

almacenamiento; volátil; manejado por el sistema de hardware del computador.

Memoria Principal: Rápido acceso (70 a 100 nanosegundos; 1 nanosegundo

= 10–9 segundos) Generalmente muy pequeña (y muy cara) para

almacenar la base de datos entera. Actualmente se usa una capacidad de sobre varios Gigas. Su capacidad va en aumento y su costo por byte va

disminuyendo en forma constante y rápida. (un factor de 2 cada 2 a 3 años)

Volátil — El contenido de la memoria principal se pierde cuando se corta la energía o el sistema cae.

MEDIOS FISICOS DE ALMACENAMIENTO

Page 4: Almacenamiento en bases de datos

Memoria Flash

Los datos sobreviven a fallas de energía. La lecturas son tan rápidas como la memoria

Ram (100 nanosegundos). La escritura es lenta (4 - 10 microsegundos), el

borrado es mas lento ya que se borra todo en banco de memoria.

El costo por unidad de almacenamiento es similar al de la memoria Ram.

Ampliamente usados en cámaras digitales y computadores de bolsillo.

También conocidos como EEPROM (Electrically Erasable Programmable Read-Only Memory)

MEDIOS FISICOS DE ALMACENAMIENTO (CONT.)

Page 5: Almacenamiento en bases de datos

Discos magnéticos

Los datos son almacenados sobre la superficie de discos, y la lectura y escritura se realiza magnéticamente.

Principal medio de almacenamiento de datos a largo plazo; típicamente almacena una base de datos entera.

Para accesar a los datos deben ser movidos desde disco a memoria principal, y deben ser escritos nuevamente para almacenarlos. Su acceso es mucho mas lento que a la memoria principal.

Acceso directo – es posible leer datos desde disco en cualquier orden a diferencia de las cintas magnéticas.

Actual capacidad sobre 1 TB. Mucha mas grande capacidad y menor costo por byte que la

memoria Ram. Crecimiento rápido y constante con el mejoramiento de la tecnología

(factor de 2 a 3 cada 2 años). Sobrevive a las fallas de energía y caídas del sistema.

Los daños en el disco pueden destruir a los datos, pero es raro.

MEDIOS FISICOS DE ALMACENAMIENTO (CONT.)

Page 6: Almacenamiento en bases de datos

Almacenamiento óptico

No volátil, datos son leídos ópticamente desde disco utilizando un láser.

CD-ROM (700 MB), DVD (4.7 a 8.5 GB por cara, hasta 17 GB en DVD doble cara) y blu-ray (25GB los de simple cara y 50 GB los de doble cara son los mas populares.

Los discos ópticos Write-one, read-many (WORM) son usados para almacenamiento de archivos (CD-R and DVD-R).

Versiones de escritura múltiple también están disponibles (CD-RW, DVD-RW, y DVD-RAM)

Lectura y escritura es mas lenta que los discos magnéticos. Las cajas de CDs, contienen varias unidades de discos y

muchos discos, y un mecanismo para carga y descarga automática de discos, usados para almacenar grandes volúmenes de información.

MEDIOS FISICOS DE ALMACENAMIENTO (CONT.)

Page 7: Almacenamiento en bases de datos

Almacenamiento en Cinta

no-volátil, usado principalmente para respaldos (para recuperación de datos cuando se daña el disco), y para archivar datos.

Acceso secuencial – mucho mas lento que un disco Alta capacidad (disponibles cintas de una capacidad

entre 40 a 300 GB). Las cintas pueden ser removidas de su drive los costos

de almacenamiento son mucho mas baratos que un disco pero su drive es caro.

Las cajas de cintas están disponibles para almacenar cantidades masivas de datos. Cientos of terabytes (1 terabyte = 109 bytes) o aún

pentabytes (1 petabyte = 1012 bytes)

MEDIOS FISICOS DE ALMACENAMIENTO (CONT.)

Page 8: Almacenamiento en bases de datos

JERARQUIA DE ALMACENAMIENTO

Page 9: Almacenamiento en bases de datos

Almacenamiento primario: Medios rápidos

pero volátiles (cache, main memory). Almacenamiento secundario: siguiente nivel

en la jerarquía, no-volátil, tiempo de acceso moderadamente rápido. También llamado almacenamiento en línea. Estos son: memoria flash y discos magnéticos.

Almacenamiento terciario: El mas bajo nivel en la jerarquía, no-volátil, tiempo de acceso lento. También llamado almacenamiento fuera de línea. Estos son: cintas magnéticas y almacenamiento óptico.

JERARQUIA DE ALMACENAMIENTO (CONT.)

Page 10: Almacenamiento en bases de datos

MECANISMO DEL DISCO DURO

Page 11: Almacenamiento en bases de datos

Cabeza de lectura-escritura

Su posición es muy cercana a la superficie del disco (casi tocándole) Lee y escribe información magnéticamente codificada.

La superficie del disco se divide en pistas circulares. Entre 50.000 y 100.000 pistas por plato es lo usual.

Cada pista está dividida en sectores. Un sector es la unidad mas pequeña de datos que puede ser leída o escrita. Típicamente el tamaño de un sector es de 512 bytes. Sectores por pista: 500 (en pista internas) a 1000 (en pistas externas)

Para lectura/escritura de un sector El brazo del disco se mueve hasta colocar la cabeza lectora sobre la pista

correcta. Los platos giran continuamente; los datos son leídos o escritos cuando un

sector pasa bajo la cabeza. Montaje de las cabezas

Varios platos se colocan sobre un mismo eje (típicamente de 2 a 5) Una cabeza por superficie de cada plato, montados sobre un brazo común.

Cilindro i está formado por las i-ésimas pistas de todos los platos.

DISCOS MAGNETICOS

Page 12: Almacenamiento en bases de datos

Las primeras generaciones de discos eran susceptibles a caídas

de las cabezas. Los primeros discos tenían sus superficies recubiertas de óxido

metálico que podía desintegrarse ante una caída de la cabeza, dañando todo el disco.

Las actuales versiones de discos son menos susceptibles a esos daños, aunque sectores individuales pueden se dañados.

Controlador de disco – Es la interfaz entre el sistema informático y el hardware.

Acepta comandos de alto nivel para leer o escribir un sector Inicia acciones como mover el brazo del disco a al pista correcta, y

leer o escribir los datos Calcula y añade checksums a cada sector para verificar que los

datos han sido leídos correctamente. Si los datos están corruptos, es muy probable que el checksum

almacenado no concuerde con el recalculado. Asegura escrituras exitosas volviendo a leer un sector después de

escribirlo. Ejecuta una reasignación de datos ubicados en sectores dañados.

DISCOS MAGNETICOS

Page 13: Almacenamiento en bases de datos

SUBSISTEMA DE DISCO

Varios discos son conectados a un sistema de computación a través de un controlador.

Algunas funciones del controlador (checksum, reasignación de sectores dañados) a menudo se implementan en cada disco individual, lo que reduce la carga al controlador.Familias de Interfaces de disco estandar:

• Rango de estándares ATA (AT adaptor).• Rango de estándares SCSI (Small Computer System Interconnect).

Hay varios tipos de cada estándar (difieren en su velocidad y capacidad).

Page 14: Almacenamiento en bases de datos

Tiempo de acceso – El tiempo desde que se hace una solicitud

de lectura o escritura hasta que comienza la transferencia de datos. Consiste de: Tiempo de búsqueda – tiempo que toma la colocación del brazo del

disco en la pista adecuada. El tiempo promedio de búsqueda es la mitad del mayor tiempo de

búsqueda. 4 a 10 milisegundos en un disco típico.

Latencia rotacional – tiempo que toma al sector que va ha ser accesado, colocarse bajo la cabeza lectora La latencia promedio es la mitad del mayor tiempo de latencia. 4 a 11 milisegundos en un disco típico (5400 a 15000 r.p.m.)

Velocidad de transferencia de datos – es la velocidad a la que se puede recuperar o guardar datos en le disco. 25 a 100 MB por segundo es típico. Varios discos pueden compartir un controlador, por lo tanto, la

velocidad que un controlador puede manejar es también importante. E.g. ATA-5: 66 MB/s, Ultra 320SCSI: 320 MB/s Fiber Channel: 256 MB/s

MEDIDAS DE RENDIMIENTO DE LOS DISCOS

Page 15: Almacenamiento en bases de datos

Tiempo medio entre fallos (MTTF) – Es tiempo promedio que se espera que un disco opere sin fallas. Típicamente entre 57 a 136 años según los

fabricantes, pero normalmente quedan obsoletos a los cinco años. E.g., Un MTTF de 1,200,000 horas significa que dados

1000 discos nuevos, como promedio fallará uno cada 1200 horas.

MTTF decrece con la edad de los discos.

MEDIDAS DE RENDIMIENTO DE LOS DISCOS

Page 16: Almacenamiento en bases de datos

Bloque – Una secuencia de sectores contiguos de una

misma pista. Los datos son transferidos entre disco y memoria principal

en bloques. Su tamaño varía desde 512 bytes a varios Kbytes.

Bloques mas pequeños: mas transferencias desde disco. Bloques mas grandes: mas espacio desperdiciado con bloques

parcialmente llenos. El tamaño típico de un bloque actual está entre 4 y 16 Kbytes.

Planificación del brazo del disco: algoritmos ordenan los accesos pendientes a las pistas de tal manera que el movimiento del brazo se minimice. Algoritmo del ascensor: mueve el brazo en una dirección

(desde las pistas externas a las internas o viceversa), procesando los siguientes requerimientos en esa dirección hasta que no haya mas, entonces invertir la dirección y repetir el proceso.

OPTIMIZACION DEL ACCESO LOS BLOQUES DE DISCO

Page 17: Almacenamiento en bases de datos

Organización de archivos – optimiza el tiempo

de acceso a los bloques de acuerdo a como se espera que se accede a los datos. Almacena información relacionada en el mismo cilindro

o en cilindros vecinos. Con el tiempo los archivos pueden quedar fragmentados

Si los datos son insertados y borrados continuamente. O los bloques libres en el disco están dispersos, y los

nuevos archivos tienen sus bloques dispersos en el disco. El acceso secuencial a un archivo fragmentado incrementa

el movimiento del brazo del disco. Algunos sistemas tienen opciones para defragmentar

los archivos del disco e incrementar la velocidad de acceso.

OPTIMIZACION DEL ACCESO LOS BLOQUES DE DISCO

(Cont.)

Page 18: Almacenamiento en bases de datos

Memoria intermedia no volátil se sube la velocidad de escritura a

disco escribiendo los bloques en un RAM no volátil para mas tarde pasar esos bloques a disco, cuando el sistema esté desocupado. RAM no volátil: RAM alimentada por baterías

Aún si la energía falla. Los datos están seguros y serán escritos en disco cuando la energía retorne.

El controlador hace la escrituras en disco cuando el disco no tiene otros requerimientos.

Las operaciones de BDD que requieren que los datos sean guardados antes de continuar, pueden seguir que los datos sean escritos en disco.

Las escrituras pueden ser reordenados para minimizar el movimiento del brazo.

Disco de Archivo histórico – se provee un disco para la escritura de un archivo histórico secuencial de bloques actualizados.

Es similar al RAM no volátil La escritura en archivo histórico es muy rápida mientras no se requieran hacer

búsquedas. No necesita de un hardware especial

El sistema de archivos típicamente reordena la escritura de discos para mejorar el rendimiento.

OPTIMIZACION DEL ACCESO LOS BLOQUES DE DISCO

(Cont.)