Apuntes de organizacion_de_archivos

I.E.S Administración de Archivos

SEPTIMO CUATRIMESTRE

Lic. Sistemas computacionales

JESUS MARTINEZ FAJARDO

V.P.M. 1


Unidad I.

Dispositivos de almacenamiento externo

• 1.1 Tecnologías IDE y SCSI. • 1.2 Tarjetas Controladoras. • 1.3 Config.Sys y Autoexec.Bat • 1.4 Buffer • 1.5 Cinta Magnética • 1.6 Discos Flexibles • 1.7 Discos Duros • 1.8 Cd ROM • 1.9 Zip y Jaz

IDE Un nuevo enfoque de interfaz unidad/controlador es la llamada IDE, Integrated Drive Electronics (Electrónica Integrada de Unidad). Tal vez es el cable mas corto del mundo de Controlador/Unidad, se encuentra en una unidad IDE. Reúne 25 a 35 sectores en una pista que usa básicamente tecnologías ST506. En vez de la unidad y el controlador por separado, IDE coloca el controlador directamente dentro de la unidad en busca de eliminar perdida de datos entre la unidad y el controlador. Los IDE se conectan al bus en una de tres formas.

1. La unidad/Controlador IDE se conecta a una ranura del bus si es una hardcard (tarjeta dura).

2. La mayor parte de las IDE hoy día se conectan al bus con una simple tarjeta de paso (Paddle). Bajo este esquema un cable de 40 conductores corre de la Unidad/Controlador IDE a una tarjeta adaptadora IDE, que realmente no es mas que una tarjeta enchufada a una ranura de expansión tal que entregue los datos al bus.

3. Mas y mas tarjetas madre incluye un conector IDE directamente en la tarjeta.

Dentro de esta tecnología (IDE) hay dos cosas que no se deben de realizar, no se le puede dar mantenimiento mediante programas y no se le debe formatear a bajo nivel porque puede dañar la unidad.

Los pasos para instalar una unidad sencilla IDE son:

V.P.M. 2


1. Instale el adaptador IDE (recuerde que IDE coloca el controlador del disco en la unidad misma; por lo tanto no existen "Controladores IDE").

2. Monte la unidad IDE en el gabinete. 3. Conecte la energía en la unidad IDE. 4. Conecte ambos extremos del cable tipo listón de 40 conductores de la

unidad al adaptador.

Con un controlador IDE no puedes tener conectados dos discos duros y una cinta, ya que los controladores IDE solo pueden controlar dos discos duros.

SCSI

SCSI (se pronuncia scosi), significa SMALL COMPUTER SYSTEMS INTERFACE (Interfaz de Sistemas Pequeños de Computo). Esta interfaz se utiliza para conectar varios periféricos a una computadora, alojando hasta ocho diferentes tipos (Id0 a Id7) para conectarse a un adaptador anfitrión SCSI de la PC. SCSI es el único modo de conectar varios dispositivos de entrada y salida (Por ejemplo: Scanner, Plotters, Discos duros, Unidad de Cd-Rom, Impresoras, Cámaras de vídeo y unidades de respaldo con cinta) a la PC de un modo consistente.

SCSI es normalmente de mayor capacidad que los IDE y ofrecen mejores prestaciones. La principal desventaja de los SCSI radica en su precio y en su mayor dificultad de instalación. Dentro de esta interface podemos distinguir entre el SCSI (ancho de banda de 8 bits), SCSI-2 (ancho de banda de 16 bits), Fast Wide SCSI -2 (ancho de banda de 16 bits y transferencia máxima en modo sincrono de 20 Mbytes por segundo), Ultra SCSI (ancho de banda de 8 bits y velocidad de transferencia máxima de 29 Mbytes por segundo) y Ultra Wide SCSI (ancho de banda de 16 bits y velocidad máxima de transferencia de 49 Mbytes por segundo).

V.P.M. 3


Cada periférico SCSI tiene inteligencia propia, a diferencia de los puertos serie y paralelo. Al escribir datos en la unidad de disco SCSI, el CPU solo envía el mensaje "Escribir datos, disco duro-1" y los datos son escritos en el disco duro. El disco duro toma el mensaje, toma los datos y los escribe, luego envía un mensaje de regreso "datos escritos". Una vez que el mensaje fue enviado, el CPU puede dedicarse a otros trabajos.

La interfaz SCSI tiene unos resistores de terminación que se utilizan para que la señal no se regrese o rebote (cuando hay mas de dos dispositivos conectados) en el bus. Estos se encargan de retener la señal a la entrada del dispositivo hasta que este la capte. Tiene también siete jumpers en los cuales se configuran las direcciones de diferentes dispositivos conectados a la interface.

Algunos tipos de discos y unidades de cinta que tienen interfaz SCSI

UNIDADES DE DISCO DURO

Unidades de disco removibles como Bernoulli y Syquest, Dispositivos de Almacenamiento Winchester sellados, CD-ROM.

DISCOS WORM (WRITE ONCE, READ MANY TIMES) ESCRIBIR UNA VEZ, LEER MUCHAS VECES.

Unidad óptica reescribible, Unidades ópticas multifuncionales puede usar discos WORM o discos reescribibles, Unidad óptica con cambiador automático de discos, funciona igual que las maquinas antiguas que cambiaban discos automáticamente y las nuevas que cambian discos compactos automáticamente, Unidades de disco flopticas y Unidades de disquetes.

UNIDADES DE CINTA

Unidades DAT (Digital Audio Tape, Cinta Digital de Audio), Unidades de 8 mm del mismo tamaño que las cintas de vídeo de 8 mm., cartuchos de un cuarto de pulgada, unidades de cartucho que normalmente se utilizan para respaldo, Cinta óptica digital.

V.P.M. 4


1.2 Tarjetas Controladoras Todos los dispositivos periféricos, tanto internos como externos necesitan valerse de algún medio para comunicarse entre ellos y las computadoras. Algunas veces les llaman controladores, interfaces, puertos o adaptadores. Básicamente un controlador es un traductor entre la CPU y el dispositivo periférico como discos duros, disquete, teclado o monitor. Básicamente los controladores ejecutan las siguientes funciones:

a. Aíslan el equipo de los programas. b. Adecuan las velocidades entre los dispositivos que

operan a diferentes velocidades. c. Convierten datos de un formato a otro.

La infraestructura de componentes es mucho mejor y diferente, así que uno se imagina que habría grandes problemas de compatibilidad; sin embargo el equipo ha sido domesticado para responder a las solicitudes de la CPU del mismo modo (aunque con mayor rapidez) que el viejo controlador de IBM diseñado por Cebe. Existe la misma situación respecto de los controladores de vídeo diseñados por ATI o Paradise: responden a los mismos programas que los CGA, EGA o VGA originales de IBM, pero son mas baratos y generalmente trabajan con mayor rapidez. Utilizar controladores con interfaces bien definidas hace posible construir equipo compatible. Como manejar la igualdad de velocidades La mayor parte de los dispositivos periféricos son considerablemente mas lento que la CPU transferir datos. Aun el disco duro por ejemplo, es miles de veces mas lento que la CPU. La mayor parte de las micro computadoras (como la CPU) han sido diseñadas para controlar todo lo de sus sistemas, pero no es necesario. Una compañía llamada Cogent Data Systems fabrica un controlador de disco duro para las maquinas de clase AT que tienen memoria y un microprocesador directamente en el : La CPU principal solo hace una solicitud de controlador del disco duro, y luego (con programación adecuada) sale a hacerse cargo de alguna otra cosa mientras espera que el controlador haga su trabajo. Eventualmente, el controlador le informa a la CPU que termino con la solicitud de datos, y que los datos han sido transferidos a la memoria de la CPU. Verdaderamente, los beneficios de la "Igualación de velocidad" de los controladores no han sido explotados en el mundo de la PC, ya que no existe aun la Computación Distribuida interna.

V.P.M. 5


Conversiones a partir de formato de CPU Los controladores convierten los datos del formato de la CPU (+5 volts, digital, etc.) a cualquiera que sea el formato el que utilizan los periféricos (por ejemplo, lo que se llama Modified Frecuency Modulation para los discos duros anteriores). La CPU habla su propio lenguaje eléctrico con otros chips de la tarjeta madre, pero es un lenguaje que no tiene mucho poder - Una CPU no podría "gritar" con suficiente fuerza para ser oído lejos en una LAN. Los dispositivos, como monitores necesitan que las señales sean modificadas hacia formas que pueden utilizar. Una vez mas los monitores sirven para ello. Un sistemas típico tiene controlador de teclado, controlador de vídeo, controladores para el disco duro y los disquete, y controladores-interfaz para los puertos serie y paralelo. Muchos piensan que un controlador debe alojarse en su propia tarjeta, no es así, el controlador de teclado generalmente no es una tarjeta, sino un chip en la tarjeta madre. Los controladores de disco duro y disquete están generalmente separados en las maquinas tipo XT, pero en las misma tarjeta en la mayor parte de las maquinas de clase AT. Como hemos visto, muchas de las maquinas nuevas ponen los controladores de vídeo, disco duro, disquete, puerto paralelo y serie todos en una sola tarjeta; la tarjeta madre. Monitores y adaptadores de vídeo Las PC, igual que la mayor parte de las computadoras, utilizan tecnología de tubo de rayos catódicos (CTR Cathode Ray Tube) para mostrar la información al usuario. Para que la computadora se comunique con un monitor de imagen, se requiere de un adaptador de imagen insertado en una de las ranuras de expansión de la PC. Existen varios adaptadores de imagen disponibles:

1. MDA (Monochrome Display Adapter) de las IBM y compatibles.

2. Hercules Monochrome Graphics Adapter y compatibles. 3. CGA (Color/Graphics Adpter) y compatibles de IBM. 4. EGA (Enhanced Graphics Adapter) y compatibles de

IBM. 5. PGA (Professional Graphics Adapter) y compatibles de

IBM. 6. VGA (Vídeo Graphics Array) de IBM. 7. MCGA (Multi Color Graphics Array) de IBM. 8. 8514/A VGA (Very High Resolution Graphics Array) de

IBM. 9. XGA (Extended Graphics Array). 10. Adaptadores gráficos de alta resolución que no son de

IBM.

V.P.M. 6


Cada adaptador puede dar servicio a uno o mas tipos de pantallas. Las familias principales de pantallas son las siguientes:

a. Monitores monocromáticos TTL. b. Monitores de vídeo compuesto. c. Monitores RGB. d. Monitores RGB de alta resolución. e. Monitores Multiscan.

Controladores y unidades de disco para disco duro y disquete La unidad de disquete (o floppy disk) es un periférico esencial. Dado que es un periférico requiere de una tarjeta de interfaz. Esta tarjeta se llama controlador de disquete. Tenemos la tendencia a no pensar que determinadas tarjetas, como las tarjetas del puerto paralelo o de vídeo, sean especificas para AT o sean especificas para XT. Sin embargo los controladores de disco duro de las XT son radicalmente diferentes de los controladores de la AT, en general no son intercambiables Interfaces de impresora. Una impresora requiere de una interfaz, básicamente un puerto paralelo o serie. En el caso del puerto, la interfaz generalmente presenta pocos o ningún problema. Los puertos serie algunas veces pueden ser problemáticos.

Los puertos de impresora han sido denominados de manera que DOS pueda usar su nombre para referirse a ellos. DOS llama al primer puerto de impresora de una PC LPT1, DOS también da soporte a LPT1 y LPT3. Módem y puertos de comunicación. La otra interfaz común para impresoras es el puerto serie. Sin embargo este se utiliza con mas frecuencia para los módems. Los módem permiten a las computadoras comunicarse a larga distancia con otras a través de las líneas telefónicas. Reloj Calendario del sistema. El reloj calendario del sistema marca la fecha y hora aun cuando la unidad este apagada. Las maquinas tipo AT están diseñadas para incluir el reloj directamente en la tarjeta madre. Las de tipo XT no lo tienen, así que necesitan arreglárselas con ayuda de tarjetas accesorias.

V.P.M. 7


Interfaz SCSI Mas y mas computadoras vienen con una tarjeta de adaptador anfitrión SCSI (Interfaz de Pequeños Sistemas de computación). Se puede utilizar un adaptador SCSI para conectar la PC a algunos tipos de discos duros a la mayor parte de las unidades ópticas, a scanner o a unidades de cinta.

1.3 Config.sys y Autoexec.bat

Cada vez que se pone en marcha el sistema, el Dos busca en la raíz dos archivos especiales: el config.sys y el autoexec.bat. Como ya se sabe el autoexec.bat es un archivo especial de procesamiento por lotes cuyas ordenes son ejecutadas por el Dos de forma automática cada vez que se inicia el sistema. Procesamiento por lotes

Por lo general estamos en constante interacción con la computadora, a este proceso se le denomina procesamiento interactivo el cual forma la mayor parte del procesamiento hoy en día.

El procesamiento en el cual el sistema obtiene las ordenes a partir de un archivo en lugar de obtenerlas del usuario a través del teclado se denomina procesamiento por lotes y sus extensión es .bat y como hay algunas aplicaciones que están formadas por varios programas pequeños que se ejecutan secuencialmente. Este proceso ayuda en el ahorro de tiempo, sino también en escritura.

Las siguientes reglas proporcionan las líneas maestras para crear procedimiento por lotes.

a. No dar nombres de ordenes del Dos tales como cls.bat a los archivos por lotes, ya que no podrán encontrarse los archivos .bat.

b. El Dos ejecuta los com y exe antes de los Bat de igual nombre con cargo a la estrategia de búsqueda indicada en la orden del path.

c. Los archivos por lotes deben tener la extensión .bat. d. Si se invoca a un proceso, por lotes que reside en un

disco flexible y después se saca el disco, al finalizar el programa se insertara el disco.

e. Al cambiar la unidad de disco o directorio por defecto durante la ejecución del archivo .bat no afecta.

El dos proporciona varias ordenes que mejoran el procesamiento por lotes:

V.P.M. 8


Rem [mensaje] Pause [mensaje] Echo [on/off/mensaje] Goto [Etiqueta] If [Not] Condición orden -del -Dos For variable in (conjunto) do orden del Dos Shift REM Visualiza mensajes en pantalla durante el procedimiento por lotes PAUSE Es similar al Rem, pero suspende temporalmente el procesamiento hasta pulsar una tecla ECHO Permite o impide la visualización de nombres de ordenes del Dos, no inhibe la salida producida por las ordenes, su longitud es de 117 caracteres, cuando esta activado visualiza los nombres de todas las ordenes en pantalla a medida que se ejecuta. GOTO Proporciona un mecanismo para hacer un salto dentro de un archivo de procesamiento por lotes. IF Es el procesamiento condicional dentro de las ordenes del dos. FOR Proporciona un mecanismo para hacer un procesamiento repetitivo dentro de un archivo .bat SHIFT Se utiliza para utilizar mas de 10 parámetros, se limita a hacer rotar los parámetros un lugar hacia la izquierda.

AUTOEXEC.BAT

Cada vez que se inicia el sistema, el dos busca en la raíz del disco de arranque el archivo AUTOEXEC.BAT si este archivo existe el dos ejecuta los comandos contenidos en el. Si el dos no localiza el archivo AUTOEXEC.BAT este procede a ejecutar el comando DATE seguido del comando TIME.

V.P.M. 9


Los archivos .bat se ejecutan lentamente por que el Dos tiene que interpretar cada orden antes de ejecutarla. Así que no están hechos para usarlos como lenguaje de programación. PATH El Path no es mas que una lista de subdirectorios que usa el Dos para buscar cuando un programa no se encuentra en el subdirectorio actual, la sintaxis del path es: PATH= C\ ; Sub1; Sub2; ... Subn; SUBST Uno de los problemas del comando Path es que solo puede contener 127 caracteres en una lista al igual que otros comandos del Dos. Pero Path por si solo tiene 5 caracteres lo que nos queda solo 122 caracteres para la ruta. Una solución para este problema es el comando Subst, el cual constituye una ruta de subdirectorios por una letra del drive como: SUBST D: C:\ DOS SUBST E: C:\ WP Entonces tu puedes usar D: siempre que quieras ir al subdirectorio C:\ Dos. VERIFY Este comando cuando esta activo en "On" causa que el Dos verifique que los datos escritos en disco hayan sido grabados correctamente. Entonces el Dos leerá del disco los datos que fueron escritos y compara con los datos originales que se supone fueron escritos. Si estos concuerdan se procederá con el proceso de escritura de lo contrario mandara un mensaje de error. Sin embargo el Verifique hace la operación de escritura en un disco mas lenta, puesto que después de cada escritura verifica que los datos se hayan escrito correctamente. MODE El programa Mod.com es usado para configurar los puertos seriales en la PC, por ejemplo: si yo quisiera usar en módem a 2400 baudios, yo tendría que ejecutar el siguiente comando: MODE COM1 : 2400, ... Si yo siempre usara mi módem a 2400 baudios, yo tendría que incluir el comando Mode en mi archivo autoexec.bat. Las impresoras seriales y plotters típicos requieren un comando o conjunto de comandos similares. El software residente en memoria (también llamado TSR) es un software que esta en memoria hasta que se reinicie el sistema o especifique removerlo de la memoria. Generalmente el software es llamado 1 sola vez. Al intentar llamarlo una segunda vez, cuando esta residente en memoria puede causar problemas. Este problema hace que el Autoexec.bat sea una excelente manera de llamarlo, así no tendrás que preocuparte por mandarlo llamar nuevamente.

V.P.M. 10


En general algunas de las tareas mas importantes del Autoexec.bat son: a. Efectúa algunas tareas de configuración final que no se efectúan en

el Config.sys. b. Define un Path o ruta de caminos c. Crea cualquier otra variable de medio ambiente requerida por el

sistema, algunas variables comspec son creadas automáticamente, otras es necesario especificarlas (Comando SET).

d. Define el prompt inicial del sistema. e. Carga cualquier tipo de programa residente en memoria.

A continuación un pequeño ejemplo de lo que podría ser un archivo AUTOEXEC.BAT @ ECHO OFF REM NAME : AUTOEXEC.BAT REM VERSION : 4.01 REM DATE : Abril 28, 1999 REM Ponerle un nuevo formato al prompt del sistema PROMPT = $P\ $d$g REM El path del sistema... PATH = C:\ ; C:\ DOS; C:\ BORLANDC; C:\ KILLER REM Sustituyendo una ruta por un drive lógico SUBST D : C :\ Utilerias\ Wp REM Borrar archivos .TMP que aparezcan en C:\ WORD IF EXIST C:\ WORD\ *.TMP DEL C:\ WORD\ *.TMP ^ Z

1.4 Buffer Es un área de memoria principal reservada para contener los datos leídos de un archivo mientras se utilizan. Cuando esta área temporal queda llena, el programa puede empezar a utilizar estos datos. Manejar un buffer implica trabajar con grandes grupos de datos de memoria Ram para que el número de accesos al almacenamiento se reduzca.

El sistema operativo es quien maneja realmente los buffer del sistema. La entrada buffer del CONFIG.SYS permite especificar el numero de almacenamientos intermedios (o accesos) de discos que ha de usar del DOS, esto dependerá del tipo de configuración de cada sistema y se mide en términos de tiempos que consume el desplazamiento, el retraso por rotación y el tiempo de transferencia. Cada sector objeto de lectura anticipada consume un equivalente de memoria de 512 bytes.

V.P.M. 11


En esta ocasión se revisaran diversas formas de administrar el buffer para tratar de reducir lo mas posible los costosos accesos a dispositivos que son muy lentos respecto al CPU. Almacenamiento temporal único por demanda.

Es utilizado cuando existe un registro por bloque y un almacenamiento por archivo. En este caso el buffer es llenado por demanda del programa del usuario. El buffer contiene un apuntador al programa y un área de datos. El programa de canal es similar a este:

1. Esperar que se pida una lectura. 2. Mandar una orden de E/S a la unidad de control. 3. Esperar a que se llene el buffer. 4. Generar una interrupción para que se utilice el buffer.

En esta espera el CPU y el programa del usuario están ociosos. Almacenamiento temporal por anticipación.

Se utiliza para evitar esos tiempos ociosos, o sea que se pretende anticipar a la solicitud de lectura del programa manteniendo el buffer lleno. La estructura de este tipo de buffer esta formado por un apuntador al programa, una bandera de estado (0 vacío, 1 lleno) y el área de datos. El canal esta revisando continuamente la bandera y si el buffer utiliza la bandera cambia su estado para que el buffer sea llenado de nuevo. Programa de canal para llenar el buffer: Ciclo: Si bandera=1 ir a ciclo Emite un comando de inicio E/S a la Unidad de Control Esperar mientras el buffer se llena Bandera = 1 Ir a ciclo. Programa de canal para desalojar el buffer: Espera: Si bandera =0 ir a espera Lee el contenido del buffer en el área de trabajo del registro Bandera = 0 Ir a espera.

V.P.M. 12


Almacenamiento temporal con bloques.

Este caso se utiliza para cuando en el bloque leído existen n registros. La estructura del buffer incluye un contador (respecto a la estructura anterior) para indicar el registro (registro del buffer) próximo a leer. Programa de canal para llenar el buffer: Ciclo: Si bandera = 1 ir a ciclo Emite un comando de E/S a la unidad de control Esperar mientras el buffer se llena Contador = 1 Bandera = 1 Ir a ciclo. Programa de canal para desalojar el buffer: Espera : Si bandera = 0 ir a espera. Lee el registro (contador) dentro del área de trabajo. contador = contador +1 Si contador > n Bandera = 0 Vete a espera La rutina de desalojo esta en espera de las lecturas, pero el programa puede ejecutar otras instrucciones en ese tiempo y mientras se desaloja no puede ser llenado. Doble almacenamiento temporal.

Es utilizado para n registros por bloque, en este caso existen dos buffers, uno se llena mientras el otro desaloja, esto reduce la espera. Lógicamente la estructura del buffer cambia, incluye un apuntador al otro buffer. Existen dos apuntadores para utilizar la anticipación de llenado y desalojo, estos son:

P-llenar: Apunta al buffer que se esta llenando o debe llenarse. P_desalojo: Apunta al buffer que se esta desalojando o debe desalojarse. Se llena el buffer apuntado por P-llenar

V.P.M. 13


Programa de llenado:

Ciclo: Si P-llenar^ .bandera = 1 ir a ciclo Emite comando de E/S a la U. de C. Esperar mientras P-llenar^ .buffer está llenándose P-llenar^ .contador = 1 P-llenar^ .bandera = 1 P-llenar = P-llenar^ .siguiente Ir a ciclo. El programa se cicla cuando un buffer está lleno y el otro no está totalmente vacío. Programa de desalojo:

Espera: Si P-desalojo^ .bandera-llenar=0 ir a espera Leer registro (P-vacio^ .contador) dentro del área de trabajo del registro P-desalojo^ .contador = P-desalojo^ .contador + 1 Si P-desalojo^ .contador > n P-desalojo^ .bandera - llenar = 0 P-desalojo = P-desalojo^ .siguiente Ir a espera. Esta rutina esta en ciclo solo cuando un buffer ya desalojó y el otro está vacío o empieza a llenarse. Si el buffer es llenado con más rapidez que desalojado, el programa permanecerá en ciclo, pero esto es preferible a tener ocioso al CPU. Existe una forma de atenuar este problema y es encadenar mas buffers. Triple almacenamiento temporal.

En esta situación se pretende que el buffer 1 este lleno, el buffer 2 se este llenando y el buffer 3 este desalojando. Si persiste el problema de que el llenado es más rápido que el desalojo, la rutina de desalojo tendrá que esperar. El tener varios buffers en actividad es que los periodos ociosos se reducen, pero a su vez aumenta la complejidad, el tiempo de ejecución de las rutinas de llenado y desalojo y lo que se requiere de memoria principal.

1.5 Cinta Magnética La unidad de cinta es un dispositivo de acceso secuencial, esto quiere decir que no puede saltar sobre la superficie del cassette como los discos.

V.P.M. 14


La cinta magnética es frecuentemente usada para respaldar el contenido de las unidades de disco duro, además , es muchas veces el medio elegido para almacenar archivos grandes que se leen y procesan de manera secuencial.. Si se desea acceder a algún registro se debe primero pasar por los primeros registros hasta llegar al deseado. Debido a que se debe acceder secuencialmente; es muy difícil leer y escribir en una misma cinta.

ALMACENAMIENTO DE DATOS EN CINTA MAGNÉTICA Los datos se almacenan en forma de pequeñas marcas en el material magnetizable que cubre una cara de la cinta de plástico. La superficie recubierta de la cinta se divide en columnas verticales (o cuadros) e hileras horizontales llamadas canales o pistas. En muchos sistemas de cintas actuales se emplea el código BCD de 8 bits con un formato de cinta magnética de nueve pistas. Hoy en día es común utilizar 9 pistas para grabar datos en carretes de cinta estándar de media pulgada de ancho. Sin embargo, hace poco se idearon sistemas de cinta más modernos que graban 18 pistas de datos en la misma superficie. La cinta de estos sistemas se almacena en cartuchos de 10X13 cm.

Dado que cualquier cinta magnética es un medio continuo, ¨ Como es posible identificar registros individuales en cada cinta? la respuesta es que pueden separarse los registro mediante espacios en blanco llamado separación entre registros. Esta separación se crea automáticamente al grabar los datos en la cinta. Cuando se leen los datos desde un registro de una cinta en movimiento al procesador, la cinta se detiene al llegar a una sedación. La cinta permanece inmóvil hasta que se termine de procesar el registro y a continuación se mueve otra vez para pasar el siguiente registro a la computadora. El procedimiento se repite hasta que se procesa todo el archivo, los archivos pueden ser de longitudes variables. Si la cinta contiene un gran número de registros muy cortos y si cada uno de los registros esta separado por medio de una separación entre registros es posible que mas de la mitad de la cinta este en blanco y que se interrumpa constantemente el movimiento de la cinta. Para evitar esta situación ineficiente, es posible unir varios registros cortos para formar un bloque de cinta.

V.P.M. 15


LECTURA Y ESCRITURA Si en el casete hay registros cortos y largos mezclados, la lectura y escritura en el mismo casete se vuelve desesperante. Si se almacena cada registro lógico en la cinta como un solo registro físico no puede escribirse registros con longitudes diferentes en el mismo espacio. El registro mas largo borrara parte del registro siguiente, mientras que el registro mas corto dejara parte del registro mas antiguo lo que producirá un error. Esto se puede solucionar con dos alternativas, en la primera se necesitan hacer los siguientes pasos:

a. Encontrar el registro lógico anterior al deseado. b. Encontrar el comienzo del registro lógico deseado. c. Avanzar el casete para encontrar el resto del registro

lógico deseado. d. Rebobinar para encontrar el registro lógico siguiente.

En la segunda alternativa se desperdicia mucho espacio de casete, si los registros estaban ordenados alfabéticamente o de otra forma pronto estarán completamente desordenados porque, en el registro que se va a leer hay una merca o etiqueta que indica en que numero de registro lógico se encuentra la información. Se recomienda tener dos unidades de cinta, una para leer y otra para escribir. CABEZA DE LECTURA/ESCRITURA Una unida de cinta de 9 pistas cuenta con 9 cabezas de L/E. Al leerse la pista los patrones magnetizados de la cinta inducen pulsos de corriente en las bobinas de lectura y estos pulsos constituyen los datos que se transmiten al procesador. Durante la operación de grabación fluyen pulsos eléctricos por las bobinas de grabación de las pistas apropiadas, y que hacen que el recubrimiento de oxido de la cinta quede magnetizado conforme el padrón apropiado.

VENTAJAS Y LIMITACIONES

ventajas:

1. Alta densidad de datos: Un carrete común de cinta de 10½ plg. de dm. Tiene una longitud de 2400ft. Y puede grabar 800,1600,6250 caracteres en cada pulgada dependiendo de la unidad de cinta que utilice, por lo tanto, si se graban 6250 caracteres en una pulgada de cinta y si la cinta tiene una longitud de 28800 pulgadas entonces la capacidad máxima de la cinta será de 180 millones de caracteres. Además, como ya se vio, los cartuchos modernos de 18 pistas pueden lograr una densidad de datos 6 veces mayor.

V.P.M. 16


2. Bajo costo y facilidad de manejo.- Un carrete de 10½ pulgada cuesta menos de 20 dls. y dado que el carrete es compacto y pesa menos de 1 kg. y medio, ocupa muy poco espacio de almacenamiento y es fácil de manejar.

Limitaciones:

1. Falta de acceso directo a los registros.- La cinta es un medio de acceso secuencial que se utiliza para el procesamiento por lotes. Es necesario leer y procesar toda la cinta para actualizar todos los registros de un archivo organizados en forma secuencial. Si se requiere acceso frecuente a los registros del archivo en forma rápida y aleatoria, el archivo no deberá almacenarse en cinta magnética; se requeriría demasiado tiempo de operador para montar y desmontar cintas, se desperdiciaría mucho tiempo de maquina en la lectura de registros que no necesitan.

2. Problemas ambientales.- Las partículas de polvo y la falta de control de los niveles de la temperatura o humedad pueden causar errores en la lectura de cintas, las cintas y sus envase deben etiquetarse y controlarse cuidadosamente para no borrar por error un archivo importante.

1.6 Discos Flexibles Este es un dispositivo de almacenamiento secundario, que permite realizar en forma sencilla el intercambio de información entre computadoras, así como la carga de nuevos programas en el disco rígido los discos flexibles fueron presentados a finales de los años 60´s por IBM para sustituir las tarjetas controladoras. Es blando y puede doblarse fácilmente de ahí el nombre de disco flexible. Los tamaños más conocidos son: el de 8", el de 5¼ " y el de 3½ ". A continuación se examinaran cada uno de los componentes de los discos de 5¼ " y el de 3½ ". Disquete de 5¼ " Envoltura.- Esta es una cartulina negra, que le proporciona al disco la rigidez precisa para que pueda ser insertado en la unidad. Abertura de Lect./Esc..- Le permite a la cabeza de lectura / escritura acceder a la superficie del disco para leer o escribir datos en el. Eje del disco.- Este es una arandela de plástico reforzado que le permite a la unidad hacer girar el disco en su interior. Orificio Indice.- Esta pequeña abertura le proporciona al controlador de disco un mecanismo de temporización que le permite conocer la posición del disco a cada momento.

V.P.M. 17


Muesca protectora.- Determina si se puede o no escribir o no en el disco. Si la muesca se encuentra cubierta solo se podrá leer del disco. Disquete 3½ ". Chapa protectora.- Esta es una chapa metálica que impide que la abertura de lectura / escritura se encuentre expuesta como en los discos de 5¼ ". Al insertar el disco en la unidad ésta se encarga de desplazarla para así poder acceder a la superficie del disco. Orificio de Giro.- le permite a la unidad hacer girar el disco. Muesca de sector.- Le permite al controlador del disco conocer la posición de giro en cada instante. Muesca de protección.- Esta es una pequeña pestaña que se encuentra en la esquina del disco, que sirve para activar o desactivar la protección contra escritura. Pistas, sectores y capacidades Las pistas son círculos concéntricos invisibles, que comienzan en el borde exterior del disco y continúan hacia el centro sin tocarse jamás. Las pistas están enumeradas y se dividen en pequeños bloques denominados sectores que contienen 512 bytes cada uno. El número total de pistas y sectores va a depender del tipo de disco que se esté utilizando. Cuando se introdujeron los discos flexibles solo podía utilizarse una cara del disco. Anteriormente los discos de 5¼ ", tenían una capacidad de 160 Kb y los de 3½ " de 720 Kb, pero conforme ha ido perfeccionándose la tecnología, se ha aumentado la capacidad de almacenamiento, gracias a la posibilidad de utilizar las dos caras del disco y del aumento en la densidad de grabación. Conociéndose el número de pistas, sectores y bytes por sector es posible determinar la capacidad de almacenamiento mediante la siguiente fórmula: Capacidad = (No. de caras)* (No. de pistas) * (No. de sectores) * (Cap. de sector) En la siguiente tabla se establece una comparación de las características de los 4 tipos de discos flexibles más comunes.

V.P.M. 18


Almacenamiento de datos en discos flexibles

Dentro de la unidad de disco, un motor hace girar el disco rápidamente, los datos se graban en las pistas de la superficie del disco en movimiento y se leen de esa superficie por medio de una cabeza de lect/esc. La capacidad de almacenamiento de información en un disco depende de los bits por pulgada de pista y el número de pistas por pulgada radial. Acceso a los datos en discos flexibles

El brazo de acceso mueve mueve la cabeza de lect/esc. Directamente a la pista que contiene los datos deseados sin leer otras pistas. Los fabricantes de unidades de disco utilizan o bien el método de sectores o bien el de cilindros para organizar y almacenar físicamente los datos en los discos. Método de sectores.- Este método consiste en dividir la superficie del disco en segmentos invisibles cuya forma es similar a las rebanadas de un pastel, generalmente existen al menos 8 de estos segmentos en un disco. Antes de que una unidad de disco pueda tener acceso aun registro en un sector, el programa de la computadora debe proporcionar la dirección en disco del registro, esta dirección específica el número de pistas y sector. La lectura de datos en un disco flexible se realiza de la siguiente manera:

El brazo de acceso mueve la cabeza de lect./esc a la pista que se específica en la dirección del disco. El controlador de disco busca el agujero índice que marca el punto donde comienza el primer sector de una pista, la luz atraviesa el agujero una vez cada revolución para indicar su ubicación. Cuando se detecta el agujero índice, el controlador de disco comienza a leer los datos de la pista específica. Cuando el sector específico comienza a pasar bajo la cabeza de lect/esc el controlador empieza a transmitir datos a la unidad de proceso.

Método de cilindros.- Este método para organizar los datos en el disco se usa con los paquetes de discos removibles. Los brazos de accesos se mueven al unísono en dirección radial con respecto al paquete de discos.

V.P.M. 19


Antes de accesar a un registro, un programa de computadora debe proporcionar la dirección del registro, esta dirección consta del número de cilindros, el número de superficie y el número de registro. Ubicación del espacio del disco. Cuando se formatea un disco, el DOS lo divide en sectores lógicos para poder almacenar lo siguiente:

Registro de arranque del DOS. Tabla de ubicación de archivos (FAT) Anotaciones sobre el directorio raíz Sectores de datos

El registro de arranque siempre estará situado en la cara 0, pista 0, sector 1 en cualquier disco DOS: La FAT se encarga de llevar un seguimiento de los sectores libres, ocupados y deteriorados del disco, la FAT siempre se localiza en el segundo y tercer sector del disco. Si la zona del disco que contiene la FAT llega a estropearse no se podrá accesar a ningún dato del disco, por esta razón el DOS coloca una segunda copia de la FAT en los sectores cuatro y cinco. Enseguida de la FAT de cada disco, el DOS reserva un espacio para las anotaciones de direcciones de los archivos en el directorio raíz Formateo de discos flexibles. Cada vez que se compra un disco, si éste no se encuentra formateado hay que procesarlo con FORMAT antes que pueda ser utilizado por el DOS. La orden Format juega un papel crítico en la preparación de los discos, ya que influye directamente sobre cada una de las anotaciones de una u otra forma. La función primaria de format es la de colocar marcas identificativas en el medio de almacenamiento para cada uno de los sectores del disco. En general simplemente examina cada sector del disco pista por pista y coloca una marca temporal junto a cada una.

1.7 Discos Duros

Como su nombre lo dice, son sólidos, porque están construidos sobre un disco grueso de aluminio. Un disco duro posee un material magnético de mejor calidad

V.P.M. 20


para poder disponer de un mayor número de pistas y sectores por pista, además que sobre el montaje pueden tenerse uno, dos o más discos, cada uno con sus propias cabezas. El disco duro se diferencia del disco flexible en que el primero normalmente está fijo en el computador y no es transportable. Cada disco de la unidad tiene sus dos lados recubiertos por una fina capa de óxido metálico sensible al magnetismo, usualmente cromo o níquel. El proceso de lectura o escritura es el mismo que se mencionó para los discos flexibles. Las principales partes que forman un disco son: Pistas o Tracks son unas pistas concéntricas invisibles a lo largo de las cuales se graban los pulsos magnéticos. En otras palabras son los renglones del disco. Sectores Cada pista se subdivide en sectores; por ejemplo 9 sectores por pista o 15 sectores por pista en discos flexibles DD (doble densidad) y HD (alta densidad) respectivamente. En la figura se muestra el esquema de un disco magnético:

Cilindro

Se le llama cilindro al conjunto de pistas a las que el sistema operativo puede acceder simultáneamente en cada posición de las cabezas. Si se trata de un disco flexible, cada cilindro consta de dos pistas, una por encima y otra por debajo del disco. En el caso de un disco duro que tenga dos platos, el cilindro consta de 4 pistas.

V.P.M. 21


Manejando cilindros se accede a los datos más rápidamente que manejando pistas individuales, ya que el sistema operativo puede grabar o leer mayor cantidad de información sin tener que mover la cabeza. Cluster Es la longitud de la pista tomada como unidad de proceso en cada operación de lectura o de escritura en el disco, la cual equivale a la longitud de un sector en los discos flexibles o al conjunto de 4 u 8 sectores contiguos en los discos duros.

Entre mayor sea el "cluster" más se simplifica la administración del índice de los archivos del disco (FAT), pero también se desperdicia mas espacio cuando se manejan archivos pequeños. Por ejemplo, si se está grabando un archivo de 1800 bytes en un disquete de 1.2 MB, el número mínimo de bytes que el sistema operativo puede leer o escribir en este disco es de 512 (un sector), por lo cual, al archivo se le asignan 4 sectores desperdiciándose así 264 bytes.

En la tabla se puede ver la capacidad del cluster en los diferentes tipos de discos (bajo MS-DOS).

Capacidad del disco

Tamaño del disco Sectores por cluster

Cap. del cluster

360K 5 &frac 14 2 1024 bytes

720K 3 &frac 14 2 1024 bytes

1.2M 5&frac 14 1 512 bytes

1.44M 3&frac 14 1 512 bytes

disco duro típico 4 8

2048 bytes 4096 bytes

Otros conceptos importantes referentes a los discos son: Tiempo de acceso Es el tiempo que transcurre desde el instante en que se envían los datos a un dispositivo de almacenamiento y el momento en que éste entrega o recibe los primeros caracteres. Como el microprocesador está enviando continuamente información al disco, lo ideal es que el tiempo de acceso sea mínimo. El tiempo de acceso típico de un disco duro es de 15 mSeg.

V.P.M. 22


Formateo Se le llama al proceso mediante el cual se prepara el disco para ser utilizado. Durante el formateo se hacen las siguientes tares: se le marcan las pistas y sectores al disco, se le define la zona de directorio, se crean la FAT (File Allocation Table) y el registro de arranque y, eventualmente, se le graban los archivos del sistema operativo para el arranque del sistema. Existen dos tipos de formateo: el de bajo nivel y el lógico. El de bajo nivel es un proceso físico que divide las pistas circulares en un número específico de sectores con capacidad para 528 bytes cada uno, de los cuales 512 son para datos y 16 para control del sistema. El comienzo de cada sector se indica mediante un código magnético de dirección, a continuación, sigue un código para encabezamiento del sector (Id), que contiene los números del cilindro, la cabeza y el sector respectivo. Los datos de información se graban en la porción central de cada sector. En la actualidad, teóricamente sólo es necesario el formateo de bajo nivel una sola vez, y se debe dejar como último recurso para arreglar un disco. El formateo lógico se hace para dotar al disco de un sistema de direcciones que permita leer y escribir datos en sectores definidos. El formateo lógico permite la recuperación de la información en caso de un formateo accidental, en cambio, el formateo de bajo nivel no. Tabla de partición Es el índice del disco duro y especifica la ubicación y el tamaño de cada una de las particiones del disco. El sistema operativo puede manejar varias tablas de particiones lógicas. Particiones del disco Consiste en dividir un disco duro en una o mas particiones lógicas que se comportan cada una como si fuesen un disco real e independiente del resto, a cada unidad se le identifica con una letra. Así, la unidad C es la partición primaria y D sería la partición extendida (si la hay). Por medio del programa "FDISK" del DOS, en las PC-IBM se puede hacen las particiones del disco y además permite especificar cuál unidad es la de arranque del sistema. Registro de arranque (BOOT) Este registro contiene las características relacionadas con el disco, como son: versión del sistema operativo, utilizada para el formateo; número de cabezas, número de bytes por sector, el número de sectores en el disco. Debido a que en los discos flexibles no hay particiones, el registro de arranque se localiza en el primer sector físico del disco. En el caso de un disco duro, el registro de arranque

V.P.M. 23


se localiza en el segundo sector de la pista cero, después de la tabla de partición. El registro de arranque es creado en el disco durante el formateo lógico de éste. Al encender el computador, una rutina de la ROM-BIOS busca el registro de arranque en las diferentes unidades de disco del sistema para poder iniciar su funcionamiento. La FAT (File Allocation Table) Contiene la información acerca de cada sector del disco, indicándole al sistema operativo cuáles "Cluster" se encuentran ocupados, cuáles se encuentran disponibles y cuáles se encuentran averiados. Además, contiene el nombre del archivo al que le pertenecen los datos almacenados. La FAT está ubicada a continuación del registro de arranque. Otra información muy importante que contiene la FAT es la tabla donde se indican los sectores que conforman un archivo, pues al momento de grabar uno de éstos en el disco, es poco probable que quede ubicado en sectores consecutivos, a menos de que se trate de un disco vacío. Debido a que el tamaño de un sector es muy pequeño (512 bytes), el sistema operativo (en las PC) coloca en la FAT el número del "Cluster" en vez del número del sector, y como un cluster por lo general está formado por cuatro sectores, se simplifica el manejo de la FAT. Para cada "Cluster" del disco la FAT reserva dos bytes. Algunos de los valores que tener la FAT son: FFF, para indicar el último "Cluster del archivo"; FF7, para indicar que el "cluster" esta malo; 0, para indicar que el "Cluster" está disponible. Directorio raíz A continuación de la FAT esta localizado el directorio raíz, el cual se utiliza para almacenar informaciones como nombre del archivo, localización, número de "Cluster" que ocupa, hora y fecha de creación; toda esta información ocupa 32 bytes. A continuación del directorio raíz se encuentra el área de datos, que va hasta el último sector del disco, y es donde se guarda la diferente información de los archivos.

1.8 Cd-ROM

El origen del CD ROM A partir del éxito que se obtuvo dentro de la electrónica con la producción de disco compacto, se dio origen en el campo de la informática a un dispositivo que

V.P.M. 24


se proyecto desde su inicio para solo lectura de datos digitales dándole el nombre de CD ROM.

Ante todo digamos que el CD ROM, significa según sus iniciales Compact Disk-Read Only Memory (Disco Compacto de solo Lectura), equivalente a almacenamiento de datos permanentes no modificables, cuya capacidad permite almacenar grandes cantidades de información en forma digital. Estructura del disco CD ROM

El material del que esta hecho es de policarbonato dicho material es una fibra plastificada resistente (también es utilizado en la fabricación de ventanas contra balas y cascos protectores).

1. Físicamente es idéntico a un disco compacto de sonido, lleno de cavidades microscópicas.

2. 1.2 mm de grosor y un orificio central de 15 mm. de diámetro. 3. Tiene 120 mm. de diámetro (alrededor de 4.72 plgs.) 4. Las perforaciones miden 0.12 micras de profundidad y 0.6 micras de

anchura (1 micra = 1 milésima de milímetro). 5. La separación entre dos vueltas continuas de la espiral es muy pequeña de

1.6 micras por plg. (TPI), muy superior a la de los discos flexibles (hasta 96 TPI) y a la de los discos duros (varios cientos de TPI).

6. La longitud total de la pista espiral del disco CD ROM es de casi 5 Km. y a lo largo de ella se ordenan casi 2 000 000 de perforaciones.

Almacenamiento de información Para que la información se transforme en perforaciones y planos se necesita de una operación llamada grabación Master. Una grabación Master, consiste en una onda que transmite la información ya codificada, se transfiere de una cinta magnética a un modulador donde se controla el haz láser de onda que transmitido por el lente que enfoca a la superficie fotosensible del disco. Al girar el disco del lente se va moviendo hasta dar lugar a la pista espiral, al dejar la superficie expuesta las regiones del disco se convierten en hoyos. El CD ROM tiene una capacidad de almacenamiento de 500, 550 552 y 600 Mbytes (aproximadamente de 450 disquetes de alta densidad) dependiendo de la marca del fabricante.

Elementos para el funcionamiento del CD ROM 1. Un motor que se encarga de que el disco gire, el cual contiene un

detector que se localiza en relación al radio del disco. 2. El láser es el que proyecta una luz dirigida al enfocador. Este reflejo

que sucede se penetra en una película reflectora.

V.P.M. 25


3. La superficie de esta película esta constituida por platos y hoyos, donde son utilizados para el almacenamiento de datos.

4. Al reflejar la luz sobre una pista es retenida, en cambio cuando es reflejada en los hoyos su reflejo se devuelve al detector, en donde pasa a través de un prisma que refleja el láser a un diodo de luz sensible.

5. Los pulsos de luz que pegan en el diodo de luz sensible genera un voltaje electrónico en donde se conduce a un circuito donde se genera el código 1 y 0 en el cual la PC entiende.

Proceso de fabricación del CD ROM:

Su producción consta de cuatro fases

Pre-Mastering: Aquí se reciben los datos que hay que incluir en el CD en diferentes soportes (pueden facilitarse un disco duro o un CD). Posteriormente los datos se comprueban bit a bit. Hay que asegurarse de que la estructura de los sectores correspondan con el tipo de CD ROM que se pretende fabricar. Una vez realizado lo anterior se puede pasar a la siguiente fase, no sin guardar antes una imagen de los datos en un disco duro para que sirva de referencia en las etapas subsecuentes como control de calidad. Mastering: Comienza con la impresión de los símbolos numéricos en un disco de vidrio de 24 cm. de diámetro por medio de un rayo láser. El disco de vidrio está recubierto de una capa fotorresistente. Esta operación dura alrededor de 90 minutos. Cuando el disco ya se encuentra grabado se procede a su metalización con una capa de níquel, de la que, a través de un tratamiento electrolito, se obtienen un total de tres planchas. La última de ellas es llamada matriz, que pasa por un control de comprobación de errores. Si en algún lado se encuentra alguna falla el proceso deberá iniciarse de nuevo. Prensado del CD: El policarbonato es la materia prima base para fabricar un CD. El policarbonato es un material plástico transparente y con cualidades ópticas muy definidas. Su forma original es granulada, pero se licúa a 310 ºC; cuando ha sido licuado, se presiona

V.P.M. 26


sobre el molde que contiene la matriz. El plástico se enfría rápidamente, con lo que se forma una copia de la matriz. Esta copia no puede ser leída por una unidad de CD-ROM, ya que es totalmente transparente, y el rayo láser no se reflejaría en ella. Para que la luz del láser pueda ser reflejada se procede a la metalización, que consiste en depositar una fina capa de aluminio sobre el disco. Este disco es muy sensible y es vulnerable a arañazos y podría oxidarse por lo que se le aplica una capa de laca, esta laca protege y permite imprimir sobre el CD las tintas serigráficas especiales (hasta cuatro colores), formando lo que se conoce como etiqueta. Una vez salidos de la línea, los CD`s son probados por un escáner que detecta las posibles impurezas del plástico o defectos de la capa de aluminio. Acabado: El CD-ROM ya puede ser leído, pero hace falta rodearlo de una presentación atractiva para comercializarlo.

Lectura de información

El modo de lectura se basa en un haz de rayo láser que se puede reflejar en los orificios y planos, dependiendo de la luz reflejada obtendremos 0 ó 1 de cada bit, el disco durante este proceso gira a una velocidad constante, es decir, el disco no variará en su velocidad, la transferencia del disco al CPU se realiza a 150 Kbytes /seg aproximadamente dependiendo del modelo, es decir su velocidad es de 6 ó 7 veces más lenta a la de un disco duro. Existen tres unidades de lectura: Externa: Se conectan al CPU como una unidad externa periférica más y como tal se le conoce. Internas: Instaladas dentro del CPU y se conectan a la unidad central de proceso como una unidad lectora de disquetes. Multidiscos (JUKE - BOXES): Como su nombre lo indica permite un acceso a gran cantidad de discos, su capacidad varia de 6 a 100 CD`s.

V.P.M. 27


VENTAJAS Y DESVENTAJAS

Ventajas: 1. No hay contacto físico entre la cabeza lectora y el disco en

consecuencia no existe rozamiento alguno teniendo así menor desgaste y mayor seguridad en los datos.

2. Durabilidad (mas de 100 años). 3. La gran capacidad de almacenamiento de estos discos. 4. Fiabilidad entre la temperatura y la humedad.

Desventajas: 1. El acceso es secuencial, es decir, la búsqueda se efectúa a lo largo

de toda la grabación en espiral por lo que la recuperación de datos es más lenta.

Aplicaciones: Las aplicaciones del CD-ROM son muy variadas por su capacidad de almacenamiento, en estos discos se pueden encontrar:

1. Enciclopedias, con más de 250 000 páginas de información. 2. Cursos de idiomas, con mezclas de sonidos e imágenes. 3. Bases de datos de cualquier ciencia. 4. Bibliotecas completas de programas. 5. Juegos, etc.

1.9 Zip y Jazz

ZIP

El zip es un dispositivo de almacenamiento removible, es una unidad más para la computadora. Es cómodo, práctico, rápido y fácil de manejar, trabaja como los discos duros, permitiendo un fácil acceso de instalación de archivos y aplicaciones. El zip es un disco blando de alta densidad en un cartucho duro, goza de gran popularidad con una capacidad de almacenamiento de 100 MB, lo cual es de gran utilidad tomando en cuenta que da un almacenamiento ilimitado, la alta densidad de los datos y la gran velocidad en sus movimientos de rotación hacen que sea mejor que los discos flexibles de 3½ ".

La unidad zip de 100 MB es fácil de instalar e increíblemente portátil, su fabricación es casi perfecta, libre de molestias al archivar datos. El zip puede transportar archivos que no cabrían en los discos flexibles, un disco zip equivale a casi 70 discos normales, por esto, se pueden almacenar paquetes de grandes dimensiones y tantos programas como el zip lo permita: los discos a pesar de ser pequeños y ligeros ofrecen una gran resistencia a el maltrato, manteniendo intacta la información contenida en ellos.

V.P.M. 28


El zip es capaz de ofrecer no sólo capacidad, sino también con una gran rapidéz, con 29 ms de acceso promedio y 1.4 MB/seg de velocidad máxima sostenida de transferencia, pequeña y silenciosa la unidad cabe en la mano y pesa una pulgada (cerca de 450 gramos). Para ahorro de energía, luego de un periodo prefijado la inactividad, la unidad entra automáticamente en modo de bajo consumo de energía. Dadas sus características, el uso típico del zip es el resguardo de archivos y el transporte de información. La instalación no puede se más sencilla y solo requiere conectar al puerto paralelo de la computadora en el caso de un zip externo o instalar una tarjeta controladora SCSI si es un zip interno.

El zip de Iomega proporciona dos tipos de interfaz y una capacidad infinita para guardar datos. El zip azul viene en versión para puerto paralelo y SCSI, esta última para usuarios de Mac. La versión SCSI de la unidad zip incluye un cable SCSI con conectores de 25 pins en ambos extremos, esto lo hace bueno para usarse en mac y en PC que tengan un adaptador SCSI con un conector externo de 25pins. El drive zip tiene un costo aproximado de $199 y $16 dólares los cartuchos de 100 MB.

CARACTERISTICAS TÉCNICAS

* Tiempo promedio de búsqueda: discos de 100 MB 29 ms discos de 25 MB 16 ms * Leer hasta 60 MB / min. * Rapidez rotatoria 2945 RPM * Tiempo del formato largo (verifica superficie) 10 min. * Tiempo del formato corto 10 seg. * Tamaño del buffer 32 K. * Fiabilidad. * Vida estimada del disco 10 años. * Modo de apagado automático 15 min. * Interfaces SCSI II

V.P.M. 29


JAZZ La unidad jazz usa discos de 1GB de capacidad con autentica tecnología de disco duro. El Jazz no solo toma en serio el espacio de almacenamiento, sino que mejora el aprovechamiento de las unidades internas en muchas PCs. Las caracteristicas son, por ello, impresionantes incluso superiores a la de algunos discos duros: velocidad de transferencia por ráfagas de 10 MB /seg. , 12 ms de tiempo promedio de búsqueda, 17 ms de tiempo promedio de acceso y la capacidad de ser reconocida como disco duro por el sistema operativo de la computadora. Su precio es de $300 Dls. la unidad externa y $250 Dls. la unidad interna, pesa aproximadamente 2 libras y su capacidad formateada del cartucho es de 1020.9 MB. El costo del cartucho de 1 GB es de $100Dls. aproximadamente, la instalación de la unidad es sumamente sencilla y las utilerias del manejo son claras e intuitivas (e incluye protección de datos y catalogación). Puede dejar caer los cartuchos de una altura de 8 pies (2.43 mts.) sin causarles ningún daño. Por otro lado, el Jazz tiene las mismas caracteristicas portátiles que su hermano zip, pero a diferencia de este, tiene la rapidez y capacidad para cargar aplicaciones, permitir el desarrollo de multimedia, hacer el resguardo de la computadora en 10 min., guarda hasta 8 hrs. de música con calidad de CD, 2 hrs. de película o 150 fotografías de color, etc. Estamos antes el concepto mas moderno de versatilidad en materia de almacenamiento. No es de extrañar que los usos crezcan en todas las direcciones y que esta tecnología pase a ser un nuevo estándar en la industria. Muy pronto las computadoras vendrán ya equipadas con una unidad Iomega y con software que permita detectar la presencia de un zip o jazz y seleccionarla como ruta básica de almacenamiento.

V.P.M. 30


Unidad II

Definiciones y Conceptos

• 2.1 Definiciones y conceptos • 2.2 Elementos de un archivo de datos • 2.3 Clasificación y Operaciones de los archivos

2.1 Definiciones y Conceptos

Carácter: Nivel mínimo de almacenamiento. Dato: Conjunto de caracteres con algún significado. Campo: Característica de un individuo u objeto. Registro: Colección de campos del mismo individuo u objeto. Archivo: Colección de registros con estructura idéntica. Base de datos: Colección de archivos relacionados entre si. Campos Llave Son aquellos que permiten identificar en forma unívoca a un registro. Generalmente se designaran como campos llave, aquellos que no contienen datos repetidos. Si el sistema de archivos no posee campos con esas características, deberán utilizarse llaves intermedias o escalonadas. Este método presenta listas de objetos (o individuos) que se van reduciendo conforme se introducen los valores para cada una de las llaves escalonadas. El proceso se da por concluido al hacer contacto visual con el objeto buscado o hasta reducir la lista de tal forma que se determina la inexistencia del objeto.

V.P.M. 31


Campos de secuencia Son aquellos que permiten establecer una colección de continuidad entre los registros de un archivo.

Transacciones Es cada uno de los procesos que se utilizan en el mantenimiento del sistema de archivos (altas, bajas, cambios, etc.). Operaciones Es cada una de las acciones especificas que se realizan para completar una transacción.

2.2 Elementos de un archivo de datos.

V.P.M. 32


ELEMENTOS PROPIOS DEL ARCHIVO.

• Atributos.- Son marcas fisicas que determinan el tipo de operaciones y caracteristicas de un archivo.

• Identificador de archivo.- Es un elemento logico que se crea en un ambiente de programacion para hacer referencia al archivo de datos.

• Apuntador de registro.- Es un marca logica que indica la posicion donde se realizara la siguiente operación de lectura o escritura en el archivo.

• Número de registro.- Son elementos logicos que indican la posición relativa del registro en el archivo.

• Marca de fin de archivo(EOF).- Es una marca física que determina la finalización del archivo.

• Marca de fin de línea (EOL).- Es una marca física utilizada en los archivos de texto para indicar la finalización de una línea.

2.3 Clasificación y Operaciones de los archivos.

CLASIFICACIÓN DE ARCHIVOS DE DATOS Por su estructura Con tipo.- Son aquellos que presentan un formato basado en una estructura especifica. De texto.- Son documentos que se graban en formato ASCII y contienen la informacion de manera legible para el usuario. Sin tipo.- Son archivos que son procesados por bloques de lectura y/o escritura. No tienen un formato determinado, y su representacion puede ser o no binaria. El tamaño de los bloques es ajustable. Por su funcion Archivo Maestro.- Es aquel que contiene la informacion global. Este sera actualizado periodicamente puesto que no es operado en linea. Archivo de Transacciones.- Es aquel donde se registran las operaciones que se realizan en un periodo determinado. Una vez transcurrido este se realizara la actualizacion del archivo maestro y se reinicializara el de transacciones.

V.P.M. 33


Archivo de Reporte.- Es aquel que se utiliza para notificar la ocurrencia de errores o casos especiales en la operación de un sistema. Ocasionalmente contiene tambien los resultados finales de los procesos. Archivo de Trabajo.- Son aquellos archivos temporales imperseptibles para el usuario que son utilizados generalmente en etapas intermedias en el procesamiento de datos. Archivo de Programa.- Son los llamados archivos ejecutables, asi como las librerias o utilerias asociadas. Archivo de Texto.- Son aquellos que se encuentran en formato ASCII y contienen generalmente informacion referente a la ayuda y presentacion del sistema, asi como a la salida de datos con destino al medio de almacenmaiento.

OPERACIONES CON ARCHIVOS DE DATOS.

Creación.- Consiste en la asignación de un espacio en el medio de almacenamiento mediante la colocación del nombre del archivo en el directorio.

Apertura.- Es el establecimiento de un canal de comunicación con un archivo determinado. Cierre.- Es la cancelación de un canal de comunicación previamente establecido con un archivo. Incluye una verificación al buffer para realizar un vaciado automático de los datos contenidos en el a través del canal. Asignación.- Es la asociación de un nombre de archivo con un identificador valido en el lenguaje de programación en donde se esta manipulando. Actualización.- Son los procesos que modifican el contenido de la base de datos (altas, bajas, cambios). Consulta.- Es el acceso a los datos para generar una salida por un medio determinado; el acceso puede ser especifico, grupal o global. Eliminación.- Es la eliminación física del archivo en el medio de almacenamiento. Renombrado.- Es la modificación del nombre del archivo en el ámbito del sistema operativo. Clasificación.- Consiste en la organización de los registros de acuerdo a un criterio determinado. Mezcla.- Es la combinación de dos o mas archivos para dar como resultado un archivo único.

V.P.M. 34


Partición.- Es la descomposición de un archivo en dos o mas. Importación.- Consiste en extender un archivo a partir de los datos contenidos en otro, ya sea que los registros añadidos se supriman o no de este ultimo. Exportación.- Es la generación de un nuevo archivo o la extensión de uno ya existente a partir de los datos contenidos en un archivo primario, ya sea que los datos exportados sean o no suprimidos de este.

Unidad III

Archivos Secuenciales.

• 3.1 Estructura • 3.2 Operaciones • 3.3 Mantenimiento

3.1 EstructuraArchivo Secuencial. Es una organización que consiste en almacenar y recuperar datos en forma contigua. Para accesar al registro n deben procesarse los n-1 registros previos. Una de las ventajas que ofrece esta organización es el buen aprovechamiento que se hace del medio de almacenamiento, así como la facilidad (relativa) en su implementacion y el bajo costo de operación al no requerir de un medio de almacenamiento direccionable. Las razones para implementar una organización secuencial pueden ser:

• El problema no requiere de una organización mas compleja.-

El diseñador determina que después de analizar el problema este no requiere de toma de decisiones en tiempo real o con un alto nivel de prioridad. El caso no amerita la inversión del tiempo y esfuerzo para implementar una organización mas compleja.

• No existe disponibilidad de recursos.- En este caso no es posible la adquisición de medios de almacenamiento direccionable o de otros recursos que permitan procesos en

V.P.M. 35


línea (equipo de Telecomunicaciones, Verificación de datos y demás).

CARACTERISTICAS: Ventajas: La implementacion es económica. Los algoritmos que controlan la generación de transacciones son mas sencillos. Pueden determinarse con precisión el orden de arribo de los datos. Desventajas La información no esta actualizada en todo momento. El acceso a los datos es relativamente lento. Cuando se opta por la organización secuencial pueden utilizarse varias alternativas siendo la mas común el procesamiento por lotes.

Procesamiento por lotes. Las operaciones regulares se acumulan por un periodo de tiempo determinado o hasta completar un volumen especifico, generándose así el archivo de transacciones. Una vez transcurrido este periodo o habiéndose completado el volumen de transacciones, la información es "vaciada" en el archivo maestro, realizándose así la actualización. Concluida la actualización el archivo de transacciones debe ser inicializado, preparándolo así para el siguiente periodo.

3.2 OperacionesGENERACION DEL ARCHIVO DE TRANSACCIONES

Ante la imposibilidad de realizar verificaciones de existencia y/o comprobación de valores en el archivo maestro al concretar una transacción, normalmente se establecen códigos y/o normas de seguridad que permitan detectar parcialmente (al menos para ciertos casos) transacciones invalidas que provocarían errores en la actualización.

La codificación mencionada anteriormente permite reducir en forma considerable la ocurrencia de errores al detectar desde su generación una transacción invalida por no satisfacer determinados formatos. El siguiente esquema muestra el proceso de generación de un archivo de transacciones.

V.P.M. 36


EDICION: En esta etapa se realizan las siguientes comprobaciones:

• Verificación de rangos de valores validos. • Verificación de formatos validos. • Sustitución de códigos de captura por valores completos o reales. • Comprobación de datos en los campos mínimos necesarios (campo

llave y campo indicador del tipo de transacción). • Comprobación de datos en aquellos campos relacionados con el tipo

de transacción.

EDICION INTELIGENTE .- Cuando el dispositivo de entrada es capaz de procesar las tareas del modulo de edición, restringiendo así las transacciones invalidas, se genera inmediatamente el archivo de transacciones editadas.

V.P.M. 37


ACTUALIZACIÓN.- A este proceso ingresan determinados archivos y resultan otros, además de formatos específicos de control:

Los tipos básicos de transacción son:

FRECUENCIA DE ACTUALIZACIÓN: Es el criterio que determina la periodicidad con que habrá de llevarse a cabo el proceso de actualización. Se determina por los siguientes factores:

Un concepto relacionado íntimamente a la frecuencia de actualización es la Razón de Actividad de Archivo (RAA). Esta se calcula de la siguiente manera:

La relación que se da entre la frecuencia de actualización y la RAA del archivo maestro es inversamente proporcional.

V.P.M. 38


3.3 Mantenimiento

Lógica de actualización: Como es sabido, los archivos que entran al proceso de actualización se encuentran ordenados con respecto a su llave; esto por los requerimientos propios del manejo secuencial y la necesidad de establecer comparaciones entre las llaves actuales de los archivos maestro y de transacciones. Supóngase un archivo de transacciones que no contiene llaves repetidas; es decir solo puede existir una transacción para cada llave como máximo.

V.P.M. 39


Unidad IV

Archivos Secuencial - Indexado

• 4.1 Estructura. • 4.2 Operaciones. • 4.3 Mantenimiento.

4.1 Estructura Dentro de las organizaciones de archivos existen diversos modelos que hacen uso de índices; es decir, estructuras que contienen parejas llave _ dirección de tal manera que se hace referencia a los datos contenidos en el archivo principal. Los tipos de índices que existen son: DENSO: El índice tiene una entrada por cada registro en el archivo principal. DISPERSO: El índice contiene una entrada por cada conjunto de registros en el archivo principal. La organización secuencial indexada utiliza un índice disperso para su manipulación, el archivo principal contiene bloques de registros agrupados por alguna característica especifica o por un intervalo dentro del universo de llaves

V.P.M. 40

http://www.itlp.edu.mx/publica/tutoriales/admonarch/tema%204_3.htm




posibles.

La eficiencia del modelo depende primordialmente de la adecuada selección de la cantidad de bloques y el tamaño que se le asigne a cada uno de ellos. Ante una inadecuada planeación, pueden quedar bloques con espacio sobrado y bloques que sean insuficientes para almacenar a ciertos registros. En este ultimo caso se hará uso del área de desborde, esta es la zona del archivo continua al último bloque asignado.

4.2 Operaciones

Existen dos formas básicas para el manejo del área de desborde: DESBORDE SECUENCIAL: Al saturarse un bloque, los registros excedentes se envían al área de desborde; de esta manera, me mezclan registros que originalmente correspondían a bloques distintos. Durante la búsqueda de una llave, se barre (uno por uno) el bloque correspondiente, de no encontrarse o si este estaba saturado se barre el área de desborde.

V.P.M. 41


DESBORDE LIGADO: Cuando un bloque se satura, se activa una liga en el ultimo registro del bloque para indicar la dirección en el área de desborde del primer registro que correspondería a este mismo bloque. Cada registro en el área de desborde tiene una liga que apunta al siguiente registro asociado al mismo bloque. Ejemplo:

Algunos modelos transportan el área de desborde a un archivo original y agregan un campo al índice que será la liga hacia este nuevo archivo. La razón de esto es la Optimizaciòn de espacio en el archivo principal.

V.P.M. 42


La cantidad de bloques y el tamaño de cada uno de ellos debe seleccionarse después de un analisis del estudio, de una muestra estadística que permita observar la distribución de los datos llave dentro del universo de llaves posibles. Es importante considerar la relación entre cantidad de bloques, velocidad de acceso y aprovechamiento del espacio. Cuando el modelo tiende a asignar un gran numero de bloques se incrementa ligeramente la velocidad de acceso, dado que cada bloque contendrá un intervalo corto de llaves; en contraparte, se reduce la posibilidad de estimar con precisión tamaños adecuados para cada bloque y con ello las consecuencias indeseables que esto acarrea.

4.3 Mantenimiento del modelo

Al transcurrir un determinado tiempo de operación la estructura tiende a saturarse, se requiere entonces realizar un reacomodo de los datos contenidos en el área de desborde, trasladándolos hacia el archivo principal, teniendo que ajustar por supuesto el tamaño de los bloques y en consecuencia los apuntadores en el índice.

El mantenimiento puede darse por cualquiera de estos criterios:

• Tiempo transcurrido • Tamaño del área de desborde (entre 25 y 30% del tamaño del archivo

principal)

La eliminación de registros en tiempo de operación se recomienda en forma lógica; es decir, mediante marcas que indiquen si un registro esta activo o no en el

V.P.M. 43


proceso de mantenimiento se realizara el reacomodo de los registros suprimiendo así los registros marcados para la eliminación.

Cuando es relevante el orden de llegada de los registros en cada bloque puede tomarse el criterio de sustituir a un registro eliminado por el ultimo asociado al mismo bloque ya sea que este se encuentre al final del bloque o en el área de desborde.

Unidad V

Archivos directos

5.1 Estructura. 5.2 Operaciones.

5.1 Estructura ARCHIVOS DIRECTOS La organización directa es aquella que permite un posicionamiento sobre registros específicos al localizar una llave. Lo anterior permite agilizar la localización de un dato en un archivo determinado al no requerirse el procesamiento de los registros contiguos previos. Existen básicamente tres alternativas para implementar un acceso directo: Archivo clasificado para búsqueda binaria: Se requiere que el archivo principal se mantenga ordenado respecto a la llave en todo momento. La ventaja de este método reside en la alta velocidad de acceso; su desventaja consiste en el tiempo que debe invertirse para mantener clasificado al archivo en todo momento. Este método se utiliza cuando el tiempo de búsqueda tiene una prioridad extremadamente alta en relación al tiempo de actualización.

Ajuste de llave a esqueleto: Este método se utiliza cuando la llave contiene digitos y opcionalmente caracteres alfabéticos. El algoritmo de asignación consiste en tomar de la llave aquellos caracteres (preferentemente digitos) que presenten mayor variación y utilizarlos como dirección en un esqueleto previamente creado. El esqueleto contendrá la cantidad de registros inicialmente estimados y en forma contigua al área de desborde para los sinónimos resultantes. El método anterior nos da la oportunidad de seleccionar aprovechamiento del espacio o velocidad de acceso (en forma excluyente). Para mayor velocidad, tamaño de esqueleto grande, con el consecuente desperdicio de espacio.

La velocidad de acceso queda determinada por la longitud de las cadenas de búsqueda, que a su vez se obtiene de las posibles combinaciones existentes para los caracteres descartados en la llave original (considerando solo los caracteres variados).

V.P.M. 44


Una implementacion de este método que puede darse para las eliminaciones consiste en la baja lógica con procesos posteriores de reacomodo si se desea obtener una velocidad adecuada en la operacion del sistema. Si no es relevante la rapidez al realizar una baja, se procederá a sustituir el registro eliminado por aquel que se encuentre al final de la cadena de búsqueda o incluso al recorrer los registros de esta cadena; lo anterior según se requiera mantener o no el orden de llegada de los registros. Transformación de llaves (Hashing): Este método consiste en descomponer la lave en múltiples fragmentos y mediante la aplicación de diverso algoritmos, dar origen a un numero en un intervalo determinado y utilizarlo como dirección de registro en el esqueleto. Existe otro modelo de acceso directo que es considerado como un caso especial: Relación directa - Llave dirección: Este método es aplicable para sistemas donde los elementos a registrar reciben un folio consecutivo como llave. La llave del registro se hace corresponder con la dirección física de este, por lo que la velocidad de acceso es extremadamente alta. Esta implementaron no permite eliminación física; cuando un registro es inhabilitado, se le aplica una marca lógica que podrá ser removida en caso de requerirse la reactivación posterior de tal registro.

El inconveniente mas delicado es la ocupación innecesaria de espacio para aquellos registros eliminados lógicamente que no habrán de ser reactivados.

5.2 OperacionesACCESO DIRECTO POR INDEXAMIENTO

La utilización de un índice denso (con una entrada para cada registro en el archivo principal) permitirá un acceso directo en el archivo principal después de un proceso de búsqueda en el índice.

En virtud de la escasa longitud del registro de índice, los accesos a disco permitirán la manipulación de múltiples registros de este tipo, acelerando así la localización de una llave. En la búsqueda de mejorar la eficiencia del modelo, se pueden implementar las siguientes variantes:

V.P.M. 45


* Indice clasificado para búsqueda binaria.

* Indice de búsqueda binaria arbolado.

MULTINIVELES DE INDICES

Para archivos de gran tamaño el inconveniente para mantenimiento de índices se presenta en el tamaño que estos ocupan y por consiguiente la cantidad de

V.P.M. 46


memoria requerida para mantenerlos en esa zona (memoria principal) y lograr así un nivel de eficiencia optimo.

La solución a este inconveniente se obtiene fragmentando el índice en múltiples niveles en una estructura arbolada.

Las técnicas mas conocidas son:

ISAM Index Sequential Access Method VSAM Virtual Storage Access Method

ISAM Es un modelo que se relaciona íntimamente al hardware de almacenamiento puesto que se diseña de acuerdo a la estructura de los niveles del medio físico como los cilindros, pistas y sectores. Cada nivel contiene en el primer subnivel un índice de los restantes subniveles; ocasionalmente se reservan los últimos elementos de este nivel como área de desborde. El área principal de almacenamiento se encuentra entre el índice y el área de desborde. Una cualidad de ISAM es su alta velocidad de funcionamiento; su principal desventaja es la escasa transportabilidad; es decir solo opera para un hardware determinado. La implementaciòn de este modelo requiere la aplicación de técnicas que sustituyen en cierto grado algunas funciones del sistema operativo como son: almacenamiento y recuperación de datos . En vista de ello, deberá obtenerse de un medio exclusivo para el mantenimiento de los datos a manejar.

VSAM

Consiste en mantener en memoria principal un índice maestro, el cual contiene los intervalos iniciales de las llaves y las referencias (ligas) hacia los archivos que contienen subintervalos mas específicos de las llaves.

Cuando se determina el archivo que será cargado en memoria, este se consulta para obtener un intervalo mas especifico y se carga el siguiente archivo en las mismas localidades de memoria, es decir, se sobre escribe en el índice previo en la memoria. Este proceso se repite hasta alcanzar el ultimo nivel el cual contendrá la dirección lógica del dato buscado en el archivo principal.

La principal cualidad de VSAM es su transportabilidad, el inconveniente es la cantidad de accesos a disco que se requieren para obtener el dato deseado.

V.P.M. 47


Según la cantidad de memoria disponible se diseñara la cantidad de memoria de los bloques. A mayor cantidad de memoria, mayor tamaño de bloques y en consecuencia menor cantidad de niveles y por lo tanto menos accesos a disco.

Unidad VI

Correspondencia entre la llave y la dirección física

• 6.1 Direccionamiento directo e indirecto.

• 6.2 Tipos de Correspondencia.

6.1 Direccionamiento directo e Indirecto

El direccionamiento de dos registros puede darse en forma directa e indirecta. Se dice que es directa cuando es posible determinar la dirección mediante una relación natural con la llave. Es indirecta cuando la llave debe ser alterada o se le deben de aplicar operaciones para determinar la dirección del registro.

Un método ampliamente utilizado para generar direcciones físicas de los registros es aquel que realiza una descomposición de la llave y aplica a cada fragmento o a estos en su conjunto una serie de operaciones que darán como resultado un numero relativamente grande (en proporción al tamaño del archivo sumado) y del cual será generado un numero en un intervalo determinado, el cual se utilizara como dirección en el esqueleto, Este método es mejor conocido como Hashing. Existen diversas formas de generar el numero final a partir del numero "grande", las mas utilizadas son: Método del residuo. Es el de mayor aceptación y consiste en la determinación de un numero primo (inmediatamente menor al total de registros esperados) que será utilizado como divisor del numero grande. El residuo de esta división será el numero hash buscado. Método del centro de los cuadrados. Consiste en obtener el cuadrado del numero "grande"; del valor resultante se rescatan los dígitos centrales tantos como se requieran para direccionar el esqueleto y se multiplican por un factor de ajuste para colocar el resultado en el rango deseado. Método del desplazamiento. En este caso se consideran los dígitos mas externos del numero "grande". De cada extremo se toman tantos dígitos como se requieran para el direccionamiento. Estos se suman y se aplica un factor de ajuste. Método del plegado.

V.P.M. 48


Es similar al anterior salvo que los dígitos de los extremos se suman en forma encontrada, semejando que el numero total se encontrara escrito en una hoja y esta fuera doblada por la mitad. Método de conversión de base. Se asume que el numero "grande" se encuentra en una base determinada diferente de 10 al suprimirle los dígitos fuera de base. El valor resultante es convertido a base 10 y se le aplica el factor de ajuste. Tomar los tres últimos dígitos. Método del análisis de dígitos. Se obtiene una muestra de gran tamaño de llaves posibles y sus números hash correspondientes, se analiza la frecuencia de repetición para cada una de las columnas y se van descartando aquellos que presentan mayor repetición. Finalmente, se toman las columnas con mayor variación y tantas como dígitos se requieren. Se aplica factor de ajuste. Una vez que se ha determinado la dirección hash por cualquiera de los métodos anteriores, se implementara sobre una estructura que soporte tal direccionamiento. Estos pueden ser:

• Esqueleto con desborde

V.P.M. 49


• Archivo Intermedio para direccionamiento

Como puede verse, el modelo del Redireccionamiento ofrece la ventaja de que el desperdicio provocado por una distribución inadecuada en el esqueleto no afecta al archivo principal; para este modelo se afecta al archivo de Redireccionamiento donde el tamaño de los registros es mucho menor y el archivo principal crece conforma ocurren el arribo de los registros.

6.2 Tipos de Correspondencia

Manejo de cubos

Estadísticamente se ha comprobado que se presenta una distribución mas adecuada en el esqueleto donde cada dirección hash tiene capacidad para almacenar mas de un registro que en aquel donde cada localidad almacena solo un registro y se extiende a una longitud equivalente a la cantidad de registros a aceptar.

Se denomina tamaño de cubo (o cubeta) a la cantidad de registros que se almacenan por dirección hash. Los tamaños de cubo recomendables deben ajustarse a las características del problema en cuestión, aunque generalmente oscila entre tres y cuatro.

Conforme se incrementa el tamaño del cubo, se reducen las posibilidades de generar colisiones (y en consecuencia desbordes), agilizando así la localización de registros; en contraparte, se tiende a desperdiciar espacio de almacenamiento en la estructura.

El modelo de cubos puede implementarse sobre cualquiera de las estructuras analizadas anteriormente (Esqueleto o Redireccionamiento). Se recomienda que el desborde para estos casos se almacene en u archivo independiente con un tamaño de cubo inferior al del archivo principal.

V.P.M. 50


La justificación de esto radica en que al implementar un tamaño de cubo mayor de 1 en el área principal se prevé que pocos registros irán a desborde, con lo cual se muy poco probable llenar un cubo grande en esta área (desborde).

Densidad de empaquetamiento Al diseñar la estructura de acuerdo a un tamaño de cubo especifico, debe procurarse un nivel de saturación que no sea extremadamente alto; es decir debe preferirse sacrificar algunas localidades a cambio de optimizar el funcionamiento del modelo. El parámetro que nos indica el nivel de saturación es conocido como densidad de empaquetamiento.

V.P.M. 51


Unidad VII

Compactación de datos

• 7.1 Conceptos. • 7.2 Método de Huffman.

7.1 Conceptos

COMPACTACIÓN DE DATOS La compactación de datos tiene por objeto el almacenamiento de información con un ahorro en el espacio requerido en el medio.

Los sistemas que incorporan técnicas de compactación normalmente utilizan procesos a la entrada y salida del programa que permitan descompactar y compactar respectivamente, de tal forma que mientras se realizan procesos en línea, la información se encuentre en su formato original.

El resto de los sistemas (en una cantidad proporcionalmente baja) compacta y descompacta solamente los datos a utilizar. Los algoritmos de compactación normalmente se clasifican en:

• Técnicas dependientes del tipo de datos.

Se aplican sobre archivos con una estructura, formato o tipo de contenido que se conoce previamente.

• Técnicas independientes del tipo de datos.

Se aplican sobre cualquier archivo sin importar su contenido. Técnicas dependientes del tipo de datos. Utilizan básicamente la sustitución y codificación de la información. Los principales puntos que considera son: 1.- Eliminación de elementos redundantes.Ejemplo:

V.P.M. 52




Sistema relación por número de registro (Lineal).

Sistema relación por campo común

2.- Conversión de números a notación compacta.Ejemplo:

3.-Supresión de caracteres repetidos.

V.P.M. 53


4.- Tabulación de datos habituales Ejemplo:

5.- Sustitución de texto idiomático. Ejemplo:

7.2 Método de Huffman

Técnicas Independientes del tipo de dato.

MÉTODO DE HUFFMAN

V.P.M. 54


COMPACTAR

1. Realizar un recorrido por el archivo a compactar, e ir acumulando en un arreglo de contadores de incidencias la cantidad de veces que aparece cada carácter.

2. Construir un árbol binario de recorridos de tal forma que los caracteres encontrados sean hojas en la estructura. Es importante que los caracteres con mayor incidencias queden mas cercanos a la raíz .

3. Etiquetar las ramas del árbol con bits, 0 rama izquierda, 1 rama derecha.

4. Crear una tabla de códigos (vector) donde se registre el recorrido desde la raíz hasta una hoja especifica, señalando los bits encontrados en las ramas.

5. Recorrer el archivo original e ir acumulando los bits de la nueva codificación hasta completar ocho de ellos, escribir en el archivo destino el carácter del ASCII que corresponda a los ocho bits codificados según la codificación normal.

DESCOMPACTAR 1. Recuperar de los contadores de incidencias almacenados el árbol de

recorridos y la cantidad de bits de relleno del ultimo carácter. 2. Recorrer el archivo compactado aplicando el siguiente procedimiento

para cada carácter.

• Obtener ordinal y convertirlo a binario. • Realizar recorrido al árbol hasta llegar a una hoja. • Guardar en el archivo destino (descompactado) el carácter

encontrado en la hoja.

V.P.M. 55


V.P.M. 56


Unidad VIII

Acceso Multi-Llaves

• 8.1 Estructura Multilista • 8.2 Métodos para el acceso multillave

8.1 Estructura Multilista

ACCESO MULTILLAVE Esta organización se utiliza para establecer conexiones entre datos con características similares. No es el objetivo principal el acceso rápido a una llave en particular. En este tipo de organización deben determinarse e identificarse aquellos campos en los que el rango de valores esta bien definido y que representan una utilidad al acceso por cada uno de estos valores. ATRIBUTO: Es un campo con un rango de valores bien determinado, sobre el cual es deseable una consulta. CARACTERISTICA: Es cada uno de los valores que puede tomar un atributo. El modelo utiliza para su funcionamiento dos archivos:

• Archivo de cabecera.- Almacena las direcciones de inicio de cada cadena de característica. Recomendablemente incluye un campo de longitud de cadena que permite seleccionar el acceso de la cadena mas corta cuando se conocen dos o mas características. Tendrá tantos registros como características tenga el modelo.

• Archivo Principal (Datos).- Además de los campos de almacenamiento normales utilizan tantos campos adicionales como atributos tenga el modelo; cada uno de estos será una liga al siguiente registro con la misma característica.

V.P.M. 57




Al aplicarle al archivo de cabecera un campo extra que contabilice el numero de registros que conforman esa cadena hará mas sencilla la tarea al momento de buscar la cadena mas corta, cuando se conozcan los valores de dos o mas atributos.

V.P.M. 58


8.2 Métodos para el acceso multillave

a) Indexamiento.- Consiste en utilizar un índice denso para cada tipo de llave distinta.

Ejemplo:

b) Redireccionamiento.- Consiste en utilizar archivos de redireccionamiento como esqueletos, mientras que el archivo principal crece conforme se requiere. Debe mantener ligas para la formación de las cadenas. Podrá utilizar cualquier método para el calculo de direcciones.

Ejemplo:

V.P.M. 59

Apuntes de organizacion_de_archivos

Technology

Transcript of Apuntes de organizacion_de_archivos