La Falta de Implementacion de Un Sistema de Tolerancia de Fallas

LA FALTA DE IMPLEMENTACION DE UN SISTEMA DE TOLERANCIA DE FALLAS FACTORES: No existe un presupuesto para implementar dicho sistema en la sala de computo. No existe un plan diseado respecto al sistema de Tolerancia de Fallas. El personal no est actualizado con respecto a los avances para tolerar las fallas ya sean por hardware o software. El encargado de la sala de cmputo nunca pens en las posibles fallas que pueden ocurrir o solo se concentro en las fallas que son predecibles y no en falla impredecibles. SOLUCIN: La Implementacin de un sistema de Tolerancia de Fallas para aumentar la fiabilidad del Sistema que posee la Sala de Computo. OBJETIVOS: OBJETIVOS GENERALES: Es prevenir, eliminar y/o tolerar las amenazas que se presentar en el hardware o software OBJETIVOS ESPECIFICOS: Estudiar las diferentes fallas que pueden ser impredecibles ya sea por hardware o software. Identificar y clasificar las amenazas (fallas, errores, averas, etc.). Detallar los diferentes medios a nuestra disposicin para prevenir, eliminar y/o tolerar las amenazas. VARIABLES: VARIABLE DEPENDIENTE:

VARIABLE INDEPENDIENTE:

MARCO TEORICO

TEMA 1: TCNICA DE TOLERANCIA DE FALLAS

1.

TOLERANCIAS DE FALLAS

I.

Introduccin

La tolerancia a fallos es un aspecto crtico para aplicaciones a gran escala, ya que aquellas simulaciones que pueden tardar del orden de varios das o semanas para ofrecer resultados deben tener la posibilidad de manejar cierto tipo de fallos del sistema o de alguna tarea de la aplicacin. Sin la capacidad de detectar fallos y recuperarse de estos, dichas simulaciones pueden no llegar a completarse. Es ms, algunos tipos de aplicaciones requieren ser ejecutadas en un entorno tolerante a fallos debido al nivel de seguridad requeridos. De cualquier forma, en ciertos casos debera haber algn modo de detectar y responder automticamente a ciertos fallos del sistema o al menos ofrecer cierta informacin al usuario en el caso de producirse un fallo. Actualmente, el mbito de aplicacin de las tcnicas de tolerancia a fallos se ha extendido a todos aquellos contextos en los que el funcionamiento incorrecto de un computador, o de una de sus partes, puede comportar importantes prdidas humanas y/o econmicas. As pues, una buena solucin informtica debe, entre otras muchas cosas, ser fcil de utilizar y mantener, y en caso de problemas, debe ofrecer un comportamiento seguro y robusto, asegurando la continuidad del servicio ofrecido (es decir, tolerando la ocurrencia del problema) u ofreciendo un procedimiento de parada (o avera) del sistema controlado y, en la medida de lo posible, inocuo tanto para los usuarios, como para sus datos y operaciones. Como todos sabemos no es lo mismo una pequea red de PC,s que podamos tener en casa, que una red corporativa de una gran empresa en la que los PC,s se cuentan por cientos y los servidores por decenas. Cuando en casa tenemos un problema con el PC y la solucin mas sencilla es restaurar el sistema operativo junto con los programas que manejamos mas habitualmente ademas de nuestros documentos personales, el nico problema que se nos plantea es calcular el tiempo que vamos a necesitar para la reinstalacin del equipo y ver si tenemos a mano los drivers de todos los elementos hardware que tenemos instalados. En cambio, si el fallo se produjese en un servidor de un hospital, por ejemplo, podra dejar sin funcionamiento todo un sistema de asignacin de ambulancias, citaciones, horarios de quirfanos, etc Para evitar semejante caos es necesario que un equipo informtico o mejor todava, toda una red sea capaz de poder superar una situacin de fallo que provoque prdida de informacin y por consiguiente caos y perdida de rendimiento y dinero para la empresa u organizacin. Al conjunto de medidas empleadas para evitar la perdida de informacin en equipos informticos debido a errores tcnicos se le denomina Tolerancia a Fallos o lo que es lo mismo, capacidad de superar un fallo tcnico sin que se produzcan prdidas de informacin y seguir funcionando como si nada hubiese pasado. Dichas medidas se engloban en medidas software y medidas hardware. Aumentar la fiabilidad de un sistema: Prevencin de fallos :se trata de evitar, antes de que el sistema entre en funcionamiento, que se introduzcan fallos

Tolerancia de fallos :se trata de conseguir que el sistema contine funcionando aunque se produzcan fallos

En ambos casos el objetivo es desarrollar sistemas con modos de fallo bien definidos. No son incompatibles El objetivo de tolerancia de fallas Se caracteriza por dividirse en tres fases. 1. 2. Se estudian las diferentes fallas que pueden ser impredecibles o predecibles ya sea en hardware o software. A continuacin, se identifican y clasifican las amenazas (fallos, errores, fluctuaciones de corriente elctrica, averas, etc) que son susceptibles de perturbar el correcto funcionamiento de de una red, centro de computo, etc. En la tercera fase se detallan los distintos medios a nuestra disposicin para prevenir, eliminar y/o tolerar las amenazas.

3.

II.

Sistema de Almacenamiento tolerante a Fallas

Las unidades de disco son dispositivos que pueden fallar con cierta facilidad como el desgaste de la cabeza de lectura por apagarlo repentinamente o por que el disco esta fragmentado, cuando sector MBR esta defectuoso. Por lo cual hay dos formas muy conocidas para tolerancia de fallas para los discos: instalando discos de copias de seguridad (backup) y la otra forma es instalando unidades RAID.

Copias de Seguridad (backup) Esta opcin la tienen muchos ordenadores, en la cual existen dos discos: principal del cual se har una copia a la que llamaremos disco imagen o espejo estos discos estarn conectados por una controlador de disco o adaptador SCSI. *SCSI: (Small Computer System Interface): Es una tarjeta para expansin de capacidades que permite la conexin de varios tipos de dispositivos internos SCSI ("Small Computer System Interface"), esto es principalmente discos duros y puertos. La tarjeta controladora se inserta dentro de las ranuras de expansin "Slots" integradas en la tarjeta principal ("Motherboard") y se atornilla al gabinete para evitar movimientos y por ende fallas. Este tipo de tarjetas integran uno varios puertos para conectar los dispositivos externos tales como unidades lectoras de CDROM, escneres y algunos tipos de impresoras entre otros. Actualmente se utilizan para la adaptacin del estndar SCSI en las tarjetas principales (Motherborad) que carezcan Tarjeta controladora SCSI, con conector SCSI 68 terminales externo y60 terminales interno.

de este tipo de conectividad. Lo cual permite que cuando falle el disco principal puedes seguir trabajando con el disco imagen pero una desventaja seria si falla el controlador el disco imagen seria obsoleto por eso se puede crear la duplicacin de disco lo cual es igual que el disco imagen pero la diferencia es que tanto el disco principal tienen su controlador cada uno. Unidades RAID (Redundant Array of

Inexpensive Disks): Conjunto de Discos Baratos describen bsicamente esta fabulosa solucin hardware contra fallos. RAID se compone bsicamente de una controladora a la que se conectan una serie de discos duros en los que la informacin se graba de tal manera que si falla uno de los discos, el resto sigue funcionando de forma eficaz ya que conocen exactamente la informacin perdida. Esta capacidad de la tecnologa RAID para salir de situaciones comprometidas se basa en 6 tipos de funcionamiento diferentes, pero antes de describirlos veamos un pequeo ejemplo para entender mejor porqu dicha tecnologa resulta tan beneficiosa.

Significa matriz redundante de discos independientes. RAID es un mtodo de combinacin de varios discos duros para formar una nica unidad lgica en la que se almacenan los datos de forma redundante. Ofrece mayor tolerancia a fallos y ms altos niveles de rendimiento que un slo disco duro o un grupo de discos duros independientes. En este mtodo, la informacin se reparte entre varios discos, usando tcnicas como el entrelazado de bloques (RAID nivel 0) o la duplicacin de discos (RAID nivel 1) para proporcionar redundancia, reducir el tiempo de acceso, y/o obtener mayor ancho de banda para leer y/o escribir, as como la posibilidad de recuperar un sistema tras la avera de uno de los discos. Un RAID, para el sistema operativo, aparenta ser un slo disco duro lgico (LUN). La tecnologa RAID protege los datos contra el fallo de una unidad de disco duro. Si se produce un fallo, RAID mantiene el servidor activo y en funcionamiento hasta que se sustituya la unidad defectuosa. RAID ofrece varias opciones, llamadas niveles RAID, cada una de las cuales proporciona un equilibrio distinto entre tolerancia a fallos, rendimiento y coste. Todos los sistemas RAID suponen la prdida de parte de la capacidad de almacenamiento de los discos, para conseguir la redundancia o almacenar los datos de paridad. Los sistemas RAID profesionales deben incluir los elementos crticos por duplicado: fuentes

de alimentacin y ventiladores redundantes y Hot Swap. De poco sirve disponer de un sistema tolerante al fallo de un disco si despus falla por ejemplo una fuente de alimentacin que provoca la cada del sistema.

Funcionamiento del RAID Bsicamente el RAID es un sistema el cual permite almacenar informacin en una cantidad de discos (n), de tal forma que agilice el proceso maquina-disco. El sistema RAID evitar en lo ms posible la prdida de data de la siguiente manera: Los discos optimizados para RAID poseen circuitos integrados que detecta si el disco est fallando, de ser as este circuito se encargar por encima del tiempo real de sacar la informacin y almacenarla en los otros discos, o si es el caso en el "hot spare". Un hot spare es un disco que permanece siempre en el sistema esperando a que otro se estropee y l entre directamente en funcionamiento. Una de las ventajas del sistema RAID es la posibilidad, con los discos hot swap, de conectarlos y desconectarlos en "caliente", es decir, que si un disco falla no har falta el apagar el sistema para remplazarlo. Ventajas de los discos RAID El rendimiento general del sistema aumenta ya que pueden funcionar de forma paralela con los diferentes discos del conjunto. Dependiendo del nivel de RAID que escojamos, si uno de los discos del conjunto falla, la unidad contina funcionando, sin prdida de tiempo ni de datos. La reconstruccin de los datos del disco que ha fallado se hace de forma automtica sin intervencin humana. En el caso de algunos sistemas operativos la regeneracin de datos se hace desde software por ejemplo en el Windows NT, aunque en estos sistemas se pueden usar controladoras RAID que s regeneraran los datos automticamente. La capacidad global del disco aumentar, ya que se suman las capacidades de los diferentes discos que componen el conjunto. Tipos de RAID RAID 0

Este tipo de arreglo utiliza una tcnica llamada "striping", la cual distribuye la informacin en bloques entre los diferentes discos. Es el nico nivel de RAID que no duplica la informacin, por lo tanto no se desperdicia capacidad de almacenamiento. Se requieren mnimo dos discos.

Ventajas: RAID-0 permite acccesar ms de un disco a la vez, logrando una tasa de transferencia ms elevada y un rpido tiempo de acceso. Por no utilizar espacio en informacin redundante, el costo por Megabyte es menor. Desventaja: No existe proteccin de datos. No existe informacin en cuanto a Paridad. Ambientes donde implementarlo: Es una buena alternativa en sistemas donde sea ms importante el rendimiento que la seguridad de los datos. Es decir ambientes que puedan soportar una prdida de tiempo de operacin para poder reemplazar el disco que falle y reponer toda la informacin. RAID 1:

Este nivel de RAID usa un tipo de configuracin conocido como "mirroring", ya que la informacin de un disco es completamente duplicada en otro disco. As mismo, tambin se puede duplicar el controlador de disco (duplexing). Se desperdicia el 50% de la capacidad y slo maneja dos discos. Ventajas: Se protege la informacin en caso de falla tanto del disco como del controlador (en caso de duplex), y a q u e si un disco suspende su operacin el otro continua disponible. De este modo se evita la prdida de informacin y las interrupciones del sistema debido a fallas de discos. Desventajas: Gran consumo de necesidades hardware, 100% paridad y coste alto pues es necesario el doble de discos. Ambientes donde implementarlo: RAID-1 est diseado para sistemas donde la disponibilidad de la informacin es esencial y su reemplazo resultara difcil y costoso (ms costoso que reponer el disco en s). Tpico en escrituras aleatorias pequeas con tolerancia a fallas. El problema de este tipo de arreglos es el costo que implica duplicar los discos.

RAID 3:

Conocido tambin como "striping con paridad dedicada", utiliza un disco de proteccin de informacin separado para almacenar informacin de control codificada. Esta informacin de control codificada o paridad proviene de los datos almacenados en los discos y permite la reconstruccin de la informacin en caso de falla. Se requieren mnimo tres discos y se utiliza la capacidad de un disco para la informacin de control.

Ventajas: RAID-3 proporciona una alta disponibilidad del arreglo, as como una tasa de transferencia elevada, mejorando de ese modo el rendimiento del sistema. Desventajas: Un disco de paridad dedicado puede convertirse en un cuello de botella porque cada cambio en el grupo RAID requiere un cambio en la informacin de paridad. No plantea una solucin al fallo simultneo en dos discos. Est especialmente recomendado para aplicaciones que requieran archivos de datos de un gran tamao (vdeo, imgenes, DataWare House). Ambientes donde implementarlo: Es tpico para transferencia larga de datos en forma serial , tal como aplicaciones de imgenes o video

RAID 5:

Este nivel de RAID es conocido como "striping con paridad distribuida", ya que la informacin se reparte en bloques como RAID-0, pero un bloque de cada disco se dedica a la paridad. Es decir la data codificada se aade como otro sector que rota por los discos igual que los datos ordinarios. Se requieren mnimo tres discos.

Ventajas:

Es

el

esquema

de

proteccin de informacin ms usado comnmente, ya que proporciona un buen rendimiento general con una mnima prdida de capacidad. Adems el sistema tiene suficiente redundancia para ser tolerante a fallos. Desventajas: Menores prestaciones que en RAID 1. No plantea una solucin al fallo simultneo en dos discos.

Ambientes donde implementarlo: Es recomendable para aplicaciones intensas de entrada/salida y de lectura/escritura, tal como procesamiento de transacciones.

RAID 10: Es un nivel de arreglo de discos, donde la informacin se distribuye en bloques como en RAID-0 adicionalmente, cada disco se duplica como RAID-1 , creando un segundo nivel de arreglo. Se conoce como "striping de arreglos duplicados". Se requieren, dos canales, dos discos para cada canal y se utiliza el 50% de la capacidad para informacin de control. Tambin se le conoce como RAID

Ventajas: Este nivel ofrece un 100% de redundancia de la informacin y un soporte para grandes volmenes de datos, donde el precio no es un factor importante. Desventajas: Coste elevado, gran overhead y 100% de redundancia Ambientes donde implementarlo: Ideal para sistemas de misin crtica donde se requiera mayor confiabilidad de la informacin, ya que pueden fallar dos discos inclusive (uno por cada canal) y los datos todava se mantienen en lnea. Es apropiado tambin en escrituras aleatorias pequeas. 2.

TOLERANCIA A FALLAS DEL SERVIDOR Existen las siguientes tcnicas siguientes en cuanto a la tolerancia a fallas: Mtodos para reparar el disco duro Seguimiento de Operaciones Duplicacin de Directorios Cuenta de Usuario y Duplicado de Seguridad Proteccin del Sistema Operativo contra los errores de las aplicaciones software Cerrar archivo

Capacidad de Repararen forma directa el Disco Duro En una reparacin directa, el sistema operativo almacena temporalmente los datos que no pueden escribirse de forma inmediata debido a un problema del disco en esta posicin, por ejemplo por daos en la superficie del disco Y localizara otra zona otra zona del disco que este libre de errores, donde escribir los datos almacenados. Seguimiento de Operaciones Implica el mantenimiento de un cuaderno llamado diario hasta que se escribe el disco. Tambin llamado anotacin de operaciones en el que se mantiene las anotaciones de todas las operaciones recientes antes de que se escriban en el disco. Los sistemas de bases de datos tambin tienen la posibilidad de dar seguimiento a las operaciones. Duplicacin de Directorios Se pueden realizar copias de seguridad de ciertos archivos o carpetas .Los servicios de duplicacin se encargan de la copia de las carpetas y los archivos desde un servidor a otro o desde un servidor a una estacin de trabajo. Duplicacin de Seguridad y cuentas de usuarios Se conserva la informacin de las cuentas pero los usuarios no pueden acceder a sus hasta que la informacin no se haya reconstruido. Se protege los datos con la duplicacin regular de los datos en otro servidor de la red y la copia de seguridad de forma regular de los datos en una cinta. Tolerancia de Fallas para un SAM es tener dos o ms servidores en un dominio de Microsoft. El primer dominio (PDC) tiene la copia de seguridad de la base de datos .Cada uno de los controladores de dominio de seguridad (BDC) tiene una copia actualizada de forma regular de la base de datos 3. SOFTWARE DE TOLERANCIA A FALLOS PARA SERVIDORES Si el servidor falla, la aplicacin es restaurada en el servidor 'spare' o de espera automtica. Fujitsu Siemens Computers acaba de anunciar el lanzamiento de su software de alta disponibilidad, x10sure, una solucin de alta tolerancia a fallos para servidores Windows y aplicaciones. Gracias a este software, si el servidor falla, la aplicacin es restaurada en el servidor spare o de espera automtica. X10sure ha sido desarrollada para medianas y grandes empresas con el precio ms rentable del mercado, desde 9.200 euros para 5 nodos.

Permite la recuperacin automtica del sistema con los requisitos de configuracin mnimos, la consolidacin de la estructura y la continuidad del negocio. Ofrece un bajo riesgo de implementacin y una mnima complicacin para el usuario. Garantiza la mxima flexibilidad y sus usuarios consiguen una mayor rentabilidad, gracias a la implementacin de servidores reales y virtuales. Ha sido desarrollada para incorporarla en negocios con economa de escala, ya que maximiza la inversin en el futuro. Para Sergio Reiter, Responsable de Servidores PRIMERGY de Fujitsu Siemens Computers, esta nueva solucin es la llave para el xito de las medianas y grandes empresas. Ofrece la mejor alternativa en eficacia y fiabilidad para las estructuras tecnolgicas actuales. Nuestros usuarios podrn gozar del mximo rendimiento con el menor coste del mercado. Es una solucin rompedora en precio y tecnologa que sirve para cualquier aplicacin y, sobretodo, cuenta con un failover automtico. Ahora, nuestro software de alta disponibilidad, adem{s de ser nico, refuerza nuestra posicin y tecnologa. Segn han sealado los responsables, cuando se produce un incidente en los servidores, el hardware asociado es capaz de detectar el subsistema que falla y obrar en consecuencia para restablecer el sistema en segundos. Lo que consigue x10sure es monitorizar los servidores y el almacenamiento. En el caso de que un servidor de produccin caiga, la aplicacin automticamente lo rearranca en un servidor de espera. Si el almacenamiento falla, los datos o el acceso a los mismos puede ser automticamente restablecido. X10sure est en la actualidad disponible a travs del canal de distribucin. Para Reiter estamos satisfechos del gran producto que hoy presentamos y que representa, sin lugar a dudas, una gran oportunidad de negocio para nuestro canal de distribucin, especialmente para los clientes con necesidades de alta disponibilidad y consolidacin, pero bajo el prisma de la rentabilidad

4.

PROTEGER EL SISTEMA OPERATIVO Un sistema operativo protegido funciona en una zona de la memoria que esta separada de los dems programas, esto funciona en modo protegido para protegerse de los problemas del mal funcionamiento de algn programa. Bloquear los archivos y los registros El bloque es un proceso que realiza el sistema operativo para impedir que dos usuarios accedan y actualicen la misma informacin al mismo tiempo. Los sistemas operativos modernos realizan un bloqueo a nivel de registro lo que permite que muchos usuarios accedan y actualicen el mismo archivo pero no el mismo registro de este archivo.

Utilizar un Sistema de alimentacin Ininterrumpida El principal objetivo de un sistema de alimentacin ininterrumpida (SAI) es proteger a los equipos elctricos de los cortes y de las fluctuaciones de la tensin elctrica .Un SAI es una caja llena de bateras recargables que proporcionan energa de forma temporal, hasta que los equipos de la red se pueden apagar de forma segura. Los cortes de intermitentes de tensin provocan que los discos que los discos se paren de repente. Las unidades del disco y la memoria RAM son propensos a sufrir daos en un apagn. Hay dos tipos de SAIs: Los online-.Proporcionan energa elctrica a los equipos directamente desde sus bateras Los offline-.Conecta los equipos a la fuente de energa principal hasta que detecta una repentina reduccin de la tensin y en ese momento conmutan sus bateras para que sean estas las que proporcionen la tensin necesaria

5.

SISTEMA DE ALIMENTACIN ININTERRUMPIDA

Un SAI (Sistema de Alimentacin Ininterrumpida), tambin conocido por sus siglas en ingls UPS (UninterruptiblePowerSupply: suministro de energa ininterrumpible) e incorrectamente generalizado como No break, es un dispositivo que gracias a sus bateras, puede proporcionar energa elctrica tras un apagn a todos los dispositivos que tenga conectados. Otra de las funciones de los SAI es la de mejorar la calidad de la energa elctrica que llega a los aparatos, filtrando subidas y bajadas de tensin y eliminando armnicos de la red en el caso de Corriente Alterna. Dos son los criterios a tener en cuenta al elegir un SAI: - Potencia que consume la totalidad del Sistema Informtico - Problemas elctricos, cortes, microcortes etc., que deben resolverse ON-LINE La red alimenta al cargador de bateras y al ondulador (Fig. 1). De este modo nos encontramos con las bateras en paralelo con el ondulador, por tanto cualquier corte o microcorte queda suplido por las bateras. Se garantiza el aislamiento de la red, por medio del transformador separador existente en el cargador de bateras. La tensin de salida la proporciona el ondulador siempre, por tanto, se garantiza la estabilizacin de salida, la estabilidad en frecuencia y la ausencia de perturbaciones. No existe transferencia Red-Sai ni Sai-Red, puesto que es el ondulador, quien est permanente trabajando y suministrando energia a la salida.

Existe tambin la posibilidad de BYPASS, (Fig. 1-A), el cual debe garantizar, por redundancia, el suministro a la salida en caso de fallo de red. La presencia incorporacin del Bypass no debe ir en detrimento del poder de sobrecarga del ondulador, puesto que no debe ser usual, la intervencin del mismo, en las sobrecargas de conexin de los equipos informticos, ya que en caso de ausencia de Red, no se podra conectar la carga, pese a tener las bateras en condiciones. Como puede observarse en la figura, el conmutador de la salida, esta normalmente en la posicin "O", por tanto el ondulador alimenta la carga y el control del Bypass supervisa esta alimentacin, en caso de producirse alguna anomala, el conmutador cambia a la posicin "R", ser por tanto, la Red quien alimentar a la carga en estas circunstancias. Cuando el control del Bypass, observe restaurado el funcionamiento del ondulador, haya desaparecido la anomala que ha provocado la intervencin, devolver la alimentacin al ondulador. Es importante observar que, dado que el Bypass, se comporta como sistema redundante de seguridad, en la intervencin del mismo no debe perderse el aislamiento, caracterstica fundamental que debe aportar un SAI ON-LINE, por tanto, el Bypass deber incorporar transformador-separador, para garantizar sta caracterstica durante su intervencin. Esta caracterstica, es fcilmente olvidada por algunos equipos, que consiguen reducidas dimensiones, al incorporar tcnicas de alta frecuencia. Esta tecnologa, la primera

histricamente en ser utilizada, es la que aporta mayor grado de proteccin en su salida, ya que sta, es totalmente independiente de la entrada. Las condiciones de trabajo extremas desde un punto de vista de red elctrica, es decir, referentes a la entrada, dependen de la concepcin del cargador de bateras, a los que actualmente ya se dota de corrector de cos. de p, con lo cual se consume corriente senoidal a la entrada, a la vez que se consigue bajar los niveles de tensin de red, a los que todava se carga la batera. El ondulador, construido generalmente con tecnologa PWM y semiconductores MOSFET o IGBT, aporta las caractersticas de salida. En cualquier caso, sta topologa, la ms segura y de mayor grado de proteccin, es cara y voluminosa, lo cual da paso a las siguientes topologas, cuyaevolucin tiende siempre a imitar las prestaciones de una configuracin ON-LINE. OFF-LINE Parte del criterio de reducir costes, por ello la base es proteger slo en caso de necesidad, de tal forma que la red alimenta a la carga normalmente y tan slo interviene el ondulador en caso de fallo de red red excesivamente baja o alta , mediante la accin del conmutador C (Fig. 2). Podramos decir, que la red est controlada dentro de un intervalo de tensin mxima y mnima, y por tanto la carga que estamos alimentando, deber soportar los lmites de tensin a los que interviene el equipo. Normalmente no se produce un aislamiento entrada-salida y existe un inevitable tiempo de transferencia Red-Sai-Red. Dicho tiempo puede llegar a ser muy corto (1mS), sin embargo durante este tiempo, son los condensadores de filtro de la carga quienes mantienen la energa.

Como podr observarse, existen los mismos bloques que en una configuracin ON-LINE, cargador de bateras, bateras y ondulador, sin embargo se le aade un bloque ms, que es el supervisor de red, elemento que permite detectar un posible fallo de sta y conmutar "C", para que sea el ondulador, quien pase a alimentar la salida. Bajo este criterio, el ondulador slo trabajar el tiempo de descarga de la batera, apurandose hasta el lmite, las caractersticas de los semiconductores de potencia. A su a vez, la batera es cargada de forma lenta por el cargador, cuando existen condiciones correctas de red. Queda a criterio del fabricante, la eleccin de los lmites de dimensionado y temperatura de trabajo de los distintos componentes, para conseguir un equipo con una determinada fiabilidad-coste.

Conclusiones: Siendo la topologa OFF-LINE, las ms econmica y en muchos casos, suficiente, dista de ser la ms adecuada para realizar una proteccin total, parmetros como aislamiento, tiempo de transferencia y lmites de proteccin por red alta-baja, son normalmente subyugados a criterios econmicos. El lmite normalmente ms conflictivo, es el punto de intervencin, donde el ondulador empieza a trabajar y por tanto a utilizar batera, puesto que el equipo detecta la tensin de red baja. El Sai OFF-LINE, es til prcticamente, slo en lugares donde la red es estable y la proteccin a realizar, es frente a cortes momentneos de suministro. IN-LINE Es una nueva tcnica, de conocimiento reciente, cuyo origen es de una firma americana, quien lo aplic a equipos de elevada potencia, a fin de mejorar la fiabilidad y expectativas de vida. Comercialmente se utiliza como si de ON-LINE se tratara, por ello existen marcas que al ON-LINE autntico lo nombran como "verdadero" o "doble conversin". Originariamente, si est correcta-mente construido, las prestaciones y caractersticas que aporta, son prcticamente de ON-LINE. El sistema se basa en utilizar un ondulador reversible, capaz tanto de generar, como de rectificar para cargar la batera. Manteniendo al ondulador en marcha y variando la tensin y la fase generada por ste, se logra cargar adecuadamente la batera. Una etapa estabilizadora en la entrada, es obligada, para mantener al ondulador en los lmites tolerables de trabajo como cargador y un elaborado filtraje protegen al propio ondulador de picos de sobretensin, provenientes de la red, que lo estropearan. Debe prestarse atencin, al aislamiento electrico que pueda o no, incorporar el bypass.

6.

COPIAS DE SEGURIDAD EN LAS ESTACIONES DE TRABAJO

Puede utilizar el asistente para programar la creacin de una copia de seguridad cuando desee o en intervalos regulares. 7. PLAN DE SEGURIDAD Introduccin Hasta este punto se ha realizado un completo anlisis de la situacin de la empresa en lo que se refiere a la seguridad de la informacin. A continuacin se van a detallar las posibles soluciones que debe implantar la empresa para conseguir establecer un nivel de seguridad de su informacin adecuado para evitar prdidas y daos de activos. Plan de seguridad A la hora de realizar el anlisis de la empresa, se han detectado ciertas vulnerabilidades graves como por ejemplo que no exista un replicado de la informacin, que no existan polticas de acceso a la informacin o la ms importante, que los responsables de la empresa no tengan conciencia de la importancia de dotar a su empresa de unas adecuadas medidas de seguridad para proteger la informacin de la misma. Para conseguir reducir el riesgo de la empresa se van a detallar las medidas que se debern emplear para conseguir que consiga ponerse al da en la seguridad de su informacin y elementos informticos. Dentro de las medidas a emplear para eliminar las vulnerabilidades y dotar ala empresa de una seguridad adecuada, se pueden distinguir varios tipos:Medidas preventivas: Medidas que se debern implantar en la empresa para prevenir la posible explotacin de una vulnerabilidad por parte de una amenaza. Medidas correctoras: Medidas que se debern implantar en la empresa para corregir problemas o fallos debidos a amenazas que se han materializado.Riesgos asumibles: Pueden existir vulnerabilidades de la empresa que no sean sensibles a que un riesgo las explote, por lo que esa vulnerabilidad no es necesaria que sea tenida en cuenta a la hora de establecer las medidas de seguridad. . Medidas aplicadas a problemas de Hardware En el anlisis realizado dentro de la empresa se han detectado varios fallos en el correcto mantenimiento y seguridad del equipamiento Hardware disponible, sobre todo debido a la ausencia de un sistema de almacenamiento centralizado, lo que pone en grave riesgo la integridad de la informacin almacenada dentro de dicho Hardware. Algunas medidas aplicables para evitar prdidas: Medidas preventivas a adoptar dentro de la empresa:-Instalacin de un servidor de almacenamiento centralizado donde se almacene toda la informacin generada dentro de la empresa y que garantice un acceso adecuado, y seguro, a la misma cuando sea necesario. -

Disponer de copias de respaldo almacenadas en servidores exteriores ala empresa para prevenir posibles fallos de Hardware. Dispositivos SAI (Sistemas de Alimentacin Ininterrumpida) para evitar posibles fallos de los equipos debidos a cortes de energa repentinos.Tener contratado un buen servicio tcnico que asegure una rpida reparacin y puesta en marcha de los equipos si se produce un fallo. Medidas correctoras a adoptar dentro de la empresa:-Tener contratado un buen servicio tcnico que asegure una rpida reparacin y puesta en marcha de los equipos si se produce un fallo. Restauracin de copias de Backup en el caso de haberse producido una prdida de datos. Riesgos asumibles en la empresa:-Fallo en alguna estacin PC o porttil durante un periodo inferior a 24horas

Software Fallos debidos a amenazas que pueden afectar al Software que emplea la empresa para desarrollar su actividad de negocio. Pueden ser evitados.

Desarrollar un Plan para Reconstruir Desastres El administrador de red es responsable de disponer un plan de contingencia en caso que ocurra un desastre .Tal plan debe incluir un plan de seguridad y opciones de tolerancia a fallas, incluidos los procedimientos de tolerancia a fallas siguientes: discos Almacenar las ltimas copias de seguridad en otra ubicacin Contar con redundancia de almacenamiento en disco, por ejemplo un disco imagen Instalar un SAI Comprar equipos de repuesto Instalar cable adicional En la instalacin de la red, para disponer de cables de Comprar sistemas operativos que dispongan de opciones de tolerancia a fallas Establecer un plan para realizar copias de seguridad en discos, con rotacin de

o unidades RAID

seguridad por si se quiere redisear la red. Un plan de reconstruccion en caso de desastres debera tener una cuenta lo siguiente: Que el sistema de cintas se estropee e impida realizar la restauracion de las copias Que los problemas del sistema operativo no se puedan localizar inmediatamente Que una o varias CPUs se estropean Que varios discos no puedan funcionar

de seguridad

Que se estropeen unas cuantas cintas de las copias de seguridad Que ocurra un desastre natural

Plan de Seguridad de Recuperacin ante DesastresUn plan de recuperacin ante desastres es un proceso de recuperacin que cubre los datos, el hardware y el software crtico, para que un negocio pueda comenzar de nuevo sus operaciones en caso de un desastre natural o causado por humanos. Esto tambin debera incluir proyectos para enfrentarse a la prdida inesperada o repentina de personal clave, aunque esto no sea cubierto en este artculo, el propsito es la proteccin de datos. Ante la amenaza de un desastre o despus de que ya ha ocurrido lo nico que nos puede salvar es la forma en que nos prevenimos antes de que ocurriera. Es por eso que es vital tener un Plan de Recuperacin ante Desastres (DRP - Disaster Recovery Plan).

Prevencin ante los desastres Enviar respaldos fuera de sitio semanalmente para que en el peor de los casos no se pierda ms que los datos de una semana.

Incluir el software as como toda la informacin de datos, para facilitar la recuperacin. Si es posible, usar una instalacin remota de reserva para reducir al mnimo la prdida de datos. Redes de rea de Almacenamiento (SANs) en mltiples sitios son un reciente desarrollo (desde 2003) que hace que los datos estn disponibles inmediatamente sin la necesidad de recuperarlos o sincronizarlos. Protectores de lnea para reducir al mnimo el efecto de oleadas sobre un delicado equipo electrnico. El suministro de energa ininterrumpido (SAI). La prevencin de incendios - ms alarmas, extintores accesibles. El software del antivirus. El seguro en el hardware.

El plan

Para asegurar la continuidad del negocio, es recomendable partir de la siguiente premisa: "Siempre desear lo mejor y planear para lo peor". En un buen plan existen diferentes factores que hay que tomar en cuenta. Los ms importantes son: El rbol telefnico: para notificar todo el personal clave del problema y asignarles tareas enfocadas hacia el plan de recuperacin. Reservas de memoria: si las cintas de reserva son tomadas fuera de sitio es necesario grabarlas. Si se usan servicios remotos de reserva se requerir una conexin de red a la posicin remota de reserva (o Internet). Clientes: la notificacin de clientes sobre el problema reduce al mnimo el pnico. Instalaciones: teniendo sitios calientes o sitios fros para empresas ms grandes. Instalaciones de recuperacin mviles estn tambin disponibles en muchos proveedores. Trabajadores con conocimiento. Durante desastre a los empleados se les requiere trabajar horas ms largas y ms agotadoras. Debe haber un sistema de apoyo para aliviar un poco de tensin. La informacin de negocio. Las reservas deben estar almacenadas completamente separadas de la empresa (Cummings, Haag y 2005 McCubbrey). La seguridad y la fiabilidad de los datos es clave en ocasiones como estas. Proceso de recuperacin

Comprar nuevo equipo (el hardware) o reparar o quitar virus, etc. Llamar el abastecedor de software e instalar de nuevo el software. Recuperar los discos de almacenaje que estn fuera de sitio.

Reinstalar todos los datos de la fuente de respaldo. Volver a ingresar los datos de las pasadas semanas. Tener estrategias peridicas de respaldos de base de datos.

Software RecomendadosReplication Server Es el software de replicacin de bases de datos que enva y sincroniza datos satisfaciendo las necesidades competitivas, incluyendo garanta de entrega e inteligencia comercial en tiempo real sin cadas operativas. OpenSwitch Una solucin que garantiza a los sistemas disponibilidad ininterrumpida sin complicaciones. Adaptive Server Enterprise Cluster Edition Reduce los costos operativos, brindando una infraestructura de bases de datos que permite al rea de TI mejorar los niveles del servicio de aplicaciones, reducir los costos del centro de datos y crear una infraestructura de datos para el crecimiento futuro del negocio. Mirror Activator Una solucin para la continuidad del negocio y la recuperacin de desastres para bases de datos de misin crtica. Acronis Backup & Recovery Advance 11 Server Ayuda a ser copias de seguridad y recuperar informacin de los discos duros que estn daados. Otras formas de Recuperar informacin Es la de pedir o buscar ayuda en empresas que se dedican a dar soporte a las empresas a recuperarse ante un desastre y de esta forma no pierdan dinero ante un desastre.Los

especialistas en reconstrucciones tienen computadoras, sistemas de seguridad, redes y acceso a internet para mantener la operatividad de la organizacin despus de un desastre.

Sistemas distribuidos tolerantes a fallasLa promesa de los sistemasdistribuidos slo se puede cumplir cuando a la base hardware adecuada sele aaden polticas y mecanismos tolerantes a fallas. El objetivo deldiseo y construccin de sistemas tolerantes a fallas consiste engarantizar que el sistema contine funcionando de manera correcta comoun todo, incluso en presencia de fallas.

Se dice que un sistema falla cuandono cumple su especificacin. En algunos casos, como en un sistema deordenamiento distribuido de productos en un supermercado, una fallapodra provocar la falta de algunos productos en la tienda. En otroscasos, como en un sistema distribuido para el control de trfico areo,una falla podra ser catastrfica. Como las computadoras y los sistemasdistribuidos se utilizan cada vez ms en misiones donde la seguridad escrtica, la necesidad de soportar las fallas cada vez es mayor.

Un sistema consiste de un conjuntode componentes de hardware y software y son diseados para proveer unservicio especfico. Los componentes de un sistema pueden estarinterrelacionados entre ellos. Un desperfecto de un sistema ocurrecuando el sistema no desempea estos servicios de la maneraespecificada. Un estado errneo en un sistema es un estado en el cualpodra conducir a un fallo en el sistema. Un fallo es una condicinfsica anormal, las causas de un fallo incluyen: errores de diseo (comoerrores en la especificacin del sistema o en la implementacin),problemas de fabricacin, deterioro por el uso u otros problemasexternos (como condiciones ambientales adversas, interferenciaelectromagntica, entradas imprevistas o el mal uso del sistema). Unerror es una parte del estado del sistema la cual difiere de los valoresesperados.

Unerror del sistema puede ser visto como una manifestacin de malfuncionamiento del sistema, el cual podra conducir a un fallo delsistema. Es necesario entonces, que el sistema sea capaz de recuperarsede las fallas, necesitamos deshacernos del estado de error del sistema,en otras palabras, la recuperacin de un fallo, es un proceso queinvolucra la restauracin de un estado errneo a un estado libre deerror. CLASIFICACIN Y PROPIEDADES DE FALLAS EN SISTEMAS DISTRIBUIDOS.

Clasificacin de fallas

Las fallas de un sistema de cmputo pueden clasificarse como sigue:

Falla de procesos:en una falla de proceso,la ejecucin arroja un resultado incorrecto, los procesos provocan queel sistema se desve de las especificaciones y el proceso puedesuspender su progreso. Ejemplos de errores que causan la falla de losprocesos son los interbloqueos, tiempo expirado, violacin deproteccin, error en la entrada provista por el usuario, violaciones deconsistencia (puede ocurrir si se emplea la tcnica de control deconcurrencia optimista). Dependiendo del tipo de error que cause que unproceso falle, este proceso puede ser abortado o reiniciado desde unestado anterior. Por ejemplo, un proceso interbloqueado puede serrestablecido desde un estado anterior, donde este puede tratar deadquirir nuevamente recursos. Por otro lado, entradas errneas requierenque el proceso se aborte.

Falla del sistema:una falla de un sistemaocurre cuando el procesador falla en la ejecucin. Esto es causado porerrores de software y problemas de hardware (como errores de CPU, fallaen la memoria principal, falla en el bus, falla de energa, etc.). En elcaso de una falla de sistema, el sistema es detenido y reiniciado en unestado correcto. El estado correcto puede estar en algn estadopredefinido o en un estado anterior (punto de revisin) del sistemaguardado en un almacenamiento no voltil.

Una falla del sistema puede ser clasificado como sigue:

Falla de amnesia:ocurre cuando se reiniciael sistema en un estado predefinido, y no depende del estado del sistemaantes de la falla. No se conoce el estado que tena el sistema antes dela falla.

Falla de amnesia parcial:ocurre cuando se reiniciael sistema y se conoce parte del estado que presentaba antes de ocurrirla falla. Tambin se predefine un estado inicial para fallas.

Falla de pausa:ocurre cuando el sistema se reinicia al mismo estado en que se encontraba antes de la falla.

Falla de aborto (halting):ocurre cuando un sistema nunca se reinicializa.

Falla en medio de almacenamiento secundario:se dice que ocurre unafalla en medio de almacenamiento cuando los datos almacenados no puedenser accedidos (cualquiera de sus partes o en su totalidad). La causa deesta falla normalmente es provocada por error de paridad, dao de lascabezas lectoras, partculas de polvo depositadas en el medio. En casode una falla en el medio de almacenamiento secundario, sus contenidos seencuentran alterados y deberan ser reconstruidos desde una versin delarchivo, que se toma del registro histrico de actividades del archivo.Para tolerar una falla del medio de almacenamiento secundario, elsistema puede ser configurado con un sistema de discos espejos. Unsistema de disco espejo generalmente son dos discos fsicamenteindependientes que se comunican con la memoria y/o con el CPU a travsde controladores y buses

independientes. Esto hace que el almacenamientode datos en un disco sea la imagen del otro. As, un sistema puedetolerar fallas de un disco de subsistema.

Falla en los medios de comunicacin:una falla de un medio decomunicacin, ocurre cuando un sitio no puede comunicarse con otro sitiooperacional de la red. Esto es ocasionado por la falla del nodo deconmutacin y/o por los enlaces de comunicacin del sistema. La falla deun nodo de conmutacin incluye la falla del sistema y la falla dealmacenamiento secundario, por otro lado, la falla de enlace incluye unaruptura fsica y ruido en los canales de comunicacin. Note que unafalla en un medio de comunicacin (esto depende de la topologa y laconectividad) puede no causar la prdida total de las facilidades decomunicacin. Por ejemplo, una falla en el medio de comunicacin puedesimplemente causar una prdida del mensaje, la recepcin de un mensajecon algunos errores, o la particin de una red donde un segmento desitios pueden ser incomunicados con los sitios en otro segmento, aunquelos sitios dentro de un segmento pueden comunicarse entre s.

RECUPERACIN DE ERRORES.

Recordemos que un error es esa partedel estado del sistema que es distinto de los valores esperados y quepueden conducir a la falla de un sistema, la recuperacin de una fallaes un proceso que involucra la recuperacin de estados errneos a unestado libre de error. Hay dos enfoques para la recuperacin de unestado de error a un estado libre de error.

Si la naturaleza del error y losdaos causados por la falla pueden ser completamente calculados,entonces es posible remover esos errores del estado del proceso (osistema) y habilitar el movimiento hacia adelante del proceso a unestado libre de error. Esta tcnica es conocida como recuperacin haciaadelante.

Si no es posible prever lanaturaleza de las fallas y remover todos los errores en el estado delproceso (o sistema), entonces el estado del proceso puede ser restauradoa un estado previo libre de error. Esta tcnica es conocida comorecuperacin de error hacia atrs.

Note que la recuperacin del errorhacia atrs es ms simple que la recuperacin del error hacia adelante,ya que es independiente de la falla y de los errores causados por lafalla. Adems un sistema puede recuperarse de una falla arbitraria porla restauracin a un estado previo. Esto generalmente habilita que larecuperacin hacia atrs sea provista como un mecanismo de recuperacingeneral para cualquier tipo de proceso.

Los principales problemas asociados con la recuperacin hacia atrs son:

Penalidad en rendimiento:la sobrecarga de trabajo para restaurar el estado del proceso a un estado anterior libre de errores puede resultar muy alto.

No esta garantizado que las fallas no ocurrirn nuevamente cuando se inicialice el procesamiento desde un estado anterior.

Algunos componentes del estado delsistema pueden ser irrecuperables. Por ejemplo, el dinero dispuesto enun cajero automtico no puede recuperarse.

La tcnica de recuperacin haciadelante, por otro lado, provoca una menor sobrecarga, porque slo esaspartes del estado que se desviaron de un valor esperado necesitan sercorregidas. Sin embargo, esta tcnica puede ser usada solo cuando losdaos debido a fallas pueden ser calculados correctamente, por lo tanto,este no es un concepto tan general como la recuperacin de error haciaatrs y no puede ser provista como un mecanismo general para recuperarerrores.

Recuperacin de error hacia atrs

En la recuperacin de error haciaatrs, un proceso es restaurado a un estado anterior con la esperanza deque el estado anterior este libre de errores. Los puntos en laejecucin de un proceso en los cuales los procesos pueden serrestaurados ms tarde se conocen como puntos de recuperacin. Se diceque un punto de recuperacin es recuperado cuando el estado actual de unproceso es remplazado por el estado del proceso en el punto derecuperacin. Los conceptos anteriores y la discusin que sigue sonaplicables tambin a nivel del sistema. Una recuperacin hecha a nivelde proceso es simplemente un subconjunto de acciones necesarias pararecuperar el sistema completo. En la recuperacin del sistema, todos losprocesos que fueron activados necesitan ser restaurados a susrespectivos puntos de recuperacin y los datos modificados (en elalmacenamiento secundario) por los procesos necesitan ser restaurados asu estado apropiado.

Hay dos formas de implementar unarecuperacin de error hacia atrs, a saber, el enfoque basado en laoperacin y el enfoque basado en estado. Estos enfoques son explicadosen el contexto de el siguiente sistema modelo.

Sistema modelo.El sistema que adoptamosconsiste de una mquina simple. La mquina esta conectada a un sistemade almacenamiento secundario y a un sistema de almacenamiento estable(ver figura 1.1.). Un almacenamiento que no

pierde informacin en unevento de falla del sistema es conocido como un almacenamiento estable.Cuando un proceso accesa a un objeto dato almacenado en un mediosecundario, el objeto dato es trado a la memoria principal si este nose encuentra ya en la memoria. Si el acceso es una operacin escribir,la copia del objeto en la memoria principal es actualizada. El objetodato es eventualmente actualizado cuando la copia del objeto en lamemoria principal es liberado al disco por el esquema de paginacin ocuando el proceso de actualizacin del objeto termina. El almacenamientoestable es usado para almacenar los registros histricos y los puntosde recuperacin. El contenido de ambos, almacenamiento secundario yalmacenamiento estable pueden sobrevivir a las fallas del sistema. Sinembargo, el contenido del almacenamiento estable es mucho ms seguro queel almacenamiento secundario. Se asume que los datos en elalmacenamiento secundario son peridicamente archivados.

Figura 1.1.Mquina que est conectada a un sistema de almacenamiento secundario y a un sistema de almacenamiento estable.

Enfoque basado en la operacin

En el enfoque basado en laoperacin, todas las modificaciones que son hechas al estado de unproceso son registrados con suficiente detalle, as los estados previosdel proceso pueden ser restaurados dando marcha atrs a todos loscambios hechos al estado. El registro de la actividad del sistema esconocido como registro histrico.

Considere un entorno basado entransacciones donde las transacciones modifican una base de datos. Ental ambiente es deseable tener la capacidad de comprometer o deshacerlas modificaciones realizadas por una transaccin. El comprometer(commit) es una accin la cual indica que el proceso o la transaccin deactualizacin se ha completado con xito, y por lo tanto los cambioshechos a la base de datos pueden ser permanentes. Note que incluso antesde comprometer una transaccin, si se modific pudo haber sidoregistrada en la base de datos por el esquema de paginacin. Por lotanto, si una transaccin no ha sido comprometida, la actualizacin dela base de datos podr deshacerse. Por otro lado, si una parte de labase de datos se pierde por un error de medio de almacenamiento, deberaser posible reconstruir esa parte.

Protocolo de escritura inmediata (Updating-in-place)

Bajo este esquema de actualizacinde escritura inmediata, cada operacin de actualizacin (escritura) a unobjeto, se actualiza el objeto y los resultados en un registro segraban en un medio de almacenamiento estable, el cul, al final de lasoperaciones, tendr suficiente informacin para deshacer y rehacercompletamente las operaciones. La informacin registrada incluye: (1) Elnombre del objeto, (2) El estado antiguo del objeto (usado paradeshacer) y (3) El nuevo estado del objeto (usado para rehacer).

Una operacin de actualizacin recuperable puede ser implementada como una coleccin de operaciones como sigue:

Operacinhacer, la cual hace la accin (actualizacin) y la escribe en el registro histrico.

Operacindeshacer, la cual, dado un registro histrico escrito por una operacin hacer, deshace la accin realizada por la operacin hacer.

Operacinrehacer, la cual, dado un registro histrico escrito por una operacin hacer, rehace la accin especificada por la operacin hacer.

Operacin opcionalvisualizacin, la cual visualiza el registro histrico.

Cuando una transaccin no estcomprometida o falla, los cambios hechos por la transaccin a la base dedatos pueden deshacerse, usando operacionesdeshacer(undo). Por otro lado, si una porcin de la base de datos va a ser reconstruida, entonces se utiliza la operacinrehacer(redo) sobre la porcin guardada previamente de la base de datos.

El principal problema con la actualizacin inmediata es que la operacinhacerno se puededeshacer, si el sistema se daadespus de una operacin de actualizacin pero antes de que el registrohistrico sea almacenado. Este problema es resuelto por el protocolo deescritura de registro anticipado (write-ahead-log).

Protocolo de escritura de registro anticipado

En el protocolo de escritura deregistro anticipado, una operacin de actualizacin recuperable seimplementa por las siguientes operaciones:

Actualizacin de un objeto solo despus de que el registrodeshaceres guardado.

Antes de comprometer la actualizacin, los registrosrehacerydeshacerson guardados.

Al reiniciar el sistema despus del fallo (de hardware o alguna otra razn), puede ser necesariodeshacerlos cambios hechos por latransaccin que estaba en progreso al momento que ocurri el fallo. Porotro lado, en el reinicio, las operaciones derehacerpodran haber sidorealizadas si los objetos actualizados estuvieron en la memoriaprincipal en el momento en que fall el sistema. Por lo tanto, ambasacciones dedeshaceryrehacerdeberan trabajarcorrectamente, aun bajo fallas repetitivas, si los protocolosactualizacin al momento o de escritura de registro anticipado sonusados. Note que tambin la escritura del registro histrico en cadaoperacin de actualizacin es caro en trminos de requerimiento dealmacenamiento y la CPU sufre de sobrecarga innecesaria especialmente silos fallos son raros.

Enfoque basado en estado

En el enfoque basado en estado, parala recuperacin, el estado completo de un proceso es guardado cuando seestablece un punto de verificacin y la recuperacin de un procesoinvolucra reincorporarle el estado guardado y reiniciar la ejecucin delproceso desde ese estado. Al proceso de guardado del estado tambin sele conoce como tomar un punto de verificacin. El punto de recuperacin,en los que se encuentra un punto de verificacin a menudo se le refierecomo punto de revisin. Al proceso de restauracin de un proceso a unestado anterior se le refiere como rolar al procesos hacia atrs(rolling back), y el proceso de reiniciar la ejecucin en un estadoanterior consume tiempo de CPU y retarda la terminacin del proceso, espreferible retroceder a un estado ms reciente tanto como sea posible.Por lo tanto, se acostumbra establecer muchos puntos de revisin.

Pgina sombra.Un caso especial delenfoque de recuperacin basado en estado es la tcnica basada en pginassombra. Bajo esta tcnica, solo una parte del estado del sistema esguardado para facilitar la recuperacin. Sin embargo cuando un procesoquiere modificar un objeto, la pgina que contiene al objeto esduplicada y mantenida en un medio estable. Desde este punto en adelante,solo una de las copias recibir todas las modificaciones hechas por elproceso. La otra copia no modificada es conocida como pgina sombra. Siel proceso falla, la copia modificada es descartada y se restablece labase de datos en el estado anterior. Si el proceso se comprometiexitosamente, entonces la pgina sombra es descartada y la pginamodificada es hecha parte de la base de datos.

ELEMENTOS DE LAS ESTRATEGIAS TOLERANTES A FALLAS.

Un sistema puede ser diseado paraque sea tolerante a falla desde dos puntos de vista. Un sistema puedeocultar la falla

o puede en caso de ocurrir una falla corregirla yseguir funcionando. Cuando el sistema se disea para ocultar la falla,cuando ocurre una falla continua con sus funciones especficas. Por otrolado un sistema diseado para corregir una falla puede o no ejecutarfunciones especficas, sin embargo, puede seguir acciones pararecuperacin. Estrategia tolerante a fallas

Redundancia.Con este enfoque, elsistema puede emplear varios procesos, muchos componentes de hardware,muchas copias de datos, etc. Cada uno con independencia en el modo de lafalla, (es decir, si un componente falla no afecta la operacin de otrocomponente).

Tcnica para sistemas tolerantes a fallas.

Protocolo de compromiso. Protocolo de eleccin.

La primera tcnica se utiliza parasistemas que pueden hasta cierto punto corregir las fallas y el segundo,el protocolo de eleccin, es utilizado para sistemas que oculten lasfallas.

Efectos de las fallas ms comunes.

Un proceso muere.Cuando un proceso muere,es importante que los recursos asignados al proceso sean recuperados, deotra manera pueden estar perdidos permanentemente.

La mquina falla.Cuando una mquina falla,todos los procesos ejecutndose en esa mquina se mueren. La diferenciacon el caso anterior es, como detectar la falla.

La red falla.Una falla de enlace de comunicacin puedeparticionar la red ensub-redes, haciendo imposible la

comunicacin entre nodos localizadosen sub-redes diferentes. Un proceso no puede notar la diferencia entreuna falla de mquina y una falla de enlace de comunicacin, dependiendode la red, en algunos casos se pueden detectar falla de mquina. En lasredes que no detectan falla de mquina (Ethernet), el diseo tolerante afalla debe asumir que la mquina puede estar en operacin y que losprocesos en ella estn activos. Acciones atmicas y compromiso

La actividad de un sistema esgobernada por una secuencia de primitivas u operaciones atmicas queejecuta permanentemente. Generalmente, una instruccin a nivel demquina, es indivisible, instantnea, y no puede ser interrumpida (amenos que ocurra una falla), corresponde a una operacin atmica. Sinembargo es deseable disponer de un conjunto de instrucciones quecompletan una cierta tarea y hacemos que este grupo sea una operacinatmica.

El concepto de accin atmica seextiende al concepto de atomicidad desde un nivel de instruccin demquina hasta una secuencia de instrucciones o un grupo de procesos loscuales deben ellos mismos ser ejecutados atmicamente. Las accionesatmicas forman un bloque bsico en la construccin de operacionestolerantes a fallas.

Una transaccin agrupa una secuenciade acciones (sobre una base de datos) y al grupo se le trata como unaaccin atmica que mantiene la consistencia de la base de datos.

En los sistemas distribuidos, variosprocesos pueden coordinarse para ejecutar una tarea. Sus acciones debenser atmicas con respectos a los otros procesos. Como ejemplo, en unsistema de base de datos distribuidos, una transaccin debe procesarseen cada sitio o en ninguno para mantener la integridad de la base dedatos. Esto es atomicidad global. El protocolo que permite unaatomicidad global es el protocolo de compromiso.

Protocolo de compromiso de dos fases

Este protocolo asume que uno de losprocesos cooperativos acta como coordinador, otros procesos se lesrefiere como subordinados (se asume que los subordinados se ejecutan endiferentes sitios). ste protocolo asume que se dispone de un medio dealmacenamiento estable en cada sitio y que se encuentra activo elprotocolo de escritura de registro anticipado. Al inicio de latransaccin, el coordinador enva el mensaje inicio de transaccin acada subordinado.

Fase 1. En el sitio del coordinador.

El coordinador enva el mensaje solicitud de compromiso a cada subordinado, para solicitarles el compromiso.

El coordinador espera la respuesta de todos los subordinados.

En cada sitio subordinado.

Al recibir el mensaje solicitud decompromiso, un subordinado toma las siguientes acciones. Si latransaccin ejecutndose en su sitio termina satisfactoriamente, escribelos registrosdeshaceryrehaceren un medio estable y enva un mensaje de acuerdo al coordinador. En otro caso, enva el mensaje abortar al coordinador.

Fase 2. En el sitio del coordinador.

Si todos los subordinados respondende acuerdo y el coordinador tambin est de acuerdo, entonces elcoordinador escribe el registro compromiso en el registro histrico.Luego enva el mensaje compromiso a todos los subordinados. En otrocaso, el coordinador enva el mensaje abortar a todos lossubordinados.

El coordinador espera un mensaje de reconocimiento de cada subordinado.

Si el mensaje reconocimiento no esrecibido por el coordinador despus de un perodo de tiempo, elcoordinador reenva el mensaje compromiso/abortar a los subordinados.

Si se reciben todos los reconocimientos, el coordinador escribe el registro completo al registro histrico.

En cada sitio subordinado.

Al recibir el mensaje compromiso,un subordinado libera todos los recursos, ejecuta la transaccin y envaun reconocimiento.

Al recibir el mensaje abortar, un subordinado deshace la transaccin utilizando el registrodeshacer, libera todos los recursos, y enva un reconocimiento.

Cuando no hay fallas ni prdidas de mensajes, es fcil ver que todos los sitios se comprometern incluyendo al coordinador.

Protocolo de compromiso en presencia de fallas de sitio

Suponga que el coordinador fallaantes de escribir el registro compromiso. En la recuperacin, elcoordinador difunde el mensaje abortar a todos los subordinados. Todoslos subordinados que estaban de acuerdo con el compromiso simplementedeshacen la transaccin utilizando el registrodeshacery abortan. Otrossubordinados solamente abortarn la transaccin. Note que todos lossubordinados se bloquean mientras no reciban el mensaje abortar. Suponer que el coordinador falladespus de escribir el registro compromiso pero antes de escribir elregistro completo. En la recuperacin, el coordinador difunde elmensaje compromiso a todos los subordinados y espera elreconocimiento. En este caso tambin los subordinados se bloqueanmientras no reciban el mensaje compromiso.

Suponer que el coordinador falladespus de escribir el registro completo. En la recuperacin, no haynada que pueda ser hecho por la transaccin.

Si un subordinado falla en la fase1, el coordinador puede abortar la transaccin porque no recibe ningunarespuesta del subordinado fallido.

Suponer que un subordinado falla en la fase 2, esto es, despus de escribir los registrosdeshaceryrehacer. En la recuperacin, elsubordinado debe consultar con el coordinador si debe abortar (es decir,si debe ejecutar una operacindeshacer) o comprometer la transaccin. Note que el comprometer significa realizar una operacinrehacerporque el subordinado pudo fallar antes de actualizar la base de datos.

En el caso de falla en latransmisin de mensajes, el protocolo de dos fases perder mucho tiempoenviando mensajes y posiblemente la transaccin no se ejecute. Elprotocolo de compromiso de dos fases garantiza la atomicidad global, suprincipal desventaja es que es un protocolo con bloqueo, existe otroprotocolo de compromiso sin bloqueo el cual se sale del alcance de estematerial. Protocolo de eleccin Una tcnica comn la cual proveetolerancia a fallas en sistemas distribuidos es la replicacin de datosen mltiple sitios. Si un sitio no esta disponible, los datos se puedenobtener de otras copias en otros sitios. El protocolo de compromisopuede ser utilizado para actualizar mltiples copias de datos, pero noes resistente en el caso de que se presenten mltiples fallas de sitios,fallas del medio de comunicacin y fraccionamiento de red. En elprotocolo de compromiso, cuando un sitio no es recuperable, elcoordinador enva mensajes en repetidas ocasiones y eventualmente decideabortar la transaccin, por ello se niega el acceso a los datos. Sinembargo, es deseable que un sitio contine operando aunque otros tenganfallas, o por lo menos, un fragmento debe seguir funcionado cuando elsistema se ha fragmentado. Una bien conocida tcnica para el manejo dedatos replicados es el mecanismo de eleccin. Con el mecanismo deeleccin, a cada replica se le asigna algn nmero de votos y un procesodebe reunir la mayora de votos antes de que pueda acceder a unareplica. El mecanismo de eleccin es ms tolerante a fallas que elprotocolo de compromiso en el sentido de que permite el acceso a datosbajo fragmentacin de red, fallas de sitios y prdida de mensajes con elcompromiso de mantener la integridad de los datos. Existen dos mtodosde eleccin, el mtodo esttico y el dinmico, en este materialabarcaremos solamente el mtodo de eleccin esttico.

Protocolo de eleccin esttico Sistema modelo.Las replicas se almacenanen sitios diferentes. Cada operacin de acceso a archivo debe obtener unbloqueo apropiado. El bloqueo otorga reglas que permiten: unaescritura y ninguna lectura o mltiples lecturas y ninguna escrituraen el acceso simultneo a archivos. Se asume que cada sitio tiene unmanejador de bloqueo que ejecuta las operaciones relacionadas albloqueo, y a cada archivo se le asocia un nmero de versin, el cual nosdice el nmero de veces que un archivo ha sido actualizado. El nmerode versin se almacena en un medio estable, y cada operacin deescritura exitosa en una replica, actualiza su nmero de versin.

Idea bsica.La esencia del algoritmode eleccin el cual controla el acceso a datos replicados es como sigue:A cada replica se le asigna un cierto nmero de votos. Esta informacinse almacena en un medio estable. Se permite una operacin de lectura oescritura si se obtiene un cierto nmero de votos, qurum de lectura oqurum de escritura, respectivamente, de los procesos participantes.

Cuando un proceso ejecutndose en el sitioirealiza una solicitud de operacin de lectura o escritura a un archivo, se inicia el siguiente protocolo:

El sitioihace una solicitud de bloqueo al manejador local.

Cuando se acuerda la solicitud, el sitioienva un mensaje de solicitud de voto a todos los sitios.

Cuando un sitiojrecibe el mensajesolicitud de voto, hace una solicitud de bloqueo al manejador debloqueo local, si se acuerda la solicitud de bloqueo, entonces devuelveel nmero de versin de su replica (VNj) y el nmero de votos asignados a la replica (Vj) al sitioi.

El sitioidecide tiene o no el qurum, basndose en las respuestas recibidas en tiempo de la siguiente manera (Pdenota el conjunto de sitios que respondieron).

Seavel nmero total de votos asignados a todas las copias. Los valores parar(qurum de lectura) yw(qurum de escritura) son seleccionados de tal manera que:

r+w>v;

w>v/2

Si la solicitud fue de lectura, entonces el total de votos obtenido es: vr= Sumavk, dondekP.

Si la solicitud fue de escritura: El qurum de escritura es igual a la suma de votos del conjuntoQ, dondeQse determina de la siguiente manera:

vw= Sumavk, kQ

SeaM= max {VNj : jP},Q= {jP : VNj=M} si su copia de archivo est actualizada. La copia est actualizado si el nmero de versin es igual aM. Si la copia no estaactualizada, la copia actualizada se obtiene de un sitio que la tengaactualizada. Una vez que la copia actualizada se tiene localmente, elsitioiejecuta el siguiente paso.

Si la solicitud es de lectura, el sitioi, lee la copia local. Si la solicitud es de escritura, el sitioiactualiza la copia local . Una vez que

todos los accesos a la copia han concluido, el sitioiactualizaVNiy enva todas las actualizaciones yVNia todos los sitios enQ. Notar que la operacin de escritura actualiza solamente las copias actualizadas. Despus el sitioihace una solicitud de liberacin de bloqueo a su manejador de bloqueo local y a todos los sitios enP.

Todos los sitios que reciben laactualizacin la ejecutan en sus copias locales, y al recibir unasolicitud de liberar bloqueo liberan el bloqueo.

Los valores seleccionados pararywcombinado con la idea de que las operaciones de escritura actualizan solamente las copias actualizadas garantiza lo siguiente:

Ninguna copia obsoleta es actualizada por una operacin de escritura.

Existe un subconjunto de replicas que estn actualizadas cuyos votos totales sonw.

El qurum de escriturawes los suficientemente grande tal que no permite escrituras simultneas sobre dos subconjuntos distintos de replicas.

TECNOLOGA RAID: Tolerancia a fallos

Como todos sabemos no es lo mismo una pequea red de PC,s que podamos tener en casa, que una red corporativa de una gran empresa en la que los PC,s se cuentan por cientos y los servidores por decenas. Cuando en casa tenemos un problema con el PC y la solucin mas sencilla es restaurar el sistema operativo junto con los programas que manejamos mas habitualmente ademas de nuestros documentos personales, el nico problema que se nos plantea es calcular el tiempo que vamos a necesitar para la reinstalacin del equipo y ver si tenemos a mano los drivers de todos los elementos hardware que tenemos instalados. En cambio, si el fallo se produjese en un servidor de un hospital, por ejemplo, podra dejar sin funcionamiento todo un sistema de asignacin de ambulancias, citaciones, horarios de quirfanos, etc Para evitar semejante caos es necesario que un equipo informtico o mejor todava, toda una red sea capaz de poder superar una situacin de fallo que provoque prdida de informacin y por consiguiente caos y perdida de rendimiento y dinero para la empresa u organizacin. Al conjunto de medidas empleadas para evitar la perdida de informacin en equipos informticos debido a

errores tcnicos se le denomina Tolerancia a Fallos o lo que es lo mismo, capacidad de superar un fallo tcnico sin que se produzcan prdidas de informacin y seguir funcionando como si nada hubiese pasado. Dichas medidas se engloban en medidas software y medidas hardware. Medidas Software Las medidas Software empleadas para evitar perdidas de informacin las podemos encontrar en el propio sistema operativo (Windows NT Server por ejemplo) o en programas especficos diseados para prevenir y avisar de posibles fallos en los equipos u orientados a salvaguardar la informacin de los discos en otros elementos externos tales como CD,s CINTAS o Disco Magneto-pticos. Tomando como ejemplo Windows NT 4.0 Server podemos observar que este sistema operativo posee capacidad para un restablecimiento del sistema en caso de que se produzca un fallo del disco o discos duros, para recuperar datos perdidos en ficheros, para realizar una recuperacin del sistema ante un fallo de configuracin y sobre todo, posee un sistema de alarmas que avisan de un posible error hardware antes de que ste deje a la mquina inoperativa. Estas capacidades podemos encontrarlas entre otros sitios, en el Visor de Sucesos del Sistema Operativo o en la Administracin de la energa elctrica / SAI a la que est conectada la mquina. Ejemplo de aplicaciones destinadas a garantizar la integridad de la informacin de uno o varios discos pueden ser aplicaciones de chequeo del equipo (Sisoft SANDRA 2000, CheckIT 5.0, QAplus), aplicaciones de copias de Seguridad (WinZip, WinRAR, Windows Backup, PCBackup) o aplicaciones para generar imgenes de disco que copien exactamente y sin ningn tipo de variacin el contenido de los discos seleccionados en otros dispositivos tales como CDROM, Discos Zip, Magneto-pticos CINTAS, etc.. con el fin de garantizar una restauracin exacta del sistema en caso de fallo. Como hemos visto anteriormente, ciertos sistemas operativos son capaces de hacer un seguimiento preventivo de la maquina donde estn instalados pero, son capaces de reparar un disco estropeado, recuperar la informacin y seguir funcionando como si nada hubiese pasado? Evidentemente No, por lo que en un caso de error hardware debemos apoyarnos adems de las medidas software, en ciertas medidas hardware que garanticen una salida a este tipo de fallos. Medidas Hardware En medidas hardware se engloban todos aquellos dispositivos que han sido diseados con el fin de evitar perdidas de informacin por errores de la mquina donde estn instalados o por causas ajenas a sta, tales como los fatdicos cortes de energa elctrica. Dichos dispositivos, como norma general, se usan slo en entornos corporativos aunque desde hace un tiempo parece ser que la tendencia del mercado es introducirlos en el hogar del usuario domestico con el fin de, por supuesto, vender mas pero tambin de hecha una mano a todas aquellas personas que hoy comienzan a usar el PC de casa para trabajar.

SAI : La energa de reserva La SAI (Sistema de Alimentacin Ininterrumpida) tambin conocida con las siglas inglesas UPS es quiz uno de los dispositivos RAID ms clebres que se han introducido en nuestras casas. No es mas que una batera recargable que detecta las altas y bajas tensiones de la red elctrica y los cortes completos de sta, proporcionando al PC una tensin estable en todo momento y durante un tiempo determinado que depende del modelo de SAI con el fin de evitar averas tcnicas y por supuesto, evitar perdidas de informacin debido a irregularidades del fluido elctrico. Para que os hagis una idea, seguramente muchos de vosotros habris sufrido algn corte de luz que os ha dejado sin ese preciado trabajo que estabais haciendo o ha echado por tierra vuestra impresionante partida de Unreal, Quake o Hexxen porque no la habas grabado. Pues bien todos estos problemas desaparecen con la SAI y su capacidad de proporcionar energa elctrica durante el tiempo suficiente para que podamos grabar nuestro trabajo y apagar el equipo de forma correcta. Se trata de un elemento que no requiere mantenimiento y que en algunos modelos incluye un conector para el cable telefnico del modem con lo que tambin protege a ste de las sobretensiones de la lnea telefnica. Dispositivos de almacenamiento Bajo ese nombre un tanto abstracto y gris se esconden todos aquellos dispositivos en los que podemos almacenar informacin del PC para que sta quede grabada de forma externa a la mquina y pueda ser recuperada en caso de fallo. Alguien podra preguntar si se pueden incluir los disquetes de 3 en este apartado. Bajo mi opinin NO pueden incluirse porque aunque son dispositivos de almacenamiento externo, son extremadamente delicados y pequeos por lo que no cumplen ninguna de las dos caractersticas fundamentales de estos dispositivos: primera, seguridad y fiabilidad a la hora de guardar la informacin y segunda, poseer un tamao que permita guardar gran cantidad de informacin en el menor nmero de discos o cintas posible. Dispositivos de almacenamiento pueden ser Grabadoras / Regrabadoras de CD,s, unidades Zip, Jaz, Magneto-pticas o unidades de cinta. De todos stos el nico dispositivo exclusivo para almacenar copias de seguridad son las cintas ya que su elevado coste y fiabilidad las hacen casi exclusivas para la empresa. Por el contrario, como todos sabemos, el resto de dispositivos los podemos usar para guardar cualquier tipo de informacin que queramos a parte de usarlas como dispositivos de copia de seguridad.

Tolerancias de FallasIII. Introduccin

La tolerancia a fallos es un aspecto crtico para aplicaciones a gran escala, ya que aquellas simulaciones que pueden tardar del orden de varios das o semanas

para ofrecer resultados deben tener la posibilidad de manejar cierto tipo de fallos del sistema o de alguna tarea de la aplicacin. Sin la capacidad de detectar fallos y recuperarse de estos, dichas simulaciones pueden no llegar a completarse. Es ms, algunos tipos de aplicaciones requieren ser ejecutadas en un entorno tolerante a fallos debido al nivel de seguridad requeridos. De cualquier forma, en ciertos casos debera haber algn modo de detectar y responder automticamente a ciertos fallos del sistema o al menos ofrecer cierta informacin al usuario en el caso de producirse un fallo. Actualmente, el mbito de aplicacin de las tcnicas de tolerancia a fallos se ha extendido a todos aquellos contextos en los que el funcionamiento incorrecto de un computador, o de una de sus partes, puede comportar importantes prdidas humanas y/o econmicas. As pues, una buena solucin informtica debe, entre otras muchas cosas, ser fcil de utilizar y mantener, y en caso de problemas, debe ofrecer un comportamiento seguro y robusto, asegurando la continuidad del servicio ofrecido (es decir, tolerando la ocurrencia del problema) u ofreciendo un procedimiento de parada (o avera) del sistema controlado y, en la medida de lo posible, inocuo tanto para los usuarios, como para sus datos y operaciones. Como todos sabemos no es lo mismo una pequea red de PC,s que podamos tener en casa, que una red corporativa de una gran empresa en la que los PC,s se cuentan por cientos y los servidores por decenas. Cuando en casa tenemos un problema con el PC y la solucin mas sencilla es restaurar el sistema operativo junto con los programas que manejamos mas habitualmente ademas de nuestros documentos personales, el nico problema que se nos plantea es calcular el tiempo que vamos a necesitar para la reinstalacin del equipo y ver si tenemos a mano los drivers de todos los elementos hardware que tenemos instalados. En cambio, si el fallo se produjese en un servidor de un hospital, por ejemplo, podra dejar sin funcionamiento todo un sistema de asignacin de ambulancias, citaciones, horarios de quirfanos, etc Para evitar semejante caos es necesario que un equipo informtico o mejor todava, toda una red sea capaz de poder superar una situacin de fallo que provoque prdida de informacin y por consiguiente caos y perdida de rendimiento y dinero para la empresa u organizacin. Al conjunto de medidas empleadas para evitar la perdida de informacin en equipos informticos debido a errores tcnicos se le denomina Tolerancia a Fallos o lo que es lo mismo, capacidad de superar un fallo tcnico sin que se produzcan prdidas de informacin y seguir

funcionando como si nada hubiese pasado. Dichas medidas se engloban en medidas software y medidas hardware. Aumentar la fiabilidad de un sistema: Prevencin de fallos :se trata de evitar, antes de que el sistema entre en funcionamiento, que se introduzcan fallos Tolerancia de fallos :se trata de conseguir que el sistema contine funcionando aunque se produzcan fallos En ambos casos el objetivo es desarrollar sistemas con modos de fallo bien definidos. No son incompatibles El objetivo de tolerancia de fallas Se caracteriza por dividirse en tres fases. 4. Se estudian las diferentes fallas que pueden ser impredecibles o predecibles ya sea en hardware o software. 5. A continuacin, se identifican y clasifican las amenazas (fallos, errores, fluctuaciones de corriente elctrica, averas, etc) que son susceptibles de perturbar el correcto funcionamiento de de una red, centro de computo, etc. 6. En la tercera fase se detallan los distintos medios a nuestra disposicin para prevenir, eliminar y/o tolerar las amenazas.

IV.

Sistema de Almacenamiento tolerante a FallasLas unidades de disco son dispositivos que pueden fallar con cierta facilidad como el desgaste de la cabeza de lectura por apagarlo repentinamente o por que el disco esta fragmentado, cuando sector MBR esta defectuoso. Por lo cual hay dos formas muy conocidas para tolerancia de fallas para los discos: instalando discos de copias de seguridad (backup) y la otra forma es instalando unidades RAID. Copias de Seguridad (backup) Esta opcin la tienen muchos ordenadores, en la cual existen dos discos: principal del cual se har una copia a la que llamaremos disco imagen o espejo estos discos estarn conectados por una controlador de disco o adaptador SCSI. *SCSI: (Small Computer System Interface)

Interfaz estndar para transferencia de datos entre perifricos en el bus de la computadora. Tanto la placa madre como el dispositivo deben soportar y disponer de un controlador SCSI. Es utilizado especialmente en dispositivos como los discos duros CD/DVD, etc., aunque, en principio, cualquier dispositivo podra soportar el SCSI, como impresoras o escneres. El SCSI se utiliza en computadoras que necesitan de alto rendimiento. La compatibilidad para dispositivos SCSI puede agregarse a travs de una tarjeta de expansin a la placa madre. Dos interfaces SCSI pueden ser incompatibles pues existen muchas variantes (incluso aunque est estandarizado en ANSI). El sucesor del SCSI paralelo es el SAS Caractersticas de SCSI paralelo El SCSI bsico permite conectar hasta 8 dispositivos, y el ms avanzado 16. El ms bsico permite transferencias de 5 MB/s y el ms rpido 640 MB/s. Intefaz SCSI-1 Fast SCSI FastWide SCSI Ultra SCSI Ultra Wide SCSI Ultra2 SCSI Ultra2 Wide SCSI Ultra3 SCSI Ultra-320 SCSI Conector IDC50; Centronics C50 IDC50; Centronics C50 2 x 50-pin (SCSI-2) 1 x 68-pin (SCSI-3) IDC50 68-pin 50-pin 68-pin; 80-pin (SCA/SCA-2) 68-pin; 80-pin (SCA/SCA-2) 68-pin; 80-pin (SCA/SCA-2) Reloj 5 MHz 10 MHz 10 MHz 20 MHz 20 MHz 40 MHz 40 MHz 40 MHz DDR 80 MHz DDR Mximos Longitud Dispositivos 6m 1,5 a 3 m 8 8

Velocidad 5 MB/s 10 MB/s

20 MB/s

1,5 a 3 m

16

20 MB/s 40 MB/s 40 MB/s 80 MB/s

1,5 a 3 m 1,5 s 3 m SD SD

8 16 8 16

160 MB/s

SD

16

320 MB/s

SD

16

Ultra-640 SCSI

68-pin; 80-pin

160 MHz DDR

640 MB/s

?

16

Estndares SCSI y tipos de conexiones SCSI - 1 Es un estndar obsoleto, creado a mediados de los 80s. Usaba un bus de 8 bits con drivers de colector abierto single-ended (asimtricos), con los cuales se realizaban transferencias asncronas de datos y comandos. Los drivers (y receptores) fueron fabricados con tecnologa bipolar con lo cual la mayor consideracin se pone al Bus de DC y la terminacin pasiva. Utiliza conectores internos y externos de baja densidad con 50 pines, al conector externo de baja densidad se le conoce como conector Centronics o conector SCSI-1. SCSI - 2 Es un estndar completo que define las capas fsica y de protocolo, el cual utiliza transferencias asncronas de comandos y transferencias sncronas de datos; a velocidades de 20 Megatransferencias / segundo, es decir 10 Mbytes/sec. El SCSI-2 se define usando tecnologa bipolar con colector abierto o con transceivers asimtricos de lgica negativa, terminacin activa o pasiva y transcievers con bus diferencial basados en la EIA485 permitida para SCSI-2. Los conectores usados son: para tipo A, interno de baja densidad con 50 pines, externo de baja densidad tipo Centronics y el externo de alta densidad con 50 pines, llamado conector SCSi-2. Los conectores B para bus wide (de 16 bits) resultaron imprcticos ya que requeran un conector de 68 pines de alta densidad. Este estndar fue considerado poco factible debido a la estructura de sus comandos y a su interface elctrica, finalmente termin adoptndose hasta 1994. SCSI - 3 Es un estndar que cambi en toda su estructura, ahora cubre las capaz fsicas y los protocolos bsicos especficos para cada interface, la capa de comandos primarios (SPC) y la capa del protocolo especfico. Esta capa del protocolo especfico contiene, dentro del bloque de comandos (SBC), los comandos para interface con disco duro, el flujo de comandos para unidades de cinta (SSC), comandos del controlador para arreglos RAID (SCC), Comandos de multimedia (MMC) e incluye comandos de servicio (SES), etc.; todo esto da como resultado un modelo con estructura global (SAM). Interface paralela SCSI (SPI)

Este estndar define las conexiones elctricas y seales del bus paralelo, su conjunto de comandos queda definido por el protocolo SPI (SCSI Interlock Protocol), el cual define el conector P de 68 pines de alta densidad para wide bus en un mismo cable y a ste se le refiere como conector SCSI-3. El estndar SPI incluye velocidades hasta de FAST SCSI (las velocidades del Wide Fast SCSI son de 20Mbytes/sec), las interfaces elctricas son definidas en trminos de tecnologa CMOS con terminacin a los 0.2 Volts en vez de los 0.5. El cable A se le llama SCSI-2, pero no se le incluye en la SPI (Este estndar se adopta en 1995, pero se vuelve obsoleto para julio de 1999, pasando al SPI-2). Fast - 20 Este estndar se le conoce como Ultra-SCSI y duplica la velocidad del SPI a los 20 Megatransfers/Sec, y a los 40 MB/Sec en wide bus. No es un estndar completo solo incluye la seccin requerida para el Fast-20, las dems secciones usan el SPI (se adopta en 1996 y se vuelve obsoleto para 1999, pasando al SPI-2). SPI - 2 Conocido como Ultra2-SCSI, duplica nuevamente la velocidad a FAST-40, 40 Megatransfers/Sec o a 80 Mbytes/Sec en wide bus, usando una nueva interface elctrica, de bajo voltage diferencial llamada LVD SCSI. Para velocidades arriba de Fast SCSI no se puede ser asimtrica, Este estndar incluye el SIP, con conector VHDCI de 68 pines y el conector SCA-2 (Single Connector Attachement), tambin se incluyen los conectores SCSI-2 A y SPI P. Este estndar es un documento completo que no hace referencias a estndares anteriores, solo una para todas las interfaces paralelas con velocidades de hasta Fast-40 (se adopt en 1999 y reemplaz los SPI, SIP y Fast-20). SPI - 3 Nuevamente, este estndar dobla la velocidad a Fast-80DT, conocida como Ultra3 SCSI o Ultra 160 con 80 Megatransfers/Sec o 160 Mbytes/Sec en wide bus. Con este estndar se dieron muchos cambios; Fast-80DT es el nico wide bus, vuelve obsoletos los HVD SCSI y el bus de datos de 32 bits con cable Q. Adems, define: temporizacin para LVD SCSI en los flancos de subida y bajada de la seal de relog de REQ/ACK, Doble transicin (DT) en wide bus, verificacin por ciclo redundante (CRC), validacin de dominio en SDV-TR, empaquetado de mensajes y comandos, y Quick arbitration. Este estndar es un documento que no hace referencia a ningn otro anterior y solo una referencia para toda interface paralela con velocidad de hasta Fast-80DT. Hace obsoletos los HVD, SCAM y el bus de datos de 32 bits. SPI - 4 En ste nuevamente se duplica la velocidad a Fast-160DT, se le conoce como Ultra-320 SCSI-160 Megatransfers/Sec y 320 Mbytes/Sec solo en wide bus.

EPI (Enhanced Parallel Interface) Su reporte tcnico describe como disear sistemas SCSI, las longitudes da cables y cargas son definidas por los parmetros elctricos donde se permite tomar ventaja de menores cargas y cables que soportan mayores velocidades de transferencia. Este reporte tcnico describe como trabajar dispositivos de 68 pines (wide) y de 50 (narrow) en el mismo sistema. El EPI incluye documentacin sobre "Expanders", Bridging expanders, switches y conectores comunes los cuales no estn documentados en el estndar. Referencia Rpida para Cables SCSI-1 Cable externo A es el de conector Centronics de 50 pines (C50M) con espaciado de 85 mil o 2.16 mm SCS-2 Cable externo A es el de conector de alta densidad con 50 pines (MiniD50M) con espaciado de 50 mil o 1.27 mm SCSI-3 Cable externo P es el de conector de alta densidad de 68 pines (MiniD68M) con espaciado de 50 mil o 1.27 mm SCSI SPI-2 cable externo P de muy alta densidad (VHDCI), incorrectamente llamado SCSI-4 o 5, es el de conector de 68 pines VHDCI (0.8mm o 68mil) (Nota: Los SCSI-4 y 5 no son estndares, el SCSI-3 se subdividi en documentos separados.) SCSI-1, SCSI-2 cable externo A es el de cable plano con conector de 50 pines con espaciado de 100 mil o 2.54 mm SCSI-3 cable externo P es el de cable plano de alta densidad con conector de 68 pines con espaciado de 50 mil o 1.27 mm Observa si el conector de tu interface SCSI es de 50 pines; en cuyo caso se trata de un sistema narrow, o si el conector es de 68 pines; entonces es un wide.

Para determinar si tu interface es diferencial o asimtrica necesitars un multmetro. Desconecta el cable de tu interface (Antes de DESCONECTAR el cable SCSI siempre APAGA tu computadora y dispositivos SCSI) y mide la resistencia entre los pines 2 y 24 si el conector es de 50 pines de alta densidad o centronics, entre los pines 2 y 33 si el conector es de 68 pines o entre los pines 3 y 49 si el conector es DB50. SI la medicin es de unos cuantos dcimos de Ohm o menos entonces tienes una interface asimtrica, si la medicin es poco menos de 1 Ohm (o 1 Ohm inclusive) entonces tu interface es diferencial. Conectores SCSI

Host or Host Adapter Connector Most SCSI SLOW (5 Mbyte/sec) computers and host adapters use the Centronicstype 50-pin connector. Also some 8bit Fast computers and host adapters. Old Sun and DG Computers Many 8-bit SCSI FAST (Hasta 10 Mbytes/sec) computers and host adapters use this 50-pin HighDensity connector. Apple/Mac and some older Sun 8bit workstations . All FAST/WIDE (16-bit)

SCSI-3 computers and host adapters plus old DEC single-ended SCSI use this 68-pin High Density connector. Standard connection for systems using hot swappable drives. SCA interface drives connect to a SCSI backplane that provides power, configuratio n settings such as SCSI ID, and termination of the SCSI bus Si requieres informacin adicional o quieres saber si tu interface es LVD (Low Voltage Differential) lee al FAQ de Paralan, su glosario de trminos sobre SCSI es muy bueno. Te recomiendo que tambin visites la pgina de Adaptec (por supuesto que todo est en ingls)

The Low Byte is sometimes called the Low Data Byte.

The High Byte is sometimes called the High Data Byte.

El presente trabajo es una compilacin de informacin de diferentes fuentes, as que no me interesa ganar dinero de esto y el nico objetivo es DIVULGAR INFORMACIN CONFIABLE EN NUESTRO PROPIO IDEOMA

IntroduccinSCSI inici con un bus narrow (conector de 50 pines) transfiriendo un byte a la vez y creci a un bus wide (conector de 68 u 80 pines) transfiriendo 2 bytes a la vez en SCSI-3 SPI. En SPI-2 se agreg el LVD SCSI permitiendo transferencias a alta velocidad con un plan de crecimiento. El SCSI est siguiendo bsicamente las reglas de las Leyes de Moore; duplica su rendimiento con cada generacin. SPI-3 agreg un SCSI empaquetado con lo que se redujeron los excesos en el protocolo. El conector SCA-2 de 80 pines integr las seales de configuracin y alimentacin para dispositivos hot pluggin que se conectan a backplane. Estos dispositivos solo deben ser usados en sistemas con backplane. Las siete generaciones SCSI (ver tabla arriba) pueden correr en el mismo bus lgico, solo se requiere aislar el bus LVD SCSI de alta velocidad del bus lento SE o del segmento de bus HVD. Las interfaces SCSI ofrecen diferentes maneras de mejorar la conexin entre los dispositivos y los arreglos SCSI como las cajas SCSI RAID (Redundant array of independent disks) o las JBODs (Just a box of Disks). Para SCSI RAID se utiliza el protocolo Fibre channel (usa comunicacin serial por twisted pair, coaxial y fibra ptica)

Estndares SCSI y tipos de conexionesSCSI - 1 Es un estndar obsoleto, creado a mediados de los 80s. Usaba un bus de 8 bit

La Falta de Implementacion de Un Sistema de Tolerancia de Fallas

Documents

Transcript of La Falta de Implementacion de Un Sistema de Tolerancia de Fallas