Raices Para El Futuro de Las TIC

ISBN 978-968-9516-00-4

Raíces para el futuro de las

Tecnologías de la Información y

Comunicaciones:

L.M. Callejas Saénz

E. Simancas Acevedo

Raíces para el futuro de las Tecnologías de la Información y Comunicaciones 2 ISBN: 978-968-9516-00-4

Editores

Luis Manuel Callejas Saénz

Eric Simancas Acevedo


Comité Editorial

Instituciones Participantes

Gobierno del Estado de Hidalgo

Secretaria de Educación Pública de Hidalgo

Instituto Latinoamericano de Comunicación

Educativa

Universidad Politécnica de Pachuca

Instituto Politécnico Nacional

Instituto Superior Politécnico José Antonio

Echeverría de Cuba

Universidad de Electro-Comunicaciones de Tokio

Universidad del Valle de México

Universidad Autónoma de Ciudad Juárez

Instituto Tecnológico de Pachuca

Universidad Politécnica del Valle del Mezquital

University of Leicester

Universidad Autónoma del Estado de Hidalgo

Universidad Autónoma de Metropolitana

Universidad Autónoma de Chapingo


CONTENIDO

Prefacio 7

Automatización y Domotica

A Comparative Study for Turbo Code Interleavers Designed for Short Frame Size and High SNR

Channel 8

Bioreactor instrumentation: application to SBR nitrification process 16

Descubrimiento de Conocimiento, Minería de Datos e Inteligencia Artificial

Tracking by Using Fuzzy Models in Phenol Biodegradation 26

Semiautomatic Knowledge Extraction from Unstructured Sources 37

Antecumem, Prototipo de Herramienta para el Análisis de Datos con Cubos en Memoria Principal

43

Memorias Asociativas En Álgebra Min-Max Para El Aprendizaje y Recuperación De Imágenes en

Tonos De Gris 57

Ingeniería de Software y Desarrollo Web

To Compare Technical of Multiprocessing, by the Concurrent Objects Oriented Paradigm 72

Musical Recommendation on Thematic Web Radio 77

Reconocimiento de Patrones y Procesamiento de Imágenes

Algoritmo Heurístico Morfológico para Extracción de Esqueletos en Imágenes en Tonos de Gris 87

Detección y Seguimiento de Objetos en Movimiento 99

Seguridad Informatica

Análisis criptográfico para propuesta de nuevo modelo esteganográfico 109


Tecnología Educativa y e-Learning

Implementación De Tecnologías De Información Dinámicas En Proyectos De Investigación

Educativa 117

Una herramienta Automatizada aplicada al aprendizaje de la programación 122

Capital social en la educación a distancia 136

El abordaje de los dilemas bioéticos, mediante el uso de las Tecnologías de la Información y

Comunicación (TIC) 146

Aplicación de las Tecnologías de Información para enseñar la segunda ley de Newton 151

Tecnologías Asistenciales y e-Salud

Heart Rate Variability Before and After Asphyxia Periods 161

Detección de patrones en el registro de la actividad eléctrica del corazón humano utilizando

memorias asociativas morfológicas. 165

Filtrado de imágenes de ultrasonido en aplicaciones de telemedicina 173

Redes de Cómputo y Cómputo Movil

Blind Parallel Multiuser Detection in CDMA Receivers 178

Evaluación y selección de códecs de video para una mejor compresión 190


Prefacio

Este libro presenta una compilación de los artículos presentados en la Conferencia Internacional sobre

Tecnologías de la Información y Comunicaciones (WCITC 2008) realizada en Pachuca Hidalgo, México en

Noviembre de 2008.

La WCITC es un evento fundado bajo el esfuerzo de la Universidad Politécnica de Pachuca, el Gobierno del

Estado de Hidalgo por medio de la oficina de modernización e innovación gubernamental (AMIGO), la

Dirección de Tecnología Educativa de la Secretaria de Educación Publica del Estado de Hidalgo y el Instituto

Latinoamericano de Comunicación Educativa (ILCE), que unieron esfuerzos para difundir por medio de la

WCITC los adelantos e impactos de las tecnologías de la información y comunicaciones en áreas de la vida

cotidiana como lo son: administración publica, esparcimiento, salud, etc.

Los artículos publicados en este libro han sido organizados en ocho tópicos: Automatización y Domotica,

Descubrimiento de Conocimiento, Minería de Datos e Inteligencia Artificial, Ingeniería de Software y

Desarrollo Web, Reconocimiento de Patrones y Procesamiento de Imágenes, Seguridad Informática,

Tecnología Educativa y e-Learning, Tecnologías asistenciales y e-Salud, Redes de Cómputo y Cómputo Móvil.

Para finalizar, queremos agradecer a las autoridades, personal académico y administrativo de las

instituciones que nos apoyaron , así como a los ponentes invitados y expositores de talleres, quienes

hicieron posible el desarrollo del evento, pero muy en especial a la comunidad científica y académica que

participo con sus colaboraciones y que dan vida a este documento.

Noviembre 2008

Luis Manuel Callejas Saénz


A Comparative Study for Turbo Code Interleavers Designed for Short Frame

Size and High SNR Channel

Lazcano-Salas S., García-Ugalde F.

Abstract

In this work we study the performance of five good interleavers using short frame size (N=256). The

comparative study is in terms of the BER, interleaver spread factor, and free distance. The novelty of this

work is that we emphasized the study of these interleavers in order to have a desired properties guide to

select a specific interleaver when we work into a puncturing scheme, short frame size (N<1024) and high

SNR.

Keywords: Turbo code, short frame interleavers, rate compatible punctured turbo codes

Introduction

Since their introduction in 1993 [1], turbo codes have received special attention due to their error correction

capability that approaches the Shannon’s limit given large size interleaving patterns (N=65536) [1]. The

turbo encoder considered in this paper consists of an 8-state convolutional code with generator polynomials 32

0 1)( DDDg and 3

1 1)( DDDg as defined in [2]. The general structure of the turbo encoder is

showed in figure 1 with a puncturing matrix added at the output for rate compatibility.

Figure 1 Structure of a turbo encoder with puncturing matrix

As it is well known a key element with high influence in the turbo code performance is the interleaver. The

main functions of the interleaver are a) to generate a long block code from small memory convolutional

codes, and b) to allow the decorrelation of inputs of the two decoders. Therefore an iterative sub optimum

decoding algorithm based on information exchange between both decoders can be applied [3].


It is also well known that puncturing is a way to obtain upper coding rates without increasing the decoder

complexity compared with the original code, named mother code. However puncturing degrades the

performance of the resulting code against the original one. A good puncturing pattern should guarantee the

resulting code with the lowest degradation possible. Previous research has been done about puncturing into

a turbo code [4, 5, 6]. Unfortunately, these approaches do not consider the interleaver structure as a

particular element to be taking into account during the search of puncturing patters.

Kovaci et. al. [12] has performed a comparative study of some common interleavers, but puncturing option

or spreading parameter analysis are not considered when they analyze the interleaver’s performance.

In order to have a criterion to select an appropriate interleaver, we analyze and compare five interleavers

and compare them in terms of different measures. Such measures are: a) BER performance; b) free distance

(dfree) of the resulting turbo code with puncturing; c) free distance of the resulting turbo code without

puncturing, and d) spreading factor. The paper is organized as follows: Section II presents the interleavers to

be used along with their main characteristics, section III shows the puncturing strategy selected. Finally,

section IV concludes with the results of this comparative study.

Interleaving

As known interleaving plays a very important role within the good performance of turbo codes. Interleaving

can be defined as the process of rearranging the order of an input sequence into a one-to-one deterministic

or random format. The inverse of this process is called deinterleaving, which restores the received sequence

to its original order [3].

Select an interleaver into a turbo code system depends of different system factors such as the signal-to-

noise ratio (SNR) or the frame size N to be used. In the case of the SNR factor, the authors of [7] claim that

for low SNR values, any interleaver works conveniently as long as it guarantees that the two inputs of the

RSC encoders are sufficiently uncorrelated. For high SNR the turbo code performance is mainly dominated

by low weight codewords, generated by low weight inputs; in this case, an additional task of the interleaver

is to try to avoid these low weight codewords. Given that frame size N is directly correlated to the

interleaver gain, is also necessary to consider that factors like memory requirements and delay system

grown proportionately with N.

The interleaver structure affects the mapping of low weight input sequences to the interleaver output, and

hence it plays an important role in determining the code performance mainly at high SNR’s *3+.

For any interleaver I and two indexes i and j, the spread measure is defined as [11]

jijIiIjiS )()(),( (1)

The minimum spread associated with index i is given by

),(min)( jiSiS (2)


The overall minimum spread is defined as

)(min iSS (3)

There are different methodologies in order to construct an interleaver that try to avoid low weight inputs.

One of them is presented in [8] and [11] in which the authors try to maximize the minimum spread of their

interleaver proposed using a deterministic structure. Another methodology suggested is design the

interleaver structure trying to break up the weight-2 input sequences as in [14].

The first interleaver analyzed in this paper is a purely random interleaver, considered as a benchmark.

The second interleaver analyzed is the High Spread Random (HSR) interleaver [8]. The HSR interleaver

implementation is similar to spread random interleaver [9] with the following significant variation; we

generate N “real” random numbers instead of integer random numbers. The final interleaver is obtained by

sorting the real indexes generated. The spreading properties and BER performance of this interleaver

outperform the spread random interleaver [8]. For computational practical reasons in this paper, the HSR

interleaver is generated with a spread restriction of 20.

The third tested interleaver is the Dithered Relative Prime (DRP) interleaver [11]. This interleaver can be

implemented using a three stage process where the output of one stage corresponds to the input of the

next stage. In the first step, the input vector of dimension N is permuted locally (that means, a short period

permutations) using a small vector r of dimension R, with N=mR. During the second step the permutation

process uses a relative prime interleaving to ensure good spread properties. The third step permutes the

output locally again but now using an index vector w of dimension W with N=nW, where m and n are

integers.

The fourth interleaver analyzed is the named Golden interleaver [10], their construction involve sorting a

real-value vector derived from the golden section. We select j=0 (any integer modulo r), m=1 (any integer

greater than zero, preferred values are 1 or 2) and r=1 (distance between nearby elements) [10] to build the

corresponding interleaver pattern.

The fifth and last interleaver analyzed is the Practical Size Interleaver (PSI) [14], constructed from a classical

block interleaver (where inputs are written in columns and read by lines or vice versa). The output data are

reordered into small groups and rearranged, applying local inter and intra group permutation steps and

finally read the final output data in a inverse order [14]. For practical reasons in all considered cases we use

a frame size of N=256.

Puncturing Strategy

As a part of this strategy we consider only output parity bits from the encoders 1 and 2 as candidates to be

punctured. It is reported in [11] that puncturing information bits may have a drastic effect on the code

performance.

Defining dw as the minimum Hamming weight of the codewords generated by input words of weight w, and

Nw as the number of codewords of weight dw (multiplicity). In order to obtain the best performance in terms

of BER at high SNR (turbo coding error floor region) we consider the best puncturing patterns as those who

present the best values of the pair (dw, Nw). This means that dw must be maximum and Nw minimum [13] for


w=2, ... , wmax. With w=2, dw is equal to dfree. As part of our strategy in case that it exist more than one

puncturing pattern with the same (dw, Nw) pair, we analyze the next (dw+1, Nw+1) pair in order to select the

best puncturing pattern. In our simulations we follow a Rate Compatible restriction [4] to construct the

puncturing patterns using a puncturing period of p=16.

Results

Figure 2 shows the BER performance of the five interleavers used in the simulations presented here with a

turbo code of coding rate R=1/3. We can observe that at the waterfall region, the five interleavers have a

similar BER performance, but when we reach the error floor region, in which BER performance is mainly

determined by the minimum weight error events [3], those interleavers with maximum dw and minimum Nw

presents better BER performance. Their couple values of (dw, Nw) are given in table I.

Figure 2 Interleavers BER performance for a coding rate R=1/3

Figure 3 shows BER performance for the interleavers with a punctured turbo code of coding rate R=2/3. In

this figure, analyzing error floor region and checking table II in which we present dfree and Nfree values under

puncturing process, we can confirm that those interleavers with better (dfree, Nfree) values presents a better

BER performance.


Figure 3 Interleavers BER performance for a coding rate R=2/3

Its well know that puncturing any code

degrades the BER performance. In the

case of turbo codes, puncturing process

trying to degrade as low as possible BER and performance becomes very important if we want to use

selected punctured turbo code in applications that require very low error event probabilities.

We can reach this objective using an appropriate puncturing pattern that takes into account the structure of

the interleaver used and selecting an interleaver with better (dfree, Nfree) properties that degrade as low as

possible BER performance when we puncture the turbo code output. Better the interleaver structure design,

less significant is the degradation in BER performance at the error floor region with data puncturing [15].

Another important interleaver parameter is spread. We consider minimum spread as defined in [11]. If we

have some interleavers with similar (dfree, Nfree) values, minimum spread value can help us in order to select

an interleaver. Higher minimum spread value, better BER performance the interleaver presents because an

interleaver with good spread value help to break better low weight inputs.

Figure 4 shows the BER performance of tree random interleavers with different spread values, N=256

without puncturing and (dfree =14, Nfree=1). These interleavers present different minimum spread values and

help us to show how the spread value affects BER performance. Best spread value corresponds with the best

BER performance curve.

Table I

FREE DISTANCE AND MULTIPLICITY OBTAINED FOR R=1/3

Interleaver (dw, Nw), (dw+1, Nw+1), (dw+2, Nw+2)

DRP (20,2), (22,3), (23,4)

PSI (22,5), (23,4), (24,7)

HSR (18,14), (19,1), (20,1)

Golden (10,1), (20,2), (21,2)

Random (14,2), (16,3), (17,8)


Figure 4 Random Interleavers BER performance for (dfree, Nfree)=(14,1)

Given that their BER performance is very

similar in waterfall region, random

interleaver with better spread value

presents best BER performance

especially at the error floor region. A good spread value means lower error probability when low weight

error events occur.

Good spread values help interleaver to break up low weight input. Different tests with spread random

interleavers showed that for a particular spread value, (dfree, Nfree) pairs are changing without a rule, showing

that there is not a direct relation or rule between (dfree, Nfree) and spread values.

In fact, a good spread value into an interleaver is desirable in order to break up low weight inputs.

Conclusions

In this work we have studied the performance of five good interleavers using short frame size (N=256).

When we want to work with high SNR it is desirable to have a good interleaver pattern that ensures good

spreading properties and have a deterministic structure. This fact is more important in the case of

puncturing turbo codes because the puncturing process degrades the performance of the original turbo

code. Thus it is desirable to try to increase the spreading value as high as possible in order to have a good

puncturing turbo code. At this point the selection of an interleaver that maximizes the dfree of the whole

Table II

FREE DISTANCE, MULTIPLICITY AND PUNCTURING PATTERNS FOR R=2/3

Interleave

r

(dw, Nw), (dw+1, Nw+1), (dw+2, Nw+2) Puncturing pattern

DRP (7,4), (8,30), (9,101) (1052o, 20023o)

PSI (7,19), (8,82), (9,272) (521o, 61040o)

HSR (6,9), (7,32), (8,62) (116644o, 40575o)

Golden (6,1), (7,11), (8,53) (24240o, 11210o)

Random (6,10), (7,26), (8,79) (22024o, 60401o)


turbo code is important, in order to obtain a better performance in the error floor region and to avoid a

higher degradation for puncturing process. The way in which we build the puncturing pattern is also an

important factor to be considered in order to obtain the better performance of the turbo code.

As maximum as possible dfree value is desirable with a low Nfree value because it means lower error event

probability (Pe), in other words, if we select an interleaver with low Nfree value, the probability of appearing a

low weight event is diminished and as a consequence, a better BER performance.

A good puncturing pattern must guarantee non catastrophic codes and try to maintain a good BER

performance optimizing the (dfree, Nfree) of the final turbo code. In this sense, the only way to construct an

appropriate puncturing pattern with or without rate compatible restriction is considering in a special way

the interleaver structure that we are using in this work.

Under puncturing, select an interleaver with high dfree and low Nfree becomes crucial in order to avoid a

bigger BER performance degradation, inherent to the puncturing process.

Because one of the most important parameters from an interleaver when we work at error floor region is

the dfree value, minimum spread parameter can give us an idea of how works the interleaver when low

weight input event occur. High spread value means a better interleaver`s dispersion and as a consequence,

better BER performance. In order to have a benchmark about how well is a spread value; we can consider

that the maximum theoretic spread is approximately N2 [11].

Working at the error floor region and small interleaver size N (N<1024) means work with a real system

conditions, in which we work with limited time-processing and/or memory requirements. In those cases,

select the appropriate interleaver can make an important difference in terms of the final system

performance.

For the conditions proposed, we recommend select an interleaver that maximize the dfree have a low Nfree

value and in fact, spread value as high as possible.

References

[1] BERROU, C. GLAVIEUX, A. and THITIMAJSHIDA, P. Near Shannon limit error-correcting coding and

decoding: Turbo codes, in Proc. IEEE Int. Conf. Communications, vol. 2, Geneva, Switzerland, 1993, pp. 1064-

1070.

[2] 3GPP, Technical Specification Group: Multiplexing and Channel Coding (TDD), TS 125. 212 V6.7.0

December 2005

[3] VUCETIC, B. JINHONG Y. Turbo codes, principles and applications Kluwer Academic Publishers,

Boston, 2002

[4] BARBULESCU, A. S and PIETROBON, S. S. Rate compatible turbo codes, IEE Electronics Letters, 30th

March 1995, Vol. 31, No. 7, pp. 535-536.

[5] AÇIKEL, Ö. F. and RYAN, W. E. Punctured Turbo-codes for BPSK/QPSK channels, IEEE Trans. on

Communications, Vol. 47, No. 9, September 1999, pp. 1315-1323.


[6] ROWITCH, D. N. and MILSTEIN, L. B. On the performance of hybrid FEC / ARQ systems using rate-

compatible punctured turbo (RCPT) codes, IEEE Transactions on Communications, Vol. 48, No. 6, June 2000,

pp. 948-959.

[7] VALENTI, M. C. Iterative Detection and Decoding for Wireless Communications PhD dissertation,

Virginia Polytechnic Institute and State University, July 1999

[8] CROZIER, S. New high-spread high-distance interleavers for Turbo-codes, In 20th Biennial

Symposium on Communications, Kingston, Canada, May 28-31, 2000, Queen’s University.

[9] DIVSALAR, D. and POLLARA, F.; Multiple Turbo Codes MILCOM 95, pp. 279-285, November 6-8,

1995.

[10] CROZIER, S.; LODGE, J.; GUINAND, P. and HUNT A. Performance of turbo codes with relative prime

and golden interleaving strategies In 6th Intern. Mobile Satellite Conference (IMSC 99), Ottawa, Canada,

June 1999, pp. 268-275.

[11] CROZIER, S.; GUINAND, P.; High performance Low-Memory interleavers banks for Turbo Codes IEEE

54th vehicular technology Conference, VTC Fall 2001, Atlantic City, NJ, USA, October 7-11, 2001.

[12] KOVACI, M.; BALTA, H. G; NAFORNITA, M. M..; The performances of interleavers used in turbo

codes International Symposium on Signals, Circuits and Systems, ISSCS 2005, Vol. 1, 14-15 July 2005 Pp. 363

– 366

[13] F. BABICH, G. MONTORSI, and F. VATTA, Some notes on rate-compatible punctured turbo codes

(RCPTC) design, IEEE Trans. Commun.., vol. 52, no. 5, pp. 681–684, May 2004.

[14] Wang, D.; Kobayashi, H.; On design of interleavers with practical size for turbo codes IEEE

International Conference on Communications, 2000. ICC 2000. Volume 2, 18-22 June 2000 Page(s):618 - 622

vol.2

[15] CROZIER, S.; GUINAND, P. and Hunt, A; On designing Turbo codes with data puncturing 2005

Canadian Workshop on Information Theory (CWIT 2005) proceedings, Montreal, Quebec, Canada, June 5-8

2005.


Bioreactor instrumentation: application to SBR nitrification process

E. S. Espinoza, F. Muñoz, E. González, C. Ben-Youssef, y A. Zepeda

Resumen

Este artículo presenta la instrumentación de un proceso biotecnológico SBR mediante el desarrollo de

interfaces gráficas de usuario (Graphical User´s Interfaces), medición, control y monitoreo en Internet a

través de Instrumentos Virtuales (VI’s) desarrollados en el lenguaje de programación gráfica LabView. La

medición y el control del proceso involucran la utilización de sistemas modulares industriales ( IQ Sensor

Net 184 XT), sensores de oxígeno disuelto (TriOxmatic 701 IQ), amonio y nitrato (Varion 700 IQ), bombas

peristálticas de precisión, tarjetas de adquisición de datos, etapas de potencia, sensores de temperatura

y suministro de energía eléctrica. De esta manera en este trabajo se muestran los resultados obtenidos

del proceso nitrificante instrumentado y controlado a través de los perfiles establecidos.

Abstract

This paper shows the instrumentation for a biotechnological process SBR by means of the development of

Graphical User’s Interfaces, measurement, control and monitoring under Internet through Virtual

Instruments (VI’s) developed in LabView (a graphical programming language) . The measurement and the

control of the process involve the use of modular industrial systems (IQ Sensor Net 184 XT), dissolved

oxygen sensors (TriOxmatic 701 IQ), ammonium and nitrate (Varion 700 IQ), pumps of precision, data

acquisition boards, power circuits, temperature sensors and provision of electrical energy. This way, in

this work are shown the results obtained from the nitrification process under the instrumentation and

controlled through the established profiles

Keywords: bioreactor, instrumentación, biotecnología, LabView®.

INTRODUCCIÓN

El uso de la instrumentación, monitoreo, análisis y retroalimentación de datos, control automático y

desarrollo de GUI’s, que se encuentran contenidos en la instrumentación virtual (IV), mejoran el desempeño

y optimizan los procesos biotecnológicos de manera sustancial, ya que permite su operación las 24 horas de

los 7 días de la semana, lo cual permite reducir tiempos y eliminar la necesidad del muestreo manual,

evitando de esta forma la labor intensiva y propensa a errores del operador [1-5].

La (IV) basada en un equipo de cómputo es una alternativa eficaz para la instrumentación clásica. Sus

principales ventajas consisten en la flexibilidad, adaptabilidad al proceso a instrumentar, reducción de

tiempos de desarrollo, disminución de costos, entre otros. Además a través de la IV se permite tener un

seguimiento atractivo del proceso en el monitor del equipo [6]. Con la ventaja adicional de monitorear el

proceso vía Internet [7].

Existen diferentes herramientas computacionales para implementar una IV, sin embargo, entre las más

utilizadas a nivel mundial se encuentra el lenguaje de programación de ambiente gráfico LabView de la

compañía National Instruments, que cuenta con una gran flexibilidad para el desarrollo de aplicaciones de


IV, así como para reducir tiempos de desarrollo, costos de operación y mantenimiento. Éste lenguaje ha sido

utilizado para construir aplicaciones de monitoreo y control en diferentes áreas [8-11], sin embargo, en la

parte de instrumentación y automatización de procesos biotecnológicos, no se han explotado en su

totalidad las ventajas que ofrece la IV.

Tal es el caso del proceso de la nitrificación el cual es empleado para llevar a cabo la eliminación de

compuestos nitrogenados, los cuales pueden ocasionar riesgos en la salud, debido a la conversión de estos

compuestos a nitrosaminas, las cuales tienen propiedades carcinogénicas.

En este sentido, para llevar a cabo el proceso de la nitrificación se han aplicado una gran diversidad de

reactores tales como tanques de agitación completa, lotes, lotes secuenciados, lote alimentado, airlift, etc.,

en los cuales se llevan a cabo las reacciones bioquímicas de oxidación-reducción de los sustratos.

De esta manera, el reactor por lotes secuenciados SBR (por sus siglas en ingles: Sequencing Batch Reactor);

se ha presentado desde la década pasada como un sistema muy atractivo para el tratamiento de aguas

residuales [12-13]. El proceso SBR necesita cuatro etapas principales: llenado, reacción, sedimentación y

vaciado, cada una definida por un periodo de tiempo determinado, para las cuales es necesario que se

desarrolle un sistema automático que permita sensar, manipular y controlar cada una de las variables que

están involucradas en estas.

De esta manera los beneficios que proporciona LabView en la IV pueden ser aplicados en el proceso SBR, tal

como se ha observado en la aplicación de algunos procesos biológicos, en donde se ha logrado el control y

monitoreo de forma más sencilla y amigable [14-18]. Sin embargo, es importante mencionar que la

mayoría de los estudios sobre la aplicación de IV en procesos biológicos, específicamente sobre los procesos

de nitrificación, se encuentran aún limitados en su operación tal como lo muestran los trabajos [19-20] en

donde únicamente se realizan mediciones en línea de las concentraciones de oxígeno disuelto, pH y

potencial redox, sin contemplar las mediciones en línea del consumo de amonio y nitrato, las cuales son las

variables de respuesta del proceso nitrificante.

Con base en estos antecedentes, en este trabajo se desarrolló la instrumentación de un proceso SBR

nitrificante mediante la implementación de interfaces gráficas de usuario (GUI’s desarrolladas en LabView)

que permiten controlar el proceso, además de brindar la posibilidad de operar, monitorear y controlar los

sensores y actuadores de manera remota utilizando una conexión vía Internet.

Proceso nitrificante

La nitrificación seguida de la desnitrificación son los procesos de tratamiento más empleado a

nivel mundial para llevar a cabo la eliminación biológica de compuestos nitrogenados. La

nitrificación es la oxidación de amoníaco a nitrato vía nitrito a través de dos grupos de bacterias

quimiolitoautotrófas: las amoníaco y nitrito oxidantes [21-22]. Posteriormente los productos de la

nitrificación pueden ser reducidos a N2 a través de bacterias desnitrificantes heterotróficas o

litotróficas en un medio ambiente anóxico.

El lodo utilizado para inocular el reactor SBR fue obtenido de un reactor en continuo de 3 litros de

capacidad, en el cual estuvo en operación el proceso de nitrificación en estado estacionario por 3

años. Las condiciones de operación del reactor en continuo fueron las mismas reportadas

previamente en [23]. La concentración de proteína microbial inicial en el SBR fue de.2 g·L–1.


El medio utilizado para el cultivo del SBR fue una mezcla de dos medios (A y B). La composición química del

medio A fue: (NH4)2SO4 (1.35 g·L–1), KH2PO4 (1.61 g·L–1), MgSO4 (0.69 g·L–1), NaCl (1.15 g·L–1) y NH4Cl

(1.09 g·L–1). Medio B consiste de CaCl2 (0.11 g·L–1) y NaHCO3 (1.37 g·L–1). Para el proceso de nitrificación

se estableció la cinética mostrada en la Figura 1 en la que se alimenta al bioreactor con los medios A y B, de

los cuales se adicionó 60 y 100 ml respectivamente junto con 1.34 litros de agua en el instante 0, en el

instante t1 se termina de suministrar el medio B y en el instante t2 se deja de suministrar el medio A y se

comienza con la etapa de agitación y aireación, mismas que durarán hasta el instante t3, en el cual comienza

la etapa de sedimentación. Finalmente, en el instante t4 comienza la etapa de vaciado del bioreactor y una

vez finalizada ésta, el proceso comienza de nueva cuenta. La duración total del proceso, las cantidades de

alimentación del Medio A y Medio B, la cantidad final de medio en el bioreactor y las velocidades de

alimentación y vaciado del efluente pueden ser determinados por el usuario del sistema una vez que inicia el

proceso.

t1 t2

Medio A

Medio B

Agitación

Aireación

Vaciado

t3 t4 0 t1 t20

on

on

on

on

on

off

off

off

off

off

Figura 1. Cinética de alimentación del bioreactor.

Instrumentación de la planta piloto

La planta piloto consta de tanque de 2 litros de capacidad con un volumen de trabajo de 1.5 litros, que

cuenta con controlador de temperatura, bombas peristálticas para la alimentan de los medios al bioreactor

y vaciado del efluente, etapa de potencia y tarjeta de adquisición de datos para el control de las bombas,

sensores de energía eléctrica y de nivel de líquido, sensores en línea de medición de amonio, nitrato y

oxigeno disuelto los cuales se comunican vía RS-232, una computadora personal donde se controla la

operación de la planta piloto mediante una GUI’s desarrollada en LabView , como se aprecia en la Figura 2.


Figura 2. Planta piloto.

Como se puede apreciar, la instrumentación de la planta piloto involucra diferentes elementos que

interactúan entre sí de manera que permiten elaborar un sistema global que lleve a cabo el funcionamiento

autónomo del proceso. Estos elementos pueden ser divididos en aquellos que involucran el uso de

Hardware y los que involucran el uso de Software.

Hardware

La alimentación del medio A y medio B al proceso SBR nitrificante, así como el vaciado del efluente, fueron

llevadas a cabo utilizando bombas peristálticas no controlables de forma remota las cuales operan con un

voltaje de alimentación de 127 volts. Así mismo, la aireación y agitación del SBR son llevadas a cabo

mediante equipo que también opera a 127 volts, por lo cual fue necesario realizar una etapa de potencia

para poder controlar el encendido y apagado de las bombas desde la GUI. Dicha interface de potencia

consistió en utilizar opto acopladores y TRIACs para aislar la parte de control con la parte de potencia, de tal

forma que se puedan operar todos los actuadores que trabajan a 127 volts únicamente mediante una señal

de control de 5 volts como se muestra en el diagrama presentado en la Figura 3. La parte de control de las

bombas se implementó desde la GUI utilizando las salidas digitales de la tarjeta de adquisición PCI6024E de

la compañía National Instruments.

En la Figura 4 se muestra la etapa de potencia realizada para la interacción con las bombas peristálticas, el

agitador y el aireador, los cuales están encargados de suministrar y extraer los medios y el efluente, así

como de mantener el proceso homogéneo y oxigenado, respectivamente.

Uno de los aspectos más importantes en la instrumentación de procesos, es sin duda, la confiabilidad que se

tenga de los elementos que permiten sensar las variables que intervienen en el sistema, ya que de ello

depende la exactitud con la que el proceso puede operar. Es por este motivo que utilizamos el sistema IQ

Sensor Net 184 XT de la compañía alemana WTW, el cual es un sistema modular que realiza mediciones en

línea mediante la utilización de electrodos específicos, tales como el TriOxmatic 701 IQ y el Varion 700 IQ,

los cuales miden las concentraciones de Oxígeno disuelto, Amonio y Nitrato, además de proporcionar la

temperatura como un parámetro extra.

El sistema de medición puede estar integrado por sensores, terminales, bloques de entradas de corriente,

bloques de salidas de corriente y salidas a relevadores y válvulas, interfaces de comunicación entre varios


controladores vía módulos de RF o con una computadora mediante comunicación serial, tal y como se

aprecia en la Figura 5.

Además de esto, el sistema 184 XT es tiene la posibilidad de incorporar módulos de entradas y salidas de

corriente y salidas a relevadores, lo cual permite relacionar las mediciones de los sensores con el nivel de

corriente que entregan las salidas. Además de manipular actuadores como bombas o válvulas con las salidas

de los relevadores mediante técnicas clásicas de control como lo son los controladores On- Off, P, PI o PID;

directamente desde el propio sistema.

Figura 3. Diagrama de la interface de potencia para cada actuador

Figura 4. Implementación física de la etapa de potencia.

100

Ω 18 Ω

150

Ω

39 Ω MOC

3041

Fusibl

eee 120

V

60

Hz

22

nF

MOTOR

M

MAC

212

LED

Salida del puerto

digital


Otro de los aspectos importantes en la instrumentación de procesos es la seguridad de que el sistema va a

seguir operando ante circunstancias adversas, tales como los fallos de energía eléctrica. Una alternativa para

solucionar este problema es proveer al sistema de una fuente de energía ininterrumpida (UPS por sus siglas

en ingles), con lo cual se evita que se pierdan los datos adquiridos y el funcionamiento del programa de

control. Sin embargo, debido al consumo de energía de los actuadores, estos no se conectan al UPS. Es por

éste motivo que se incorpora un sensor de nivel y un sensor de fallo de energía eléctrica, con los cuales, es

posible determinar si es que el sistema se esta ejecutando en modo normal o en modo de fallo de energía. Si

el sistema esta en modo de fallo de energía, éste registrará el tiempo en el que sucede el fallo y retrasará la

cinética hasta que el suministro se restablezca. Con esto se evita que pudiese derramarse el bioreactor y se

garantiza que el proceso seguirá funcionando cuando se restablezca el suministro de energía eléctrica.

Figura 5. Diagrama de configuraciones del sistema IQ Sensor Net 184 XT.

Software: Graphical User Interface

Basados en las características del hardware con el que se cuenta para la instrumentación del proceso SBR

nitrificante, se desarrolló la GUI que tiene comunicación con el IQ Sensor Net 184 XT, con la etapa de

potencia y que tiene la posibilidad de llevar a cabo la toma de decisiones en función de las características

deseadas del proceso. La GUI desarrollada en LabView solicita al usuario el volumen de medio A y medio B

que debe de ser alimentado al bioreactor, el tiempo de sedimentación y el tiempo de duración del ciclo del

SBR.

En base a esta información, el sistema determina de forma automática los tiempos necesarios para poder

llevar a cabo la cinética establecida en el inicio del proceso, comunicándose con los actuadores y con los

sensores del sistema 184 XT, gráfica y almacena los datos obtenidos por los sensores y las variables

principales del proceso otorgando la posibilidad de operar la cinética de forma manual o automática.

Además, se cuenta con la capacidad de tomar decisiones en el proceso en caso de una falla de alimentación

de energía, de tal forma que pueda determinar si ésta interrupción causa sólo una suspensión temporal en

la operación de los actuadores y sensores del sistema o un paro automático del mismo, dando con esto una

gran versatilidad al usuario de la interface. Por último, la interface de usuario, brinda la posibilidad de

operar de forma remota el proceso, mediante la operación de un servidor web que mantiene la

comunicación entre el proceso y una conexión IP.


La Figura 6 muestra la GUI desarrollada en LabView para el proceso de nitrificación, en la cual se pueden

apreciar los estados de las diferentes variables y actuadores que están involucrados en el proceso.

Figura 6. Interfaz gráfica de usuario

Resultados Experimentales

En la Figura 7 se observa la oxidación de amonio y la formación de nitrato y como intermediario la

formación de nitrito, el cuál se midió manualmente. El mayor consumo de oxígeno fue durante la primera

etapa de la nitrificación (oxidación de amonio), una vez que el amonio se consumió completamente la

concentración de oxígeno aumentó y la concentración de alcanzo su mayor transformación, obteniendo una

eficiencia de consumo del 100% y un rendimiento en la formación de producto de 0.94. El proceso de la

nitrificación fue estudiado a dos diferentes cargas volumétricas de tratamiento de 25 y 50 mgN-NH4+ con el

objetivo de evaluar la flexibilidad del sistema de control y adquisición de resultados.

0

5

10

15

20

25

30

0 1 1 2 2 3

TIEMPO (h)

mg

/L N

5.5

5.6

5.7

5.8

5.9

6

6.1

6.2

mg

/L O

2

N-NH4

N-NO3

N-NO2

O2

Figura 7. Cinética 25 mg N-NH4+.

En la Figura 8 se observa la oxidación de amonio y la formación de nitrato, la cual fue cuantificada en línea a

través de los respectivos electrodos selectivos. Antes de que el nitrato se formará por completo el amonio

se transformó primero en nitrito el cuál fue medido manualmente en tiempos de 20 min, una vez que el

amonio se oxidó por completo la cantidad de oxígeno aumentó de una forma considerable y el nitrato se

transformó por completo. Por otro lado en los estudios con una velocidad de carga de 50 mg/L N-NH4+, la

reacción tuvo una duración de 6 hrs aproximadamente.


Como se puede observar en las Figuras 7 y 8, las principales variables del proceso nitrificante (amonio,

nitrato y oxígeno disuelto) fueron monitoreadas en línea, El monitoreo de estas variables permite, entre

otras cosas, obtener un mejor conocimiento de las dinámicas del proceso nitrificante., de las cuales es bien

conocida su no linealidad.

0

10

20

30

40

50

60

0 1 2 3 4 5 6

TIEMPO (h)

mg

/L N

4.7

4.9

5.1

5.3

5.5

5.7

5.9

mg

/L O

2 N-NH4

N-NO3

N-NO2

O2

Figura 8. Cinética 50 mg N-NH4+.

Conclusiones

Se pudo observar que bajo las condiciones en que se trabajó el SBR nitrificante, se operó de manera

satisfactoria a través del control y automatización del sistema diseñado, obteniendo una eficiencia en el

consumo del Amonio del 99% ± 1% y la conversión de NH4+-N a NO3–-N fue de 98% ± 2%. Al final de los

ciclos de 12 horas no fue detectado Nitrito en el efluente.

La instrumentación realizada fue de gran utilidad ya que se logró operar el sistema por nueve meses de

forma continua sin ningún contratiempo debido a que el sistema permitió controlar y monitorear el proceso

de tratamiento biológico, así como los sensores y actuadores de manera continua y remota a través de una

conexión vía internet, para de esta forma poder evaluar el proceso nitrificante en tiempo real, eliminando el

muestreo manual y los gastos correspondientes a la cuantificación de los parámetros de respuesta por

métodos analíticos. Además, proporcionó una plataforma que permitirá en trabajos futuros el desarrollo de

modelos matemáticos a través de los cuales se podrá predecir el desempeño del proceso, implementar

algoritmos para la estimación de variables no medidas en línea (nitrito) y el control avanzados del proceso

nitrificante, los cuales pueden implementarse gracias a la posibilidad de obtener los datos medidos por el

sistema IQ Sensor Net 184 XT en línea.

Referencias

*1+ Brian O´Flaherty, “Automated Bioprocess Sampling and Analysis, Automated Bioprocess Sampling and

Analysis”, Genetic Enginerring & Biotechnology News, vol 24, 2004

*2+ Yasuaki Yakubi, Tooru Negasawa and Jhon F. MacGregor, “Industrial Experiences with Product Quality

Control in Semi-Batch Process”, Computers & Chemical Engineering, vol 26, issue 2, pp.~205-212. February

2002.

0

10

20

30

40

50

60

0 1 2 3 4 5 6

TIEMPO (h)

mg

/L N

4.7

4.9

5.1

5.3

5.5

5.7

5.9

mg

/L O

2 N-NH4

N-NO3

N-NO2

O2


*3+ Ognjen Marjanovic, Barry LEnnox, David Sandoz, Keith Smith and Milton Crofts, “Real-time monitoring of

an industrial batch process”, Computers & Chemical Engineering, vol 30, issues 10-12, pp.~1467-1481.

September 2006.

*4+ S. S. Voutetakis, A. A. Lappas, D. K. Iatridis and I. A. Vasalos, “Computer application and software

development for the automation of a fluid catalytic cracking pilot plant – Experimental results”, Computers

& Chemical Engineering, vol 20, aupplement 2, pp.~ S1601-S1606. 1996

*5+ Joseph S. Alford, “Bioprocess control: Advances and challenges”, Computers & Chemical Engineering, vol

30, issues 10-12, pp.~1464-1475.September 2006,

[6] Sumathi and P. Surekha, LabView based Advanced Instrumentation Systems, S. Springer – Verlag, 2007.

*7+ Eren H, Nichols W.J. and Wongso I. Towards, “An Internet-Based Virtual-Wire Envoronment with Virtual

Instrumentation”, Identification, Instrumentation and Measurement Technology Conference, Budapest

Hungary, pp.~ 21-23, Mayo 2001.

*8+ Mircea Popa, Raúl Ionel, Voicu Groza and Marius Marcu, “Educational Virtual Instrumentation

Application for System Identification”, Instrumentation and Measurement Technology Conference, Sorrento

Italy, pp.~24-27. Mayo 2006.

*9+ F.J. Jiménez and J. De Frutos, “Virtual instruments for measurement, processing data, and visualization of

vibration patterns of pizoelectric devices”, Computer Estándar & Interfaces, vol 27, issue 6, pp.~ 653-663,

June 2005.

*10+ Chance Elliot, Vipin Vijayakumar, Wesley Zink and Richard Hensen, “National Instruments LabView: A

Programming Environment for Laboratory Automation and Measurement”, Journal of the Association for

Laboratory Automation, volume 12, issue 1, pp.~ 17-24, February 2007.

[11] Sy – Ruen Huang, Chiu-Yue, Chueh-Cheng Wu and Shin-Joe Yang, “The application of Fuzzy controller for

fuel cell generating Studies”, International Journal of Hydrogen Energy, vol 33, issue 19, pp.~ 5205 – 5217,

October 2008.

[12] Texier, A. C., Gomez, J.. Settleability and Kinetics of nitrifying sludge in a sequencing batch reactor. Can.

J. Microbial, vol. 50 pp.~943-949, 2004.

[13]Texier, A. C., Gomez J. 2007. Simultaneoues nitrification and p-cresol oxidation in nitrifying sequencing

batch reactor. Water Research. 41:315-322

[14] Palma Acosta, M. J., Manga Certain, J. Simulación de un sistema de fangos activados en discontinuo

(SBR) para el tratamiento de aguas residuales con altos contenidos de nitrógeno. Ingeniería y desarrollo,

num 018, pp.~ 61-71, Julio-Diciembre 2005.

[15] Yoo, C.K., Villez, K., Lee, I.B., Van Hulle, S., Vanrolleghem, P.A., Sensor validation and reconciliation for a

parcial nitrification process. Water Science & Technology vol 53 num 4–5, pp.~ 513–521, 2006.

[16] Marsili-Libelli, S., Control of SBR switching by fuzzy pattern recognition, Water Research, vol 40, issue 5,

pp.~1095-1107, March 2006.


[17] Plattes, M., Fiorelli, D., Gill, S., Girard C., Henry, E., Minette F., O’Nagy, and O., Schosseler, P. M.

Modelling and dynamic simulation of a moving bed bioreactor using respirometry for the estimation of

kinetic parameters. Biochemical Engineering Journal, vol. 33, num 3, pp.~ 253-259, 2007.

[18] Zhang, X., and Hoo, Karlene, A. Hierarchical Control Strategy for an Integrated Wastewater Treatment

Plant. Proceedings of the 17th World Congress of The International Federation of Automatic Control., pp.~

13617 – 13622, July 2008.

[19] Pires, O.C., Palma, C., Costa, J.C., Moita, I., Alves, M.M., and Ferreira, E.C. Knowledge-based fuzzy

system for diagnosis and control of an integrated biological wastewater treatment process. Water Science &

Technology, vol 53, num 4–5, pp.~ 313–320, 2006

[20] Tomiello, M., Perrin, E., Roubens, M., and Crine, M. Fuzzy control of an activated sludge process. Second

European Congress of Chemical Engineering - Montpellier, pp.~ 1-8, 1999.

[21] Prosser, J. I. Autotrophic nitrification in bacteria. Advanced Microbial Physiology. vol. 30, pp.~125-181,

1989

[22] Ivanova, I. A., Stephen. J. R., Chang, Y.J., Brüggemann, J., Long, P. E., McKinkley, J. P., Kowalchuck, G. A.,

White, D. C., and Macnaughton, S. J. Asurvey of 165 rRNA and amoAgenes related to autotrophic ammonia-

oxiding bacteria of the B-subdivision of the class proteobacteria in contaminated ground water. Can. J.

Microbiol. vol 46, pp.~ 1012-1020, 2000.

[23] Zepeda, A., Texier, A. C., and Gomez, J. Benzene transformation in nitrifying batch cultures. Biotechnol.

Prog. vol. 19 pp.~ 789-793, 2003.


Tracking by Using Fuzzy Models in Phenol Biodegradation

Márquez Vera M. A., Muñoz Palacios F.

Abstract

In a fedbatch process the operational strategy can consist on controlling the influent substrate

concentration in the reactor, by means of the input flow manipulation. Due to the uncertainties and

imprecision of an analytical model of the process, and the disturbances in the measurement, a fuzzy

model is proposed to approach the growth rates. The feedback linearization can be used when the fuzzy

model is taken constant and used for compute the control input. The simulation results with this method

are presented.

Keywords: Fuzzy model, biotechnological process, tracking.

Introduction

Each living creature is formed by water principally, a small part of all water in the world is used for human

consumption, but each time there is less of it due the pollution. Nowadays, the problem to the problem of

treatment of wastewater is an important case of study in all the world. Phenol is a pollutant commonly

found in industrial wastewater. It has usually removed by costly physicochemical methods, as absorption,

ion exchange or using chemical oxidation [1].

The use of microorganisms as decontamination tool is recently [2], the entire natural ecosystem have

microorganism that can metabolize toxic components. The purpose of this application is to find a control

strategy for the inlet flow in a bioreactor to decontaminate water by using biomass.

The Sequencing Batch Reactor (SBR) process operates in a true batch mode with aeration and sludge settling

both occurring in the same tank. The major difference between a SBR and a typical activated sludge system

is that the SBR tank carries out the functions of equalization, aeration and sedimentation in a time sequence

rather than in the conventional space sequence.

Since SBR is a batch process, the effluent can be held in the reactor until it is treated if the influent can be

stored far away. This can minimize the deterioration of effluent quality associated with influent spikes. Also,

biomass will not be washed out of a SBR because of flow surges. In addition, settling occurs when there is no

inflow or outflow. However, the SBR systems have also some disadvantages, generally related to a higher

level of control sophistication.

Work with live creatures makes difficult to find an exact mathematical model to attain the control of the

bioreactor. There are some controllers that use the fuzzy logic, in the work [3] the sliding modes are used,

also the iterative learning control is used in [4] and [5], in [6] an iterative learning control was made for

ethanol concentration, an application with nonlinear control is presented in [7].


In [8], the idea of use only the implicated variables in the dynamic system, is useful to control a determinate

state, by using this idea, it is proposed make a fuzzy model of the growth rates in order to reduce de

complexity of the model and supposing that we do not known how model it, and then linearize the process

such that the output follow the reference.

The study is carried out on an analytical model of a SBR system for phenol biodegradation, whose kinetics

are characterized by the production and later consumption of an inhibitory metabolic intermediate an

analytical model was developed in [9] for fedbatch cultures.

This work is organized as follows, in section 2 it is exposed the form to linearize a nonlinear model, the

change in coordinates and the control signal for tracking, in section 3 it is show the model to control and in

this part are shown the microbial growth rates to be approach for the fuzzy logic explain in section 4. After

get the model the control can be made and we can see the desired trajectory and the simulation results.

Finally conclusions are presented in section 5.

Feedback linearization

We consider a single input-single output nonlinear system defined as

(1)

where f and g are unknown nonlinear functions, ∈ is the state vector of

the system which is assumed to be available for measurement, in order for (1) to be controllable, it is

needed that g(x(t)) 0, x and t.

By deriving the output given in (1) and using the notation of the derivatives of Lie we have

(2)

If , we can propose the signal input as such that

(3)

the relative degree is one and for the output . On the other hand if , where

, and , the signal control will be [10]


(4)

so the relative degree become r and .

In the same way, we can use the error as output and at the time the get the derivatives we have the

reference tracking and the control signal is similar to 4, it become

(5)

where yd is the desired signal or the reference signal.

Finally a change nonlinear the coordinates can be made. If we suppose that the relative degree is r the new

coordinates are

where η denotes the zero dynamic and it will be chosen to be stable.

Phenol biodegradation model

The mass balance equation for the various constituents of phenol biodegradation is given by the following

first order system of differential equations [9]:

(6)

for the volume and the output we have

(7)

where D(t) is the dilution Qin(t)=V (t) and is the control input, S1(t) is the phenol concentration, S2(t) is the

main metabolic intermediate concentration, X(t) is the total microbial concentration and V (t) is the volume;

¹(t) is the specific biomass growth rate, qS1 (t) and qS2 (t) are, respectively, the specific consumption rate of


phenol and the intermediate; vS2 (t) is the specific intermediate production rate. We consider that the reactor

is a fedbatch process and in this case Qout(t) =0.

The specific biomass growth rate is calculated by

(8)

where µ1 is a modified Haldane type equation and µ2 is a Monod type [9], i.e:

(9)

(10)

where, µmax1 is the maximum growth value due to the phenol concentration, µmax2 is the maximum growth

value due to the intermediary concentration.

The specific growth and consumption rates are correlated with the constants, biomass to phenol Y1 and

biomass to intermediate Y2 as follows:

(11)

The specific production rate of intermediate is linearly correlated to the specific growth rate of biomass on

phenol [9] as

(12)

The parameters values are described in [9] in base to a sensitivity analysis, the values used for simulation are

given in the Table 1.

Table 1. Parameters values

Parameter Value units

µmax1 Y1 KS1 Ki1 K2 µmax2 Y2 KS2 K1 α

0.4 0.67 2 17 91 0.3 0.75 75 66 6.7

l/h mg/mg mg/l mg/l mg/l l/h mg/mg mg/l mg/l mg/l


Fuzzy model for microbial growth rates

The Takagi-Sugeno system is characterized for the linear consequents in its rules in the following way:

(13)

There exist m fuzzy rules and n inputs xj . There are some fuzzy sets Fj defined for each input. The fuzzy

system performs a mapping from .

The fuzzy input vector and the output y are the linguistic variables defined as =[X S1 S2 V ]T and y is the

approximation of µ1(S1,S2) or µ2(S1,S2), and F(i) j and ai are the labels of the input and output fuzzy sets

respectively.

By using singleton fuzzifier, product inference, and centre average defuzzifier, the output value of the fuzzy

system is [11]:

(14)

where µFj (xj) is the membership function of the linguistic variable xj , and ai represents the crisp value when

the membership function gives one.

Defining the normalized membership value as

(15)

and

(16)

we can write the output value as:

(17)


In this way the estimated functions are defined by [12]. There were used five membership functions to

evaluate the phenol concentration µ1(t), and another five for the metabolic intermediate concentration µ2(t)

to model both growth rates. So only 25 fuzzy rules were generated.

The consequent parameters of the linear functions can be estimated by least squares from the available

data. The condition is that the consequent functions were linear and the number of data items is much

greater than the dimension of the regression vector. A diagonal matrix Γi ∈ RN×N is formed with the normalized

membership values ¸λ(xk) as the k-th diagonal element, where k is in [1,N] and N is the number of data

items. A Xe matrix was formed by S1, S2 as its columns and a column of ones to determine the parameters bi it

is so called the extended regressor matrix Xe = [S1, S2, 1] [13]. Another matrix is formed from the

matrices Γi and Xe:

(18)

If the parameters are defined as a vector γ, it is computed in the following way:

(19)

where y is the fuzzy estimation of microbial growth rate µ1(t) or µ2(t). In this way, γ is obtained as the vector:

(20)

the fuzzy estimated values of µ1(t) and µ2(t) are presented in figure 1 and figure 2 respectively. Thus, the

microbial growth rate is a function of the phenol S1 and the metabolic intermediate S2, with a linguistic

interpretation.

This model can be adaptable from iteration to iteration and it is a way to simplify the model due the

evolution in microorganisms, so with this growth rate we can approach parts of the model as qS1 (t), qS2 (t)

and vS2 (t).


Control law

Once the fuzzy model of the microbial growth rate is obtained we can build the control signal, by deriving

the output we obtain that the relative degree is 1 where

(21)

and

(22)

the zero dynamic for the coordinates change is

(23)

For the simulation the desired output was defined as

(24)

so the control signal is computed as

(25)


how the growth concentrations are computed before, qS1 is a constant that is used in the calculation.

In figure 3 we can appreciate the evolution in time of the phenol and intermediate concentrations, due the

tracking imposed in the control signal, the output is almost equal to the reference, if we increment the

concentration of the solution the volume final is smaller and the biomass concentration does not descend

and increase with time, but the tracking is not as well. An application similar to this idea is presented in [14]

where equivalence with the fuzzy nonlinear internal mode is shown.

Figure 1. Microbial growth rate due the phenol

Figure 2. Microbial growth rate due the metabolic intermediate.

The system result to be with relative degree of one and there are three states in the change of coordinates

that are the zero dynamic, they were proposed to be stable, the simulation of the original states X(t) and V

(t) are shown in figures 4 and 5. The process is implemented iteratively and there were proposed 20 hours

for the simulation, after this time the activated sludge sediment and we can purge the biomass if it is

necessary and extract the water free of phenol.

Conclusions


Working with live organisms make difficult to have a good model and if there is one it should be adaptive,

there exists the possibility of use fuzzy logic to have this kind of model. We can use these models to

construct different types of control and get some nonlinear functions that conforms the global model. The

idea of linearize the process by its feedback result to be a good control; the ISE was 37.4385, thit is an small

error. The problem in practice is that the number of samples is commonly less than the using in simulation,

one way to apply this control is interpolating the measurements. The use of fuzzy logic type 2 can improve

the performance and simplify the model.

Figure 3. Phenol and intermediate concentrations and the desired output

Figure 4. Biomass concentration


Figure 5. Volume evolution

Reference

[1] A. Grinberg and E. Korin and A. Bettelheim, "Removal of Phenol and Derivatives from Aqueous Solutions

by Electropolymerization in Aerogel Carbon Electrodes Electrochem," Solid-State Lett., vol. 8, no. 4, pp. E42-

E44, 2005.

[2] E. Arroyo and J. Quesada, "Aplicación de sistemas de biorremediación de suelos y aguas contaminadas

por hidrocarburos," División de protección ambiental de suelos., Geocia, 2002, http://www.geocia.com.

[3] M. Márquez and L. Ramos and J.Waissman, "Fuzzy Sliding Modes Applied to a Phenol Biodegradation in

Fedbatch Cultures," International Symposium on Robotics and Automation in ISRA Conference Procedings,

(San Miguel Regla), pp. 437-441, August 2006.

[4] M. Márquez and C. B. Youssef and G. Vázquez and J. Waissman, "Iterative Learning Control of a SBR

Reactor by Using a Limited Number of Samples, " International Meeting on Environmental Biotechnology

and Engeenering in 2IMEBE Conference Procedings, (Mexico city), September 2006.

[5] M. Márquez and J. Waissman and O. Gutú, "Fuzzy Model Based Iterative Learning Control for Phenol

Biodegradation," International Fuzzy Systems Association., pp. 328-337, June 2007.

[6] J. W. Choi and H. G. Choi and K. S. Lee and W. H. Lee, "Control of Ethanol Concentration in a Fed-batch

cultivation of Acinetobacter calcoaceticus RAG-1 Using a Feedback-assisted Iterative Learning Algorithm, "

Journal of Biotechnology., vol. 49, pp. 29-43, 1996.

[7] L. Mailleret and O. Bernard and J. P. Steyer, "Nonlinear adaptive Control for Bioreactors with Unknown

Kinetics, Automatica," no. 5, pp. 1379-1385, January 2004.

[8] J. Lo and Y. Kuo, "Decoupled Fuzzy Sliding-Mode Control," IEEE Transactions on Fuzzy Systems., vol. 6, no.

3, pp. 426-435, August 1998.

[9] G. Vázquez and Ben-Youssef C. and J. Waissman, "Two step modeling of the biodegradation of phenol by

an acclimated activated sludge," Chemical Engineering Journal., vol. 117, pp. 245-252, 2006.

http://www.geocia.com/


[10] J. K. Hedrick and A. Girard, Control of Nonlinear Dynamic Systems: Theory and Applications, pp. 113-

160, 2005.

[11] H. Kim and Y. Shin, "Design of Adaptive Fuzzy Sliding Mode Controller based on Fuzzy Basis Function

Expansion for UFV Depth Control," International Journal of Control Automation, and Systems., vol. 3, no. 2,

pp. 217-224, June 2005.

[12] C. Kunh and T. Chien and L. Kung, "Modified Adaptive Fuzzy Sliding Mode Controller for Uncertain

Nonlinear Systems, " IEICE Trans. Fundamentals., vol. E88-A, no. 5, pp. 1328-1334, May 2005.

*13+ R. Babuška, Fuzzy Modeling for Control, ser. International series in intelligent technologies, K.

Academic, Ed. Boston: Kluwer Academic Publishers, 1998.

[14] R. Boukezzoula and S. Galichet and L. Foulloy, "Fuzzy Feedback Linearizing controller and its equivalence

with the Fuzzy Nonlinear Internal Mode Control Structure," App. Math. Comput. Sci., vol. 17, no. 2, pp. 233-

248, 2007.


Semiautomatic Knowledge Extraction from Unstructured Sources

J. M. Olivares-Ceja

Abstract

The World Wide Web built on top of Internetis populated with thousands of text-based knowledge

sources that must be analyzed by humans to answer knowledge queries or to transform them into

machine readable formats, for example, semantic networks or first order logic predicates. A similar

process is followed by Knowledge Engineers during knowledge base construction. In this paper we

propose a semiautomatic method to obtain knowledge from unstructured texts taken from the Internet.

Our method uses techniques from Natural Language processing to map into Fuzzy Semantic Networks. A

system that uses the method is under development, it consists of two main parts: knowledge extraction

and question answering.

Keywords: Knowledge Extraction, Semantic Web,Semantic Networks.

Introduction

Nowadays Internet is populated with a huge amount of information and knowledge that is being used to

satisfy requirements. One problem is that most of that information is in text form. An attempt to provide

meaning is the Semantic Web, but to do so, humans still must analyze texts, in order to get the knowledge

stored in that sources. We are developing a method to transform text into machine-readable knowledge

representation, this is used to answer knowledge queries. Our aim is also to help Knowledge Engineers in

knowledge-base construction. An expert user supervises the knowledge that is recorded in the knowledge

base and provides fuzzy certainty measures to each fact. We have selected semantic networks [1] [2] as

knowledge representation format, because it resembles the sentences structure (noun, verb, object; here

verb is the link among noun and object that are represented as nodes).

Our work is an alternate direction on current works of the Semantic Web. Several works are aim to enrich

the visualization of the Semantic Web, one of them is VisWeb [3]. Web mining [4] is an active area where it

is attempted to solve some problems like: a) finding relevant information (here a problem is the precision),

b) extraction of potential useful knowledge (mining tasks), c) personalization of information, d) learning

about individual users. Lin [5] focus on answers to web

queries using text annotations and mining in web sources. This paper is organized as follows. In the section 2

we explain how to transform plain text into machinereadable format, here we use a fuzzy semantic network.

Section 3 how the semantic network is updated using the facts obtained in section 2 given as result a fuzzy

semantic network. In section 4 comments the system under development. Conclusions and references are

given at the end of this paper.

Text Analysis

In our work, text is transformed from plain text into facts of the form:


o1 r o2

where o1 and o2 are objects obtained from nouns and their adjectives. r is the relationship among o1 and

o2, typically formed by verbs and prepositions or verbs and adverbs. The facts are recorded into the

knowledge representation schema, in this case, a semantic network1, each fact is stored with a certainty

value between -1 and 1.

As we can observe, plain text has different structure than the o1 r o2 structure required to naturally

integrating facts into the semantic network. Therefore, we apply different transformations (figure 1) to the

plain text for obtaining sets of objects linked by relationships. Some of these transformations are done

manually and others have been automated obtaining a semiautomatic method for knowledge extraction.

Figure 1. Text Analysis Transformations

Text is separated into paragraphs because it is a way to manage pragmatic knowledge, here pragmatic refers

to objects that are related, for example, if a text talks about oranges in one paragraph and other paragraphs

talk about lemons, then similar paragraphs are analyzed together due to natural relationships. In our work,

we are not verifying language coherence and we presuppose that sentences are correct, it means that non-

sense statements are not filtered, like for example “a car is eats meat”.

Let us consider the following text (original text) obtained from the web in Spanish to illustrate the

transformations:

Biografía de Benito Juárez, quien nació en San Pablo Guelatao, Oaxaca, en 1806. De extracción indígena, habló solamente zapoteco durante gran parte de su niñez. En la ciudad de Oaxaca vivió con su hermana Josefa, quien servía en la casa de don Antonio Maza. Estudió en el Seminario de Santa Cruz, único plantel de secundaria que existía en Oaxaca.

Finding Collocations

The first type of transformations applied to a text is collocations because many words that appear together

might affect the meaning in the text. Therefore, groups of words like “Association for Computing

Machinery” and “Eiffel Tower” are consider as one token instead of four and two respectively. We link the

words with an underscore, it is possible to automate this task by using a collocations dictionary. The tokens


look like this: Association_for_Computing_Machinery and Eiffel_Tower respectively. In the sample text we

obtain:

Biografía de Benito_Juárez, quien nació_en San_Pablo_Guelatao, Oaxaca, en 1806. De extracción_indígena, habló_solamente zapoteco durante gran_parte_de_su_niñez. En la_ciudad_de_Oaxaca vivió_con su_hermana_Josefa, quien servía_en la_casa_de_don_Antonio_Maza. Estudió_en el_Seminario_de_Santa_Cruz, único_plantel de_ secundaria que existía_en Oaxaca.

Passive to Active Voice transformation

It is common in English the use of passive voice where the object appears at the beginning of a sentence. In

Spanish subject appear at the beginning because is more often used the active voice. Our method requires

that sentences are written in active voice to map the subject relation object into the semantic network.

Therefore, when passive voice structures appear they are changed into active. Our sample text as is written

in Spanish does not requires this transformation.

Anaphora Substitution

The second step is finding direct and indirect anaphora and substitutions are made in order to obtain

sentences without referential ambiguity on subjects and objects.

Words like that, these, here are substituted with the correct subject or object. In the sample text we

substitute who and that.

Biografía de Benito_Juárez, Benito_Juárez nació_en San_Pablo_Guelatao, Oaxaca, en 1806. De extracción_indígena, habló_solamente zapoteco durante gran_parte_de_su_niñez. En la_ciudad_de_Oaxaca vivió_con su_hermana_Josefa, su_hermana_Josefa servía_en la_casa_de_don_Antonio_Maza. Estudió_en el_Seminario_de_Santa_Cruz, único_plantel_de_secundaria el_Seminario_de_Santa_Cruz existía_en Oaxaca.

Linguistic Distribution

Once we have changed words that must be considered as one token (collocations) and anaphora

substitution, the next step is assigning type to each token using a dictionary, ambiguity is solved asking the

user (in future implementations it could be done using contextual information). Nouns and adjectives

become nodes in the semantic network, verbs and prepositions forms relations.

We apply linguistic distribution [2] to the sentences to relate subjects with objects, it occurs when it is said

something about a subject in a text. In our example we observe that Benito_Juárez is related with

San_Pablo_Guelatao, but apparently Oaxaca is isolated. When we apply linguistic distribution we obtain

three facts talking about Benito_Juárez

From the sentence and applying linguistic distribution: Benito_Juárez nació_en San_Pablo_Guelatao, Oaxaca, en 1806 We obtain the following facts: Benito_Juárez nació_en San_Pablo_Guelatao (Benito_Juárez was born in San_Pablo_Guelatao) Benito_Juárez nació_en Oaxaca


(Benito_Juárez was born in Oaxaca) Benito_Juárez nació_en 1806 (Benito_Juárez was born in 1806)

Semantic Network Structuring

The semantic network structuring involves two operation: storing and retrieval. Storing is done taking the

facts obtained during Text Analysis. An expert user assigns the truth value for each fact using values

between –1 and 1, 0 represents facts that are false. –1 is used with facts with complete uncertainty, 1 is

used in facts with complete certainty. Each fact is of the form o1 and o2 as was obtained previously. If a fact

is already in the network the user is asked to use the best truth value. Other options on the certainty value

are possible. The certainty value is placed in the arc that links two nodes.

Figure 2 shows one fragment for the semantic network of the sample text. Truth values are showed in

ellipsis.

Figure. 2. An example of a fuzzy semantic network


System for Knowledge Extraction

We are building a system to implement the knowledge extraction. The systems consists of two main

modules (figure 3). The knowledge acquisition module takes texts from the Internet and applies the

operations described in the section 2 in this paper to build the semantic network assigning a truth value for

each fact.

We validate the knowledge stored using a query module. The answers are given to the user in textual or

graphical form. A navigational tool is also under development to facilitate to the user the navigation in the

knowledge.

Fig. 3. Main modules of the system

Conclusions

We have presented a method to extract knowledge from text files obtained from the Internet. As we know

some information in the Internet is uncertain or invalid, we reflect this using truth values from –1 to 1. A

system is under development to automate the process and provide a tool to the users for navigating in the

knowledge stored. Many experiments should be done to improve our method and to evaluate the

qualification of the knowledge.

References

[1] M. Ross Quillian, Semantic Memory in Semantic Information Processing, (Editor Marvin Minsky), MIT

1968

[2] Jesús Manuel Olivares C., Sistema Evolutivo para Representación del Conocimiento (bachelor degree

theses), IPN-UPIICSA, clasif. 7.152, Mexico City, abril 1991

[3] Dori Dov, ViSWeb—the Visual Semantic Web: unifying human and machine knowledge representations

with Object-Process Methodology, The VLDB Journal — The International Journal on Very Large Data Bases,

Volume 13 Issue 2 May 2004

[4] Raymond Kosala, Hendrik Blockeel, Web mining research: a survey, ACM SIGKDD Explorations

Newsletter, Volume 2 Issue 1, June 2000


[5] Jimmy Lin, Boris Katz, Question answering from the web using knowledge annotation and knowledge

mining techniques, Proceedings of the twelfth international conference on Information and knowledge

management, November 2003

[6] Adolfo Guzmán A., Finding the Main Themes in a Spanish Document en Journal Expert Systems with

Applications, Vol. 14, No. 1/2, 139-148, Jan./Feb. 1998


Antecumem, Prototipo de Herramienta para el Análisis de Datos con Cubos

en Memoria Principal

G. L. Martínez; A. Guzmán

Abstract

It describes a tool called Antecumem which is used for analysis in databases stored in main memory. The

description includes a list of questions from business and store the database. The warehouse is a data

structure and arrangements that are linked to each other, call Arblis, which does not seek data on disk,

which reduces the time in the search for data. Arblis stores the database, which is modeled as a multi-

dimensional (data cube). This model lets you define operations in the data cubes, oprations with an

interest in events over time, but may also be in any other dimension. An operation with the data of

interest to analyze, may be the percentage increase from one period to another. Arblis responding to the

list of business questions raised here.

Keywords: Data Analysis, Data Mining, Database, Multidimensional Database, Data Cube.

Introducción.

El análisis de datos o las preguntas de negocio son indagaciones a las bases de datos de una empresa o

institución con el fin de hallar datos valiosos o verificar situaciones que están relacionadas con diferentes

tipos de decisiones como: a) la operación diaria, b) el resolver situaciones de corto plazo o c) para la

planeación a largo plazo.

Un ejemplo de una pregunta de negocio para tomar una decisión del tipo c), es “Localizar los productos de la

temporada de octubre a diciembre que han mantenido una demanda en los últimos seis años atrás, y que

se han mantenido en los primeros 10 lugares de ventas, en las diferentes tiendas del país de una empresa

departamental”. A través del análisis de las preguntas de negocios que aparecen en varios artículos o libros

relacionados al análisis de datos, como [2], [21] y [22] y que son las preguntas más recurrentes a resolver en

las empresas o instituciones, se definió una lista de 7 tipos de preguntas y que se listan en la Tabla 1. El valor

de las preguntas se relaciona con el objetivo de la organización, dueña de los datos y por ser preguntas para

el apoyo a la toma de decisiones, se requiere disminuir su tiempo de obtención de las respuestas y en

especial el de extracción de los datos que se requieren para obtener las respuestas.

Objetivo, Agilizar el Análisis de Datos

Para agilizar el análisis de datos, en la parte de reducir el tiempo de obtención de los datos y así obtener las

respuestas a las preguntas de la Tabla 1, en este trabajo los datos se almacenan en memoria principal, sin

sacrificar el tamaño o volumen de ellos; y también aquí en RAM se analizan los datos; con esto se utiliza una

alternativa al “cache” en disco. Para esto se emplean estructuras para representar una base de datos multi-

dimensional o cubos de datos, los cuales se utilizan por un prototipo de software llamado Antecumem

(Análisis Temporal con Cubos en Memoria).


Tabla 1. Preguntas de Negocios

No, Nombre de Tipo de Pregunta y Descripción

1. Puntual. Revisar el valor o hecho de interés, de un elemento, en un momento, en un lugar, de un cliente, etcétera.

2. Rango. Revisar el acumulado de hechos, acotado por los rangos en las variables de interés.

3. Eficiencia. En base a los hechos de interés, calcular su porcentaje de incremento o decremento en dos períodos con

rangos en todas las variables (¿Qué “tanto” mejoramos?).

4. Eficiencia Grupal. En base a los hechos de interés con su porcentaje de incremento o decremento, indicar los n

“mejores elementos en dos períodos (¿En donde “mejoramos”?).

5. Conservación/Perdida. En base a los hechos y una variable de interés, en dos períodos de tiempo, observar los

elementos, ya sea que permanecen o que desaparecen o sea revisar los n “buenos” elementos, en un período y otro.

6. Temporalidad. En base a los hechos y una variable de interés, observar los n “mejores” elementos que permanecen, en

dos o más períodos de tiempo (temporadas). Períodos de tiempo que puede ser anual, mensual u otro período.

7. Tendencias. En base a los hechos y una variable de interés, buscar en un rango de tiempo, los n elementos de interés

que mantienen una tendencia en p lapsos de tiempo.

Una Posible Solución

El acceso a memoria principal o RAM es del orden de 10-7 segundos (100 nano-segundos), con lo cual vemos

que el tiempo de extracción se puede reducir, al ya no realizar la extracción a partir del disco. Este valor

teórico es lo que motiva en gran parte este proyecto. La limitación principal para esta solución es la cantidad

de RAM disponible. Por ejemplo, para una PC personal, su tamaño es 50 veces menor que la del disco (disco

de 100 GB, RAM de 2 GB), pero aún así, es razonable el utilizar esta cantidad de RAM y caracterizar los

problemas que se pueden resolver utilizando esta cantidad de memoria.

Una Característica del problema

Las preguntas de negocios listadas en la Tabla 1, y que aquí se resuelven, pueden ser expresadas por medio

de expresiones del lenguaje de consulta estructurado (SQL, Structured Query Lenguaje), esto en caso de

tener una base de datos relacional. Antecumem ha organizado una manera especial de capturar los

parámetros de estas preguntas para luego acceder a la estructura Arblis.

También Antecumem puede capturar un número de expresiones o consultas que son posibles de construir

con la Forma General de la Figura 1 y que depende del número de dimensiones y de las jerarquías en las

dimensiones, como se describe en [1]. El resultado de responder las expresiones o consultas se le conoce

como vistas o cubos de datos, además dependiendo del modelado de datos para responder las preguntas,

como en [2] se pueden crear operadores para trabajar con las vistas o los cubos de datos

SELECT A, S(a(A))

FROM D


GROUP BY A

Donde:

- A es un subconjunto de atributos de las

relaciones en D=d1, .., dn, y que forman la

base de datos.

- S(a(A)) es un agregado de interés sobre

algunos de los atributos en A, pero de tipo

numérico, como SUM, MAX, MIN, etc.

- Las di , i=1,…,n se conocen como dimensiones.

Fig. 1. Forma General de Consultas que Responden a una Pregunta de Negocio en Bases relacionales

Soluciones a la Reducción de Tiempo en la Extracción de Datos

El tema de agilizar el tiempo de respuesta, es un tópico y un área de investigación en las Base de Datos [3]

que lleva más de 40 años en desarrollo, pero continua siendo actual por el constante crecimiento de las

bases de datos, las recientes y variadas tecnologías de adquisición, almacenamiento y dispersión de datos,

además de la importante necesidad de realizar constantes análisis a estos datos. Análisis que se realiza con

los procesos de Minería de Datos y el Procesamiento Analítico en Línea (OLAP, Analytical Processing On-

Line).

En estos procesos, primero con ayuda de los programas llamados extractores de datos se forma el espacio

de búsqueda; y después la corroboración de hipótesis se realiza con programas analizadores. Todo este

trabajo puede tardar mucho tiempo [2] y [4], ya que se realizan en bases de datos que contienen grandes

cantidades de registros. En www.wintercorp.com existe un registro de las bases de datos más grandes para

la toma de decisiones u OLAP, del orden de 100 terabytes. El cubo de datos [1] y [2] puede formar parte de

las siguientes soluciones para agilizar el tiempo de respuesta:

1) La materialización de vistas en disco que se detalla en [1] y [5], con el correspondiente calculo de su

tamaño en [6].

2) El tratar la similaridad en consultas, enfoque dado en [7], [8] y [9], para crear una función de distancia

entre los objetos de la base de datos.

3) Crear estructuras para resolver consultas de tipo rango, ya sea sumas o máximos. Esto se puede ver en

[1], [2], [10] y [11].

4) Crear funciones de densidad en datos continuos, otra forma es compactar en forma especial los cubos

[12].

5) Aprovechar el orden en la estructura de Lattice que almacena en sus nodos las vistas en disco como se

indica en [4].


6) Crea Sistemas Administradores de Bases de Datos (SMBD) en Memoria Principal, como se diseña e

implementa un SMBD en [13] en memoria con todas los componentes de un SMBD en disco, pero en él, su

fin es realizar transacciones o trabajar un sistema de tipo OLTP (Online Transaction Processing).

7) Datos en Memoria Principal, existen trabajos como [14], que también carga una base de datos en

memoria principal, su objetivo es apoyar la toma de decisiones, con las premisas de “dado un dato hallarlo

en el menor número de accesos a la estructura en memoria donde se almacena la base de datos”.

Algunas de estas soluciones son para disminuir el tiempo de respuesta en accesos a bases de datos y en su

análisis. Las soluciones que acceden disco, son alternas a nuestra solución, y las que cargan en memoria

principal bases de datos tienen otro objetivo: transacciones o responder accesos directos a registros, más no

responder preguntas de negocio de las que aquí se plantean.

Análisis y Diseño de la Solución

El análisis y diseño de Antecumem, podemos resumirlo en: 1. Localizar en las fases de los procesos de OLAP

y Minería de Datos donde se puede reducir el tiempo (sección 3.1); 2. Diseñar la estructura Arblis, almacén

de datos en memoria (sección 3.2); 3. Modelar cubos o bases de datos multidimensionales con arblis (no se

presenta en este artículo), y 4. Modelar las preguntas de negocio que pueden ser resueltas con cubos de

datos y los algoritmos que responden a estas preguntas (no se presenta en este artículo).

Las Fases de OLAP y Minería de Datos

Los procesos de OLAP y de Minería de Datos, coinciden en dos fases como se describen en las modelaciones

realizadas en [15], [16], [17], [18] y [19]; las cuales son: 1) extracción y 2) el análisis. Las fases de estos

procesos se ilustran en la Figura 2. En la fase de extracción, ahora se evitara el acceso a disco, al cargar en

RAM la base de datos para responder cualquier consulta de la forma ya mencionada, con lo cual se elimina

el trabajo del SMBD a disco, es decir ahora tenemos las dos fases en memoria principal y realizadas por un

mismo programa, como se observa en la Figura 3.

Fig. 2. Fases de Extracción y Análisis


Fig- 3. Arquitectura con Datos en RAM.

La estructura Arblis almacena la Base de Datos Multi-Dimensional (BDMD) o el cubo de datos original, el cual

se trabajara a partir de sus variables de interés. Como ya se menciono en la sección 1.4, las variables se

denominan dimensiones, y los valores a sumarizar o agregar, se conocen como hechos. De igual forma,

cualquier resultado que se obtenga a partir de una consulta a la BDMD o Arblis se llamara cubo de datos,

con lo cual podemos obtener varios cubos que participen al resolver una pregunta.

Arblis, la Estructura en Memoria Principal para Almacenar los Datos a Analizar

Para explicar la organización de la estructura en memoria, se hará con los datos de la Tabla 2, que tiene 18

hechos (columna sales). La estructura se aprecia en el primer renglón, que es además de los hechos, tres

dimensiones y que forman la base autos(Model, Year, Color, Sales), que puede ser definida como C(d1, d2,

d3). Se tienen las siguientes características en esta base:

Son tres dimensiones y los hechos.

Dimensión d1 con dos valores Chevy, Ford.

Dimensión d2 con 3 valores 1990,1991,1992 y

Dimensión d3 con 3 valores blue, red, white.

Tabla 2. Bases de Datos “autos” con 18 hechos.

Registro Model Year Color Sales

0 Chevy 1990 Blue 5

1 Chevy 1990 Red 87

2 Chevy 1990 white 62

3 Chevy 1991 Blue 54

4 Chevy 1991 Red 95



6 Chevy 1992 Blue 31

7 Chevy 1992 Red 54


9 Ford 1990 blue 64

10 Ford 1990 red 62

11 Ford 1990 white 63

12 Ford 1991 blue 52

13 Ford 1991 red 9


15 Ford 1992 blue 27

16 Ford 1992 red 62


La reorganización de la Tabla 2, se observa en la Tabla 3, que es en dos arreglos, donde los valores de las

dimensiones están en el arreglo 1 y los apuntadores que se agregan están en el arreglo 2. Brevemente los

valores están ordenados en la forma siguiente:

Dimensión d1 model, segmento 1, posiciones 0-1.

Dimensión d2 year, segmento 2, posiciones 2-7 y

Dimensión d3 color, segmento 3, posiciones 8-25.

Las posiciones 0 y 1 están ligadas a las posiciones 2 y 5 respectivamente.

Las posiciones entre 2 y 7 están ligadas a las posiciones 8, 11, 14, 17, 20 y 23 respectivamente.

En cada una de las entradas de la 8 a la 25, están almacenados los hechos.

Aquí, 2, 6 y 18, son los tamaños de los segmentos pertenecientes a las dimensiones en el arreglo 1 que

almacena los valores de las dimensiones.

Tanto el arreglo que almacena los valores de las dimensiones como el arreglo que almacena los

apuntadores son de tamaño 26.

Navegación Resumida en Arblis


Por la forma en que se describe el arreglo 1, se puede ver que el dominio de valores D(di), donde di es la i-

ésima dimensión de la BDMD o cubo, están representados en el arreglo 1 y además se encuentran

ordenados tal que se que permite agilizar su recorrido. Todas las entradas o valores xiЄdi de las tuplas (x1, x2,

x3), si es que existen en el cubo, se pueden hallar recorriendo el segmento correspondiente del arreglo 1 a

cada una de las dimensiones.

El valor x1 que pertenece a la dimensión d1, se buscaría en el primer segmento del arreglo 1, luego tomar el

valor x2 de la dimensión d2 y buscarlo en el segundo segmento del arreglo 1; así hasta realizar la búsqueda

del valor xn en su correspondiente segmento (el último) y finalmente tomar el valor del hecho en el arreglo

3, la navegación entre las dimensiones se realiza con los apuntadores del arreglo 2. Es decir, se formaría la

coordenada con los valores y el hecho correspondiente de la forma (x1, x2, x3, v1,2,…,n), donde v1,2,…,n esta en

función de los valores (x1, x2, x3).

Las Preguntas de Negocio a Resolver con la Estructura

La estructura es útil, ya que permite agilizar el acceso a datos y realizar el análisis de preguntas de la Tabla 1,

donde ya tiene una clasificación y la descripción de la pregunta. Por restricciones de espacio no se describen

los elementos formales que ayudan a definir el tipo de pregunta y los algoritmos en función de los cubos

que son necesarios para resolver estas preguntas.

En esta sección se indico la parte del proceso que se lleva de disco a RAM tanto del proceso de OLAP y

Minería de Datos. Se describió en forma resumida la estructura Arblis que representa la base de datos en

memoria; cómo la estructura representa la unidad básica a tratar, un cubo de datos o la vista en detalle; y

cómo Arblis o los cubos pueden responder una pregunta de negocio de la Tabla 1.

Pruebas y Resultados

Las pruebas que se hicieron para mostrar el trabajo de Antecumem, son con una base de datos de prueba

que se llama SH que fue obtenida de la instalación del SMBD Oracle 9.2i [www.oracle.com]. Las

dimensiones en la base de datos están en la Tabla 4.

Tabla 3. Reorganización de Tabla 2 en la Estructura Arblis

Arreglo 1 Arreglo 2

Dimensión Posición Valor Apuntador Segmento Apunta a

Model 0 Chevy 2 1 Segmento 2

1 Ford 5

Year 2 1990 8 2 Segmento 3

3 1991 11

4 1992 14

5 1990 17

6 1991 20


7 1992 23

Color 8 Blue 5 3 Hechos

9 Red 87

10 White 62

11 Blue 54

12 Red 95

13 White 49

14 Blue 31

15 Red 54

16 White 71

17 Blue 64

18 Red 62

19 White 63

20 Blue 52

21 Red 9

22 white 55

23 Blue 27

24 Red 62

25 White 39

Tabla 4. Base de Datos SH, con 4 dimensiones.

Dimension (di) 1 2 3 4 Hechos

Nombre Product Customer Promotion Time Sales

Valores 10,000 50,000 501 1,461 1,016,271

Las pruebas aquí descritas se llevaron a cabo con:

Una PC compatible con procesador XEON a 1.7 MH y RAM con 1.5 GB.

El SMBD MySQL 4.0.2 para NT y programación JAVA con JKD 1.5.


Sistema Operativo Windows 2000 Profesional.

Prueba de Velocidad de Acceso a Diferentes Volúmenes de Datos

La Tabla 5 muestra el comportamiento de tiempos en segundos de una Pregunta de Tipo Rango en la base

de datos SH con incrementos de 1,016,271 registros. Se observa el SMBD MySQL versión 4.0 resulta más

rápido que el programa desarrollado con el número inicial de registros de la base de prueba, pero pasado un

límite, Antecumem en memoria muestra mayor rapidez.

Tabla 5. Tiempos de Acceso a Millones de Registros

No. De Prueba Registros SMBD Antecumem

1 1,016,271 0.8 1:016

2 2,032,542 1.52 1:172

3 3,048,813 2.22 1:334

4 4,065,084 2.98 1:516

5 5,081,355 3.95 1:714

6 6,097,626 4.67 1:953

7 7,113,897 5.44 2:234

8 8,130,168 6.13 2:488

9 9,146,439 6.75 2:563

10 10,162,710 9:23 2:735

Resumen de Pruebas

En la Tabla 6 se tiene un resumen de los resultados en segundos en las diferentes preguntas de negocio de la

Tabla 1, con diferentes volúmenes de registros, utilizando el SMBD y el software desarrollado.

Tabla 6. Tiempos de Respuesta, SMBD (S) vs Antecumem (Antcmm)

No SM-BD Ant-

cmm

SM-BD Ant-cmm SM-BD Ant-cmm SM-BD Ante-cmm

1,016,271 10,162,710 12,195,252 15,244,065

1 .31

.31

0 (24)

3

0 (22)

3

0 (28)

4

0

2 (5) 1.390 (25) 3.438 (21) 4.062 (28) 4:875


0.8 9 11 13

3 (6)

1.6

2,641 (32)

17

5.094 (32)

20

5.390 (40)

24

5:953

4 (4)

3

0.704 (34)

34

1.16 (56)

41

1.0 (72)

51

1:141

5 (3)

3

1.359 (32) 12 2.125 (30)

15

2.266 (38)

17

2:469

6 (9)

2

2.15 (15)

15

2.390 (34)

19

2.453 (44)

22

2:703

() Primera medición con el SMBD, la segunda generalmente es menor.

* Faltan operaciones para regresar lo que se desea, acorde a la operación de negocios.

Variante en la Prueba de Temporalidad

Se diseño otra variante de la prueba de temporalidad para analizar más el desempeño de la herramienta. La

variante consiste en el aumentar el número de meses (cubos) de análisis y ver el desempeño en la pregunta

de temporalidad. Los resultados en segundos están en la Tabla 7.


Tabla 7. Tiempos en Pregunta de Temporalidad

Me-ses SM-BD Ant-cmm SM-BD Ant-cmm SM-BD Ant-cmm SM-BD Ant-cmm

1,016,271 10,162,710 12,195,252 15,244,065

3 (9)

1

2.015 (35)

15

2.313 (33)

17

2.344 (44)

22

2:562

4 (10)

2

2.672 (40)

20

3.110 (39)

24

3.125 (51)

30

3:453

6 (9)

3

4.015 (49)

29

4.859 (52)

35

4.891 (67)

50

5:575

12 (11)

6

8.140 (79)

59

10.59 (86)

71

10.92 (109)

89

11:50

() 1era. medición con el SMBD, la segunda generalmente es menor.

Desempeño Empíricamente Estable

Al graficar el desempeño de la herramienta en cada una de las preguntas contra los diferentes volúmenes de

pruebas se observa que es empíricamente estable. Como ejemplo se puede ver Gráfica 1.

0

10

20

30

40

50

1M 10M 12M 15M

Tie

mp

o e

n S

eg

un

do

s

Millones de Registros

Tiempos en Pregunta de Temporalidad en Tres Meses (Tipo T)

SMBD (1era Medición)

SMBD (2da Medición)

Antecumem

Gráfica 1. Pregunta de Temporalidad

Conclusiones, Ventajas y Trabajo Futuro

Conclusiones

Las conclusiones de este trabajo son:

La estructura Arblis está diseñada para buscar en orden en las dimensiones y con los ciclos predefinidos

dado un valor en cada dimensión, que se refleja en su construcción y que acelera los tiempos de respuesta

las consultas del tipo de la Tabla 1.

El modelo de datos permite identificar las partes de las preguntas de la Tabla 1.


El modelo de datos permite realizar los algoritmos para responder las preguntas de la Tabla 1 usando la

estructura Arblis. (la demostración formal de estos tres puntos no forma parte de este artículo)

Ventajas y Desventajas del Prototipo

Ventajas.

a) Agiliza tiempo de respuesta sobre disco, se alcanzo hasta más de 8 veces el tiempo menor de respuesta,

dependiendo del tipo de pregunta.

b) La estructura que almacena la base de datos multidimensional no tiene celdas vacías.

c) Puede adaptarse a otras preguntas de negocios que se definan y que trabajan con cubos de datos.

Desventajas.

a) Es un prototipo aún, esto significa que es necesario realizar más código para dejarlo como una

herramienta (pero, esto no afecta el desempeño de la herramienta).

b) No tiene una interfaz amigable.

c) Tarda mucho en cargar y formar la estructura, con un millón de registros tarda 2 minutos, con diez

millones tarda 120 minutos y aún más en quince millones de registros, aunque esto ya se ha resuelto

parcialmente, al guardar la estructura Arblis en disco y leerla, con lo cual la carga se reduce a decenas de

minutos.

Trabajos Futuros

Algunos trabajos que se consideran interesantes son:

1) Acelerar la Carga de la Base a la Estructura. Como se menciono, una de las desventajas es su tiempo de

carga. Para acelerar la carga, se puede programar a Antecumem, si no hay cambios en los datos y la

estructura este almacenada en disco en disco leerla, en otro caso se pregunta al analista si los datos que se

tienen pueden ser útiles para realizar análisis, a pesar de que hay cambios, o se puede cuantificar la

afectación de los cambios o el porcentaje de los cambios.

2) Mejorar la Interface de Captura y la Entrega de Resultados. Por el momento la captura de la “expresión”

que define la pregunta de negocio no es sencilla para un analista de negocio y la respuesta que se entrega es

en formato texto que dificulta su interpretación. Una forma de capturar la expresión es mostrando solo las

áreas que se requieren para plantear el tipo de pregunta, pues el tipo de pregunta define los parámetros.

Una mejora en la entrega de resultados, podría ser si estos se muestran en gráficas de tipo Excel.

Referencias


[1] J. Gray, A. Bosworth, A. Layman, and H. Pirahesh, "Data Cube: A Relational Aggregation Operator

Generalizing Group-By, Cross-Tab, and Sub-Totals," Data Mining and Knowledge Discover, Vol. 1, No. 1,

1997, pp. 29-53, 1997.

[2] R. Agrawal, A. Gupta, S. Sarawagi, “Modeling Multidimensional Databases”, IBM Almaden Research

Center, 1997.

[3] Z. Chen, C. Li, J. Pei, “Recent Progress on Selected Topics in Database Research ”, Microsoft Research,

2003.

[4] V. Harinarayan, A. Rajaraman, J. Ullman. “Implementing Data Cubes Efficiently”, Stanford University,

1996.

[5] T. Morzy, M. Wojciechowsky, M. Zakrzewicz, “Materialized Data Mining Views”, Poznan University of

Technology, Institute of Computing Science, 2000.

[6] A. Shukla, P. M. Deshpande, J. F. Naughton, K. Ramasamy, “Storage Estimation For Multidimentional

Aggregates in The Presence of Hierarchies”, Computer Sciences Department University of Wisconsin –

Madison, 1996.

[7] V. Ganti, J. Gehrke, R. Ramakrishnan, “Mining Data Streams under Block Evolution”, SIGKDD Explorations,

3(2):1-10, 2002.

[8] P. Ciaccia, M. Patella, "Approximate Similarity Queries: A survey", University of Bologna, Italy, 2000.

[9] B. Braunmüler, M. Ester, H-P. Kriegel, J. Sander, “Efficiently Supporting Multiple Similarity Queries for

Mining in Metric Databases“, Institute for Computer Science, University of Munich, 2000.

[10] A. Gupta, V. Harinarayan, D. Quass, “Aggregate-Query Processing In Data Warehousing Enviroments”,

IBM Almaden Research Center, Stanford University, 1995. [11] Ch. Ho, R. Agrawal, N. Megiddo, R. Srikant,

“Range Queries in OLAP Data Cubes”, IBM Almaden Research Center, 650 Harry Road, San José, CA 95120,

1997.

[12] J.Shanmugasundaram, U. M. Fayyad, P. S. Bradley, “Compressed Data Cubes for OLAP Aggregate Query

Approximation on Continuous Dimensions”, Microsoft Research, University of Wisconsin, Technical Report

MSR-TR-99-13, 1999.

[13] K. Jung, K. Lee, “Design and Implementation of Storage Manager in Main Memory Database”, System

ALTIBASE”, Real-Time Tech Lab, ALTIBASE Co. Seoul, Korea, 2003.

[14] J. Rao, “Cache Concious Indexing for Decision-Support in Main Memory”, Columbia University, 1999.

[15] G. L. Martínez, Y. Albores, C. Castillo, “Automatización del Proceso de Minería de Datos”,

Memoria del 2do. Foro “Computación de la Teoría a la Práctica”, Canacintra CIC-IPN, 2001.

[16] G.L. Martínez., A. Guzmán., M. Alexandrov, “Modelo de Minería Datos con Ajuste de Curvas”, CIICC-

2003.

[18] Z. Chen, “Intelligent Data Warehousing, From Data Preparation to Data Mining”, CRC PRESS, 2000.

mailto:karthik%[email protected]


[19] A. Berson, S. Smith, Data Warehousing, Data Mining & OLAP, McGraw-Hill, 1997.

[21] Ch. Li, X. S. Wang, “A Data Model for Supporting On-Line Analytical Processing“, George Mason

University, [email protected], 1996.

[22] Harjinder S. Gill, The Official Guide to Data Warehousing, ISBN 07897-0714-4, Editorial QUE, 1996.

mailto:[email protected]


Memorias Asociativas En Álgebra Min-Max Para El Aprendizaje y

Recuperación De Imágenes en Tonos De Gris

Díaz de León Santiago J. L., Salgado Ramírez J. C., Gamino Carranza A., Rojas Hernández R. ,Trujillo Mora V.

Resumen

Las memorias asociativas son un tema de mucha relevancia en el Reconocimiento de Patrones,

principalmente las memorias basadas en álgebra min-max; estas últimas ofrecen características

interesantes para el aprendizaje y recuperación de patrones, debido a que se salen del esquema

convencional (anillo de los reales) en el que se venían trabajando las memorias asociativas, proponiendo

trabajar en álgebra min-max. En el presente artículo se muestra la forma en que las memorias basadas en

álgebra min-max trabajan con imágenes en tonos de gris. En especial se hace énfasis en las memorias

debido a que éstas fueron diseñadas sólo para trabajar en el conjunto de los binarios, pero se mostrará

cómo se operan con imágenes en tonos de grises.

Palabras clave: Memorias asociativas, imágenes en tonos de gris, álgebra min-max.

Abstract

The associative memories are a very relevant topic in Pattern Recognition, especially in the memories based

on min-max algebra. These provide interesting characteristics for the learning and recovering of patterns

because they do not fit in a conventional structure ( ring of the real ones ) on which associative memories

were worked. On the current article, we show the way memories based on min-max algebra work with

images in gray tones. We mainly emphasize the alpha-beta memories because they were designed to work

only in the binary set. However we will show how to operate with gray toned images.

Keywords: Associative Memories, gray level images, min-max algebra.

Introducción

Los sistemas de procesamiento de información hoy en día a pesar de toda su capacidad de cálculo, no

pueden compararse a los seres humanos en la capacidad de reconocer patrones, sonidos o imágenes. Este

dilema básico en teoría computacional (porqué las computadoras pueden procesar toneladas de números

pero no procesar eficientemente imágenes) ha dejado perplejos a los científicos durante muchos años.

Muchos investigadores ha concebido modelos que podrían ayudar a develar lo interesante y sorprendente

de la capacidad del cerebro humano para aprender y recordar su entorno. Este hecho ha inspirado a algunos

investigadores, en el área de reconocimiento de patrones, a presentar modelos que simulen dicho

comportamiento; estos modelos son las memorias asociativas [4-13], [16-20], [22-27], [29-32], [34-37], [40-

41]. Algunos de estos modelos han sido implementados en circuitos integrados [21] [28] [38], logrando una

gran velocidad en la operación y en la respuesta; la finalidad de la implementación, es aplicarlos en la

solución de problemas para diversas áreas.


El concepto de memoria asociativa es bastante intuitivo: se trata simplemente de asociar dos patrones, es

decir, el propósito fundamental de una memoria asociativa es recuperar correctamente (de manera perfecta

o en algunos casos de manera aproximada) patrones completos a partir de patrones de entrada, los cuales

pueden estar afectados con diferente tipo de ruido. Dentro de los tópicos de interés concernientes a las

memorias asociativas se encuentran: capacidad de aprendizaje y almacenamiento [1], [11], [13], [14], [18],

[19], [37]; eficiencia en la respuesta o recuperación de patrones; rapidez [22] y inmunidad al ruido.

Las memorias asociativas se pueden clasificar en:

Memorias clásicas y

Memorias basadas en álgebra min-max.

Las memorias clásicas [1-13], [16-30], [33-37] emplean el anillo de los reales mientras que las memorias

asociativas basadas en álgebra min-max utilizan un semi-anillo de máximos y mínimos [31], [32], [41]. Esta

diferencia fundamental se centra en las operaciones que se utilizan para las fases de aprendizaje y

recuperación; en el caso de las memorias clásicas utilizan sumas de productos, mientras que las memorias

basadas en álgebra min-max realizan máximo de sumas.

Conceptos Básicos de Memorias Asociativas

Una memoria asociativa es un proceso que tiene por objetivo: “recuperar en forma perfecta patrones, a

partir de patrones de entrada, que quizá estén alterados con algún tipo de ruido” [15]; esta memoria se

puede ejemplificar como una caja negra que recibe de entrada un patrón x lo procesa y genera como

resultado un patrón y, como se muestra la figura 1. La relación que existe entre el patrón de entrada x con el

de salida y se muestra mediante una pareja ordenada .

Figura 1. Memoria Asociativa vista como una caja negra

El patrón de entrada x y el patrón de salida y son vectores columnas; la memoria asociativa debe ser capaz

de aprender un conjunto de parejas ordenadas de patrones, y recuperar los de salida a partir de los de

entrada. La representación del conjunto de todos los patrones que conforman la memoria M es:

, | 1,2, ,x y p (1)

donde p indica la cardinalidad del conjunto mostrado. Al conjunto finito de patrones denotado en la

expresión 1 se le conoce como: “conjunto fundamental de patrones” y sus elementos “patrones

fundamentales”, los cuales pueden ser de entrada o salida. Para hacer referencia de algún elemento de un

patrón x o de un patrón y, se usará la notación:

j jx o y (2)


donde j, en la expresión 2, representa el índice de la posición del elemento del patrón y el índice de

pareja.

De acuerdo con la figura 1, M es la “matriz de aprendizaje M” ó “memoria asociativa M”. En M se almacena

la información codificada del conjunto fundamental, después que haya aprendido será operada de cierta

manera con el patrón x que se presente de entrada, el cual puede estar alterado con algún tipo de ruido, y

generará un patrón y de salida. El término “recuperar en forma perfecta” significa que el patrón que ha sido

recuperado (recordado por la memoria), es idéntico al patrón que fue aprendido.

Las memorias asociativas constan de dos fases, a saber:

La fase de aprendizaje (generación de la memoria asociativa) consiste en encontrar el o los operadores

necesarios, para que de alguna manera se codifique la relación que existe entre los patrones de entrada y de

salida, y con dicha codificación se genere la matriz de aprendizaje M.

La fase de recuperación (operación de la memoria asociativa) consiste en encontrar el operador o los

operadores necesarios y las condiciones suficientes para generar un patrón de salida; es decir, una vez que

se ha conformado la matriz M, se le presenta un patrón de entrada x que previamente se aprendió, M se

opera con el operador o los operadores necesarios bajo ciertas circunstancias con el patrón x, y se genera un

patrón de salida y.

A un patrón de entrada alterado con ruido, se le representará como . Por ejemplo, la expresión

representa el patrón de entrada alterado con ruido. Si en la fase de recuperación todos los patrones son

recuperados en forma perfecta, se dice que la memoria es perfecta.

Las memorias asociativas pueden clasificarse como: autoasociativas y heteroasociativas.

Una memoria es autoasociativa si se cumple la igualdad de la expresión 3:

pyx ,...,2,1 (3)

Una memoria es heteroasociativa si se cumple la condición de la expresión 4:

p,...,2,1 tal que se cumple yx (4)

Las memorias asociativas, en función a su diseño, obtienen los resultados esperados [33]; sin embargo, el

ruido, que es un factor que determina lo robusto que puede ser una memoria, causa muchos estragos en

éstas, repercutiendo en la recuperación en forma perfecta de patrones.

Para el caso de imágenes binarias, el ruido (ver figura 2), suele clasificarse en:

1. Ruido aditivo

2. Ruido sustractivo

3. Ruido mezclado (sal y pimienta)


Figura 2. Imagen original (arriba), imagen con ruido aditivo (abajo-izquierda), imagen con ruido sustractivo (abajo-

centro) e imagen con ruido mezclado (abajo-derecha)

Tanto las memorias clásicas como las memorias basadas en álgebra min-max, utilizan los conceptos

mencionados previamente, pero en estas últimas, existen teoremas para caracterizar la cantidad de ruido

que pueden soportar [31], [32], [41]. Otra diferencia importante es que las memorias basadas en álgebra

min-max pueden funcionar en ambos modos (autoasociativo y hetereoasociativo), mientras que las clásicas

solo funcionan en un modo.

Memorias Asociativas Morfológicas

Las memorias morfológicas rompen el esquema convencional de como venían tratándose las memorias

asociativas clásicas, en contraste, las memorias morfológicas se basan en: el uso de máximos o mínimos de

sumas para la fase de aprendizaje y máximos o mínimos de sumas para la fase de recuperación [33].

Existen dos tipos de memorias morfológicas: las memorias (max), simbolizadas por M, y las memorias

(min) simbolizadas por W; ambas memorias funcionan para los modos heteroasociativo y autoasociativo

(nótese de entrada la superioridad sobre las memorias clásicas).

El conjunto fundamental para las memorias asociativas morfológicas es:

, (4)

Se definen dos nuevas operaciones entre matrices en términos de las operaciones y , con el fin de

expresar las fases de aprendizaje y recuperación de las memorias asociativas morfológicas [33], [43].

Sea D una matriz y H una matriz cuyos términos son números enteros.

Definición 1. El producto máximo de D y H, denotado por C D H , es una matriz cuya ij-ésima

componente se define de la siguiente manera:


Definición 2. El producto mínimo de D y H, denotado por C D H , es una matriz cuya ij-ésima

componente se define así:

A continuación se detallan por separado las memorias tipo max y las tipo min

Memorias asociativas morfológicas tipo max

Fase de Aprendizaje

La fase de aprendizaje para las memorias morfológicas de tipo max consta de dos etapas:

Primera Etapa.- En cada una de las p asociaciones se usa el producto mínimo, expresión 6, para crear

la matriz de dimensión , donde el negado transpuesto del patrón de entrada se

define como:

(7)

Segunda Etapa.- Se aplica el operador (máximo) a las p matrices para obtener la memoria morfológica M.

Fase de Recuperación

La fase de recuperación consiste en realizar el producto mínimo (), expresión 6, de la memoria M con un

patrón de entrada , donde , para obtener un vector columna de dimensión m:

la i-ésima componente del vector y es:


Memorias asociativas morfológicas tipo min

Fase de Aprendizaje

La memoria morfológica min para la fase de aprendizaje consta dos etapas:

Primera Etapa.- En cada una de las p asociaciones se hace uso del producto máximo, expresión 5,

para crear la matriz de dimensión , donde el negado del transpuesto del patrón de

entrada se define como:

Segunda Etapa.- Se aplica el operador (mínimo) a las p matrices para obtener la memoria W.


La fase de recuperación consiste en realizar el producto máximo , expresión 5, de la memoria W con un

patrón de entrada , donde , para obtener un vector columna y de dimensión m:



Memorias Asociativas .

Las memorias asociativas alfa-beta son memorias que funcionan para los modos heteroasociativo y

autoasociativo, y pertenecen a la familia de memorias basadas en álgebra min-max. Hacen uso, además, de

dos nuevos operadores: el operador Alfa para la fase de aprendizaje y el operador Beta para la fase

de recuperación [43].

La especificación de los conjuntos A y B es de la siguiente manera: y

La operación binaria , está definida por la siguiente tabla:

Tabla 1. Operación binaria

x y

0 0 1

0 1 0

1 0 2

1 1 1

La operación binaria , está definida de la siguiente manera:

Tabla 1. Operación binaria

x y

0 0 0

0 1 0

1 0 0

1 1 1

2 0 1

2 1 1


Las memorias asociativas hacen uso de cuatro operaciones matriciales que son:

1. , donde

2. , donde

3. , donde

4. , donde

Nota: El símbolo representa indistintamente a alguna de las dos operaciones o cuando opere

un vector columna de dimensión m con un vector fila de dimensión n.

entonces la ij-ésima componente de la matriz esta dada por:

es decir, para cada se tiene:

Memorias asociativas Max

Fase de Aprendizaje

La fase de aprendizaje consta de dos etapas; en la primera se utiliza el operador , y en la segunda el

operador máximo .

Primera Etapa.- Para cada a partir de la pareja se construye la matriz:

Segunda Etapa.- Se aplica el operador binario máximo a las matrices obtenidas en la primera etapa.


La entrada ij-ésima está dada por la siguiente expresión:

de acuerdo con la definición de A A B , se observa que

.


Se presenta un patrón , con , a la memoria Max y se realiza la operación :

El tamaño de la matriz V es de mxn, y xes un vector columna de dimensión n; como resultado se obtiene

un vector columna de dimensión m, cuya i-ésima componente es posible obtener a partir de la siguiente

expresión:

Memorias asociativas alfa-beta de tipo min

Fase de Aprendizaje

La memoria alfa-beta de tipo min para realizar la fase de aprendizaje debe seguir dos etapas; en la primera

se debe utilizar el operador, y en la segunda se hace uso del operador .

Primera Etapa.- Para cada a partir de la pareja se construye la matriz:

Segunda Etapa.- Se aplica el operador binario mínimo a las matrices obtenidas en la primera etapa.


la entrada ij-ésima está dada por la siguiente expresión:

de acuerdo con la definición de A A B , se observa que

.


En esta fase se presenta un patrón , con , a la memoria asociativa alfa-beta de tipo min y se

efectúa la operación :

El tamaño de la matriz es , y es un vector columna de dimensión n; como resultado se obtiene

un vector columna dimensión m, cuya i-ésimo componente es posible obtener a partir de la siguiente

expresión:

Memorias para imágenes en tonos de grises

Las memorias , como se mostró en la sección anterior, sólo trabajan para el caso binario. Para que éstas

puedan trabajar con imágenes en tonos de gris, se necesita descomponer la imagen en 8 planos de bits (ver

figura 3). A cada plano de bit, le corresponderá una memoria . Para determinar si la recuperación fue o

no perfecta, se obtiene el patrón de salida en cuestión, es decir los 8 patrones recuperados que son los 8

planos de bits y se unen para conforman la imagen final o patrón final recuperado, y mediante la distancia

de Hammnig se corrobora si la recuperación es perfecta o no.


Figura 3. Descomposición de imagen en sus 8 planos de gris

Experimentos

Los experimentos se basaron en 10 imágenes en tonos de gris de tamaño de 60 pixeles de ancho por 60

pixeles de alto. El ruido usado para las memorias morfológicas y las memorias alfa-beta fue: ruido

sustractivo y ruido aditivo. Ambas memorias aprendieron y recuperaron con los mismos patrones. La

apariencia de las imágenes se muestra en la figura 4. El experimento consistió en aprender un patrón y

recuperarlo, después aprender el segundo patrón y recuperar los dos aprendidos, se repite el mismo

proceso hasta aprender los 10 patrones.

Figura 4. Imagen original (arriba), imagen con ruido sustractivo (abajo izquierda) e imagen con ruido aditivo (abajo derecha)

La memoria asociativa morfológica W es robusta al ruido sustractivo y la memoria de tipo M lo es para el

ruido aditivo. En la figura 5 se muestra el esquema de operación de estas memorias. Para las memorias

morfológicas no es necesario que se aplique procesos adicionales para aprender y recuperar imágenes en

tonos de gris dado que éstas están diseñadas para trabajar con los reales. Sin embargo, el modelo propuesto

para las memorias funciona para las memorias morfológicas, con resultados idénticos.

Figura 5. Esquema de la memoria asociativa morfológica


Las memorias de tipo es robusta al ruido aditivo y la memoria de tipo lo es para el ruido sustractivo.

En la figura 6 se muestra el modelo propuesto para la recuperación de imágenes en tonos de gris. El modelo

propuesto arrojó resultados muy semejantes a los generados por las memorias morfológicas con la

diferencia de que las memorias consumieron más tiempo computacional que las morfológicas.

Figura 6. Esquema de la memoria asociativa

La tabla 3 muestra los resultados en recuperación de patrones obtenidos por las memorias morfológicas y

de las . El total de recuperaciones perfectas de patrones entre ambas memorias son similares.

Tabla 3. Recuperaciones perfectas por número de patrones aprendidos.

1 2 3 4 5 6 7 8 9 10

Morfológica 1 2 3 4 5 6 6 7 8 8

Alfa-Beta 1 2 3 4 5 5 5 7 8 8

Conclusiones

Las memorias asociativas morfológicas, como están definidas para el conjunto de los reales, basta con

aprender los patrones con los valores de los tonos de gris para que la recuperación funcione como está

definida para éstas; en el caso de las memorias alfa-beta, aunque la recuperación de patrones fue muy

similar a las morfológicas y dado que se creó una memoria de aprendizaje por plano de bits,

computacionalmente resultó caro el proceso. Sin embargo, al dejar de lado costos computacionales, se

puede observar que las memorias basadas en álgebra min-max (memorias morfológicas y memorias alfa-

beta) son una alternativa interesante para procesos de reconocimiento de patrones donde la información

pueda representarse numéricamente.

Referencias

[1] Adeodato P. J. L. & Taylor J. G. (1996). Autoassociative memory with high storage capacity, In C. von der

Malsburg, W. von Seelen, J. C. Vorbrueggen & B. Sendhoff (Eds.), Lecture Notes in Computer Science, 1112,

(pp. 29-34),. Bochum, Germany: ICANN’96.


[2] Aleksander, I. & Morton, H. B. (1997). Weightless and other memory-based networks, In Emile Fiesler

(Ed.), Handbook of Neural Computation, (pp. C1.5:1-C1.5:15). New York: Oxford.

[3] Amari, S. (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements,

IEEE Transactions on Computers, C-21, 11, 1197-1206.

[4] Amari, S. (1977). Neural theory of association and concept-formation, Biological Cybernetics, 26, 175-

185.

[5] Anderson, J. A. (1972). A simple neural network generating an interactive memory, Mathematical

Biosciences, 14, 197-220.

[6] Anderson, J. A., Silverstein, J., Ritz, S. & Jones, R. (1977). Distinctive features, categorical perception, and

probability learning: some applications of a neural model, Psichological Review, 84, 413-451.

[7] Anderson, J. A. & Rosenfeld, E. (Eds.) (1990). Neurocomputing: Fundations of Research, Cambridge: MIT

Press.

[8] Austin, J. (1987). ADAM: A Distributed Associative Memory for Scene Analysis, In Proceedings of First

International Conference on Neural Networks, (pp. 285-295). San Diego: Ed. M Caudhill and C Butler.

[9] Austin, J., Buckle, S., Kennedy, J., Moulds, A., Pack, R. & Turner, A. (1997). The cellular neural network

associative processor, In A. Krikelis & C. C. Weems (Eds.), Associative Processing and Processors, (pp. 284-

306). Los Alamitos: IEEE Computer Society.

[10] Bandyopadhyay, S. & Datta, A. K. (1996). A novel neural hetero-associative memory model for

pattern recognition, Pattern Recognition, 29, 5, 789-795.

[11] Bosch, H. & Kurfess, F. J. (1998). Information storage capacity of incompletely connected associative

memories, Neural Networks (11), 5, 869-876.

[12] Buhmann, J. (1995). Oscillatory associative memories, In M. Arbib (Ed.), Handbook of Brain Theory

& Neural Networks,.(pp. 691-694). Cambridge: MIT Press.

[13] Chen, C. & Honavar, V. (1995). A neural architecture for content as well as address-based storage

and recall: theory and applications, Iowa State University Technical Report TR95-03.

[14] Graham, B. & Willshaw, D. (1995). Improving recall from an associative memory, Biological

Cybernetics, 72, 337-346.

[15] Hassoun, M. H. (Ed.) (1993). Associative Neural Memories, New York: Oxford University Press.

[16] Hopfield, J.J. (1982). Neural networks and physical systems with emergent collective computational

abilities, Proceedings of the National Academy of Sciences, 79, 2554-2558.

[17] Hopfield, J.J. (1984). Neurons with graded respose have collective computational properties like

those of two-state neurons, Proceedings of the National Academy of Sciences, 81, 3088-3092.


[18] Imada, A. & Araki K. (1995). Genetic algorithm enlarges the capacity of associative memory. In

L.J.Eshelman(Ed.), Proceedings of 6th International Conference on Genetic Algorithms, (pp 413-420). San

Francisco: Morgan Kaufmann.

[19] Jagota, A., Narasimhan, G. & Regan, K. W. (1998). Information Capacity of Binary Weights

Associative Memories, Neurocomputing, 19(1-3), 35-38.

[20] Kanerva, P. (1988). Sparse Distributed Memory, Cambridge: MIT Press.

[21] Kennedy, J. V., Austin, J. & Cass, B. (1995). A hardware implementation of a binary neural image

processor, Proceedings of the IEE Conference on Image Processing and its Applications, Edinburgh, UK.

[22] Kinser, J. M. (1995). Fast analog associative memory, Poceedings of the SPIE, 2568, 290-293.

[23] Kohonen, T. (1989). Self-Organization and Associative Memory, Berlin: Springer-Verlag.

[24] Kohonen, T. (1972). Correlation matrix memories, IEEE Transactions on Computers, C-21, 4, 353-

359.

[25] Kohonen, T. & Ruohonen, M. (1973). Representation of associated data by matrix operators, IEEE

Transactions on Computers, C-22, 701-702.

[26] Kohonen, T. (1974). An adaptive associative memory principle, IEEE Transactions on Computers, C-24, 4,

444-445.

[27] Kolen, J. F., & Pollack, J. B. (1991). Multiassociative memory, The Proceedings of the Thirteenth Annual

Conference of the Cognitive Science Society, 785-789.

[28] Krikelis, A. & Weems, C. C. (1997). Associative Processing and Processors, In A. Krikelis & C. C. Weems

(Eds.), Associative Processing and Processors, (pp. 2-9). Los Alamitos: IEEE Computer Society.

[29] Little, W. & Shaw, G. (1975). A statistical theory of short and long term memory, Behavioral Biology,

14, 115-133.

[30] Nakano, K. (1972). Associatron-A model of associative memory, IEEE Transactions on Systems, Man,

and Cybernetics, SMC-2, 3, 380-388.

[31] Ritter, G. X., Sussner, P. & Diaz-de-Leon, J. L. (1998). Morphological associative memories, IEEE

Transactions on Neural Networks, 9, 281-293.

[32] Ritter, G. X., Diaz-de-Leon, J. L. & Sussner, P. (1999). Morphological bidirectional associative

memories, Neural Networks, 12, 851-867.

[33] Salgado-Ramírez, J. C. (2005). Estudio estadístico comparativo entre Memorias Asociativas Clásicas,

Memorias Morfológicas y Memorias Alfa-Beta para el caso binario, Tesis de maestría, CIC-IPN, México.

[34] Simpson, P. K. (1990). Artificial Neural Systems, New York: Pergamon Press.

[35] Steinbuch, K. (1961). Die Lernmatrix, Kybernetik, 1, 1, 36-45.


[36] Steinbuch, K. & Frank, H. (1961). Nichtdigitale Lernmatrizen als Perzeptoren, Kybernetik, 1, 3, 117-

124.

[37] Storkey, A. J. (1997). Increasing the capacity of a Hopfield network without sacrificing functionality,

International Conference on Artificial Neural Networks, 451-456.

[38] Stright, J. R., Coffield, P. C. & Brooks, G. W. (1998). Analog VLSI implementation of a morphological

associative memory, Poceedings of the SPIE, 3452-03, 14-22.

[39] Vaseghi Saeed V. (2000) Advanced Digital Signal Processing and Noise Reduction,Second Ed., Wiley.

29 – 43 y 47

[40] Willshaw, D., Buneman, O. & Longuet-Higgins, H. (1969).Non-holographic associative memory, Nature,

222, 960-962.

[41] Yánez M., Díaz-de-León J. L., (2003). Introducción a las Memorias Asociativas, Editorial CIC-IPN,

ISBN: 970-36-0116-2, México.


To Compare Technical of Multiprocessing, by the Concurrent Objects

Oriented Paradigm

Lezama León A. y Espejel Flores P.

Abstract

Are propose the study where it is the systematic development of an application whose problem is “To

compare technical of multiprocessing, by the concurrent objects guided paradigm” and the development of

the application in the language C++ Builder 6 and C++ Builder X.

KeyWords: UML, SysML, concurrent objects, multiprocessing, MultiThreads

Intent

Are intends the form of solving this problem by means of an application prototype whose development

methodology this outlined by the paradigm guided to objects in concurrent processes of the software

engineering, the language of modeling of development unified for analysis and design guided to objects

(SysML of UML), and the process Pattern: assembling of components and design of concurrent models by

means of Nets of Petri, in support of the prosecution of information, they allow the development of this

type of computation application.

Scope and Motivation

The multiprocessing takes charge of to capture and to execute processes in a concurrent way, the processes

that are solved simultaneously and they enter in this case they are: the Numeric Methods for Mathematical

Models that obtain the proportion of a normal distribution, what a process of statistical inferencial is"; the

consultations with the help of data in SQL Server, ordination methods and that of problems NP (Not

Polynomial). it should be defined: Which is the behavior of as for effectiveness and tolerance to

shortcomings of the problems in a system of concurrent processes? and once obtained the results, with

which concurrent mechanism one has a better yield of the prosecution of this information?

Applicability

The approach to 100% of the area under the curve, settles down by means of the study of numeric methods

for mathematical models that solve the integration problem, these they are: the method of ROMBERG, the

method of SIMPSON and for CUADRATURA ADAPTATIVA'S method, which are analyzed in the annex of this

document.

The consultations with the help of data in SQL Server. The ordination methods (simple Selection, Bubble and

Quick Sort). The class NP consists of all the recognizable groups in time polynomial for a machine of Turing

non deterministic [1].

At the moment this techniques are using for ends of Investigation in other areas of Sciences of the

calculation: the development of Systems in Real Time, the Recognition of Patterns, Agents Semi - Intelligent,

the Computer Security, the Systems of Information, Prosecution of Signs.


Structure and Participants

The programming logic varies depending on the focus that takes: this type of applications has been

developed by means of the structured focus, and applications of this nature are implemented by means of

the focus guided to objects, however, it lacks to identify if the studies generated by this mechanism are

guided to give solutions in investigation areas like they are artificial intelligence in the control environment,

the absorbed systems, the systems in real time, then, reasoning modules could be built for an application

what would take us to the construction of intelligent agents.

Collaborations

He thinks about Method developed by C. W. Dunnett for the experimental design on the comparison of

treatments with a control. That is explains to himself with detail for this end in the Methodological Marc.

Of what stands out that the techniques if they have variability as for their time of execution but equivalence

as for the tolerance to shortcomings being the evaluated parameter (logical error).

Consequences

The Techniques to Compare for the Control of Concurrent Objects as Abstraction of Concurrent Processes

are: Multi Threads and Hour of Entrance. Which allow to evaluate the parameters: Times of Execution and

Tolerance to shortcomings. For each Technique different forms of algorithms were used that carry out the

same operations used as concurrent objects.

Implementation

The systematic development for the elaboration of the Comparison of Technical of Multiprocessing, by

means of the paradigm guided to concurrent objects, consists of the elaboration of the administration by

means of the Concurrent Engineering, as well as the pattern of assembling of components that this in turn

divides in four projects: the Project of Development of Concepts; the Project of Development of New

Products; the Project of Improvement of Products and the Project of Maintenance of Products.

In each one of the projects it is generated stages seen by means of the pattern in hairspring of the

development of systems in software engineering. The paradigm guided to concurrent objects is affirmed on

this notation when coinciding with the stages for the development of systems guided to concurrent objects.

For the development of Concepts it is made use of UML 2, SysML, Nets of Petri.


Figure 1. Source code developer in C++

Figure 2. Application

Known Uses

The concurrence is achieved in two ways: "The activities of systems and of components they happen

simultaneously and they can be modeled with the focus guided to objects.

"An application client typical servant is implemented with many components, each one of which you can

design and to carry out concurrently”. Process attendee's pattern is applicable to all type of software

development and it provides an exact image of the current state of a project. Instead of confining the

activities of software engineering to a sequence of events, it defines a net of activities. All the activities of a

net exist simultaneously with others.

Related Patterns and Frameworks


Next we are present the projects that originate starting from this study, which will allow to understand the

analysis and design of distributed Systems which is centered in the study of the Intelligent Agents and

besides this the participation in other areas of the computer sciences.

1. Evaluation of the multiprocessing techniques in the design of Intelligent Agents or Intelligent semi, as

for their synchronous communication with more Agents.

Application: Broker of Maintenance of one Manufactures.

2. Evaluation of the techniques of Planning in the design of database of Intelligent Agents.

Application: Broker of Sales in Internet.

3. Comparison of Paradigms of Engineering of Software to develop applications absorbed in real time.

Application in Systems of Real Time and of mobile Telephony.

With the purpose of making a little more versatile the use of this study in other areas of the computer

sciences now presents the following projects.

4. Evaluation of the use of the mathematical computer for the Recognition of Patterns. Objective: to differ

among a figure, an image or an object, in a design environment in two dimensions and three dimensions.

Educational application: Simulation of the parabolic Shot and Inclined Plane. Modeling with irregular

objects.

5. Comparison of Technical of Security for protection of Information in Distributed Systems.

Application: Guarded Systems VS Criptografy.

6. Comparison of Technical of Recognition of the Speech or the Voice for the design of Controls of

Entrance in Intelligent Housings.

It is necessary to highlight that the last three projects allow the incursion to work in Investigation of the

Paradigm of the Increased Reality, since very few mechanisms that allow their use exist.

Acknowledgments

In this test I am that the treatment Hour of entrance, it was much more effective that the treatment Multi

thread, because the time of prosecution was smaller, proving an error of significant of 5% percent and 1%

percent that is to say respectively however a level of trust of 95% percent and 99% percent, the control in

the technique of multi thread is much simpler of preparing that the treatment Hour of entrance. On the

other hand the treatment of Multi thread, already bill with use specifications, while the treatment of Hour

of entrance needs more elaboration, as for controls that they allow its complete development, of modules

for the control of tolerance to shortcomings.

The treatment of Multi threads generated by the compiler of the programming language C++, already bill

with a class of Exceptions that can identify the shortcomings that can have the code that manages the

treatment.


This is an advantage with the treatment of Multi threads, while the treatment of Hour of entrance, doesn't

count more than with the specific use of the structure to detect any failure type more wisely: the structure

try - catch. One can see clearly in that type of algorithms is more efficient the treatment for Multi threads

that for Hour of entrance, to have much bigger degree of variability as for times of process.

References

*1+ H. M. Dietel, “Introducción a los sistemas operativos”, Adisson Wesley Iberoamericana, 1987, ISBN. 0-

201-64027-9

*2+ MCCarthy, “Times Sharing Computer System”, Computers and the world of the future, Cambridge, Mass.

MIT Press. 1964

*3+ G. Ian “Métodos Orientados a Objetos”, Addison Wesley , 1996, ISBN. 0-201-65355-9

*4+ M. F. Manuel, “UNIX programación avanzada”, Alfa Omega, 2001, ISBN 9586822982

*5+ C. Francisco, “Enciclopedia del lenguaje C++ Windos 9x/NT/2000/xp, Linux y otros”, RA-MA, 2003, ISBN

84-7897-584-5

*6+ K. Henry. S. Abraham. ”Fundamentos de Bases de datos”, Mc Graw Hill, ISBN 0-07-044754-3

*7+ F. Agustín, “JAVA 2. Manual de usuario y tutorial”, Alfa Omega, 2000, ISBN 9701505506

[8] L. L. Arturo, “Sistema para la toma de inventarios de Control en Almacén a tienda abierta y cerrada con

tecnología de red wíreless y equipo de código de barras HANDHELD”, Memoria de experiencia profesional

2002

*9+ L. C. Kenneth, “Lenguajes de Programación Principio y práctica”, International Thompson Editores, S. A.,

ISBN 970-686-284-6

*10+ P. Roger, “Ingeniería del Software. Un enfoque práctico 4ª”. Mc Graw Hill, 1997, ISBN. 0-07-052182-4

*11+ LIM, J. And Johnson, “The Heart of Object – Oriented Concurrent Programming”, SIG PLAN Noticias.

1989

[12] B. A. Hutchinson, N. Distribution can abstract types in emerald Seattle WA University of Washington,

July 1986


Musical Recommendation on Thematic Web Radio

A. Ochoa, S. Jons, C. Esquivel, G. Mattozzi, A. Maffucci, L. Li

Abstract

In this research is described a Musical Recommender System associated to Thematic Web Radio for songs

in a database related with this Web Radio employs the Dublin Core metadata standard for the documents

description, the XML standard for describing user profile, which is based on the user’s profile, and on

service and data providers to generate musical recommendations. The main contribution of the work is to

provide a recommendation mechanism based on the user of this Thematic Web Radio reducing the

human effort spent on the profile generation. In addition, this article presents and discusses some

experiments that are based on quantitative and qualitative evaluations.

Keywords: Recommendation System, User Profile, Cultural Algorithms.

Introduction

Today, the songs can be electronically accessed as soon as they are published on the Web. The main

advantage of open music is the minimization of the promotion time. In this context, Digital Libraries (DLs)

have emerged as the main repositories of digital documents, links and associated metadata. The

Recommender System involves information personalization. The personalization is related to the ways in

which contents and services can be tailored to match

the specific needs of a user or a community [3]. The human-centered demand specification is not an easy

task. One experiences this difficulty when trying to find a new song in a good indexing and retrieval system

such MySpace Music.

The query formulation is complex and the fine tuning of the user requirements is a time-consuming task.

Few users have enough time to spend some hours searching for, eventually new songs. This functionality,

the query specification may be reached by the analysis of the user activities, history, information demands,

in others. This paper presents a Musical recommendations system associated to a Thematic Web Radio, the

songs recovered are associated with the playlist of Web Radio. The main contribution of this work is to

provide a recommendation mechanism based on the user reducing the human effort spent on the profile

generation. The paper is organized as follows. We start giving an overview of the background literature and

concepts, then the recommender system and detail its architecture and techniques.

Finally, we present some quantitative and qualitative experiments to evaluate and validate our system and

discuss the results and conclusions of our work.

Background.

The semantic Web technologies promote an efficient and intelligent access to the digital documents on the

Web. The standards based on metadata to describe information objects have two main advantages:


computational efficiency during the information harvesting process and interoperability among DLs. The first

is a consequence of the increasing use of Dublin Core (DC) metadata standard [8]; the latter has been

obtained as a result of the OAI initiative (Open Archive Initiative) [17]. DC metadata standard was conceived

with the objective of defining a minimal metadata set that could be used to describe the available resources

of a DL. This standard defines a set of 15 metadata (Dublin Core Metadata Element Set . DCMES) [8].

The main goal of OAI is to create a standard communication way, allowing DLs around the world to

interoperate as a federation [21]. The DL metadata harvesting process is accomplished by the OAI-PMH

protocol (Open Archives Initiative Protocol for Metadata Harvesting [18], which defines how the metadata

transference between two entities, data and service providers, is performed. The data provider acts by

searching the metadata in databases and making then available to a service provider, which uses the

gathered data to provide specific services.

Considering that a Recommender System concerns with information personalization, it is essential that it

copes with user profile. In our work, the user profile is obtained from the Thematic Web Radio register

similar at used in [13]. According to [11], there are three different methodologies used in Recommender

Systems to perform recommendation: (i) content-based, which recommends items classified accordingly to

the user profile and early choices; (ii) collaborative filtering, which deals with similarities among users’

interests; and (iii) hybrid approach, which combines the two to take advantage of their benefits. In our work,

the content-based approach is used, once the information about the user is taken from database of users.

This recommendation process can be perceived as an information retrieval process, in which user’s relevant

songs should be retrieved and recommended. Thus, to perform recommendations, we can use the classical

information retrieval models such as the Boolean Model, the Vector Space Model (VSM) or the Probabilistic

Model [1, 9, 20]. In this work, the VSM was selected since it provides satisfactory results with a convenient

computational effort.

In this model, documents and queries are represented by terms vectors. The terms are words or expressions

extracted from the documents (lyrics) and from queries that can be used for content identification and

representation. Each term has a weight associated to it to provide distinctions among them according to

their importance. According to [19] the weight can vary continuously between 0 and 1. Values near to 1 are

more important while values near to 0 are irrelevant.

The VSM uses an n-dimensional space to represent the terms, where n corresponds to the number of

distinct terms. For each document or query represented the weights represent the vector’s coordinates in

the corresponding dimension. The VSM principle is based on the inverse correlation between the distance

(angle) among term vectors in the space and the similarity between the documents that they represented.

To calculate the similarity score, the cosine (Equation 1) can be used. The resultant value indicates the

relevance degree between a query (Q) and a document (D), where w represents the weights of the terms

contained in Q and D, and t represents the number of terms (size of the vector). This equation provides

ranked retrieval output based on decreasing order of the ranked retrieval similarity values [19].


The same equation is widely used to compare the similarity among documents, and similarity, in our case, Q

represents the user profile and D the documents descriptors (lyrics) that are harvested in the DL (see Section

3.2 for details). The term weighting scheme is very important to guarantee an effective retrieval process.

The results depend crucially of the term weighting system chosen, In addition, the query terms selection is

fundamental to obtain a recommendation according to the user necessities.

Our research is focused in the query terms selection and weighting. Any person that required a musical

retrieval may evaluate the process complexity and the difficulty to find the adequate articles. The central

idea is to develop an automated retrieval and musical recommendation system where the price for the user

is limited to the submission of an already existing preferences query similar at the used on MySpace Music.

The recommender system.

Our system focuses on the recommendation of songs from the Thematic Web Radio and its community that

support this. The information source to perform recommendations is the database associated with this Web

Radio, while the user profile is obtained from Database Profile Register subset. However, any DL repository

providing DC metadata and supporting the OAI-PMH protocol can be used as a source. An alternative to the

user profile generation is under development. This alternative approach is composed by an information

retrieval system to gather data from another Music sources. A DL repository stores digital songs or its

localization (web or physical), and the respective metadata. A DL data provider allows an agent to harvest

documents metadata through the OAI-PMH protocol. Our system handles the songs described with XML in

DC standard [7, 15].

The Recommendation System Architecture

In this section we present the architecture elements of our system and its functionalities (Fig. 1). To start the

process, the users must supply their preferences in the XML version to the system. Whenever a user makes

its registration in the system and sends his preferences list (1), the XML Songs Document module is activated

and the information about the user’s interests is stored in the local database named User Profile (2). Then

the Metadata Harvesting module is activated to update the local database Songs Metadata. This module

makes a request to a DL data provider to harvest specific documents metadata. It receives an XML

document as response (3) and the XML DC to local DB module is activated (4). This module extracts the

relevant metadata to perform the recommendation from the XML document and stores it in the local

database named Songs Metadata (5). Once the user profile and the songs metadata are available in the local

database, the Recommendation module can be activated (6). The focus is to retrieve lyrics and songs of a DL

that the best matches the user profile described through the profile of each user on the Thematic Web

Radio.


Figure 1. The recommender system architecture.

Recommendation Model

As stated before, the recommendation is based on the VSM model. The query vector is built with the term

parsed from the title, keywords, singer or band, album and date. The parser ignores stop-words[5] (a list of

common or general terms that are not used in the information retrieval process, e,g, prepositions,

conjunctions and articles). The parser considers each term as a single word. On the other hand, the terms

are taken integrally, as single expressions.

The query vector terms weights are build up according to the Equation 2. This equation considers the type of

term (keyword or title), the language and the year of the first air data.

Keyword terms are considered more important that the titles of the songs and have more reading

proficiency are more valorized (higher weight), and the terms obtained from the most recent album from an

artist or band including cameos and contributions with another singers or bands are assigned a more

important weight than the less recent ones.

Wt = WKeywordOrTitle * WLanguage * WYear (2)

The weights WKeywordOrTitle, WLanguage, WYear are calculated with Equation 3.

Wi = 1 . (i. 1) 1 - wmin / n - 1 (3)

In this equation Wi varies according to the type of weight we want to compute. To illustrate, in the

experimental evaluation (Section 4), for WKeywordOrTitles Wmin was 0.95, and I is 1 if the language-

skill.level is “good”, 2 for “reasonable” and 3 for “few”. For WYears Wmin was 0.55 and i vary from 1 to n,

where n is the interval of years considered, begin 1 the highest and n the lowest. In the experimental

evaluation it was considered the interval of songs between 2007 and 2003. However, if the interval is

omitted, it will be considered as between the present year and the less recent year (the smallest between

artist:first-album and artist:last-album).


If wmin is not informed, the default value will be used (presented in Equation 4). In the situation, Equation 3

is reduced to Equation 5.

Wmin default = 1/n (4)

Wi = (n- i + 1)/n (5)

Once the query vector is build, the songs vector terms and the respective weights must be defined.

The adopted approach was (tf * idf), i.e., the product of the term frequency and the inverse document

frequency [19]. This approach allows automatic term weights assignment for the documental retrieval. The

term frequency (tf) corresponds to the number of occurrences of a term in a document. The inverse

document frequency (idf) is a factor that varies inversely with the number of the documents n to which a

term is assigned in a collection of N documents (typically computed as log (N/n)).

The best terms for content identification are those able to distinguish individuals ones from the remainder

of the collection [19]. Thus, the best terms correspond to the ones with high term frequencies (tf) and low

overall collection frequencies (high idf). To compute tf * idf, the system uses the DC metadata dc:title and

dc:description to represent the songs content.

Moreover, as your system deals with different languages, the total number of songs will vary accordingly.

After building the query and songs vectors, the system is able to compute the similarities values among the

documents and the query according to Equation 1.

Experimental Evaluation.

In order to evaluate the musical recommender system, we have asked for preferences from a group of users

entailed to different musical interest terms of different genres as English Pop or Electronic Dance. As

response, a group of 47 people send us their list of preferences, whose information was loaded in the Songs

Metadata related with the Thematic Web Radio local database. The songs Metadata local database was

loaded in the User Profile local database related with the Thematic Web Radio. This database stored up to

October 2008, totalizing 978 songs from 278 singers or bands including in 107 albums.

After 20 recommendations were generated by the system for each participant, considering individual’s

profile of the user and the genres preferences. This information was obtained using the user’s data base

related with the Thematic Web Radio.

Two evaluations were performed. The first was based on the hypothesis that the best songs to describe the

profile of a user should be those produced by him. Since we had information about the songs by each user,

we can match the items recommended to those. This evaluation was accomplished by the recall and

precision metrics that is a standard evaluation strategy for information retrieval systems [1, 20]. The recall is

used to measure the percentage of relevant songs retrieved in relation to the amount that should have been


retrieved. In the case of document categorization, the recall metric is used to measure the percentage of

documents that are correct classified in relation to the number of documents that should be classified.

Precision is used to measure the percentage of documents correctly recovered, i.e., the number of

documents correctly retrieved divided by the number of documents retrieved.

As the profiles can be seen as classes and the songs as items to be classified in these profiles, we can verify

the amount of items from the author that are correctly identified (i.e. classified) by the user profile. As we

have many users (i.e., many classes), it is necessary to combine the results. The macroaverage presented in

Equation 6 was designed by D. Lewis *14+ to perform this specific combination (“the unweighted mean of

effectiveness across all categories”), and was applied by him in the evaluation of classification algorithms

and techniques.

Macroaverage = ∑i (1

nXi)/n (6)

In this formula, Xi is the recall or the precision, depending on the metric we want to evaluate, of each

individual class user in our case) and n is the number of classes (users).

Thus, the macroaverage recall is the arithmetic average of the recalls obtained for each individual, and the

macroaverage precision is the arithmetic average of the precisions obtained for each individual.

Given that the users are not interested in its own preferred songs as recommendations, we performed

another evaluation that takes in to account only the items from other users. Then, 15 recommendations

were presented to each individual ranked on the relative grade of relevance generated by the system. In this

rank, the article with the highest grade of similarity with the user profile was set as 100% relevant and the

others were adjusted to a value relative to it. In this case, each author was requested to evaluate the

recommendations generated to them assigning one of the following concepts (following the bipolar five-

point Likert scale); “Inadequate”, “Bad”, “Average”, “Good”, and “Excellent”, and were also asked to

comment the results. The following sections present the results obtained.

Analysis of the experiments

The first experiment was designed to evaluate the capability of the system to correctly identify the user

profile (i.e., to represent its preferences), since we believe that the best articles to describe the user profile

are those written by themselves, as stated before. To perform such evaluation, we identified the songs of

each user had at Web Radio. After that, we employed the recall metric to evaluate the number of articles

recovered for each author and combined then with the microaverage equation explained before.

We have found a macroaverage recall of 43.25%. It is important to state that each user received 20

recommendations. This is an acceptable value as the query construction was made automatically without

human intervention. It happened to be lower than it should be if we have used more songs, maybe access to

MySpace music, but the problem is the limited songs for singer or band. Other important consideration is

that the recommendation ranking was generated with a depreciation degree that was dependent on the

promotion year and on the user language, as explained in the previous section. As the time-slice considered

corresponds to a small part of the full period stored in the database related with the Thematic Web Radio,

not all songs are good recommendations since the preferences changes along the time.


Figure 2. Users’ evaluations of the recommendations.

Figure 2 presents the results of the second experiment, which was based on the users’ qualitative evaluation

of the recommended songs. On this experiment each user received 15 recommendations and evaluated

them according to one of the following concepts: “inadequate”, “bad”, “average”, “good”, and “excellent”.

The results were grouped into the categories “first match”, “top 5”, “top 10”, and “top 15”, and are

presented in Figure 2.

Analyzing three results, it is possible to observe that, if we only consider the first song recommended (the

“first match”), the number of items qualified as “excellent” in greater than the others (i.e., 42.86%) and

none of them were classified as “inadequate”. This strengthens the capability of the system on performing

recommendations adjusted to the present user’s genre preferences interests. We have also grouped the

concepts “good” and “excellent” into a category named “positive recommendation” and the concepts “bad”

and “inadequate” into a “negative recommendation” group, so we could obtain a better visualization and

comprehension of the results (Fig. 3).

Figure 3. Grouped users’ evaluation.

We could perceive that the positive recommendations, considering only the “first match”, are superior

(57.14%) in relation to the negative ones (7.14%). The same behavior can be perceived in the “top 5” and


“top 10” categories, the recommendations had a negative evaluation only in the “top 15” category, and that

probably happened because as the number of recommendations grows, the number of correct

recommendations falls. It is clear that the automated procedure here adopted is adequate for an alert

recommender system. Our proposal is to add to the Thematic Web Radio an automated alert system that

periodically sends to the user a list of the most relevant songs recently listen on Radio during seven or more

weeks.

Further, in our tests the users that have changed their search in the last three months have negatively

qualified the recommendations. In the next experiments a variable time threshold and different

depreciation values will be employed and the temporal component will be exhaustively analyzed.

Conclusions

This paper presented a Musical Recommender System to users of a Thematic Web Radio related with the

lyrics of diversity songs. In current days, in which the recovery of relevant digital information on the Web is a

complex task, such systems are of great value to minimize the problems associated to the information

overload phenomena, minimizing the time spent to access the right information.

The main contribution of this research consists on the heavy utilization of automated Music

Recommendation and in the use of a Digital Library (DL) metadata to create the recommendations. The

system was evaluated with BDBComp, but it is designed to work wit the open digital library protocol OAI-

PMH, then it may be easily extended to work with any DL that supports this mechanism. The same occurs

with the lyrics format related with the song, but it can be extended to support other formats or to analyze

information about the user stored on tools like MySpace Music. Alternatively the operational prototype

offers the possibility to the user to load the lyrics via an electronic form.

The developed system will have many applications. One of them is the recommendation of articles to

support the learning process, especially on eLearning systems. Thus, the student could log into a specific

distance or electronic learning environment supported by this system and receive recommendations of

songs containing actualized relevant material to complement its current usical selection.

References

[1] Baeza-Yates, R.; Ribeiro-Neto, B.: Modern Information Retrieval. Addison-Wesley, Workingham, UK

(1999).

[2]BDBComp Biblioteca Digital Brasileira de Computacao, http://www.lbd.dcc.ufmg.br/bdbcomp/, Nov.

(2006).


[3] Callahan, Jamie et al.: Personalization and Recommender Systems in Digital Libraries. Joint NSF-EU DELOS

Working Group Report, May (2003).

[4] CITIDEL: Computing and Information Technology Interactive Digital Educational Library,

http://www.unine.ch/info/clef/, Institut interfacultaire d’informatique, University of Neuchatel (2005).

[5] CLEF and Multilingual information retrieval, http://www.unine.ch/info/clef/, Institut interfacultaire

d’informatique, University of Neuchatel (2005).

[6] Contessa, Diego; Fraga Fernanda; Palazzo Alberto. An OAI Data Preovider for JEMS. Proceedings of the

ACM DocEng 2006 Conference, Amsterdam. Oct (2006) 218-220.

[7] DC-OAI: A XML schema for validating Unqualified Dublin Core metadata associated with the reserved

oai_dc metadataPrefix, http://www.openarchives.org/OAI/2.0/oai_dc.xsd,2005.

[8] Dublin Core Metadata Initiative, http://dublincore.org, Sept (2005).

[9] Grossman, David A. Information retrieval: algorithms and heuristics. 2nd ed. Dordrecht: Springer, 332 p.

(2004).

[10] Gutteridge, C. GNU EPrints 2 overview, Jan. 01 (2002).

[11] Huang, Z. et al. A Graph-based Recommender System for Digital Library. In JCDL’02 Portland, Oregon

(2002).

[12] Laender, A. H. F., Goncalves, M.A.; Roberto, P.A. BDBComp: Building a Digital Library for the

BrazilianComputer Science Community. In Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital

Libraries, Tucson, AZ; USA (2004) 23-24.

[13] Laustanou, K. MySpace Music (2007)

[14] Lewis, D.D.; Evaluating text categorization. In Proceedings of Speech and Natural Language Workshop.

Defense Advanced Research Projects Agency, Morgan Kaufmann. (1991) 312-318.

[15] LPMP-CNPq. Padronizacao XML: Curriculum Vitae, http://lmpl.cnpq.br Mar. (2005).

[16] Maly, K.; Nelson, M.; Zubair, M.; Amrou, A.; Kothamasa, S.; Wang, L.; Luce, R. Lightweight communal

digital libraries. In Proceedings of JCDL’04, Tucson; AZ (2004) 237-238.

[17] OAI: Open Archives Initiative, http://openarchive.org, Oct (2005).

[18] OAI-PMH. The Open Archives Initiative Protocol for Metadata Harvesting,

http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm. Nov. (2005).

[19] Salton, Gerard; Buckley, Christopher. Term-Weighting Approaches in Automatic Text Retrieval,

Information Processing and Management an International Journal, v.24, Issue 5, 513-523 (1988).

[20] Salton, Gerard; Macgill, Michael J. Introduction to Modern Information Retrieval. New York. McGraw-

Hill. 448p. (1983).


[21] Sompel, H.; V. de Lagoze, C. The Santa Fe Convention of the Open Archives Initiative D-Lib Magazine,

[S.1.], v.6, n.2, Feb (2000).

[22] Tansley, R.; Bass, M.; Stuve, D. Branschofsky, M.; Chudnov, D.; McClellan, G.; Smith, M. Dspace: An

institutional digital repository system. In Proceedings of JCDL’03, Houston, TX (2003) 87-97.


Algoritmo Heurístico Morfológico para Extracción de Esqueletos en

Imágenes en Tonos de Gris

J. C. Salgado Ramírez, R. Rojas Hernández, A. Gamino Carranza, A. Ortiz Montes, V. Trujillo Mora

Abstract

This article shows an algorithm which enable us to find the geometrical skeleton on gray levels images

using the mathematical morphology. The heuristical algorithm maps the image in gray levels to binarial

one, and with the Fast Distance Transformation, the skeleton is obtained. The suggested binarial method

keeps the edges as well as other features, therefore the skeleton keeps the geometrical relationship with

the image in gray tones after being extracted.

Keywords: Fast Distance Transformation, Images in gray levels, mathematical morphology, skeleton.

Introducción

El procesamiento digital de imágenes es una herramienta muy importante para el reconocimiento de

patrones (RP) [2-3]; por ejemplo, un dilema al que algunos algoritmos de RP como las redes neuronales, las

memorias asociativas y los clasificadores se enfrentan, hablando de imágenes, es saber qué información de

ésta es necesaria para que sean robustos al aprender, recuperar y clasificar patrones [11-12]. El punto es,

que encontrar la información que necesitan los algoritmos de RP para ser robustos no es una tarea trivial [4-

6]. De aquí la importancia del procesamiento de imágenes. Un posible método para la extracción de

información relevante es el adelgazamiento de imágenes [1][8] proporcionando rasgos que describan

patrones a los algoritmos de RP.

El algoritmo de adelgazamiento o también llamado esqueleto, proporciona información mínima de una

imagen que normalmente guarda relación geométrica con la imagen original [7-8]. El algoritmo, que se

propone, para encontrar esqueletos en tonos de gris se basa en el esqueleto morfológico para imágenes

binarias; dos de las propiedades de este algoritmo de esqueletización son: 1) que la imagen binaria puede

ser reconstruida a partir del esqueleto morfológico y 2) que el esqueleto guarda relación geométrica con la

imagen original a pesar de que éste no es conexo [13].

Existen muchos métodos que generan el esqueleto morfológico de imágenes binarias [7][13][16] con

características interesantes; otros más extraen esqueletos de imágenes en tonos de gris [17-21]. Hay

además algoritmos iterativos de adelgazamiento en tonos de gris que lo generan [9]. A diferencia de los

métodos de esqueletización anteriores, el método que proponemos encuentra el esqueleto no conexo de

una imagen en tonos de gris a partir de una imagen binaria haciendo uso de la Transformada Rápida de

Distancia y el esqueleto morfológico y se propone también un método de binarizado.

Gradiente Morfológico


El gradiente morfológico se basa en las operaciones básicas de la morfología matemática, como lo son la

dilatación y la erosión; al hacer la diferencia de la dilatación con la erosión en ese orden, se obtiene la

extracción del contorno enfatizado de la imagen [13-14].

El gradiente morfológico se define como:

donde es la erosión y se define como:

y es la dilatación, definida como:

En las ecuaciones 2 y 3 se deduce que es una función que representa a la imagen y

es el elemento de estructura. En la figura 1 se muestra la vecindad de Moore usada como

elemento de estructura.

Figura 1. Elemento de estructura: Vecindad de Moore

Al aplicar a una imagen (figura 1) el gradiente morfológico obtiene el contorno enfatizado de la imagen

original, como lo muestra la figura 2.


Figura 2. Imagen original

Binarizado.

El proceso de binarizado para encontrar el esqueleto consta de cuatro etapas:

Figura 2. Gradiente morfológico

1). Se binariza el gradiente morfológico en función de

donde U representa el umbral de binarizado

2). Se obtiene el negado de 4:

3). De se obtienen niveles de gris mayores a un umbral para ser considerados en el binarizado final,

de la siguiente forma:

4). Finalmente el binarizado se obtiene considerando 5 y 6:

donde T es el umbral que se define a partir de qué tono de gris debe conservarse de la imagen original.

Este algoritmo de binarizado garantiza que los bordes se conservarán, hecho necesario para que la

Transformada Rápida de Distancia proporcione sentido geométrico en la imagen binaria con respecto a la

imagen original.


La figura 3, muestra el resultado del proceso de binarizado con U=31 y T=96.

Figura 3. Proceso de binarizado

Espacios métricos

Definición 1. Sea X un conjunto. Una métrica en X, también llamada distancia, es una función , tal

que:

Entonces la dupla (X,d) es llamado espacio métrico. Si d es una métrica, X=Z y entonces

d es llamada métrica discreta.

Sean y puntos sobre

1.


2.

3.

4.

Las métricas listadas anteriormente, mostradas en la figura 4, son llamadas discos cerrados de radio 1. Estos discos corresponden a las k-vecindades, donde k 4,8, 6L, 6R y las distancias que hacen uso de estas vecindades se expresan como d [13-15]. Estas k-vecindades son ampliamente usadas en el procesamiento digital de imágenes.

Figura 4. Métricas discretas de las k-vecindades

Transformada de Distancia

Definición 2. El mapeo de la Transformada de Distancia (TD) es:

donde , F es una imagen binaria, recibe el nombre de Transformada de

Distancia, la función se llama Transformación de Distancia y R es la región de interés.

La definición 2 significa: Que para una región de interés R, donde R es un conjunto de puntos x tales que

al aplicar a x la transformación de distancia , se obtiene como resultado un conjunto de duplas

tal que . El resultado de esta transformación es una imagen en tonos de gris; cada valor

de tono de gris representa la distancia numérica que tiene cada punto (pixel) con respecto a su

complemento.

Transformada Rápida de Distancia


Definición 3. Si d es una de las métricas y , para

se tiene que:

1.

2.

De lo anterior, se desprende lo siguiente:

Si se tiene la transformada de distancia de los vecinos de c se puede encontrar la transformación de

distancia , donde:

Ahora, se tiene una transformada de distancia en 2 pasos:

1. Barrer la imagen binaria de arriba hacia abajo y de izquierda a derecha. Para cada pixel c R, donde

R es la región de interés, se asigna:

E es alguno de los siguientes conjuntos según la métrica a utilizar:

Figura 5. Conjunto E según la métrica

solo los puntos asignados en E son usados en la primera parte de la transformación.

2. Barrer la imagen binaria de abajo hacia arriba y de derecha a izquierda. Para cada pixel c R, donde

R es la región de interés, se asigna:

D es alguno de los siguientes conjuntos según la métrica a utilizar; solo los puntos asignados en D son usados

para la segunda parte de la transformación:


Figura 6. Conjunto D según la métrica

La transformada rápida de distancia tiene las siguientes ventajas:

1. TRD es mucho más rápida debido a que sólo requiere calcular mínimos en un conjunto de

cardinalidad fija.

2. El tiempo de procesamiento es constante para cualquier imagen binaria.

La figura 7 muestra el resultado obtenido con la TRD de la figura 3.

Figura 7. Transformada Rápida de Distancia

Esqueleto Morfológico

Definición 4. Dado un conjunto A, se llama segmentación al proceso de obtener uno o más segmentos de

éste

Definición 5. Dada una familia finita de transformaciones de conjuntos , un conjunto B es

segmento de un conjunto A si y sólo si y existe una sucesión de transformaciones, miembros de F,

De lo anterior se desprende:

La única diferencia entre el concepto de segmento de y el conjunto similar a, radica en que en el primero se

exige que B sea un subconjunto de A; es decir, algunas transformaciones como la traslación son excluidas.

Si la identidad de conjuntos es miembro de F, A puede ser segmento de sí mismo.

El hecho de que B sea segmento de A no implica que se pueda obtener A a partir de B, a menos que las

transformaciones involucradas sean invertibles todas en F, o que la transformación global sea invertible.

Suponga que tiene una familia infinita de elementos estructurales de la siguiente forma:


Con conteniendo únicamente el origen del espacio de trabajo X; , un elemento de estructura que

cumple con y para .

Tal construcción de H asegura que:

1. El origen se encuentra en todo miembro de la familia H

2. para toda

Una vez construida H se puede dar una clasificación de las traslaciones de sus miembros en función de un

conjunto A dado a continuación:

Definición 6. Sea H definida como en Definición 4 y sea ; la traslación de un miembro de H por

, se dice maximal en A con centro en p si y sólo si

1.

2. tales que y

De esta manera, se separan las traslaciones de los miembros de la familia H en dos clases: maximales y no

maximales.

Por otro lado, el esqueleto morfológico de una región o conjunto A, se define directamente en función de

erosiones y aperturas como sigue:

Definición 7. Sean A, B subconjuntos de X y sea la familia de elementos de estructura H como se definió en

4; el esqueleto morfológico de A, dado B, queda expresado por:


Figura 8. Centros maximales

con

donde k es un número natural tal que

Obsérvese que la selección de es importante para el proceso de esqueletización, porque es probable que

para algún dado no exista un k finito que cumpla . Dado este caso, se dice que el esqueleto

bajo no existe; por otro lado, si además es simétrico, esto es , entonces el esqueleto

morfológico recibe el nombre de transformada al eje medio.

Cuando el esqueleto de un conjunto existe, resulta ser un subconjunto de este último; en la figura 8, se

observa el esqueleto morfológico (color negro) obtenido, de una figura cualquiera, utilizando un elemento

de estructura que se basa en la métrica .


Figura 8. Esqueleto morfológico obtenido con un elemento de estructura con métrica

La Transformada Rápida de Distancia guarda relación estrecha con el esqueleto morfológico [13]. Para

obtener el esqueleto morfológico a partir de la TRD, basta con encontrar los centros maximales contenidos

en un elemento de estructura . El algoritmo para encontrar el esqueleto morfológico a

través de la TRD es:

1. Se obtiene la TRD de la imagen binaria. Los valores de distancia mayores a 0 pertenecen al conjunto A y los valores de distancia en 0 son considerados como el complemento del conjunto A.

2. Hacer: Para y=1 hasta el alto de la imagen Para x=1 hasta el ancho de la imagen

si entonces para hasta para hasta si

Al aplicar el algoritmo anterior genera como resultado el esqueleto morfológico a partir de la TRD como se

muestra la figura 9.

Figura 9. Esqueleto morfológico obtenido a partir de la TRD

Esqueleto morfológico de una imagen en tonos de gris.

Para obtener el esqueleto morfológico de una imagen en tonos de gris se procede de la siguiente manera:

1. Aplicar el gradiente morfológico de la imagen en tonos de gris, obteniendo así el contorno enfatizado de la imagen.

2. Aplicar el proceso de binarizado descrito en la sección 3. 3. Obtener la TRD, descrita en la sección 6. 4. Obtener el esqueleto morfológico como se explicó en la sección 7.

En la figura 10, se observa el esqueleto morfológico de una imagen en tonos de gris. Se resalta en ésta

que el esqueleto no es conexo, sin embargo guarda relación geométrica con los gradientes altamente

contrastantes de la imagen original.


Figura 10. Esqueleto morfológico de una imagen en tonos de gris

Conclusiones

En este artículo se mostró cómo al combinar de forma inteligente herramientas para el procesamiento de

imágenes, en específico de la morfología matemática, se obtuvo el esqueleto de una imagen en tonos de

gris aunque se trabajo prácticamente en su representación binaria. Se destaca, además, que la

Transformada Rápida de Distancia se relaciona de forma natural con la obtención del esqueleto. El método

de binarizado que se presentó, conserva el contorno de la imagen en tonos de gris. Estos resultados pueden

ser útiles, por ejemplo, a métodos de RP para obtener información de imágenes cuando se quiera aprender,

recuperar y clasificar patrones.

Referencias

[1] Shang, Lifeng; Yi, Zhang, “A class of binary images thinning using two PCNNs”, Neurocomputing, Jan

2007, Vol. 70 Issue 4-6, p1096-1101.

*2+ Reddy L, Rama K., Babu, G. R., “Multiscale Feature And Single Neural Network Based Face Recognition”,

Journal of Theoretical & Applied Information Technology, 2008, Vol. 4 Issue 7, p571-576.

*3+ Jahan Z, Muhammad Y. J. and Usman Q., “Low Resolution Single Neural Network Based Face

Recognition”. International Journal of Biomedical Sciences, 2007, Vol. 2 Issue 3, p206-210.

[4] Ritter, G. X., Sussner, P. and Diaz-de-Leon, J. L., “Morphological Associative Memories”, IEEE Transactions

on Neural Networks, 1998, pp. 281-293.

[5] Ritter, G. X., Diaz-de-Leon, J. L. and Sussner, P., “Morphological bidirectional associative memories”,

Neural Networks, 1999. pp. 851-867.

*6+ Yáñez C. (2002). “Memorias Asociativas Basadas en Relaciones de Orden y Operadores Binarios”, Tesis

doctoral, CIC-IPN, México.

*7+ Zhang, S and Fu S. A, “A Thinning Algorithm for Discrete Binary Images”, Proceedings of the International

Conference on Computers and Applications, Beijing China, 1984, pp 879-886.

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eS7iqr1Kwr55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7SrGstUmxqrU%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eS7iqr1Kwr55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7SrSosE%2bwqLA%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eS7iqr1Kwr55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7SrSosE%2bwqLA%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17


[8] Díaz de León, J. L. and Yañez, C, Introducción a la Morfología Matemática de Conjuntos, Fondo de cultura

Económica, IPN, México D.F., 2003, pp 254-262

*9+ Wang Y. and Lee T., “Curve-skeleton extraction using iterative least squares optimization”, IEEE

Transactions On Visualization And Computer Graphics [IEEE Trans Vis Comput Graph], ISSN: 1077-2626, 2008

Jul-Aug; Vol. 14 (4), pp. 926-36.

*10+ Wong, W., Shih and F., Su, T., “Thinning algorithms based on quadtree and octree representations”,

Information Sciences, May2006, Vol. 176 Issue 10, p1379-1394

[11] Sheng-fang H., Ruey-feng C., Woo K. M., Yu-hau L., Chen D. and Sun J., “Analysis of Tumor Vascularity

Using Three-Dimensional Power Doppler Ultrasound Images”, IEEE Transactions on Medical Imaging,

Mar2008, Vol. 27 Issue 3, p320-330.

[12] Li, Z, Ferrer, M., Travieso, C. and Alonso, J., “Biometric based on ridges of palm skin over the head of

the second metacarpal bone”, Electronics Letters, 3/30/2006, Vol. 42 Issue 7, p391-393

[13] Juárez-López. S, “Esqueletos morfológicos en el plano discreto”, 2004, Tesis de maestría, CINVESTAV-

IPN, México.

[14] Gamino A., "Operaciones morfológicas por descomposición del elemento estructura mediante discos",

2004, Tesis de Maestría, CINVESTAV-IPN, México.

[15] Diaz-de-Leon, J. L. (1996) “Combinación lineal de espacios Métricos en ”, 1996, Tesis de doctorado,

CINVESTAV-IPN, México.

[16] Díaz-de-León J.L., “Algortimos de esqueletización de imágenes binarias”, 1993, Tesis de Maestría,

CINVESTAV-IPN, México.

*17+ Jianning Xu, “A Generalized Discrete Morphological Skeleton Transform With Multiple Structuring

Elements for the Extraction of Structural Shape Components”, 2003,IEEE Transactions on Image Processing,

vol. 12, 1677-1686.

*18+ Abe, K., Mizutani, F. and Wang, C., “Thinning of grayscale images with combined sequential and parallel

conditions for pixel removal”, Feb. 1994, IEEE Trans. on Systems Man Cybernetics, vol. 24, no. 2, pp. 294-

299,

*19+ Arcelli, C. and Ramella, G.,”Finding grey-skeletons by iterated pixel removal”, Apr. 1995,Image and

Vision Computing, vol. 13, no. 3, pp. 159-267.

*20+ Dyer, C. R. and Rosenfeld, A., “Thinning algorithms for grayscale pictures”, Jan. 1979,IEEE Trans. Pattern

Anal and Machine Intell., vol. 1, no. 1, pp. 88-90.

*21+ Wang, L. and Pavlidis, T., “Direct gray-scale extraction of features for character recognition”, Oct. 1993,

IEEE Trans. on Pattern Anal. And Machine Intell., vol. 15, no. 10, pp. 1053-1067.

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eTLipsFKyq55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u%2bPsgKTq33%2b7t8w%2b3%2bS7SbaqtE%2b1rLM%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eTLipsFKyq55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7Sq6mr0uyrLQ%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eTLipsFKyq55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7S6%2brr1Cyq7I%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eTLipsFKyq55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7S6%2brr1Cyq7I%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eTLipsFKyq55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7Sq6psUi3q7U%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://web.ebscohost.com/ehost/viewarticle?data=dGJyMPPp44rp2%2fdV0%2bnjisfk5Ie45PFIs6ywTbSk63nn5Kx95uXxjL6nr0e3pbBIrq6eTLipsFKyq55oy5zyit%2fk8Xnh6ueH7N%2fiVauusEq1qK9NtZzqeezdu33snOJ6u9e3gKTq33%2b7t8w%2b3%2bS7Sq6psUi3q7U%2b5OXwhd%2fqu37z4uqM4%2b7y&hid=17

http://www.ctrl.cinvestav.mx/~biene/ThesisFiles/TesSkelMorfolArturo.pdf


Detección y Seguimiento de Objetos en Movimiento

I. Domínguez

Resumen

Dentro de la visión por computadora, el seguimiento visual de los objetos móviles es una de las áreas de

mayor interés debió al gran numero de aplicaciones que puede tener. En el presente trabajo se propone

un prototipo para la detección y el seguimiento de objetos en movimiento en secuencias de imágenes

obtenidas a través de una cámara digital, el prototipo se basa en la aplicación de herramientas

pertenecientes al procesamiento digital de imágenes como los son el error cuadrado medio (detección), el

gradiente en combinación con las operaciones lógicas sobre imágenes (segmentación) y el filtrado de la

imagen por 8-vecindad (mejora de la imagen).

Abstract

Computer visión and visual object tracking are exciting area because it has too many applications. In this

paper we propose a software prototype for the visual motion detection and real-time object tracking in

digital images secuences capted by a digital camera, we use digital image processing tools like mean

square error (motion detection), sobel gradient, and boolean operations on digital images (segmentation)

and image filtering by eight neihgbor mask (image improvement).

Keywords: gradient, convolution, filtering, motion detection.

Introducción

El problema de la detección y seguimiento de objetos en movimiento es particularmente interesante cuando

el objetivo que se persigue es el de la localización espacial de los objetos móviles en la escena en todo

tiempo. Es por eso que dentro de la visión por computadora, el seguimiento visual de los objetos móviles es

un campo que ha tenido un importante auge, debido a que existe un gran interés en las aplicaciones que

puede tener, como por ejemplo:

La robótica móvil

Las aplicaciones, tanto civiles como militares de seguimiento de objetivos

Navegación autónoma

Tratamiento de imágenes biológicas médicas

La vigilancia de lugares y su supervisión


De forma inicial y más específicamente para la detección de movimiento se deben de determinar el flujo

óptico en las imágenes o bien los cambios temporales en la imagen [1]. Cuando existen objetos en

movimiento en una escena, siempre tendremos cambios en la intensidad de los píxeles de la imagen, para

esto se, utiliza el error cuadrado medio. Posteriormente se realiza la segmentación en la nueva imagen para

identificar los objetos que en ella aparecen. Es obvio pensar que una escena puede contener diversos

objetos, entonces, el problema es ahora determinar los nuevos objetos que aparecen en la imagen más

reciente, para lograr esto se utilizan operadores lógicos en las imágenes. Una vez identificados los nuevos

objetos, por último la etapa final es determinar su ubicación espacial.

Descripción del prototipo.

El proceso general que lleva a cabo el prototipo para la Detección y Seguimiento de Objetos en Movimiento

se muestra en la figura 1. El trabajo se organiza en las siguientes etapas: Adquisición de la imagen mediante

una cámara digital, comparación entre pares de imágenes para determinar el flujo óptico, calculo de del

gradiente para extracción de objetos que aparecen en la escena, a continuación se aplican las operaciones

lógicas AND y OR exclusivo sobre las imágenes con el fin de obtener solo los objetos de interés (nuevos

objetos), posteriormente se aplica un filtrado de imagen por 8-vecindad para eliminar el ruido que se

presente en la imagen resultante (proceso de mejora de imagen), por ultimo se marcan los contornos de los

objetos en movimiento que aparecen en la secuencia de imágenes.

Adquisición de la secuencia de imágenes

En el contexto de percepción visual el seguimiento de un objeto, se puede definir como el proceso en el que

se efectúa la detección de algún objeto móvil y su persecución, a través de secuencias de imágenes

adquiridas por una o varias cámaras (estáticas o móviles)[2, 3] Para adquirir la secuencia de imágenes se

utiliza una cámara digital con conexión USB. El prototipo tiene gran flexibilidad en cuanto a la utilización de

diversas cámaras con esta conexión, debido a que se necesita solo el controlador (driver) del modelo que se

utilice. Las imágenes adquiridas están inicialmente en formato RGB, por lo que se debe hacer una

transformación de estas imágenes a escala de grises (256 colores), lo anterior por cuestiones de

implementación.

|),(),(|,

0, 1 yxIyxIEcm t

NM

yox t (1)

Detección de movimiento

Para determinar el movimiento en imágenes se debe de tener por lo menos dos imágenes, y a partir de ahí

obtener el flujo óptico para determinar el movimiento [4]. Una vez que se cuenta con las imágenes en

escalas de grises, se lleva a cabo la comparación entre 1ti e ti , utilizando el error cuadrado medio (1), que


en términos de implementación es una comparación en los niveles de grises de una Imagen en tiempo

1t con otra imagen en tiempo t , y así determinar si existe diferencia entre la nueva imagen y la anterior.

Figura 2. Proceso general del prototipo.

Cálculo de gradiente

Una fase crucial y compleja para lograr un buen seguimiento de los objetos en las secuencias de imágenes es

la segmentación. La idea general de la segmentación es seccionar la imagen en regiones disjuntas (bloques

o segmentos) de forma que estas regiones representen los distintos objetos que aparecen en la escena.

Inicialmente se realiza el cálculo de la magnitud del gradiente [5] que de forma general se define como se

muestra en la ecuación 2 para detectar los bordes de los objetos que aparecen en la escena.

La magnitud del gradiente suele ser aproximado a la ecuación (3) para cuestiones de implementación.

|||||| GyGxG (3)

El cálculo de la magnitud del gradiente es implementado mediante la operación de convolución que se

define como lo muestra la ecuación 4.


j k

kjHkyjxFyxG ],[*],[],[ (4)

La representación computacional de una imagen es mediante un arreglo de niveles de luminosidad, donde

cada elemento es el color del pixel en esa posición, por lo que la operación de la convolución se puede

representar gráficamente como en la figura 2.

Figura 2. Representación gráfica de la convolución

Se utilizan las mascaras de Sobel para calcular el gradiente. La máscara utilizada para calcular la magnitud en

la dirección Gx se muestra en la figura 3,.

Figura 3. Mascara de Sobel para Gx.

Para el cálculo de la magnitud en la dirección perpendicular Gy se muestra en la figura 4.

Figura 4. Mascara de Sobel para Gy.

Aplicación de operadores lógicos

Para realizar la segmentación de los nuevos objetos, es decir de los objetos que presentan movimiento, se

hace uso de herramientas propias de la morfología matemática [7, 8]: las operaciones booleanas AND y XOR,

aplicadas las imágenes resultantes del cálculo de los gradientes.


La operación lógica XOR es aplicada sobre las imágenes resultantes del cálculo de los gradientes para

obtener solo los bordes que no aparecen en ambas imágenes, el resultado de esta operación es una nueva

imagen que muestra las diferencias en ambas imágenes.

Una vez hecha la operación anterior lo que resta para segmentar el objeto que presenta movimiento es

aplicar la operación AND entre la imagen resultante anterior y el gradiente de la imagen It.

Aplicación de filtrado por vecindad

El resultado de las fases anteriores nos proporcionan la segmentación del objeto que presento el

movimiento, sin embargo puede también venir acompañado de ruido, que pueda dificultar la localización de

las coordenadas del centroide del objeto.

Para esto se utiliza una métrica 8-vecindad [6,5] mostrada en la ecuación 5, que nos permite determinar a

través de sus 8 vecinos si un pixel con coordenadas (x, y) es candidato a ser ruido o a ser parte del borde de

un objeto.

|)||,max(|),(8 vyuxyxd (5)

Localización espacial de los objetos

Por último solo resta encontrar el centroide de los objetos, los cuales se pueden estimar a partir de

conocer el borde del objeto S ( silueta) [9], para esto es necesario encontrar el cuadro mínimo del

objeto con ayuda de los puntos (x1, y1), (x2, y2), (x3, y3), (x4, y4) tales que:

yyjiSyx

xxjiSyx

yyjiSyx

xxjiSyx

2

2

1

1

),,(),(

),,(),(

),,(),(

),,(),(

Dicho de otra manera es obtener las x e y máximas y las x e y mínimas que encierran al objeto. Para

visualizar fácilmente el objeto en movimiento, se marcan sus bordes detectados.

Resultados

A continuación se muestra una de las pruebas realizadas al prototipo con el fin de ejemplificar el proceso

anterior efectuado para la Detección y Seguimiento de Objetos en Movimiento. Por obvias razones solo se

presentan 2 imágenes de toda la secuencia obtenida. En primera instancia se hace la captura de las

imágenes en tiempo real con una cámara USB como se muestran en las figuras 5 y 6.


Figura 5. Imagen en tiempo t-1

Figura 6: Imagen en el tiempo t

Una vez obtenidas las imágenes se realiza la conversión de las imágenes en RGB a imágenes en escala de

grises, y se comienza a realizar un monitoreo determinando el Error Cuadrado Medio. Cuando se detecta un

cambio en los niveles de gris lo suficiente grande para ser considerado movimiento ocasionado por algún

objeto se calcula el gradiente de ambas imágenes para localizar los bordes de los objetos como se muestra

en las figuras 7 y 8.


Figura 7. Calculo del gradiente en la primer imagen

Figura 8. Calculo del gradiente en la segunda imagen

Después de aplicar las mascaras del gradiente se aplica un XOR lógico para encontrar las diferencias entre

las dos imágenes, obteniendo así la imagen que se muestra en la figura 9.

Figura 9: Diferencias entre ambas imágenes

Se aplica la operación AND de la imagen resultante con la Imagen en el primer instante para segmentar el

objeto que presento el movimiento para obtener la imagen de la figura 10.


Figura 10: Objeto segmentado con ruido.

La imagen filtrada al aplicar la métrica d8 es la que se muestra en la figura 11.

Figura 10: Objeto segmentado filtrado.

Y por último se marca el contorno del objeto detectado como se muestra en la figura 12. Se obtienen las

coordenadas del centroide del objeto.


Figura 12: Contorno marcado en las secuencias de imágenes.

Conclusiones

El prototipo para la Detección y el Seguimiento de Objetos en Movimiento explicado en el presente

documento, muestra buenos resultados en las pruebas de seguimiento de objetos (diversos), y en diversas

condiciones (normales) de iluminación.

Un aspecto determinante para un buen seguimiento de objetos, es tener una buena adquisición de

imágenes, como es evidente en el prototipo no se realiza un preprocesamiento para la mejora de la imagen

puesto que no fue necesario, esto debido a, por una parte ,el avance tecnológico de las cámaras digitales

actuales, que nos proporcionan imágenes digitales aceptables para su procesamiento y por otra, la

flexibilidad del algoritmo para poder manipular los tres parámetros básicos para el correcto seguimiento que

son: el umbral para calcular el movimiento o dicho de otra forma para determinar que tan sensible debe de

ser el prototipo al movimiento, el umbral para el cálculo del gradiente en ambas imágenes y al número de

pixeles (1-8) considerados para filtrar la imagen.

Sin embargo, el prototipo presenta cierto retraso al mostrar el seguimiento en pantalla, por lo que es

conveniente realizar una revisión de código para su optimización. Como trabajo futuro seria interesante

complementar el prototipo con alguna técnica de reconocimiento de objetos (reconocimiento de patrones).

Tomando el cuenta el rápido crecimiento en las tecnologías de información que se ha tenido en los últimos

años, sería interesante implementar o adecuar el prototipo para su funcionamiento desde lugares remotos a

través de alguna red de cobertura amplia (o desde Internet).

No menos interesante seria implementar algún mecanismo electrónico como montar la cámara en motores

que permitan, por medio del prototipo manipular su movimiento.

Referencias

[1] M. Yamamoto. A general aperture problem for direct estimation of 3-D motion parameters, IEEE

Transactions on pattern analysis and machine inteligence, vol. 11, no. 5, pp. 528-536, May. 1989.

[2] Crowley J. L., Christensen H. I. , Vision as process,Springer- Verlang, Berlin, 1995.

[3] Aloinomos, Active perception, Lawrence Erlbaum Assoc. Pub, N. J. 1993.


[4] B. Horn and B. Schunck, Determining Optical Flow, Artifitial Intelligence, no. 17, 1981.

[5] Ian T. Young ,Jan J. Gerbrands, Lucas J. van Vliet Fundamentals of Image Processing, Cip-data koninklijke

bibliotheek, DenHaag,Netherlands, 1998.

[6] R. C. Gonzalez and R. E. Woods, Digital Image Processing, Addison Wesley pub. 1992.

[7] S, yokoy, J. Toriwaky and T, Fukumura, Topological properties in digitazed binary pictures,Syst. Comput.

Controls,1973 .

[8] S, yokoy, J. Toriwaky and T, Fukumura, An analysis of topological properties in digitazed binary pictures,

Computer vision, Graphics and Image Processing, 1975.

[9] Fernández Caballero, Montoya Fernández y Moreno J., Maximun line segments for object motion

estimation, Processing of the Eighth Turkish Symposium On Artificial Intelligence and Neural Networks,

Estambul Turquia, 1999.


Análisis criptográfico para propuesta de nuevo modelo esteganográfico

J. M. Reyes, R. Rojas-Hernández

Resumen

La información que manejamos de manera personal o bien dentro de una organización es la base sobre la

cual trabajamos, por lo mismo, esta debe de ser tratada con mucho cuidado, para esto la criptografía y

esteganografía nos ayudará a protegerla de personas ajenas a ella, existen algoritmos de encriptación como

el cifrado en flujo, cifrados en bloque como los algoritmos RSA e IDEA, entre muchos otros, en el presente

articulo solo se hará mención a estos, haciendo un comparativo entre los dos algoritmos mencionados para

conocer debilidades y fortalezas de cada uno, con la finalidad de enfocarnos en aquel que se adecua a

nuestras expectativas de un nuevo modelo esteganográfico que se propondrá.

Criptografía

La criptografía (del griego kryptos = ocultar, y graphos = escribir, literalmente es escritura oculta) es el arte

de escribir con clave secreta o de un modo enigmático, la criptografía utiliza técnicas matemáticas para la

creación de algoritmos de cifrado que hagan posible el intercambio de información de manera segura de

modo que sólo puedan ser interpretados y posteriormente utilizados por las personas competentes

involucradas directamente en el manejo de dicha información [1].

Esta se basa en que el emisor envía un mensaje en texto claro (información), antes de ser enviado por algún

medio de transporte físicos como puede ser cualquier disco compacto, discos duros, memorias físicas o por

medio lógicos como una red local o en su caso Internet, es tratado con métodos y algoritmos matemáticos,

que suelen ser complejos, los cuales cifren información con la ayuda de una clave para convertirla en un

mensaje cifrado.

Este mensaje cifrado enviado por el canal de comunicación establecido, llega al receptor interesado en dicha

información, en este caso lo llamaremos descifrador que convierte o descifra, valga la redundancia,

mediante la ayuda de los mismos métodos y algoritmos matemáticos el mensaje cifrado, apoyándose

también con una clave para obtener el mensaje original. Las dos claves implicadas en el proceso de

cifrado/descifrado pueden ser o no iguales dependiendo del sistema de cifrado utilizado.

La finalidad de la criptografía es garantizar el secreto de la información intercambiada entre dos entidades

(personas, organizaciones, etc.) y asegurar que la información que se envía es auténtica en un doble sentido,

esto es, que el remitente sea realmente quien dice ser y que el contenido de la información enviada

(mensaje cifrado) no haya sido modificada y utilizada con otros fines diferentes al de su origen durante el

envío de la misma.

Sistemas de cifrado

Sistemas de cifrado simétrico

Los sistemas de cifrado simétrico son aquellos que utilizan la misma clave para cifrar y descifrar un

documento [2]. El principal problema de seguridad reside en el intercambio de claves entre el emisor y el


receptor ya que ambos deben usar la misma clave. Por lo tanto se tiene que buscar también un canal de

comunicación que sea seguro para el intercambio de la clave.

Es importante que dicha clave sea muy difícil de encontrar ya que hoy en día las computadoras por la

velocidad de procesamiento pueden encontrar claves muy rápidamente. Por ejemplo el algoritmo de cifrado

DES usa una clave de 56 bits, lo que significa que hay 72 mil billones de claves posibles.

Actualmente ya existen computadoras especializadas que son capaces de probar todas las claves en cuestión

de horas. Hoy en día, derivado del problema comentado se están utilizando claves de 128 bits que

aumentan el margen de claves posibles (2 elevado a 128) de forma que aunque exista una

supercomputadora o varias conectadas que trabajaran conjuntamente para descifrar las claves existentes,

no lo conseguirían en un lapso de tiempo significativamente corto.

Figura 3. Encriptación con clave pública.

Sistemas de cifrado asimétrico

También son llamados sistemas de cifrado de clave pública. Este sistema de cifrado usa dos claves

diferentes. Una es la clave pública y se puede enviar a cualquier persona y otra que se llama clave privada, la

cual solo pertenece al receptor, por lo tato debe guardarse para que nadie tenga acceso a ella [3].

Para enviar un mensaje, el emisor usa la clave pública del receptor para cifrar el mensaje, una vez que lo ha

cifrado, el mensaje solamente será descifrado con la clave privada del receptor, ni siquiera el que ha cifrado

el mensaje puede volver a descifrarlo. Por ello, se puede dar a conocer perfectamente la clave pública para

que todo aquel que quiera comunicarse y enviar información con el receptor lo pueda hacer.

Un ejemplo de un sistema de cifrado de clave pública basado en la factorización de números primos se basa

en que la clave pública contiene un número compuesto de dos números primos muy grandes. Para cifrar un

mensaje, el algoritmo de cifrado usa ese compuesto para cifrar el mensaje. Para descifrar el mensaje, el

algoritmo de descifrado requiere conocer los factores primos, y la clave privada tiene uno de esos factores,

con lo que puede fácilmente descifrar el mensaje.

Es fácil, con las computadoras actuales, multiplicar dos números grandes para conseguir un número

compuesto, pero es muy difícil la operación inversa, dado ese número compuesto, factorizarlo para conocer

cada uno de los dos números que lo componen. Mientras que 128 bits se considera suficiente en las claves

de cifrado simétrico, y dado que la tecnología de hoy en día se encuentra muy avanzada, se recomienda en

este caso que la clave pública tenga un mínimo de 1024 bits.

Emisor

(mensaje

en texto

claro)

Receptor

(mensaje

en texto

claro)

Texto

cifrado xvxvcgeyr

tlmjgkvml

dro

Clave K

(Ciframos y

Desciframos con

la misma Clave)


Para un ataque de fuerza bruta, por ejemplo, sobre una clave publica de 512 bits, se debe factorizar un

número compuesto representa un número de hasta 155 cifras decimales.

Figura 2. Encriptación con clave pública y privada.

Características de un criptosistema

Un criptosistema, o sistema criptográfico, se puede definir como los fundamentos y procedimientos de

operación (algoritmo) que participan en el cifrado y descifrado de un mensaje.

Todo sistema criptográfico consta de cinco componentes (M, C, K, E, D)[4].

• M es el conjunto de todos los mensajes a transmitir.

• C es el conjunto de todos los mensajes cifrados.

• K es el conjunto de claves a utilizar.

• E es el conjunto de todos los métodos de cifrado: E = Ek / M → C, V k

• D es el conjunto de todos los métodos de descifrado: D = ,Dk / C → M, V k

Cada método de cifrado E está definido mediante un algoritmo, el cual, es común a todos los métodos y una

clave k respondiente a cada transformación Ek.

Lo mismo ocurre para las transformaciones de descifrado Dk de D. Para cada clave dada, k, la transformación

Dk es la inversa de Ek, y permite recuperar el mensaje original al aplicarla sobre el cifrado: Dk (Ek (m)) = m, V

m

Otros elementos que se pueden considerar son el alfabeto de entrada y el de salida, así como el lenguaje en

que esté escrito el mensaje original.

Todo criptosistema debe cumplir, al menos, tres requisitos básicos:

1. Todas las transformaciones de cifrado y descifrado, Ek y Dk, han de ser fácilmente calculables.

2. Los algoritmos de las transformaciones Ek y Dk han de ser fácilmente implementables.

3. La seguridad del sistema sólo debe depender del secreto de las claves k y no de los algoritmos de las

transformaciones E y D.

Emisor

(mensaje

en texto

claro)

Receptor

(mensaje

en texto

claro)

Texto

cifrado

(moeridk

jncsp)

Clave Pública del

Receptor con la que

el Emisor cifrara el

mensaje

Clave Privada del

Receptor con la que

él mismo descifrara

el mensaje


Además, un buen criptosistema ha de tener las siguientes cualidades: Seguridad, autenticidad y no repudio.

• Seguridad: es la incapacidad para un criptoanalista de determinar el texto original, a partir del texto

cifrado que haya podido interceptar.

• Autenticidad e integridad: considerada como la incapacidad para un criptoanalista de improvisar, sustituir

o modificar un texto cifrado c por un c’, sin que el receptor lo detecte.

• No repudio: el emisor, después de haber enviado el mensaje, no puede afirmar que no es suyo. Esto ha de

realizarse por otros medios, como la firma digital, etc., que se adaptan al criptosistema utilizado [5].

Algoritmos utilizados para el cifrado.

Como se menciona en el apartado de Sistemas de cifrado asimétrico, estos utilizan dos claves, una de

cifrado y la otra para descifrar el mensaje, dentro de esta rama de sistemas asimétrico nos encontramos a

los algoritmos RSA e IDEA, los cuales son los más utilizados en criptografía de cifrado asimétrico y a nuestro

parecer son de los más seguros de acuerdo a la estructura que los conforma.

Algoritmo RSA

De entre todos los algoritmos asimétricos, RSA es de los más sencillos de comprender e implementar, sus

pares de claves son duales, por lo que sirve tanto para cifrar como para autenticar. Su nombre proviene de

sus tres inventores: Ron Rivest, Adi Shamir y Leonard Adleman. Desde su nacimiento nadie ha conseguido

probar totalmente su seguridad, pero se le tiene como uno de los algoritmos asimétricos más seguros.

RSA se basa en la dificultad para factorizar grandes números. Las claves pública y privada se calculan a partir

de un número que se obtiene como producto de dos primos grandes. El atacante se enfrentara, si quiere

recuperar un texto plano a partir del criptograma y la llave pública, a un problema de factorización [5].

El algoritmo RSA funciona de la siguiente manera:

•Inicialmente es necesario generar aleatoriamente dos números primos grandes, a los que llamaremos p y

q.

•A continuación calcularemos n como producto de p y q: n = p * q

•Se calcula fi: fi(n)=(p-1)(q-1)

•Se calcula un número natural e de manera que MCD(e, fi(n))=1 , es decir e debe ser primo relativo de fi(n).

Es lo mismo que buscar un numero impar por el que dividir fi(n) que de cero como resto.

•Mediante el algoritmo extendido de Euclides se calcula d: e.d mod fi(n)=1 Puede calcularse

d=((Y*fi(n))+1)/e para Y=1,2,3,... hasta encontrar un d entero.

•El par de números (e,n) son la clave pública.

•El par de números (d,n) son la clave privada.

•Cifrado: La función de cifrado es C = M^e mod n


•Descifrado: La función de descifrado es M = C^d mod n

Algoritmo IDEA

El sistema de cifrado llamado IDEA (International Data algoritmo de cifrado) cifra 64 bits de texto plano

a 64-bits bloques de texto cifrado, utilizando una clave K de entrada de 128-bit. Basándose en parte en la

estructura general de Feistel.

Consiste en ocho transformaciones o rondas idénticas y una transformación de salida o media ronda. El

proceso para cifrar y descifrar es similar.

La mayor parte de la seguridad que brinda IDEA surge del intercalado de las siguientes operaciones: adición

y multiplicación modular y O-exclusivo (XOR), esto lo realiza bit a bit[6].

1. División del bloque de 64 bits de texto en cuatro subbloques de 16 bits: X1, X2, X3 y X4, y de los 128 de la

clave en 8: Z1 ... Z8

2. Multiplicación de X1 por el primer subbloque de la clave Z1

3. A ello se añade X2 y el segundo subbloque de la clave Z2

4. A lo que se añade X3 y el segundo subbloque de la clave Z3

5. Lo que se multiplica por X4 y por el cuarto subbloque de la clave

6. Se hace una operación de OR exclusivo (XOR) entre el bloque resultado de las operaciones segunda y

cuarta

7. XOR entre el resultado de la tercera y la quinta operación

8. Se multiplican los resultados de la sexta operación con el quinto subbloque de la clave, Z5

9. Se suma el resultado de las operaciones sexta y séptima

10. Se multiplica el resultado de la novena operación con el sexto subbloque de la clave, Z6

11. Se suman los resultados de la octava y la décima operación

12. XOR del resultado de la segunda y la décima

13. XOR del resultado de la cuarta y la décima

14. XOR del resultado de la tercera y la undécima

15. XOR del resultado de la quinta y la undécima

De esta forma se consigue el texto cifrado, juntando los cuatro bloques resultantes de las cuatro últimas

operaciones.


Evidentemente, la seguridad del cifrador aumenta cuando el texto pasa varias veces por el algoritmo, y el

IDEA lo hace 8 veces. Para retroalimentarlo, basta con permutar los bloques segundo y tercero de la salida, y

hacerlos entrar de nuevo, en todas las etapas menos en la última.

Después de la octava ronda, hay una transformación final, que consiste en los cuatro pasos siguientes:

1. Multiplicar X1 por el primer subbloque de la clave

2. Añadir X2 al segundo bloque de la clave

3. Añadir X3 al tercer subbloque de la clave

4. Multiplicar X4 por el cuarto subbloque de la clave

IDEA precede al algoritmo DES, en el cual los creadores de IDEA se fijaron en las debilidades del DES y las

fortalecieron creando un algoritmo de mayor seguridad y resistencia.

Esteganografía

La Esteganografía también se realiza mediante técnicas para ocultar el mensaje en archivos ajenos a este[7],

al igual que el criptoanálisis se usa con el fin de descifrar el mensaje, un estegoanalista aplica técnicas para

detectar la existencia de información oculta en algún estegomedio(imagen, sonido, texto, etc), además el

mensaje puede o no estar cifrado dentro de este. Un ejemplo muy sencillo es cuando se oculta información

en archivos de imágenes[8] se aprovechan los bits menos significativos de los colores para introducir en ellos

la información, como se ejemplifica en la figura 3.

Figura 3. Ejemplo de Esteganografía en imágenes.

Si la relación entre la información a ocultar, el tamaño de la imagen y el número de colores es buena, resulta

prácticamente imposible diferenciar la imagen original de la imagen con información oculta[9].

100110

10

Imgen

con

informa

ci

oculta

Nuevo

pel

modificad

o

Estegome

dio

imagen.jp

g

Pixeles

de la

imagen

Archi

vo

en

texto claro

conversi a

bits

0101

0111

1010

1010

1010

1

100110

11 0101

0111

1010

1010

1010

1

Reemplaza

mos el

primer bit

del

mensaje

por el bit

menos

significativ

o del

primer pel

de la

imagen.


De manera similar, cuando se usan archivos de sonido, la información oculta aparece como ruido de fondo,

pudiendo confundirse fácilmente con una simple grabación con algo de ruido.

Software esteganográfico

La oferta de software esteganógrafico disponible, gratuito o de pago, supera el centenar de programas.

Obviamente, no todos los programas de esteganografía que circulan por Internet son eficaces al cien por

ciento.

El sistema más eficaz sería aquel que esconde un mensaje cifrado oculto en el interior de otro archivo. Se

trata de una técnica mixta de ocultación y encriptación.

Los formatos gráficos como: jpg, bmp, gif, etc; y de sonido como: mp3, wav, aac, wma, entro otros, son los

de intercambio más habitual en Internet y por tal motivo son los más utilizados como estego medios ya que

suelen pasar desapercibidos por criptoanalistas y/o estegoanalistas, ya que tendrían que analizar miles de

archivos que circulan por la red al mismo tiempo.

Normalmente, este tipo de programas suelen estar limitados a un tipo específico de ficheros(gráficos, de

sonido o texto) e incluso dentro de un mismo tipo de ficheros puede tener limitaciones a sus propias

características, por ejemplo: el formato, el tamaño, el número de colores utilizado, etc.

La gran mayoría de los sistemas esteganográficos no mencionan el algoritmo utilizado para ocultar los

mensajes, esto es simplemente por seguridad, ya que de nada nos serviría creas sistemas esteganográficos si

mencionamos las partes vulnerables del estego medio o el algoritmo que utilizamos para ocultar el mensaje.

Tabla 1. Comparación del software Esteganográfico mas conocidos. [10]

Programa Plataforma Estegomedios Caracteristicas

Stegodos Dos Gif, pcx Restricción: 256 colores

Difícil de manejar

Hide and SEC Dos Gif, pcx Restricción: 256 colores

Tamaño limite del archivo a ocultar: 19kb

Hide4PGP Dos bmp, wav, voc

Relativamente sencillo de utilizar

Menos restricciones con las características

de los archivos

S-Tools4 Windows bmp, gif, wav

Interfaz de usuario por medio de ventanas

Permite encriptar los datos y sin limitaciones

de tamaño.

Texto Dos Textos en inglés El tamaño del texto obtenido es 10 veces

superior al que se pretendía ocultar

StegHide Windows bmp, wav, au Sencillo de utilizar

Sólo válido para mensajes cortos

MP3Stego Windows Mp3 Gratuito

Calidad muy aceptable


Steganos 3

Security Suite Windows Gráficos y Audio

Ofrece servicios de criptografía y

esteganografía

Esta disponible en Español

Digital Picture

Envelope Windows bm

Permite ocultar 50 kb en 100 kb sin que

aumente de tamaño el archivo original

Invisible Secrets Windows jpeg, png, bmp,

html, wav Interactua con Windows Explorer

Stegdetect Linux Es una herramienta de Estegoanálisis

Conclusiones

Sin duda con el avance de la tecnología también avanzan las amenazas hacia esta, teniendo como objetivo

principal el daño a nuestra información, en este artículo mostramos a grandes rasgos las fortalezas y

debilidades de los diferentes sistemas criptográficos, enfocándonos principalmente en el análisis de dos

algoritmos de clave asimétrica o privada, los cuales son RSA e IDEA, la comparativa que estamos realizando

sobre estos dos algoritmos se utilizará como base para proponer un nuevo sistema esteganográfico

tomando como estegomedio los archivos de sonido .wav.

Referencias

[1] An Introduction to Crytography, USA, Networks Associates, Inc, 1990-2000.

*2+ A. Menezes, P. van Oorschot and S. Vanstone, “Handbook of Applied Cryptography”, pp.~263–266, CRC,

Press, 1996.

*3+ A. Menezes, P. van Oorschot and S. Vanstone, “Handbook of Applied Cryptography”, pp.~285–290, CRC,

Press, 1996.

*4+ M. Merino M. Monografía “Una introducción a la Criptografía. El algoritmo RSA”, pag. 12, 2004.

*5+ M. Merino M. Monografía “Una introducción a la Criptografía. El algoritmo RSA”, pag. 14, 2004.

*6+ J. Ramió Aguirre, “Libro electrónico de seguridad Informática y Criptografía”, Manual docente de libre

distribución, Universidad Politécnica de Madrid.

*7+ J.A. de Bustos P. Archivo pdf, “Conferencia de Criptografía”, Jornadas Salamanca, 2002.

*8+ J.Ardita, M.Caratti, Trabajo de investigación, “Esteganografía”, Universidad John F. Kennedy, pag. 12,

1998.

*9+ A.Ribagorda, M. Estévez, J.C. Hernández, “Esteganografía., Esteganalisis e Internet”, Instituto de

investigación en inteligencia para la seguridad y la defensa, Madrid, España, Febrero 2007.

[10] H. Chapinal, A. Garcia-Millán, Monografía “Esteganografía y marcas de agua”, Departamento de

Ingeniería y Arquitecturas Telemáticas, Universidad Politécnica de Madrid, 2002.


Implementación De Tecnologías De Información Dinámicas En Proyectos De

Investigación Educativa

De Fuentes Martínez A.

RESUMEN

El término “dinámico” hace alusión a un concepto amplio, versátil y multidimensional. Un sistema

dinámico es aquel que se adapta “por sí solo” o con el mínimo esfuerzo al cambio de las variables críticas.

El uso de sistemas dinámicos puede extenderse a cualquier aplicación del mundo real, pero en educación,

pretendemos abordar, de manera teórico-práctica, la epistemología del concepto y el potencial sistémico

en procesos implementando tecnologías de información dinámicas como apoyo a proyectos de

investigación educativa.

De esta forma, esta ponencia pretende ser un instrumento de difusión de la experiencia y el desarrollo de

dos mejores prácticas que durante el año 2008 se han llevado a cabo en la Universidad Autónoma del

Estado de Hidalgo implementando las denominadas TID´s. La primera de ellas se refiere al proyecto de

mejoramiento de la calidad educativa y la formación integral de los estudiantes para incidir en su

desempeño académico; y la segunda corresponde a una metodología extensible de cómo podrían

integrarse un conjunto de tecnologías informáticas modernas en un sistema dinámico de indicadores de

equidad educativa.

PALABRAS CLAVE: Tecnologías de Información Dinámicas, Investigación Educativa.

ABSTRACT

The term “dynamic” makes reference to a wide, changeable and multidimensional concept. A dynamic

system is that one which adapts “by its own” or with the minimum effort to the shift of the critical

variables. The use of dynamic systems can be extended to any real world application, but in education, we

intend to handle, in a theoretical-practical way, the epistemology of the concept and the systemic

potential within processes implementing dynamic information technologies as an accurate support for

educational research projects.

In this way, this paper pretends to be a way to spread and to share the experience and the development

of two best practices which have been taken place during the year 2008 at the Universidad Autónoma del

Estado de Hidalgo implementing what we have called DIT´s. The first practice is about the educational

quality improvement and the students´ integral formation project which objective is to impact in their

academic performance; and the second practice corresponds to an extensible methodology of how could

a set of modern information technologies be integrated in a dynamic system of educational equitable

indicators.

KEY WORDS: Dynamic Information Technologies, Educational Research.

INTRODUCCIÓN


Mucho se ha escrito y argumentado acerca del uso de las tecnologías de la información y la comunicación en

las universidades e instituciones de educación superior, y en todos los niveles en general. Gran cantidad de

estas publicaciones presentan el tema desde los enfoques de la infraestructura, la práctica docente, la

política educativa, las reformas al currículum entre otras. La intención de esta ponencia es abordar el tema

de la integración de las tecnologías bajo la denominación de TID´s (Tecnologías de Información Dinámicas) y

desde el enfoque práctico, multidimensional e integrador cómo pueden apoyar sustancialmente la

investigación educativa.

DESARROLLO METODOLÓGICO

En el proyecto de mejoramiento de la calidad educativa y la formación integral de los estudiantes para

incidir en su desempeño académico se desarrolló una metodología del análisis de trayectorias estudiantiles

de los 60 programas académicos de la Universidad Autónoma del Estado de Hidalgo, partiendo de las bases

de datos de control escolar, de los planes de estudio y de los mapas curriculares. Esta metodología

contemplaba en su fase cuantitativa, el análisis y la descripción estadística de determinados indicadores

educativos como pueden ser los índices de reprobación, los índices de aprobación, las materias más

reprobadas, los porcentajes de bajas o los índices de retención, entre otros, en función de los periodos de

tiempo o los cohortes generacionales definidos para el estudio exploratorio cuantitativo.

Desde el principio, dicho estudio representaba un reto desde la perspectiva del tratamiento de la

información debido a las enormes cantidades de datos cuantitativos que habría que extraer filtrando los

resultados estadísticos de interés y de uso significativo para el análisis. Por ejemplo, suponiendo que en

cada programa académico existiera un plan de estudios vigente y que cada plan de estudio tuviera

aproximadamente 60 asignaturas, y considerando además el supuesto de que en cada semestre se

impartieran todas las asignaturas, y por último que cada una de éstas tuviera, como máximo promedio

estimado, 1.5 grupos, se tendría un total acumulado de 64,800 registros de una base de datos para los

estudiantes de los programas académicos. Lo anterior ejemplifica la manera exponencial en la que crecen la

cantidad de datos cuantitativos con los que se requeriría trabajar en un estudio de esta índole. En realidad,

algunas de las bases de datos con las que trabajamos y que fueron proporcionadas por la Dirección de

Control Escolar, contenían más de 100,000 registros de información. Por todo lo anterior, era claro el reto

creativo para el diseño de un sistema versátil que incorporara tecnologías de información dinámicas, que

permitieran filtrar y adaptar los resultados con el menor esfuerzo y tiempo posibles para la pronta

obtención de resultados así como la redacción de los informes dada la variable crítica del tiempo justo para

la conclusión del proyecto.

En el proyecto de indicadores de equidad educativa se trabajó con una base de datos de 2454 registros,

correspondiente a cada uno de los municipios que existen en la República Mexicana. En dicha base de datos

se contenían los campos relativos a los indicadores de interés para el contexto de equidad educativa como

son el índice de desarrollo humano municipal, el índice de marginación, el índice de rezago social, el índice

de desarrollo educativo, los porcentajes de hogares con pobreza alimentaria, de capacidades, y de

patrimonio, entre varios más. Todos ellos obtenidos de fuentes confiables, a saber, el INEGI, el CONEVAL, la

CONAPO o el PNUD.

Para este proyecto se requería de un sistema dinámico y eficiente que extrajera la información pertinente

de la base de datos para cada uno de los municipios según la selección del usuario y que además permitiera

la posibilidad de visualizar gráficamente y de manera interactiva y amigable, el contexto estatal de cada uno

de los indicadores para cada uno de los 32 estados de la República Mexicana. Además, la presentación de los


resultados, a diferencia del proyecto anterior, no sería mediante informes escritos e impresos sino a través

de la World Wide Web para promover una difusión nacional e incluso internacional. Nuevamente la

cantidad de datos era importante y se añadía un nuevo ingrediente para el reto creativo que era el formato

de la difusión.

RESULTADOS

Puesto que en el proyecto de mejoramiento de la calidad educativa, las bases de datos que se nos

proporcionaron fueron, las pequeñas en formato de hoja electrónica y las más grandes en modo texto, y

dado que éstas últimas contenían más de 100,000 registros, optamos por utilizar el sistema de información

Excel 2007 para importar los archivos de texto y no la versión 2003 porque ésta última presentaba una

limitante importante que era un número máximo de manejo de registros del orden de 65,536. La solución

práctica y eficaz que encontramos para trabajar con la enorme cantidad de datos contenidos en las bases

fue la del diseño de tablas y generación de gráficos dinámicos, provenientes de una herramienta poderosa

incorporada en el propio sistema de información y que nos permitió diseñar un subsistema asequiblemente

adaptable a cambios o nuevas selecciones en los datos de entrada. La figura siguiente resume gráficamente

la concepción genérica del sistema utilizado durante el proyecto:

Para el segundo proyecto, la solución consistió en una conjugación de varias tecnologías modernas bajo un

esquema de programación propio de un sistema dinámico orientado a manipulación de datos y en el que se

implementó el paso de parámetros entre archivos, peculiaridad que define y atribuye precisamente lo

dinámico, adaptable y versátil del sistema, ya que de lo contrario, la solución estática y tediosa habría

consistido en la generación de las 2454 páginas web, una para cada municipio del país, más las otras 480

páginas web correspondientes a cada uno de los 15 indicadores contemplados en el proyecto referentes al

contexto estatal de cada uno de los 32 estados de la República, haciendo un total de casi 3000 páginas web.

Una solución poco viable y costosa en términos de recursos y de tiempo.

La figura siguiente ilustra y resume la solución TID adoptada para el proyecto de indicadores de equidad

educativa.

Base de

Datos

xlsx Tablas y

gráficos

dinámicos

TID

Figura 1. Solución TID para el proyecto de mejoramiento de la calidad educativa y

la formación integral de los estudiantes para incidir en su desempeño académico.


Por último, comentar que mientras los resultados del primer proyecto corresponden al ámbito institucional

y que no tendrán otra difusión, por el momento, más que la impresa, los resultados del segundo proyecto

serán publicados en el sitio institucional de la universidad y con la dirección electrónica:

http://www.uaeh.edu.mx/investigacion/educacion/siee/index.html a partir del mes de diciembre del año

2008.

CONCLUSIONES

Es bien sabido y tal como se ha mencionado en numerosas ocasiones que “el papel de las tecnologías de

información en las escuelas toma un papel básico para la enseñaza” (Salinas, 2007:288). Waldegg (citado por

Salinas, 2007) menciona que la investigación educativa reciente sobre el uso de las nuevas tecnologías de

información y comunicaciones (NTIC) ha desarrollado una serie de nuevos conceptos y enfoques que han

hecho evolucionar notablemente el campo de la enseñanza y el aprendizaje.

Por otro lado, “se ha generalizado de manera errónea que el impacto del uso de la tecnología sólo ha sido

relevante en sectores industriales y de negocios, sin embargo existen otras áreas donde la tecnología ha

empezado a adquirir un papel estratégico y de gran importancia. Una de estas áreas es la educación”

(Álvarez, 2007:697).

Bauer y Kenton (citados por Álvarez, 2007) comentan que “al ser una herramienta del salón de clases, la

computadora ha capturado la atención de la comunidad educativa”. En los últimos años se ha incrementado

el número de programas académicos que han incluido a la tecnología como apoyo e inclusión a su

currículum. Por último, Reingold (citado por Álvarez, 2007) define en su estudio que, un número

considerable de educadores ven a la tecnología como un agente social y técnico. Y con este trabajo se ha

pretendido considerarla como un agente clave de apoyo a proyectos de investigación educativa. Así, desde

el ángulo áulico, se aborda constantemente la temática como la incorporación de TIC´s en la Educación, en

la Escuela, en el Aula; pero desde el punto de vista de la investigación educativa se ha promovido tratar el

tópico bajo la denominación particular de la implementación de TID´s (Tecnologías de Información

Dinámicas) en los procesos de diseño, desarrollo, implementación y difusión de proyectos de investigación

educativa en la Universidad.

BIBLIOGRAFÍA

Base de

Datos

MySQL

TID

Figura 2. Conjugación de tecnologías modernas para la solución TID del proyecto

de indicadores de equidad educativa

WWW

Javascript

PHP

Flash

HTML

XML CSS


*1+ Salinas, Perla A. (2007) “Modelo educativo y recursos tecnológicos.” Compilado en Lozano, Armando;

Burgos, José Vladimir. (2007). Tecnología educativa en un modelo de educación a distancia centrado en la

persona. México,D.F. México. Ed. LIMUSA. p. 288.

[2] Álvarez, Yolanda N. (2007) “Elementos Claves: Una Guía para el uso de la Tecnología en el Aula.”

Compilado en Narváez, Carlos; Yépiz, Norma. (2007). Memorias de Reporte de Investigación Educativa de

Ensayo Docente y de Resumen del I Congreso de Investigación y Gestión Educativas del Tecnológico de

Monterrey. Monterrey, Nuevo León. México. ITESM. p. 697.


Una herramienta Automatizada aplicada al aprendizaje de la programación

Pérez Calderón, R.

Resumen

La enseñanza es una actividad básica del ser humano. Es la forma como nuestra cultura ha perpetuado y

transmitido su conocimiento, tan vasto que ningún ser humano sólo puede asimilarlo. El ser humano debe

especializarse en un tema y sobre éste aprender para dedicarse posteriormente a una actividad

profesional. Una de estas actividades es la programación de computadoras, cuya enseñanza o aprendizaje

puede no resultar sencillo. A este respecto se presenta este trabajo una propuesta sobre su enseñanza

reforzada con el uso de una herramienta.

La disciplina de la enseñanza tiene una infinidad de líneas de investigación y no se diga de las relacionadas

al ámbito académico y técnico. En este trabajo se plantea cómo desarrollar algoritmos a través de una

metodología para que pueda desembocarse en la creación de un programa en uno de cuatro posibles

paradigmas de programación.

Palabras: Algoritmos, Pseudocódigo, Programas, Lenguajes.

Abstract

The education is a basic activity of the human being. It is the form as our culture has perpetuated and

transmitted its knowledge, so vast that any human being only can´t assimílate it. The human being must

specialize in a topic and on this has learn to deeply for a professional activity. One of these activities is the

computer programming, in the which education or learning can’t turn to be simple. In this regard presents

this work an offer of education reinforced with the use of a tool. The discipline of the education has an

infinity of lines of investigation and it is not said of related to the academic and technical area. In this

work appears how to develop algorithms across a methodology and can create a program in one of four

possible paradigms of programming.

Keywords: Algorithm, Pseudocode, Programs, Languages

Introducción

Los lenguajes de programación han sufrido una transformación sustancial desde sus inicios. Si bien en las

primeras computadoras era necesario cablearlas para su programación, en nuestros días no hay más que

sólo tener una PC para experimentar sobre su programación. Tras su evolución, hoy en día podemos

identificar varias generaciones de lenguajes de programación.

Lenguajes de 1ra. Generación.- Bajo esta clasificación se engloban todos aquéllos códigos de programación

conocidos como lenguajes máquina ó códigos máquina.

Lenguajes de 2da. Generación.- Esta generación fue impulsada por los estudios del matemático húngaro

John Von Neumann sobre el concepto del programa almacenado en memoria, se desarrollaron los primeros

lenguajes ensambladores simbólicos, junto con algunos otros que hoy se catalogan como de nivel medio.


Lenguajes de 3ra. Generación.- Son todos aquellos lenguajes que parten de una gramática y poseen una

sintaxis propia de un lenguaje libre de contexto. Aquí caen la mayoría de los lenguajes de programación que

existen actualmente.

Lenguajes de 4ta. Generación.- Lenguajes principalmente orientados al usuario final que parten de un

modelo declarativo, en el que lo que importa es la expresión de problema y la solución esperada más no la

forma en que ésta se obtenga.

El diseño e implementación de los lenguajes de programación al igual que las computadoras también han

ido evolucionando de una manera continua y metódica desde que aparecieron en la década de los

cincuenta.

Un paradigma es una forma de organización en donde los elementos se estructuran en sentido lógico, es

decir, se trata de un modelo o patrón a seguir. Los lenguajes de programación pueden clasificarse por el

paradigma con el que se implementó, cada uno es completamente diferente en su concepción. A

continuación se describen los cuatro más representativos.

Paradigma Imperativo. En el modelo de programación imperativa se utilizan las diferentes estructuras de

control y estructuras de datos predefinidas por el propio lenguaje o las definidas por el propio desarrollador;

en este contexto el usuario define variables, constantes, funciones, procedimientos, entre otras. El

programa se comporta como una máquina abstracta. En términos coloquiales se le indica al programa qué

instrucción se debe ejecutar primero y hasta que termine esa instrucción no se inicia la siguiente y así

sucesivamente hasta el final del programa. Un ejemplo muy claro de este tipo programación es el lenguaje

Pascal.

Paradigma Funcional. En la programación funcional todo gira entorno a la definición de funciones y en la

aplicación de esas funciones. En términos coloquiales se le indica al programa ejecutar una función

predefinida, con o sin parámetros, y hasta que se tengan resueltos todos los parámetros, se ejecuta la

función.

Paradigma Basado en reglas. Los modelos basados en reglas, como la programación lógica, expresan un

problema a través de un conjunto de relaciones, hechos, y aquello que rige en su establecimiento o

funcionamiento. Muchos de los lenguajes de programación que recurren a este modelo deben implementar

algunos mecanismos adicionales para que funcione adecuadamente, como la capacidad de recorrer varias

posibilidades y regresar sobre los pasos tomados para explorar otros si los primeros resultan infructuosos,

un concepto conocido como rollback o backtracking.

Paradigma Orientado a Objetos. La programación Orientada a objetos (POO) parte de la concepción de

conceptos más sofisticados en comparación a los paradigmas anteriores. Considera entidades participantes

en un problema como objetos, las relaciones entre éstos (herencia, polimorfismo, encapsulamiento) y su

comportamiento.

Antecedentes.

La educación exige la necesidad de crear diversos tipos de estrategias y recursos para que realmente ofrezca

posibilidades de desarrollo a todos los alumnos y no sólo a unos cuantos (01). Una vez que los alumnos sean

más competentes, su entorno (profesores incluidos) se volverán más exigentes de igual manera. El software

aplicado para la educación es por si sólo una nueva estrategia didáctica para generar aprendizaje


significativo, existen diversas tecnologías enfocadas en ello, los mecanismos más usados en este ámbito son

E-Learning, CD-Interactivos, los tutoriales y el software comercial de empresas nacionales e internacionales.

Experiencias de la enseñanza de la programación de computadoras.

Existen diversos mecanismos y metodologías para enseñar a programar y que van desde lo más simple y

particular hasta lo más sofisticado. A continuación daremos algunos ejemplos de éstos.

La Universidad de Sevilla, a través de su departamento de Lenguajes y Sistemas Informáticos, cuenta con

varias asignaturas que comprenden su metodología didáctica en la enseñanza de la programación. Este

departamento considera que uno de los aspectos más importantes, además del cómo se le haga llegar todo

tipo de información, es la forma en la que se motiva al alumno, para ayudarle y que se le facilite la

programación (03).

Gerald Jay Sussman y Jack Wisdom, comentan que se reconoce que un estudiante puede saber la teoría y

que también puede tener problemas para la aplicación de ésta. Cuando el estudiante no tiene un

procedimiento formal para aprender la técnica de resolución de un problema le costará trabajo aplicar los

conceptos que ya conoce. Los autores comentan que expresar una metodología de enseñanza como un

lenguaje de programación obliga a que ésta no sea ambigua y sea altamente efectiva. La tarea de formular

un método como un programa y depurar el programa es un ejercicio poderoso en el aprendizaje. (04)

En el trabajo de Mario Oviedo Galdeano se analizan los problemas más comunes en la enseñanza de la

programación (desde la visión del autor) y que se consideran más importantes para el logro del objetivo de

la asignatura (y que de alguna manera son los mismos que para este estudio se han detectado con el paso

del tiempo). El autor comenta que la programación, al ser una actividad mental compleja y creativa,

requiere de 4 características: inteligencia, conocimiento, habilidades y disciplina, las cuales se adquieren con

el paso del tiempo. También el autor sugiere una estrategia para tal efecto y la divide en lenguajes de

programación y herramientas de desarrollo que, con ayuda de conceptos de técnicas de programación, lo

llevarían a la enseñanza de la programación en sí misma. Puede considerarse hacer un examen diagnóstico

en el cual se observará el nivel de madurez del grupo y se podrá generar la estrategia didáctica más efectiva

para el logro del objetivo. (05)

En el trabajo de Norma Moroni con el uso del método global, recalca que las letras sólo se pueden

comprender en el contexto de sus palabras y las palabras solamente se pueden comprender en el contexto

de sus frases. Para el aprendizaje de un lenguaje de programación, ahorra tiempo y esfuerzos por lo que se

creó un ambiente de aprendizaje con un editor interactivo de algoritmos, un constructor automático de

trazas y un traductor de algoritmos a programas en lenguaje Pascal, en este trabajo se presentan los

resultados obtenidos en una experiencia de campo diseñada para comprobar la efectividad de la aplicación

(01)

Mediante el aprendizaje en grupo lo que hace es que los alumnos al mismo tiempo diseñen un programa y

compartan responsabilidades, fracasos, frustraciones, y éxitos. Esta técnica, derivada de la falta de

computadoras en las escuelas, es popular en el ámbito empresarial, lo que llevó a mejoras significativas

tanto en calidad como en cantidad en el aprendizaje de la programación. Con el desarrollo de este concepto

y con el uso de la Internet se está depurando el concepto de tal manera que en forma remota no solo es

posible la participación de dos alumnos sino los que fuesen necesarios para la colaboración de un proyecto.

El método se llama DOMOSIN-TPC (06)


Existe un trabajo de simulación sobre pedagogía que sin duda es parecido al aquí presentado, de Arnoldo

Oronico, que tiene como titulo “Una robótica pedagógica”. En el que se busca facilitar la manera en que se

aborda el tema de la robótica a través de un software de simulación que genere el aprendizaje significativo y

con ello lo lleve estrechamente a la realidad. (07)

Estos son algunos de los trabajos que se han realizado para el desarrollo y mejoramiento de la enseñanza de

la programación. El presente trabajo reforzará y tomará experiencias de ellos para cumplir el objetivo de la

investigación y ratificar o desechar la hipótesis de la investigación.

Paradigma actual de la enseñanza y formación.

La docencia es un conjunto de prácticas que se hace a través de los años. Los tiempos actuales exigen

estrategias nuevas de enseñanza y no de tiempo atrás. La mayoría de las universidades se basan en una

enseñanza tradicional, en la que, el qué dictamina casi siempre las reglas del aula es el docente y alrededor

de quien gira la educación. Cuando el docente tiene experiencia, vocación y personalidad puede hacer que

sea él, quien dictamine todas y cada una de las cuestiones de clase y si no que difícil proceso. Existe el

riesgo de que a través de una figura docente dominante se llegue a provocar el conformismo y dependencia

del profesor.

A través del tiempo el docente ha tenido una multitud de roles (transmisor del conocimiento, facilitador,

guía del aprendizaje, etcétera), muchas veces dependientes de un modelo educativo. Otras tantas la

práctica del docente está envuelta por lo que gira alrededor de él, su experiencia profesional, su estabilidad

emocional, su capacidad de interrelación con los otros docentes, sus metas logradas hasta ese momento,

etcétera. Es difícil precisar las características que un buen docente debe tener para lograr el objetivo de su

asignatura.

Es necesario que el profesor pueda tener el conocimiento mínimo necesario para que pueda identificar a

todos y cada uno de sus alumnos para ayudarlos a tener un buen aprendizaje. Nuestra propuesta es

facilitarle al alumno el aprendizaje de la difícil actividad de programar utilizando una herramienta

automatizada para ayudarles a entender los principios de la programación de computadoras.

La enseñanza más importante en el aprendizaje.

La tendencia de los modelos de la enseñanza es que los alumnos tengan un aprendizaje significativo, que

modifique su conducta y comportamiento. Es importante comentar que como consecuencia de estos

factores y dependiendo del estilo de aprendizaje de ellos, la estrategia didáctica que se presenta en este

trabajo busca guiar la enseñanza de la programación mediante el uso de una herramienta automatizada

apoyándose de una técnica en el diseño de algoritmos.

Con el paso del tiempo se ha observado que los estudiantes tienen serios problemas al momento de

elaborar programas, por diversas causas. El estilo de aprendizaje de cada de ellos, tiene que ver con

aspectos internos de su personalidad, por un lado, y con la técnica que se aplica en el aula, por el otro.

La siguiente grafica esquematiza varias estrategias didácticas. En ella se observa la tasa de retención por la

técnica seleccionada.


Grafica de NTL Institute for Applied behavioral sciences (14)

La grafica anterior nos permitirá darnos cuenta que el generar una nueva estrategia educativa ayudará al

alumno no solo en la área de programación sino en cualquier ámbito de la carrera. La línea de investigación

propuesta la ubicamos en el nivel C, que está sustentada en prácticas, ejercicios y problemas que es

precisamente el segundo nivel de aprendizaje significativo con un porcentaje elevado del 75%.

Herramienta Propuesta

Existe un sin fin de maneras de escribir algoritmos. Se han implementado cientos de lenguajes de

programación desde los años 50. Sin embargo, pocas son las personas que dominan más de 3 lenguajes. La

mayoría de las empresas siempre usan por lo regular un par de ellos en sus desarrollos y terminan

especializándose en uno. Entonces ¿por qué estudiar una diversidad de lenguajes que es poco probable usar

en el ámbito profesional? (08). La respuesta a esta pregunta se centra en los diversos paradigmas de

programación que permiten tener una perspectiva diversificada de cada uno, además de que existen

problemas que son más fácilmente expresados en un lenguaje que en otro de paradigma diferente. En otras

palabras, así como no existe un algoritmo universal, tampoco hay un lenguaje de programación universal.

Por otro lado, como comenta Terrance W. Pratt (8), existen una serie de razones para fundamentar esta

pregunta, en la cual no sólo se distingue a un lenguaje por sus características sino que además deberíamos

incluir el costo de:

1. Mejorar la habilidad para desarrollar procesos eficaces.

2. Mejorar el uso del lenguaje.

3. Acrecentar el propio vocabulario con instrucciones, sintaxis o estructuras de control sobre programación.

4. Hacer posible una mejor elección del lenguaje de programación.

5. Facilitar el aprendizaje de un nuevo lenguaje.

6. El costo del propio lenguaje (capacitación, implementación, creación de aplicaciones y mantenimiento)

Así entonces, el estudio y aprendizaje de varios lenguajes de programación no es sólo una herramienta

enriquecedora y formativa sino también una habilidad profesional que debe cubrirse para competir en un

mercado laboral. En este punto entonces la pregunta se transforma en ¿cómo proporcionar al estudiante la


habilidad no sólo para aprender a programar sino además aprender a programar bajo varios paradigmas de

programación de computadoras? Una respuesta a esta pregunta la ofrecemos en este trabajo de

investigación.

Construcción de la aplicación.

La respuesta a la pregunta que hemos venido planteando a lo largo de todo este el trabajo y que hemos

condensado en el apartado previo se presenta en forma de una aplicación informática que permite a un

docente exponer los principios fundamentales de la programación de computadoras y además auxiliarlo en

su traslado a otros paradigmas. Curiosamente esta solución surge de una actividad de programación, una

actividad que lleva a la construcción de una aplicación informática de ayuda al conocimiento de esta tarea.

Como toda aplicación informática debidamente desarrollada, su construcción se ha llevado a cabo en

forma metódica. El ciclo de vida de los sistemas de información dicta gran parte de este método además de

proporcionar una visión mucho más completa de las expectativas de vigencia del desarrollo. Tal como está

aceptado este ciclo de vida se compone de las siguientes etapas:

1. Análisis.

2. Diseño.

3. Desarrollo.

4. Pruebas.

5. Implementación.

6. Mantenimiento.

7. Fin de Vida

La aplicación fue desarrollada con una visión en este ciclo de vida. Aquí describiremos los pormenores de su

construcción, al menos la primera fase.

Análisis. La información sobre el problema fue recopilada de diversas fuentes:

1. La experiencia profesional de los docentes en el desarrollo de diversos proyectos, ya sea como

consultores o como parte de un área de sistemas en una empresa.

2. La experiencia de los docentes en la enseñanza.

3. Retroalimentación de los alumnos en varias generaciones en la carrera de Informática a través de la

aplicación de un cuestionario.

4. Experiencias en el abandono de la carrera por parte de algunos estudiantes

5. La complejidad de las materias de la academia de programación y su respectiva seriación.

6. Las malas experiencias de los alumnos en el rubro de la programación

Muchas de estas características se subsanan con la herramienta propuesta. Con toda esta información se

hace una propuesta con diagramas de flujo los cuales que no se incluyen por espacio, el cual es un proceso

de conversión de los algoritmos hacia los diversos lenguajes.


El análisis de la aplicación incluyó la selección de los lenguajes de programación más representativos que se

imparten en la universidad. En la actualidad estos lenguajes de programación se han orientado mucho a los

ambientes gráficos gracias a los asistentes de aplicaciones y generadores de código. Estas herramientas

ayudan a agilizar el proceso de creación de programas pero tratándose de una experiencia de aprendizaje

son contraproducentes al ocultar la programación de las aplicaciones. Así entonces esta herramienta

desechó el incluir facilidades de este tipo.

La selección de lenguajes se orientó en el paradigma de programación que se desea presentar para su

aprendizaje más que el lenguaje en sí, de tal suerte que los lenguajes seleccionados fueron:

Paradigma Lenguajes

Imperativo Pascal y C

Funcional Scheme

Basado en Reglas Prolog

Orientado a Objetos Delphi

Orientado a Eventos Visual Basic

La necesidad de una metodología para la creación de algoritmos.

Conforme a lo que se ha declarado a lo largo de este trabajo, lo que se pretende es ayudar a reducir el

tiempo en que los alumnos aprenden a crear programas independientemente del lenguaje de programación

utilizado. Para esta labor resulta imprescindible el uso de un método en la formulación del algoritmo inicial.

En la medida en que un proceso metódico sea usado en la formulación del procedimiento de solución, la

herramienta aquí presentada disminuirá el tiempo en el que los estudiantes se tarden en aprender a

programar, tal es la hipótesis de este trabajo.

Un algoritmo es un procedimiento formado por un grupo de pasos, ordenados que proveen la solución a un

problema. El razonamiento y expresión detrás de cada uno de ellos puede ser diverso. Revisaremos algunas

sugerencias entorno al tema.

La técnica del pseudocódigo recurre a tratar a los identificadores de un algoritmo como si fuera un idioma

en particular sin llegar a serlo. Por lo regular siempre se ha usado el idioma inglés pero puede ser cualquier

otro. En nuestro caso favoreceremos al español. Las palabras que se utilizan tienen que ver con aspectos de

la programación como Leer, Imprimir, Si Entonces, Realiza Mientras Condición, Inicio, Fin, entre otros. Para

cualquier algoritmo es necesario hacer una prueba de escritorio, que es seguir en una hoja en papel el

comportamiento del algoritmo y las variables que intervienen en él para su mejor entendimiento. La prueba

de escritorio siempre permitirá ver si un algoritmo funciona correctamente o identificar las correcciones

necesarias. A continuación se muestra el desarrollo de algún algoritmo en pseudocódigo.


Ejemplo. Realizar un algoritmo que obtenga el factorial de un número entero positivo.

1 Inicio

2 Leer Valor

3 Factorial = 1

4 Factorial = Factorial * Valor

5 Valor = Valor – 1

6 Si Valor > 1 Entonces Ve a 4

7 Imprime Factorial

8 Fin

En este algoritmo se observa lo siguiente:

a) Se utilizó una variable Factorial con un valor inicial de 1

b) Se reemplaza el valor de una misma variable (Factorial) con una operación aritmética utilizando el valor

que se tiene en ese momento en la variable valor

c) Se hacen Multiplicaciones regresivas

d) Se resta 1 al valor Inicial Digitado

e) Se Condiciona la variable para que se repita el cálculo de la multiplicación (Se regresa a una instrucción

específica)

f) Se obtiene el valor último de la variable factorial

g) Se utilizan operadores numéricos y relacionales

Al margen de este ejemplo y de muchos ejercicios, considérese la posibilidad de contar con un ambiente de

desarrollo para capturarlos y guardarse para futuras modificaciones o una posterior implementación en

algún lenguaje. Tal capacidad sin duda será bien recibida por estudiantes y profesores, una capacidad que

consideramos es un valor agregado y aportación de la herramienta al proceso de enseñanza.

Así entonces la aportación de este trabajo en términos de una técnica y herramienta podrá ser valorada

desde la captura de algoritmos hasta poder llevarlos a 6 lenguajes de programación.

Validación de campo de la herramienta presentada y técnica descrita.

La herramienta aquí descrita ha sido aplicada con éxito a los grupos de Lógica de Programación que se

imparte como parte del programa Ingeniería en Informática en una Universidad durante los primeros

cuatrimestres.


Inicialmente, su utilización fue con los alumnos de un grupo experimental, con la esperanza de poder ser

usada por todos los alumnos de la carrera en un futuro próximo. Se mantuvo también un grupo de control.

Para tener una mezcla homogénea de los dos grupos, se recopilaron los antecedentes académicos de los

estudiantes. Se puso particular interés en el aprovechamiento sobre materias como físicas y matemáticas,

así como a la escuela de procedencia. Finalmente, a través de un breve cuestionario se les interrogó sobre

su interés para asistir a un curso de programación.

El taller se impartió tres días a la semana bajo un programa de cuatro fases:

1. Lógica de programación.

2. Desarrollo de algoritmos.

3. Desarrollo de algoritmos empleando la herramienta de enseñanza.

4. Conversión de los algoritmos capturados.

Este último paso sólo se dió al grupo experimental, en el cual se veía el efecto de la traducción instantánea

del código, para ser copiado al clipboard de Windows. El grupo de control únicamente tradujo los algoritmos

vistos en la segunda fase del programa a algún lenguaje de programación.

Fases

Para el desarrollo de estas fases, se elaboró una planeacion que nos apoyaría para cubrir los objetivos

planteados, dentro de estas actividades se suscitaron algunas que no se pudieron controlar como: la

deserción y el desinterés; algunos alumnos que ya formaban parte de los grupos desertaron porque era

mucha la lejanía de la escuela a su casa o que era muy noche con un porcentaje del 18%, cabe mencionar

que el horario del taller era de las 20:00 a las 21:00 todos los días de lunes a viernes y el desinterés que no

era lo que esperaban, querían empezar desde un inicio a programar.

La fase 1 de la investigación se termino de acuerdo a la planeacion, en ella se inicio a los alumnos en

conceptos totalmente teóricos; desde la definición de un algoritmo, los tipos de algoritmos, las diversas

estructuras de datos y las estructuras control, así como ejemplos de las habilidades mentales relacionadas

con la lógica de programación (abstracción, análisis, síntesis, inferencia, entre otras), ejemplos de procesos

internos del individuo (atención, adquisición, personalización, recuperación, transferencia, entre otros) muy

complejos que desde luego pertenecen a otro ámbito de estudio y por ultimo de esta fase se tomo como

referencia el articulo de Eduardo Rene Rodríguez Ávila (09), en donde el autor hace una excelente

descripcion del correcto y completo desarrollo de un algoritmo. Esta fase se llevo a cabo en 21 días,

notándose un avance considerable en los alumnos y un gran interés por la programación; con el transcurso

de esta fase, que es de pura teoría se les solicitó a los alumnos que resolvieran ejemplos de ejercicios en

cuanto a la definición de formulas matemáticas y éstas como se traducirían en términos de operadores

relacionales, lógicos y numéricos, la sorpresa fue muy grande porque no tienen depurado aspectos básicos

como el algebra, son simples operaciones básicas y de cada una de ellas se obtuvieron como 10 resultados.

Esto nos lleva a concluir que muchas veces la problemática no se encuentra en el presente si no en el

pasado, pero de mucho tiempo atrás (3 años mínimo), las siguientes son las operaciones aritméticas que se

les indico que realizaran, obteniendo resultados muy variados:

a) 3 * 4 - (46 mod 5) + 69 / 4 - 35 * 3


b) (81 + 3 * 5) mod 7 - 5 * 8 / 2 - 16 * 3

c) 6 div 12 + 23 + (31 - 12 * 24 / 4).

Por lo anterior se determina que sí es necesario generar una nueva estrategia didáctica para la enseñanza de

la programación, que ayude a disminuir el tiempo en aprender a programar y que nos lleva a corroborar que

el proyecto y la aplicación están totalmente sustentados.

La fase 2 del proceso, se desarrolló con conceptos de técnicas de diseño de algoritmos (Pseudocódigo,

Diagramas de Flujo y Nassi-Sneiderman), el mismo problema se realizaba en las tres técnicas para un mejor

entendimiento por parte de los alumnos y a solo una de ellas se realizaba la prueba de escritorio ya que con

está se va depurando el algoritmo para su mejora, se escogió la técnica de pseudocódigo. También en esta

fase, se debía de tener la mayoría o la totalidad de los conceptos de lógica de programación, que se dió en la

fase 1. Cabe mencionar que esta fase se llevó también como 21 días, en la cual se observó un interés real

para el diseño y creación de algoritmos de problemas triviales y complejos, la mayoría de los alumnos tenían

la intención de hacerlos y algunos lo consiguieron, pero otros no, se considera que en esta fase hay que

dedicarle más tiempo, mucho tiempo.

Con estas dos fases, los alumnos desarrollan los conceptos de diseño y creación de algoritmos de una

manera metódica y ordenada, sin entrar en algún proceso de los ambientes de desarrollo reales de los

lenguajes de programación, con esto se hace que los alumnos se preocupen solo por el diseño de algoritmos

eficaces, en un tiempo corto considerable. Hay alumnos que tienen mucha iniciativa y ello ayuda a la

resolución de los algoritmos, otros alumnos tienen iniciativa pero les falta un proceso de entendimiento y

asimilación; cuando consideran que no pueden, se llegan a aislar y por el contrario cuando saben les genera

mucha confianza y pueden comunicarse fácilmente, debatir, preguntar o llevar su conocimiento a un nivel

mayor.

En esta siguiente fase los programas que se debían de desarrollar son los algoritmos que se elaboraron en la

fase anterior y que para nuestra investigación son los de la técnica de pseudocódigo, los cuales ya les eran

muy familiares. Cabe mencionar, qué hasta esta parte se dió la misma información tanto teórica como

técnica a los dos grupos: el experimental y el de control. Al grupo experimental se le invitó a que capturaran

los algoritmos diseñados en la herramienta propuesta, este proceso fue de mucha exigencia para ellos, es

como cualquier ambiente de desarrollo (IDE) se crea un proyecto, guardar, modificar, imprimir, compilar,

detener, abortar, salir, entre otros.

En la fase de desarrollo de programas que por cierto era la última se exhortó a los grupos a que generaran

programas reales, al grupo de control en un lenguaje visual y al experimental a través de una conversión

con la herramienta propuesta, con los algoritmos capturados en la fase anterior. En el grupo de control se

elaboraron 11 programas los tiempos de desarrollo estimados fueron los siguientes para un sólo lenguaje de

programación.

Resultados y Conclusiones

Tabla 1. Tiempos realizados para el desarrollo de los algoritmos en el grupo de control.

Programa Visual Basic Pascal C Scheme Prolog Delphi


No.

1 30 30 30 40 40 30

2 20 20 20 30 30 20

3 10 10 10 20 20 10

4 15 15 15 25 25 15

5 20 20 20 30 30 20

6 20 20 20 30 30 20

7 20 20 20 30 30 20

8 20 20 20 30 30 20

9 20 20 20 30 30 20

9 30 30 30 40 40 30

10 30 30 30 40 40 30

11 60 60 60 80 80 60

Tabla 2. Tiempos realizados para el desarrollo de los algoritmos en el grupo experimental

No. Programa Tiempo

1 Suma de los primeros 10 dígitos

positivos

50

2 Desarrollar una tabla de multiplicar 50

3 Determinar si una persona es joven o

adulta

30

4 Obtener el Factorial de un número

positivo

35

5 Convertir un número decimal a binario 40

6 Obtener el quinto número de la serie

de fibonaci de la suma

40

7 Separar un número de 3 dígitos 40

8 Determinar si un número es Par o Non 30


9 Determinar si un número es múltiplo

de otro

35

9 Determinar cual es la mayor

temperatura de 10 valores posibles

40

10 Determinar si un número es primo 40

11 Ordenar 10 números capturados 60

Estos fueron los tiempos tomados para cada uno de los grupos.

Antes del Curso

0

2

4

6

8

10

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

Preguntas

Excelente

Muy Bien

Bien

Regular

Nada

Despues del Curso

0

1

2

3

4

5

6

7

8

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

Preguntas

Excelente

Muy Bien

Bien

Regular

Nada

No se pretende generar una idea falsa, de que no será necesario capturar el programa en los ambientes

reales o que para programar se use esta herramienta propuesta, lo que se hace es enseñarles ágilmente y

más rápido de como se podría programar de una manera mejor y metódica. Pero siempre será necesario

capturar el programa, en lenguaje real. No hay que olvidar cual es el objetivo de la investigación reducir el

tiempo en aprender a programar derivado de una metodología de diseño de algoritmos en pseudocódigo en

lenguaje español, con la ayuda de una herramienta. Entonces derivado de esto, la aplicación que se diseño


se inicia a los alumnos en el ámbito de la programación. Entre más se desarrollen algoritmos en la

herramienta mejor será la comprensión del lenguaje de programación real, así como la habilidad para el

desarrollo de programas o aplicaciones.

Este proyecto representa una contribución a la docencia en la parte académica, plantea una didáctica de

cómo enseñar programación, a través de la teoría correspondiente al desarrollo de algoritmos con el uso de

una técnica y herramienta para la enseñanza de la programación, a través del diseño propiamente de

algoritmos en la técnica de pseudocódigo y como llevarlos a 6 lenguajes de programación propuestos, todo

esto nos llevo a las siguientes conclusiones:

1. Existe mejores resultados en el grupo experimental

2. El tiempo en desarrollar los algoritmos se reduce en ambos grupos

3. Se empieza a reconocer la sintaxis de los 6 lenguajes de programación, por parte del grupo experimental

4. A pesar de que no se tienen conceptos teóricos previos en cuanto a la programación o alguna experiencia

previa, se aprende a programar en los lenguajes propuestos

5. Se desarrollan conceptos de suma importancia como es la recursividad y la extrapolación.

6. La herramienta puede ser usada por alumnos diferentes a una formación Informática

7. La herramienta puede soportar a profesionistas que deseen a prender a programar de cualquier carrera,

siempre y cuando tengan un interés real en la programación

8. La herramienta puede entrar en un proceso de co-validación.

9. El tiempo en ambos grupos hay diferencias notables

Referencias

[01] Moroni Norma, Señas Perla, JEITICS 2005 Primeras Jornadas de Educación en Informática y TICS en

Argentina.

[02] http://www.ldc.usb.ve/~abianc/Postgrado/Tabla2.html. )

[03] http://www.lsi.us.es/docencia/pagina_asignatura.php?id=28&cur=2004#pro

[04 ] Gramática obtenida de pascal, a través de Borland en Delphi

[05] Oviedo Galdeano Mario, academias de computación de la UPIICSA. La enseñanza de la programación.

[06] Bravo Crescencio, Redondo Miguel A. Ortega Manuel Aprendizaje en grupo de la programación

mediante técnicas de colaboración distribuida en tiempo real, Universidad Castilla-La Mancha, España.

[07] Oronico Arnoldo, Una robótica pedagógica, [email protected], Marco Teórico sobre Robótica.

[08] Terrance W. Pratt, Marvin V. Zelkowitz, Lenguajes de Programación, Tercera edición, Pearson

Educación.

*09+ M. en C. Rodríguez Ávila Eduardo René. “El Correcto y Completo Desarrollo de un Algoritmo”, Sección

de Estudios de Posgrado e Investigación del IPN en la UPIICSA.


[10] Gramática obtenida de Prolog, a través de SWI-Prolog, versión 3.0,http://www.swi-

prolog.org/download.html.

[11] Jay Sussman Gerald, Wisdom Jack, Structure and interpretation of classical mechanics.

[12] Gramática obtenida de Scheme, a través de Dr. Scheme, versión 301,http://www.plt-scheme.org.

[13] Cairó Osvaldo, Metodología de la programación, tercera edición, Editorial Alfaomega.

[14] Institute for Applied Behavioral Sciences, NTL, http://www.ntl.org/about.html, 2004.

[15] Bower Gordón H., Hilgard Ernest R. Teorías del aprendizaje, Segunda edición 2006, Editorial Trillas, Pág.

373

[16] Bower Gordón H., Hilgard Ernest R. Teorías del aprendizaje, Segunda edición 2006, Editorial Trillas, Pág.

407

[17] Giry Marcel, Talleres de razonamiento lógico (TRL), editorial SM


Capital social en la educación a distancia

Rodríguez, A.

Resumen

El desarrollo de las TIC se ha reflejado en el aprovechamiento de las herramientas tecnológicas en la

educación a distancia. En la actualidad, esta modalidad educativa, debe adecuar las propuestas

curriculares a los nuevos contextos económicos, culturales y sociales. El vínculo comunicativo e

interactivo por excelencia en la educación a distancia, son las redes sociales, consideradas desde la

perspectiva del capital social. Las dimensiones sociales de esta forma de capital, permiten la comprensión

y aprovechamiento de la geografía, extensión y naturaleza de las redes sociales en el campo de la

educación.

Abstract

The ICT development has been reflected in the use of the technology tools applied on education on line.

Recently, the curricula must be adapted to this educational model considering the new economic, cultural

and social contexts. Considering the social capital perspective, the most important communicative and

interactive link, are the social networks. The dimensions of this kind of capital let understand and use of

the geography, extension, and nature of the social networks on the education field.

Keywords: education on line, higher education, knowledge, social capital, social networks.

Introducción

En el campo de la educación, se diferencian tres formas de educar: formal, no formal e informal. La primera

hace referencia a la educación reconocida por las instituciones educativas y forma parte del sistema

educativo de cada país; a cada nivel de estudios, le corresponde la obtención de un grado académico. La

educación no formal también es proporcionada por las instituciones educativas, oficiales y privadas, pero no

se adquiere un grado académico (en el caso de México, corresponde a los Diplomados, Cursos, Talleres,

Seminarios, entre otros). La educación informal es la que reciben los integrantes de una sociedad en el

ámbito de su vida y cultura cotidianas, a lo largo de su vida.

La educación formal y su reconocimiento, está en manos del Estado educador; las políticas públicas son los

mecanismos que utiliza, para instrumentar las acciones educativas en la sociedad en general.

Toda acción educativa, ya sea explícita o implícita, es portadora de una forma de significar el mundo, de

normas de comportamiento, de concepciones ideológicas y de esquemas de valores, que le dan sustento a

las relaciones sociales.

En la educación formal, la escuela es el escenario privilegiado, en el cual ocurre la práctica educativa como

objetivación de las políticas, de los planes y programas educativos.


La educación a distancia es una forma de aprendizaje planificado que ocurre en un lugar diferente al de la

enseñanza; en consecuencia, es necesario el uso de técnicas especiales para: el diseño de los cursos, las

estrategias instruccionales, los mecanismos de comunicación, la organización educativa y el uso de medios

electrónicos u otro tipo de tecnología [1].

Tal parece que el aspecto que marca la diferencia, entre la educación escolarizada y la educación a distancia,

es el espacio físico; mismo que se compensa con la incorporación de la tecnología.

Esta forma de definir la educación a distancia, tiene una limitación importante, no considera la distancia

cultural, social y existencial entre el educando y el educador. Es claro que aplica de igual forma, para la

educación presencial.

Todo acto educativo implica una relación dialógica, es un episodio entre subjetividades que debe ser

considerada tanto en la educación a distancia como en la presencial.

Un problema central de la educación a distancia radica en la calidad de la interacción educativa, considera

que se debe tener presente: las condiciones socio afectivas y el involucramiento emocional entre los

estudiantes y los educadores; reconocer lo que saben los estudiantes en términos de una negociación de

significados al interior de la interacción intersubjetiva virtual; e, interacciones orientadas a impulsar los

procesos metacognitivos y de creación autónoma de saberes [2].

Flexibilidad y diseño del currículum

El currículum integra y le da sentido al proyecto educativo; más que un documento, es la formulación de una

propuesta cultural. La vida cotidiana tiene concepciones y prácticas que se reproducen orgánicamente

desde lo social.

La escuela ofrece una forma de interpretar y actuar en el mundo. La relación entre cultura cotidiana –

cultura escolar, no es dicotómica, ni excluyente; más bien, asume diversas formas de articulación y

compenetración.

En la vida social, ambas son necesarias y participan de manera diferenciada en la reproducción del modelo

económico y de las relaciones sociales que lo soportan. Este punto es central en el abordaje de cuestiones

como equidad, calidad, pertinencia y vinculación con la sociedad.

La escuela no puede ser pensada fuera del contexto sociocultural que la enmarca. El currículum no puede

ser pensado fuera de un proyecto educativo que responde a las políticas públicas del Estado, promotor de

un determinado proyecto de desarrollo social y económico.

El currículum está formado por una argumentación, una exposición de los motivos que lo justifican, una

visión de la función de la escuela, una posición ante la cultura y un modelo de enseñanza [3].

En otras palabras, el currículum entrelaza las dimensiones políticas del proyecto del Estado educador con las

dimensiones técnicas de la enseñanza.

La propuesta de currículum, puede adoptar diversas modalidades [4]: rígido, facilita el control al

estandarizar tiempos, contenidos y orientaciones, para aprendizajes formales; flexible, se centra en el

estudiante, se ajusta a las necesidades, intereses y ritmos de aprendizaje, el acceso a las fuentes de

conocimiento es interpretativa, más que objetivista; semiflexible, combina una formación básica con


adecuaciones a los intereses y necesidades de los estudiantes; finalmente, el modular, exige una integración

inter y multidisciplinaria, su finalidad consiste en transformar un objeto de conocimiento, mediante la

articulación de marcos contextuales, históricos, políticos, económicos, sociales, cognitivos y afectivos, entre

otros.

Tal como se establece en [5], el currículum en la acción es la última expresión de su valor; en la práctica

educativa, el proyecto, la idea y la intención, se hacen realidad, incluso aquellas intenciones y valores no

previstos; en la praxis, el currículum adquiere significado para los alumnos y profesores.

Recursos tecnológicos y contenidos

Estamos en el umbral de una nueva cultura basada en la información, de hecho se habla de la sociedad de la

información y de la sociedad del conocimiento.

El digitalismo significa una nueva forma de comunicación e interacción, de personas con personas, de

personas con cosas e incluso de cosas entre cosas.

En educación el optimismo tecnológico ha sido importante, sobre todo en el uso potencial, para la

educación a distancia.

En la referencia [6] se compararon las ventajas potenciales de las nuevas tecnologías de la información y la

comunicación; consideraron la radio, la televisión, el video, la computadora personal e Internet. Los

elementos que consideraron fueron la reactividad, la flexibilidad, la estimulación sensorial y la

interactividad; en todos los casos la mayor ventaja le fue otorgada a los recursos disponibles en Internet.

No sólo se trata de ventajas técnicas, la tecnología informática ha cambiado a forma de enseñanza de los

profesores y de los aprendizajes en los alumnos. El conocimiento se está convirtiendo en una de las

industrias más poderosas del mundo.

Esta innovación tecnológica nos lleva al cuestionamiento del papel que ocupan las universidades en la

producción y difusión del conocimiento [7].

Este desarrollo y expansión del hiperespacio, en donde todo acto comunicativo es posible y,

paradójicamente, impersonal, nos lleva a una pregunta crucial sobre el futuro: ¿es viable apostarle al

desarrollo tecnológico, a cuenta del ser humano?

Es importante no perder de vista la advertencia de tener presente que los ordenadores son lo que sus

programas hacen de ellos y nada más.

Pero puede ser que los programas lleven un programa oculto en su interior, una serie de valores que

cuentan más que todas las virtudes interactivas y todos los trucos gráficos de la tecnología. La esencia de la

máquina es su software, pero la esencia del software es su filosofía [8].

Los alumnos y los profesores

Ya se ha señalado que la acción de educar es un acto profundamente humano. El alumno aprende con el

pensamiento y con el sentimiento así, el propósito final de la educación, no puede ser oro que el de

aprender a aprender, como un acto permanente de adquisición de nuevos conocimientos, habilidades y

actitudes, surgidas de la experiencia y que producen cambios en nosotros mismos y en nuestras acciones, en


una forma de existencia cada vez más plena y profunda. La importancia radica en el vínculo que se

establece entre la experiencia, el aprendizaje, el sentido y la dirección de aprender y el perfeccionamiento

del ser humano [9].

El alumno no puede ser visto como un cuenco a ser llenado con información, competencias, habilidades y

destrezas; sino como un ser humano en un proceso consciente de construcción de su propio aprendizaje, en

una aventura de perfeccionamiento humanista.

En cuanto a los docentes, los saberes dialógicos, históricos y sociales, no sólo son producto de la formación

académica o del lugar que ocupan los docentes en el orden social; sino, también un producto del proceso

histórico de la cotidianeidad que comparten los maestros y los alumnos, se manifiesta en la toma de

decisiones y en las estrategias de enseñanza.

En este proceso, los docentes reelaboran su conocimiento sobre sus alumnos, sus creencias pedagógicas y

sus valoraciones acerca de los contenidos y de las formas de enseñar [10].

Acerca del capital social

El concepto de capital social tiene dos características importantes; en primer lugar, es un concepto de origen

claramente sociológico, adoptado por las ciencias sociales, los principales teóricos son Bourdieu, Putnam y

Coleman; en segundo término, permite abordar una gama amplia de problemas sociales, aplicable a

cualquier entidad de orden social.

Aunque existen diferencias específicas entre estos autores, no son significativas.

El potencial explicativo radica en su capacidad para realizar diferentes niveles de análisis en programas de

investigación empírica, particularmente en el campo de las redes sociales; los procesos de movilización, el

acceso y el uso de las fuentes de recursos; y el estudio de los efectos del capital social en términos de

retornos instrumentales y/o expresivos.

Estas perspectivas permiten distinguir entre las variables causales (posición dentro de la red), los procesos

de movilización de los recursos disponibles (contactos, apoyos, información) y las salidas (mejores empleos,

promoción y prestigio social). Los niveles de estudio pueden ser a nivel micro, meso y macro sociales.

Recientemente, se han realizado estudios desde la perspectiva del capital social: el capital social como

catalizador en la diseminación del capital humano e intelectual; el capital social como la base, para mayores

niveles de sinergia y coordinación; el capital social como lubricante en la creación de redes organizacionales;

y el capital social como un facilitador de instituciones intermediarias [11].

La importancia de las redes sociales ha sido objeto de interés, para la sociología de la tecnología, en

particular con el flujo de conocimientos, cada nodo representa a los actores y las áreas que conectan los

nodos, las relaciones entre actores.

Este tipo de estudios han permitido identificar las estrategias técnicas y organizaciones de los actores y

diferenciar los tipos de redes: innovación, difusión, producción y redes profesionales [12].

Actualmente la discusión sobre el capital social gira en torno a dos tendencias [13]:


La primera establece que los recursos, tales como la información, las ideas y los apoyos que los individuos

son capaces de procurarse al relacionarse con otras personas; es social en la medida en que es accesible a

través de estas relaciones, tanto físicas (herramientas y tecnología) como humanas (educación y

habilidades), y capital en tanto que son propiedad de los individuos.

La segunda tendencia se refiere a la naturaleza y extensión de la participación individual en diversas redes

informales y organizaciones cívicas formales.

Esta perspectiva caracteriza las variadas formas en las que interactúan los miembros de una comunidad.

Desde ambas perspectivas es posible estudiar lo que ocurre en el ámbito educativo, con relación a la

conformación de grupos, redes, normas y los niveles de confianza entre las personas.

La complejidad del capital social radica en la conformación de los espacios sociales; estos espacios están

constituidos por los agentes sociales, en tanto que ocupan posiciones jerarquizadas y persiguen diferentes

bienes (capitales y legitimación), y por los conflictos, inherentes a los diferentes campos de actividad,

posiciones y percepción del espacio [14].

El alumno al ingresar a la institución educativa posee capital social potencial conformado por las

características de cada red social, el contexto familiar y social; durante su permanencia escolar, se activa

bajo la forma de auto procesos adaptativos (auto concepto, confianza y búsqueda de ayuda) y capital social

activado (percepción del apoyo del profesor, apoyo académico proporcionado por los miembros de la red y

la pertenencia escolar); el compromiso y las aspiraciones académicas (orientación y esfuerzo académicos),

son producto de la interacción de estos niveles de capital social individual [15].

Redes sociales en la educación a distancia

El desarrollo de las TIC, ha repercutido en las formas de interacción social entre las personas. La

incorporación de las TIC en la vida cotidiana, forma parte de la nueva era del digitalismo; sus repercusiones

se reflejan en amplios cambios socioculturales, modificando las formas de comunicación, creando nuevos

códigos comunicativos, estableciendo nuevas redes, formas de relación e interacción social [16].

Las nuevas tecnologías de la información, en manos de la familia, puede convertirse en un poderoso medio

para el fortalecimiento de la cohesión familiar, mediante el descubrimiento de intereses y realizando

proyectos comunes.

El aprovechamiento parental del entusiasmo de los jóvenes por la informática, constituye una base sólida

para el aprendizaje cultural de la familia, entendido como la forma en que la familia asume el aprendizaje,

sus sistemas de creencias, la preferencia por determinado tipo de actividades y tradiciones asociadas a la

vida en familia [17].

El uso de las TIC, puede recrear el capital social y las comunidades locales en el medio urbano. Estas nuevas

formas de inclusión permiten el acceso público, el visitante de Internet se siente incluido en la sociedad de la

información y en la sociedad en sentido amplio, tienen más amigos locales, expresan menos desconfianza

local, perciben menos tensión entre los diferentes grupos y tienen un fuerte sentido de identidad local que

los no visitantes de la red.

Los visitantes de Internet, lo consideran como un lugar de reunión en línea con impactos positivos sobre la

integración social, asociados a redes de trabajo, intercambio y apoyo en la búsqueda de información [18].


Con el desarrollo de las TIC, la producción y difusión del conocimiento científico se ha transformado,

permite la conformación y consolidación de comunidades científicas a nivel nacional, regional y mundial.

La educación a distancia, implica la separación física entre el profesor y el alumno; la organización del

aprendizaje por medio de una institución educativa; la utilización de medios técnicos, para transmitir los

contenidos del curso y relacionar al profesor y a los alumnos; los de medios de comunicación bidireccional

que permitan el diálogo entre el profesor y el alumno; la posibilidad de realizar encuentros ocasionales con

propósitos didácticos y de socialización; y la existencia de un modelo educativo.

Una preocupación de las ciencias sociales es la forma en que se vinculan las personas en grupos y en

sistemas sociales complejos.

Estas relaciones pueden ser formales, producto de la estructura y dinámica social, e informales, entendidas

como las relaciones personales entre los miembros del grupo, funcionan de manera autónoma y

espontánea.

Existe una relación de complementariedad entre ambos tipos de redes; el individuo puede participar

simultáneamente en varias de ellas y actuar en función de las circunstancias [19].

La red constituye el sistema circulatorio a través del cual fluye la información entre los estudiantes,

incluyendo la información útil, como aquella que es vital en la vida escolar.

La ubicación del estudiante en la red, afecta los permisos en el acceso, el dónde y el cuándo se obtiene

información. A mayor jerarquía, el estudiante puede afectar la forma en que los individuos acceden a la

información disponible en la red [20].

Una red es un conjunto de lazos diádicos del mismo tipo entre actores; los actores pueden ser personas,

grupos, organizaciones e instituciones; un lazo es un episodio de relación social.

Las relaciones entre personas pueden ser de parentesco, afectivas, de interacción, jerárquicas, cognitivo

perceptuales o por afiliación. Cada tipo de relación establece diferentes estructuras y tiene diferentes

implicaciones [21].

Las redes son estructuras que evolucionan en el tiempo, tanto en su función (envío de información, toma de

decisiones, generación de poder) como en las modificaciones en su propia morfología; por lo tanto, lo que

sucede y el cómo sucede, depende de la estructura y de la historia de la red [22].

El análisis de redes sociales constituye una perspectiva teórica, un método de análisis (en su caso de

intervención) y de objeto de estudio; dicho así, la identificación de redes constituye un medio poderoso,

para entender la realidad social.

El capital social en educación, está relacionado con los niveles de capital social, las consecuencias de las

normas, la construcción de normas basadas en contextos culturales y la capacidad de la comunidad.

Estos factores constituyen el contexto que permiten evaluar la especificidad de cada situación y valorar la

pertinencia de las políticas educativas.

Desde la perspectiva del capital humano y social, el aprendizaje y la educación está asociados a una mayor

confianza, cooperación, compromiso recíproco y cohesión social, en tanto que proporciona conocimiento


sobre el pacto social, refuerza las formas de comportamiento socialmente esperadas, hace comprensibles

las consecuencias por romper el contrato social, ofrece los valores y las competencias clave que sustentan la

vida social en las sociedades democráticas [23].

Los estudios de redes sociales se ocupan de los vínculos y la interdependencia entre actores sociales, que les

proporcionan oportunidades y restricciones potenciales a su comportamiento; sin embargo, los conceptos y

las herramientas analíticas utilizadas en este tipo de estudios, requieren de una profunda comprensión de lo

que se entiende por conocimiento y de los mecanismos que subyacen la acumulación del conocimiento.

El conocimiento implica una comprensión activa de la cosa conocida; los individuos representan y

comunican su propio conocimiento, mediante representaciones simbólicas. Diversos individuos pueden

intercambiar información como forma, para incrementar su propio conocimiento; sin embargo, cada

persona tendrá diferente capacidad de absorción.

En las redes de conocimiento, cada nodo incluye la adquisición de una parte del nuevo conocimiento por

comunicación, lo cual implica el desarrollo de una forma comunicable y comprensiva.

El grado de confianza puede ser diferente en cada relación específica, dependerá de la historia de las

relaciones, de la estructura y densidad de la red. En cuanto a la fortaleza de cada vínculo, será más débil en

tanto cada vínculo tenga un rol social similar [24].

En la referencia [25], se comparó la estructura de los mecanismos de comunicación informal y formal, se

establecieron dos hallazgos. Por una parte, las redes formales, tienen una base más significativa que

permite el desarrollo de redes de innovación en la unidad organizacional; por la otra, no encontraron

diferencias significativas en las formas de comunicación en la transferencia de conocimiento.

El valor social de la comunicación y la multiplicación de redes que facilitan la intercomunicación en tiempo

real se ha incrementado, tanto a nivel global como local.

En la aparente contradicción local – global, la comunicación local y la mundialización mediática se

complementan. Las transformaciones en el ámbito global han afectado los espacios de proximidad. Se

enfrenta un nuevo escenario en el cual las nuevas tecnologías, han contribuido a la globalización y

multiplicado los espacios locales; de tal forma que los procesos locales son, al mismo tiempo globales [26].

Dimensiones cualitativas del capital social

La cultura atraviesa todas las dimensiones del capital social, constituye el ámbito básico donde la sociedad

genera valores y los transmite generacionalmente. Las personas, las familias, los grupos son capital social y

cultura en sí mismos; en tanto que son portadores de actitudes de cooperación, valores, tradiciones y

visiones de la realidad, todo ello constituye la propia identidad.

La cultura es el factor decisivo de cohesión social, en ella las personas se reconocen, se cultivan, crecen en

conjunto y desarrollan su autoestima colectiva. En condiciones adecuadas, el capital social y la cultura

pueden ser palancas para el desarrollo; por el contrario, su desconocimiento o destrucción pueden

obstaculizarlo [27].

Las relaciones de amistad son relaciones personales, voluntarias y afectivas, en algunos casos son

instrumentales; se manifiestan en diferentes niveles de intensidad. Las relaciones amistosas son una fuente


importante de identidad, permiten compartir ideas e intereses, proporcionan apoyo en las cuestiones

cotidianas y en las crisis existenciales.

Las amistades se forman en contextos sociales y obedecen a normas y contextos sociales. La formación de

relaciones de amistad está ligada a los espacios compartidos y a la interdependencia funcional en focos de

actividad [28].

El aprendizaje a lo largo de la vida, el capital social se desarrolla en los aprendizajes dentro de la familia y en

todas las situaciones de cuidado de los niños; en la educación formal y el entrenamiento, incluyendo la

infancia temprana y la educación escolarizada; en el entrenamiento del lugar de trabajo en el aprendizaje

informal de actividades específicas y la participación en las diversas redes profesionales; y en el aprendizaje

informal en la vida cotidiana y en la participación cívica [29].

La formación de comunidades de aprendizaje, basadas en el aprendizaje a lo largo de la vida, permite a las

personas actuar en conjunto, para lograr sus objetivos sociales, económicos, culturales y control en las

condiciones ambientales de su comunidad.

Estos recursos proporcionan beneficios inmediatos y consecuencias a largo plazo, acordes a la satisfacción

de necesidades de la comunidad.

Es importante dar cuenta de la importancia de los actores que ocupan posiciones estratégicas en las redes

sociales y que permiten explicar la difusión de los procesos en las redes sociales. De tal manera que el

contacto entre dos partes, sólo es posible a través de un tercero, mismo que tiene cierto control en el flujo

de recursos.

Estos agentes, desempeñan un papel decisivo en la conectividad de las estructuras sociales y participan en la

determinación de las cantidades de capital social disponible para los miembros de la red [30].

Los actos comunicativos implican procesos de negociación de significados; en la comunicación en red se

gestan un conjunto de elementos que hacen posible la negociación de significados y la apropiación por parte

de los integrantes que forman la comunidad, contribuyendo a la constitución de sentido en una comunidad

del discurso [31].

Conclusiones

La educación es portadora y transmisora de significados e interpretaciones de la realidad. La educación a

distancia posibilita el aprovechamiento de las TIC y ofrece desafíos a los educadores.

El primero de ellos apunta a la flexibilidad, el diseño y la virtualización de los escenarios de aprendizaje.

En segundo término, el uso de las TIC en la educación, conduce al replanteamiento de los roles asumidos por

los alumnos y los profesores, en tanto acto educativo, formativo y socializador en un contexto cultural

determinado.

La teoría del capital social, permite analizar en profundidad y en calidad el tipo de interacciones que ocurren

en las redes sociales; proporciona al investigador una metodología y una formulación explicativa, para dar

cuenta de las dimensiones y de la complejidad de los episodios sociales que ocurren en la educación a

distancia.


Por último, la estrecha relación entre la cultura, capital social y educación, contribuye a la construcción y

fortalecimiento de la identidad, el sentido de pertenencia, el fortalecimiento de los vínculos sociales, el

aprendizaje a lo largo de la vida, la conformación de redes y comunidades de aprendizaje.

Referencias

[1] C. Cerda, Educación a distancia: principios y tendencias, Perspectiva educacional, 40, pp. 11–30, 2002.

[2] B. Fainholc, La calidad en la educación a distancia continúa siendo un tema muy complejo, Revista de

educación a distancia, 12, pp. 1–7, 2001.

[3] M. A. Zabalza, Diseño y desarrollo curricular, Madrid: Narcea, 2000.

[4] M. Ruiz, ¿Qué es un currículum flexible? Cómo se concreta en la práctica, México: Euterpe, 2003.

[5] G. Sacristán, El currículo: una reflexión sobre la práctica, Madrid: Morata, 1998.

[6] W. D. Haddad, and S. Jurich, ICT for education: potential and potency. In W. D. Haddad, and A. Draxler

(Eds.), Technologies for education. Potentials, parameters and prospects, pp. 28–40, Washington, D.C.:

UNESCO – Academy for Educational Development, 2002.

[7] T. Hamada, Tecnología informática y educación: perspectiva teórica. En: C. Bueno y M. J. Santos

(Coords.), Nuevas tecnologías y cultura, pp. 183–208, Barcelona: Anthropos – Universidad Iberoamericana,

2003.

[8] Th. Roszak, El culto a la información. El folclore de los ordenadores y el verdadero arte de pensar.

México: Grijalbo, 1990.

[9] G. Michel, Aprende a aprender, México: Trillas, 1974.

[10] R. Mercado, Los saberes docentes como construcción social. La enseñanza centrada en los niños,

México: Fondo de Cultura Económica, 2002.

*11+ F. Adam, and B. Rončevid, Social capital: recent debates and research trends, Social Science

Information, 42, 2, 155–183, 2003.

[12] R. Casas, Introducción general. En R. Casas (Coord.), La formación de redes de conocimiento. Una

perspectiva regional desde México, pp.13–34, México: UNAM, 2001.

[13] Ch. Grootaert, D. Narayan, V. Nyhan, and M. Woolcock, Measuring Social Capital. An Integrated

Questionnaire. Washington, D. C.: The World Bank, 2004.

[14] C. Lozares, Valores, campos y capitales sociales, Revista Hispana para el Análisis de Redes Sociales, IV,

2, pp. 1–33, 2003.

[15] S. L. Dika, The effects of self – process and social capital on the educational outcomes of high school

students, Dissertation for the degree of Doctor of Philosophy in Educational Research and Evaluation,

Blacksburg, VA: Faculty of the Virginia Polytechnic Institute and State University, 2003.

[16] J. B. Terceiro y G. Matías, Digitalismo. El nuevo horizonte sociocultural, Madrid: Taurus, 2001.


[17] S. Papert, The connected family. Bridging the digital generation gap, Georgia, GA: Longstreet Press,

1996.

[18] S. Ferlander, The Internet, social capital and local community, United Kingdom: University of Stirling,

2003.

[19] A. H. Hernández, Informalidad organizacional y redes, Convergencia, 32, pp. 337–358, 2003.

[20] D. Lazer, D., and A. Andre, The knowledge in the network. Retrieved January 26, 2008, Harvard

University. John F. Kennedy School of Government:

http://www.hks.harvard.edu/netgov/files/team/knowledgeinthenetwork.pdf

[21] S. P. Borgatti, and R. Cross, A relational view of information seeking and learning in social networks,

Management Science, 49, 4, pp. 432–445, 2003.

[22] J. E. Miceli, La ciencia de las redes, Redes. Revista Hispana para el Análisis de Redes Sociales, 10, 10,

pp. 1–12, 2006.

[23] S. Côté, The contribution of human and social capital, Canadian Journal of Policy Research, 2, 1, pp. 29–

33, 2001.

[24] L. Cassi, Information, knowledge and social networks: is a new buzzword coming up? Retrieved

February 9, 2008, Danish Research Unit for Industrial Dynamics, PhD Conference, Aalborg, Denmark:

http://www.druid.dk/conferences/winter2003/Paper/Cassi.pdf

[25] R. Aalbers, W. Dolfsma, and O. Koppius, On and off the beaten path: how individuals broker knowledge

trough formal and informal networks, Report Series Research in Management ERS–2004–066–LIS/ORG,

Rotterdam: Erasmus Universiteit Rotterdam. School of Economics, 2004.

[26] X. López, La comunicación del futuro se escribe con L de Local, Ámbitos. Revista Andaluza de

Comunicación, 5, pp. 107–117, 2000.

[27] B. Kliksberg, Capital social y cultura. Claves olvidadas del desarrollo. Consultada el 1 de febrero de

2008, Banco Interamericano de Desarrollo: http://www.iadb.org/etica/SP4321/DocHit.cfm?DocIndex=929

[28] A. F. de la Rúa y M. C. Fellow, La dinámica de las redes de amistad. La elección de amigos en el

programa Erasmus, Revista Hispana para el Análisis de Redes Sociales, IV, 3, pp. 1–44, 2003.

[29] R. Faris, Lifelong learning, social capital and place management in learning communities and regions: a

Rubic’s cube or a kaleidoscope?, Australia: Observatory PASCAL, 2004.

[30] V. G. Täube, Measuring the social capital of brokerage roles, Connections, International Network for

Social Network Analysis, 26, 1, pp. 29–52, 2004.

[31] J. A. Jerónimo, Comunidades del discurso en los ambientes virtuales de aprendizaje, Apertura. Revista

de Innovación Educativa, 6, 3, pp. 63–75, 2006.

http://www.hks.harvard.edu/netgov/files/team/knowledgeinthenetwork.pdf

http://www.druid.dk/conferences/winter2003/Paper/Cassi.pdf

http://www.iadb.org/etica/SP4321/DocHit.cfm?DocIndex=929


El abordaje de los dilemas bioéticos, mediante el uso de las Tecnologías de

la Información y Comunicación (TIC)

L. E. Andrade

Resumen

La enseñanza de bioética en los estudiantes universitarios a través de las Tecnologías de la Información y

Comunicación (TIC), puede favorecer el entendimiento de la cultura actual, con este objetivo se pretende

tener una estrategia para la toma de decisiones a través del cual se puede adquirir profundidad y

apertura, el cual ofrezca un aprendizaje significativo de la ciencia, del mundo natural, de la sociedad y

sobre todo del ser humano.

Abstract

The teaching of bioethics to the higher education students through the ICT, can contribute to the

understanding of the actual culture, this aim tries to have a strategy for taking decisions and can get

depth and opening, which will offer a meaningful learning of the science, the nature world, society and

above all the human being.

Keywords: ICT, bioethics, knowledge, ethical dilemmas, bioethics centers.

Introducción

Hablar de educación sin duda es un tema de gran importancia, ya que es a través del proceso educativo

donde los diferentes países alcanzan el progreso social, cultural, epistémico, ideológico y económico.

En la actualidad la mayor parte de los países del mundo han adoptado a la tecnología como soporte en el

proceso educativo, originando de esta manera una nueva perspectiva en aspectos pedagógicos y

curriculares de los diferentes modelos educativos.

Por lo que las instituciones de educación superior deben de tener un nuevo enfoque en la enseñanza y en el

aprendizaje, ya que el acelerado avance del conocimiento, ya no basta que el estudiante acumule un

conjunto adecuado y suficiente de conocimientos, pensando que le serán de utilidad durante toda su vida,

por el contrario requerirá prepararse para estar en condiciones de aprovechar y utilizar las diversas

oportunidades que se le presentan para actualizar y enriquecer ese conjunto de saberes y poder adaptarse a

sí a un mundo en constante cambio[1].

Lo que significa que la educación superior enfrenta diversos desafíos y retos como son los referentes a la

igualdad de condiciones de acceso a los estudios, una mejor capacitación del personal, la mejora de la

enseñanza, la investigación, la pertinencia de los planes de estudio, entre otros; así mismo la educación

superior debe de hacer frente a los retos que supone las nuevas oportunidades que abren las tecnologías,

que mejoran la manera de acceder, producir, organizar, difundir y compartir el saber, y cumplir de esta

manera con las propias demandas de la sociedad [2].

Las TIC en la educación


Es importante señalar que el rápido progresos de las Tecnologías de la Información y Comunicación (TIC)

brindan nuevas posibilidades de renovar los métodos pedagógicos y de ampliar el acceso a la educación

superior y es esta la que deberá poner el ejemplo de aprovechamiento de las ventajas de las TIC elevando la

calidad y los resultados educativos sin olvidar el acceso equitativo a estas tecnologías.

Se puntualiza que las TIC son herramientas computacionales e informáticas que procesan, almacenan,

sintetizan, recuperan y presentan información de muy diversas formas, es decir, son un conjunto de

herramientas, soportes y canales para el tratamiento y acceso a la información.

En lo que al ámbito educativo se refiere las TIC se deben considerar como herramientas a utilizarse en pro

del aprendizaje, facilitando de esta manera el desarrollo de habilidades y destrezas que contribuyan al

enriquecimiento de las potencialidades intelectuales de los estudiantes y de esta manera puedan enfrentar

la sociedad de la información.

Es por esto que un número cada vez mayor de universidades en todo el mundo cuentan en mayor o menor

medida con equipos informáticos que posibilita el acceso a Internet a los estudiantes debido a los grandes

beneficios y ámbitos que abarcan las TIC ya que se consideran como herramientas de gran utilidad en

diferentes ámbitos del quehacer humano, pero nosotros como docentes nos interesa adentrarnos en la

influencia de las TIC en al ámbito educativo y de esta manera poder abordar temas o contenidos de gran

importancia para el hombre.

Ya que se está debatiendo temas que tiene que ver con las ciencias de la vida a nivel mundial, temas como

son: aborto, clonación, eutanasia, eugenesia, alimentos transgénicos entre otros, que recaen en la campo

de la Bioética.

Bioética

El término bioética fue utilizado por primera vez en el año de 1970 [3].

Con este término aludía a los problemas que el inaudito desarrollo de la tecnología plantea a un mundo en

plena crisis de valores debido principalmente a la ruptura entre las humanidades con la ciencia y la

tecnología, teniendo como consecuencia la falta de un desarrollo integral en el ser humano ya que una de

las grandes secuelas es que los diferentes modelos educativos se preocupan más por el hacer (práctica) y no

por el desarrollo del ser (valores).

Por lo anterior urge así superar esta actual ruptura entre la ciencia y la tecnología por una parte y las

humanidades por otra [4].

La bioética surge por tanto como un intento de establecer un puente entre personas, entre disciplinas, entre

racionalidades y entre creencias.

Comités de bioética

En el presente artículo no sólo se pretende establecer la importancia de las TIC en el ámbito educativo, sino

que se establece que es a través de las TIC donde se pueden generar nuevos conocimientos en temas tan

importantes y necesarios como son los dilemas bioéticos, así como el de potencializar el aprendizaje de la

Bioética en estudiantes de educación superior y proponer un marco conceptual para atender estos diversos

dilemas.


Los comités de bioética surgen en Estados Unidos, en respuesta a los problemas presentados en la

investigación y en la práctica de la medicina. Se puede mencionar como antecedente importante el comité

de Seattle, en 1960, destinado a resolver los dilemas éticos de los pacientes renales [5].

En los países Latinoamericanos, la creación de los comités de ética se inician en respuesta de la Organización

Mundial de la Salud (OMS) en 1976 cuyo primer argumento fundamental y determinante es el respeto por la

dignidad de las personas [6].

La importancia de esta realidad plantea tales problemas sobre el futuro de la vida, de la dignidad del

hombre y de la humanidad, que los comités científicos, el congreso, los foros legislativos nacionales e

internacionales, así como la iglesia católica, han estado interactuando de manera continua, debido al

creciente manipuleo de la vida humana por parte de los científicos, lo que se ha vuelto inevitable

preguntarse si todo lo que es técnicamente posible es éticamente permisible y sí es así dentro de qué límites

jurídicos.

En consecuencia es necesario tomar las medidas inevitables para que se respete el principio de dignidad,

con el fin de evitar las repercusiones negativas de la sociedad y garantizar la utilización de la ciencia y la

tecnología para beneficio del ser humano, es decir, dar un rostro más humano a esos avances científicos y

tecnológicos.

Por lo tanto es necesario establecer una propuesta que responda al carácter interdisciplinar de la bioética,

para que esta materia ilumine y resuelva los nuevos dilemas que se presentan en la investigación y acerca

del trato del hombre con la naturaleza [7].

Dicha propuesta es la integración de un centro de bioética en donde se tomen en cuenta los siguientes

puntos.

Establecer un grupo interdisciplinario ya que nadie sabe todo, dicho grupo deberá estar en continua

preparación y de esta manera atender aspectos tanto teóricos como prácticos.

Tomar en cuenta la pedagogía en bioética que cuente con el compromiso personal con la búsqueda de la

verdad.

Promover y fomentar el estudio de los valores y principios éticos.

Profundizar en el conocimiento del ser humano y de los dilemas científicos y tecnológicos actuales.

Que a través de empleo de las TIC el centro de bioética ayude a resolver conflictos que existen dentro de

cualquier cultura moderna.

Por mencionar algunos.

Los comités de bioética son plataformas reales de deliberación en directo sobre dilemas bioéticos que

requieren ser planteados, porque su solución no es obvia, ya que implican decisiones problemáticas.

El comité de bioética será verdaderamente eficaz en una institución si ésta lo incorpora a su cotidianeidad,

ya que un comité no solo corrige abusos, debe promover y cambiar usos, mantener memoria institucional,

educar y reeducar permanentemente a sus miembros y a las instituciones con que se relaciona, empezando

por la propia [8 y 9].


De ahí que en el corazón de lo que constituye un comité esté la deliberación.

Conclusión

Los grandes avances científicos logrados en la tecnología y las ciencias biológicas han establecido un cambio

en la sociedad que han obligado al planteamiento de nuevas problemas éticos, dentro de un marco cultural

de la nueva sociedad del conocimiento, es decir, a medida de que se incrementa la búsqueda de nuevos

conocimientos y tecnologías para mejorar las condiciones de vida de los individuos, humanos, animales o

vegetales, se generan dilemas bioéticos que motivan la creación de normas o lineamientos para tratar de

controlar la investigación de dichos seres.

Es por esto que la universidad como centro de la sociedad debe ser la guía y generadora de los

conocimientos y que en su búsqueda de los mismos es necesario su intervención para establecer límites

éticos ante la manipulación del hecho biológico principalmente.

Por lo que la bioética debe ser correspondiente a la producción del conocimiento y llenar el sentido del

actuar humano.

Los dilemas bioéticos, al ser abordados de manera interdisciplinaria, recoge el ideal supremo de la

Universidad cuyo objetivo es el de lograr un conocimiento universal y estructurado que respete y facilite la

pluralidad de enfoques y de saberes.

En el presente artículo se ha querido profundizar y compartir algunas reflexiones sobre lo que hay en juego

en el acelerado avance de la ciencia y de la tecnología en ámbitos de mejorar la calidad de vida, es por esto

necesario establecer un puente entre las ciencias de la vida con la tecnología a través de la bioética y que

mejor manera de lograr esto a través de la utilización de la propia tecnología que nos brindan las TIC.

Ya que con las TIC bien aprovechadas, tienen el potencial de enriquecer los ambientes de aprendizaje en

donde se educan nuestros jóvenes mexicanos lo que permitirá niveles de aprendizaje y de desarrollo de

competencias mucho más elevadas que los que existen el día de hoy.

Referencias

[1] J. Delors, La educación encierra un gran tesoro, México: UNESCO, 1991.

[2] J. Castrejón, El concepto de Universidad, México: Trillas, 1990.

[3] V. Potter, Bioethics: the science of survival, "Perspectives in Biology and Medicine", New York: Hall Pub,

1970.

[4] V. Potter, Bridge to the Future, Englewood Cliffs, NJ: Prentice-Hall Pub,. 1971.

[5] J. Hoffman, El principio de responsabilidad. Ensayo de una ética para la civilización tecnológica,

Barcelona: Herder, 1995.

[6] P. González, Bioética y experimentación con seres humanos, Granada: Comares, 2002.

[7] F. Lolas, Bioética. El diálogo moral en las ciencias de la vida, Santiago de Chile: Mediterráneo, 2001.


[8] J. Hoffman, Evaluación y construcción del conocimiento. La evaluación: mito y desafío: una perspectiva

constructivista, Porto Alegre: Mediaçäo, 1999.

[9] D. Gracia, Fundamentación y enseñanza de la bioética, Bogotá: Paidos, 1998.


Aplicación de las Tecnologías de Información para enseñar la segunda ley

de Newton

G. Becerra C.

Resumen

En los cursos de Física, donde se incluya a la Mecánica, la Dinámica es parte esencial para explicar el

movimiento de los cuerpos. El movimiento de un cuerpo queda determinado por su interacción con el

medio ambiente. La interacción de un cuerpo con su medio ambiente se le denomina fuerza. Para que un

cuerpo experimente una aceleración, es necesario que la fuerza que se ejerza sobre él sea diferente de

cero. Si la fuerza neta sobre un cuerpo es igual a cero, el cuerpo no experimentará una aceleración y

permanecerá en estado de reposo o en movimiento rectilíneo uniforme. La segunda ley de Newton

establece que la suma vectorial de todas las fuerzas que actúan sobre un cuerpo es igual a su masa

multiplicada por su aceleración. Así, para una masa dada, la aceleración que experimenta un cuerpo es

directamente proporcional a la fuerza ejercida sobre él y, para una fuerza dada, la aceleración que

experimente un cuerpo es inversamente proporcional a su masa. En este trabajo se presentan sistemas de

simulación de fenómenos en los cuales se aplica la segunda ley de Newton. Los sistemas tienen por

objetivo mostrar el movimiento de algunos cuerpos que están sujetos a diferentes fuerzas.

Palabras clave: Newton, fuerza, aceleración, masa, simulación.

Abstract

In the courses of Physics, where it is included to the Mechanics, the Dynamics is essential part to explain

the movement of the bodies. The movement of a body is determined by its interaction with the

environment. The interaction of a body with its environment is denominated force. So that a body

experiences an acceleration, it is necessary that the force that is exercised on him is different from zero. If

the net force on a body is equally to zero, the body won't experience an acceleration and it will remain in

state of rest or in movement rectilinear uniform. Newton's second law establishes that the vectorial sum

of all the forces that they act on a body is equally to its mass multiplied by its acceleration. This way, for a

given mass, the acceleration that experiences a body is directly proportional to the force exercised on him

and, for a given force, the acceleration that experiences a body is inversely proportional to its mass. In

this work systems of simulation of phenomenons are presented in which Newton's second law is applied.

The systems have for objective to show the movement of some bodies that you/they are subject to

different forces.

Introducción

Antes de Newton casi todos suponían que era necesaria una fuerza para mantener un objeto en

movimiento. Si se desliza un objeto sobre una superficie horizontal, pronto se detendrá. Para mantenerlo en

movimiento, se deberá continuar empujándolo. En efecto, es casi obvio que los objetos en movimiento,

abandonados a sí mismos, se frenan y pronto se detienen. Newton descubrió que esta observación, aunque

correcta, no se aplica a objetos sobre los que actúa una fuerza resultante igual a cero. Para el caso del

objeto que se desliza sobre una superficie horizontal, descubrió que existe una fuerza que frena al

movimiento que es la fuerza de fricción que la superficie ejerce sobre el bloque. Por lo tanto, la fuerza neta

que actúa sobre el cuerpo no es cero. Newton reconoció que el bloque disminuye su velocidad y se detiene


a causa de la fuerza de fricción no equilibrada. Mientras más pequeña se una fuerza de fricción, el cuerpo

disminuirá su velocidad más lentamente. Siguiendo esta línea de razonamiento, Newton propuso que si

están ausentes las fuerzas de fricción, los objetos que se deslizan no se detendrán, es decir, si la fuerza

resultante que actúa sobre un objeto en movimiento es cero, el objeto continuará su movimiento con

velocidad constante.

La segunda ley de Newton estudia el efecto que tienen las fuerzas no equilibradas que actúan sobre un

objeto. La experiencia cotidiana dice que las fuerzas no equilibradas producen un cambio en la velocidad del

objeto, es decir, producen una aceleración sobre el mismo. Newton reconoció que las fuerzas no

equilibradas causan aceleraciones y su segunda ley relaciona la fuerza externa resultante que actúa sobre un

objeto con la aceleración del objeto.

Cuando una fuerza neta actúa sobre un objeto de masa m y produce una aceleración a , las cantidades

están relacionadas por [1]:

amF 1

Esta conclusión es el enunciado de la segunda ley de Newton. Esta ley nos indica que cuanto mayor sea la

masa del objeto, tanto mayor será la fuerza necesaria para cambiar su velocidad. Además, cuanto mayor sea

la fuerza neta actuando sobre un objeto, tanto mayor será la aceleración experimentada. En consecuencia

con la segunda ley de Newton, si la fuerza neta que actúa sobre un objeto es igual a cero, un objeto en

reposo permanecerá en reposo y un objeto en movimiento conservará su velocidad original.

La segunda ley de Newton forma parte de las leyes de Newton que a su vez son la parte esencial de los

conceptos básicos de la Dinámica, que es la ciencia que se encarga de establecer las causas del movimiento

de los cuerpos y las leyes que obedecen los cuerpos en movimiento [2]. La fuerza representa la interacción

del medio y el objeto en estudio, identificándose como la causa que origina el movimiento de los cuerpos.

Newton estableció que en ausencia de fuerzas un cuerpo no alterará su estado, es decir, si está en reposo,

permanecerá en reposo. Aunque escape a nuestro sentido común, lo mismo se puede afirmar de un cuerpo

que se mueva con velocidad constante y describiendo una trayectoria rectilínea; éste permanecerá así

mientras no haya una fuerza que altere su estado. Para un cuerpo que haya sido afectado por una fuerza,

ese estado se romperá apareciendo con ello un cambio de rapidez o un cambio en la trayectoria del

movimiento del cuerpo si originalmente se desplazaba con movimiento rectilíneo uniforme, o pueden

aparecer ambos efectos simultáneamente. Un cambio experimentado en la rapidez de un cuerpo en un

determinado intervalo de tiempo, es conocido como aceleración tangencial. De manera equivalente, un

cambio en la dirección del movimiento del cuerpo causa una aceleración conocida como aceleración

centrípeta. Así, una fuerza que actúe en un cuerpo es capaz de ocasionar en él una aceleración que es

proporcional a dicha fuerza.

Sin embargo, la aceleración que experimente un cuerpo no solo dependerá de la fuerza que se le aplique,

sino también de la cantidad de masa que contenga; entendiéndose a la masa como una medida cuantitativa

de la inercia, siendo ésta una propiedad que tienen los cuerpos de presentar resistencia para cambiar su

estado. Así, para una fuerza dada, un objeto de menor masa se acelerará más que un objeto de mayor masa.

Plano inclinado


La segunda ley de Newton establece que la suma vectorial de todas las fuerzas que actúan sobre un cuerpo,

es igual al producto de la masa del cuerpo por la aceleración que experimente. En consecuencia, para

identificar las fuerzas que actúan sobre un cuerpo, se dibuja un diagrama por separado del cuerpo aislado,

mostrando un marco de referencia y todas las fuerzas que actúan sobre dicho cuerpo. Este diagrama se le

conoce como Diagrama de Cuerpo Libre [3].

Figura 1. Plano Inclinado.

La figura 1 muestra las fuerzas a las que está sujeto el bloque que se encuentra sobre el plano inclinado.

Solo son tres las fuerzas que actúan sobre el bloque: el peso, la normal y la fricción. El peso se ha

descompuesto en sus componentes normal y tangencial al plano.

La ecuación de las fuerzas que actúan sobre el bloque en la dirección paralela al plano es:

mafrsengm 2

Donde sengm es la componente del peso en la dirección paralela al plano, fr es la fuerza de fricción

entre el bloque y el plano, y a es la aceleración con la que se moverá el bloque. Esta ecuación nos dice que

la componente del peso en la dirección paralela al plano es mayor que la fuerza de fricción, por lo que el

bloque descenderá con una determinada fuerza, que va a depender del peso del bloque, del ángulo que

forma el plano con la horizontal, y de la fuerza de fricción.

Por otra parte, la fuerza de fricción puede ser calculada por medio de la siguiente expresión:

Nfr 3

N Es la fuerza normal y es la fuerza que ejerce el plano sobre el bloque, es el coeficiente de fricción

entre el plano inclinado y el bloque. Esta ecuación nos indica que la fuerza de fricción es igual al coeficiente

de fricción multiplicado por la fuerza Normal.

De igual forma, podemos ver en el diagrama que la componente del peso en la dirección perpendicular al

plano y la fuerza normal, se equilibran. Es decir, la fuerza neta sobre el bloque en esta dirección es cero.

Matemáticamente esta afirmación puede ser expresada por medio de la siguiente ecuación:

0cos gmN 4

Donde cosgm es la componente del peso en la dirección perpendicular del plano inclinado. Esta

ecuación nos indica que ambas fuerzas están en equilibrio. Si no estuviesen en equilibrio, la fuerza neta sería

diferente de cero, provocando una aceleración sobre el bloque en la dirección perpendicular al plano.

fr

cosgm

gm

Normal

sengm


Sustituyendo la ecuación 4 en la 3 y el resultado los sustituimos en la ecuación 2, concluimos que la

aceleración con la que se moverá el bloque es:

)cos( senga 5

Si el coeficiente de fricción es igual a cero, la aceleración con la que se moverá el bloque sobre el plano

inclinado corresponde a [4]:

senga 6

Así, observamos que la aceleración con la que se moverá un bloque sobre un plano inclinado y sin fricción,

va a depender de la aceleración de la gravedad y del ángulo que forme el plano con la horizontal.

Si la fuerza de fricción es mayor que la componente del peso en la dirección paralela al plano, la aceleración

del bloque será igual a cero, por lo que el bloque no se moverá. Así, la ecuación para este caso se expresa de

la siguiente manera:

0 frsengm 7

Sustituyendo la ecuación 4 en la 3 y el resultado los sustituimos en la ecuación 7, concluimos que el

coeficiente de fricción es igual a [5]:

tan 8

El coeficiente de fricción para un bloque que comienza a deslizarse sobre un plano inclinado, es igual a la

tangente del ángulo que forma el plano con la horizontal.

Máquina de Atwood

Este método es utilizado para calcular la tensión en la cuerda y la aceleración con la que se moverán dos

objetos de diferente masa que estén atados a la cuerda que pasa por una polea sin fricción y masa

despreciable. Dicho dispositivo se le conoce como máquina de Atwood. La figura 2 muestra un dispositivo

similar.

Para conocer la tensión en la cuerda y la aceleración con la que se moverán los bloques, es necesario

establecer diagramas de cuerpo libre para cada uno de los bloques en la máquina de Atwood. En la figura 2

se muestran las fuerzas que actúan en cada bloque. En cada bloquea actúa la tensión y su peso.

T T

gm1 gm2


Figura 2. Máquina de Atwood.

En este caso se antepondrá un signo positivo a la aceleración si el cuerpo se desplaza hacia arriba y un signo

negativo en caso contrario. Las fuerzas que actúan sobre 1m y 2m se muestran en la figura 2 en la cual T

representa la tensión en los extremos de la cuerda. La ecuación de las fuerzas para 1m es:

amgmT 11 9

Y para 2m se tiene:

amgmT 22 10

Con 1m mayor a 2m .

Estas ecuaciones nos indican que la tensión es menor que el peso del cuerpo de masa 1m y que la tensión

es mayor que el peso del cuerpo de masa 2m ; en consecuencia, el bloque de masa 1m caerá y el bloque de

masa 2m subirá. Combinando ambas ecuaciones, tenemos [6]:

gmm

mma

21

21 )(

11

Y

21

212

mm

mmT

12

Estos resultados son válidos si la masa de la polea y la fricción son despreciables. Para el caso en que esta

condición no se cumpla, encontraríamos que la tensión en cada extremo de la cuerda sería diferente. En la

ecuación 11, nótese que el valor de la aceleración con la que se moverán los bloques siempre será menor o

igual que la aceleración de la gravedad. En el caso extremo en que la masa 2m sea igual a cero, el bloque de

masa 1m bajará con la aceleración de la gravedad. Si ambas masas son iguales, la aceleración de los bloques

será igual a cero. La ecuación 12 nos indica que la magnitud de la tensión es siempre intermedia entre el

peso de masa 1m y el de masa 2m . Este resultado parece razonable ya que la tensión debe ser menor que

el peso del bloque de masa 1m para proporcionar a 2m una aceleración hacia arriba, en tanto que 1m

debe ser mayor que la tensión para proporcionar una aceleración hacia abajo. En el caso en que ambas

masas sean iguales, la tensión es igual a los pesos de los bloques.

Si se considera la masa de la polea, la tensión en cada extremo de la cuerda sería diferente debido al

movimiento rotacional de la polea. La fricción en el eje de la polea también afecta el movimiento rotacional

y a la tensión en las cuerdas. Es por ello que se han despreciado tanto la masa de la polea como la fricción

en su eje.

Plano horizontal


En la figura 3 se muestra un bloque colocado sobre un plano horizontal. El bloque está unido a otro bloque

que se haya suspendido. Se desea saber con qué aceleración se moverán los bloques al dejar caer el bloque

que se encuentra suspendido. Para ello, necesitamos conocer las fuerzas que actúan en cada uno de ellos.

Figura 3. Plano Horizontal.

Sobre el bloque de masa 1m actúan la tensión, la normal, la fricción y su peso. Sobre el bloque de masa 2m

actúa la tensión y su peso.

La ecuación de las fuerzas que actúan sobre 1m son:

amfrT 1 13

01 gmN 14

Y

Nfr 15

Para 2m se tiene:

amgmT 22 16

Combinando las ecuaciones 13, 14, 15 y 16, obtenemos [7]:

gmm

mma

21

12

17

Y

fr

N

T

gm1

T

gm2


gmm

mmT

21

21 )1(

18

La ecuación 17 nos indica que los bloques se podrán mover si el peso del bloque de masa 2m es mayor que

la fuerza de fricción que actúa sobre el bloque de masa 1m . En consecuencia, si la fricción es mayor, los

bloques permanecerán estáticos. Este hecho nos permite afirmar que el coeficiente de fricción entre el

bloque de masa 1m y la superficie puede ser encontrado experimentalmente al aumentar lentamente el

valor de la masa 2m hasta que los bloques comiencen a moverse. Así, el coeficiente de fricción podrá

calcularse por medio de la siguiente expresión:

1

2

m

m 19

Es decir, el coeficiente de fricción es igual al cociente de la masa 2m entre la masa 1m , cuando los bloques

comiencen a moverse.

La ecuación 18 nos indica que la tensión de la cuerda va a ser mayor conforme aumente el valor de las

masas de los bloques y el coeficiente de fricción estático.

Resultados

En la figura 4 se muestra la ventana principal del sistema que se elaboró como resultado del proyecto.

Figura 4. Ventana principal del sistema de simulación.

En ella se muestran cuatro botones de comando. Uno de ellos corresponde al sistema Plano Inclinado, el

otro al Plano Horizontal, el siguiente a la Máquina de Atwood y termina el programa. Al escoger la opción

Plano Inclinado aparecerá otra ventana como la mostrada en la figura 5.

Figura 5. Sistema de simulación correspondiente al Plano Inclinado.


Las barras de desplazamiento sirven para introducir los valores del ángulo de inclinación del plano y del

coeficiente de fricción. Para cada caso, el sistema mostrará el valor de la aceleración. Después de escoger un

ángulo de inclinación y un coeficiente de restitución, se podrá activar la animación por medio del botón de

comando Iniciar Movimiento. Conforme la simulación se lleva a cabo, en los cuadros de texto

correspondientes, se mostrará el tiempo de deslizamiento y la distancia recorrida por el bloque. El usuario

podrá observar que la distancia que recorre el bloque se puede calcular aplicando la fórmula de la distancia

del movimiento rectilíneo uniformemente variado, para una aceleración y tiempo dado. Con el sistema se

podrá determinar el coeficiente de fricción que corresponde a la tangente del ángulo para el cual el bloque

comienza a moverse. También se podrá observar que la fricción que existe entre el bloque y el plano

depende del ángulo de inclinación que forme el plano con la horizontal y del coeficiente de fricción. Así, para

un ángulo particular, la fricción podrá ser mayor que la componente del peso en la dirección del plano. En

este caso, el bloque permanecerá estático. Para que el bloque se deslice es necesario que aumente el

ángulo de inclinación o que disminuya el coeficiente de fricción. Al disminuir el coeficiente de fricción, se

observará que el valor de la aceleración podrá ser mayor a cero. En este momento, el bloque podrá

desplazarse al activar la simulación.

Al escoger la opción Plano Horizontal aparecerá otra ventana como la mostrada en la figura 6.

Figura 6. Sistema de simulación correspondiente al Plano Horizontal.

Las barras de desplazamiento se diseñaron para introducir los valores de las masas de los bloques y del

coeficiente de fricción. Para cada una de las masas y coeficientes de fricción, el sistema mostrará el valor de

la aceleración con la que se moverán los bloques y la tensión en la cuerda que los une. Después de escoger

las masas de los bloques y el coeficiente de restitución, se podrá activar la animación por medio del botón

de comando Iniciar Movimiento. Conforme la simulación se lleva a cabo, en los cuadros de texto

correspondientes, se mostrará el tiempo de deslizamiento y la distancia recorrida por los bloques. El usuario

podrá calcular la distancia que recorren los bloques, aplicando la fórmula de la distancia correspondiente al

movimiento rectilíneo uniformemente variado, para una aceleración y tiempo dado. Con el sistema se podrá

determinar el coeficiente de fricción entre el bloque y la superficie horizontal, con solo hacer variar la masa

del bloque que se encuentra suspendida. Cuando el valor de la aceleración sea igual a cero, el peso del

bloque suspendido se igualará con la fuerza de fricción. Utilizando la ecuación 19 se encontrará el respectivo

coeficiente de fricción.

Al escoger la opción Máquina de Atwood aparecerá otra ventana como la mostrada en la figura 7.

Las barras de desplazamiento se diseñaron para introducir los valores de las masas de los bloques. Para cada

una de las masas escogidas, el sistema mostrará el valor de la aceleración con la que se moverán los bloques

y la tensión en la cuerda que los une. La aceleración será positiva si el bloque sube y negativa en caso

contrario.


Figura7. Sistema de simulación correspondiente a la Máquina de Atwood

Como el tamaño de la cuerda es constante, la aceleración con la que se moverán los bloques será la misma,

independientemente de la dirección de su desplazamiento. Después de escoger las masas de los bloques, se

podrá activar la animación por medio del botón de comando Iniciar Movimiento. Conforme la simulación se

lleva a cabo, en los cuadros de texto correspondientes, se mostrará el tiempo de deslizamiento y la distancia

recorrida por los bloques. El usuario podrá calcular la distancia que recorren los bloques aplicando la

fórmula de la distancia correspondiente al movimiento rectilíneo uniformemente variado, para una

aceleración y tiempo dado. Por razones de simplicidad, el sistema no considera la masa de la polea, ni la

fricción en su eje.

Los sistemas tienen la característica de que el tamaño de los bloques es proporcional a su masa. Así,

conforme se disminuya o aumente su masa, su área irá disminuyendo o aumentando dependiendo de su

valor. El área de los bloques será igual a cero cuando no exista masa. En este caso, el bloque estará

representado por una línea recta.

También los sistemas tienen la característica de que conforme se desplacen los bloques, en determinados

intervalos de tiempo, aparecerán marcas que indican su posición. Las marcas tienen la función de mostrar

que el movimiento de los bloques es acelerado, por lo que su velocidad aumenta uniformemente. Así, las

distancias entre marcas no serán las mismas debido a que la velocidad aumenta conforme el tiempo

transcurre.

El sistema fue desarrollado en Visual Basic que es un lenguaje de propósitos generales que sirve para crear

aplicaciones para Windows basado en el lenguaje Basic, QBasic o QuickBasic y en la programación orientada

a objetos [8].

Conclusiones

Los sistemas muestran el movimiento de los bloques para cada parámetro que rige su correspondiente

simulación. Con esto se puede realizar una serie de combinaciones que permitan analizar su

comportamiento para cada caso.

El usuario podrá comprobar que la distancia que recorren los bloques en cada simulación, coincide con la

distancia calculada teóricamente.

Los sistemas pueden ser usados para la Educación a Distancia.

Con el uso de los sistemas se puede lograr un aprendizaje activo.

Se logran imágenes conceptuales a través de los modelos visuales que se generan con las simulaciones.


El sistema es un apoyo a la labor docente.

Referencias

[1] R. Resnick y D. Halliday, Física, Vol I, México, D. F.: CECSA, 1980. p.87

[2] V. Beltrán y E. Braun, Principios de Física, México, D. F.: Trillas, 1970. p. 52

[3] R. Resnick y D. Halliday, ob. cit., p.99

[4] Frederick J. Buche, Física General, México, D. F.: McGRAW-HILL, 1990. p. 50.

[5] V. Beltrán y E. Braun, ob. cit., p. 44.

[6] R. Resnick y D. Halliday, ob. cit., p.102.

[7] Frederick J. Bueche, ob. cit., p. 51.

[8] Francisco J. Ceballos, Enciclopedia de Visual Basic 4, México, D. F.: Alfaomega Grupo Editor, 1997. p. 319.


Heart Rate Variability Before and After Asphyxia Periods

F. Cardona Rocha, F. S. Schlindwein, A. E. Cardona Rocha

Abstract

Asphyxia can produce serious damage to the brain and autonomic nervous system. A reduction of HRV

has been reported accompanying many cardiac and cerebral diseases including foetal brain stem injury;

severe neonatal respiratory distress syndrome is accompanied by a reduction in low-frequency heart rate

variability, if the respiratory distress improves, heart rate variability increases [1]. A comparison between

the heart rate variability (HRV) before and after asphyxia episodes in the animal model is presented. We

used data arising from previous studies where 24 adult Wistar rats were anaesthetised and subjected to

controlled asphyxia for specified durations- [2].

We conclude that a depression of the HRV after long periods of asphyxia indicate possible injury to the

autonomic nervous system.

Keywords: Heart rate variability, autonomic nervous system, asphyxia

Introduction

The intervals between heartbeats normally show subtle variations in duration that are mainly related to

autonomic nervous system (ANS) activity. The analysis of these variations, known as heart rate variability

(HRV) is widely used for research and diagnostic [3]. HRV studies have allowed access to useful information

about disturbances in autonomic regulation, which are a promising marker to quantify autonomic activity.

This study is being conducted to (i) observe the behaviour of the heart rate variability for short and long

asphyxia periods. (ii) to estimate the severity of the insult.

The study of heart rate variability (HRV) centres on the analysis of beat to beat fluctuations in heart rate.

The series of time intervals between heartbeats referred to as R-R intervals are measured over a period in

this case before and after the asphyxia has occurred. Variations in heart rate may be evaluated by a number

of methods. Poincaré plot Analysis is a quantitative visual technique taken from nonlinear dynamics,

whereby the shape of the plot is categorized into functional classes [4,5]. A Poincaré plot is a scatter plot of

the current R-R interval plotted against the preceding R-R interval [6]. The plots provide summary

information as well as detailed beat to beat information on the RR variability [7]. A distinct advantage of

Poincaré plots is their ability to identify beat to beat cycles and patterns in data that are difficult to identify

with spectral analysis [8].

Simple linear time domain statistics such has standard deviation (SD) and root mean square of the

successive R-R intervals have been often employed to analyse HRV fluctuations providing insights into the

autonomic cardiac regulation. [9]

Methods

We carried out a series of comparisons in a group of data arising from several experiments were 24 adult

Wistar rats were anesthetised and subjected to controlled asphyxia for specified durations[2]. Five lapses of


time where used, 0 minutes for control and then 1, 3, 5, and finally 7 minutes. The ECG was measured and

the heart rate variability was estimated by (i) measuring the standard deviation of normal RR intervals

Equation 1. We take the absolute value of each deviation before the summation otherwise the positive and

negative terms would average to zero. (ii) Poincaré plots where used to observe the fluctuations beat to

beat.

1

0

22

1

1 N

i

ixN

1

...2

1

2

2

2

1

2

0

N

xxxx N

Equation 1

Results

Trough the analysis of the HRV using the statistical method of the standard deviation we obtain the values

for the first five minutes before the asphyxia is present and for the last 3.5 minutes after the asphyxia has

occurred. For the period of one minute the initial HRV was 3.465ms an the final 1.873ms, for the period of

three minute the initial HRV 0.4233ms and the final HRV 0.142 ms for five minutes the initial HRV 0.673ms

at the final 0.319 ms and finally the period of seven minutes presented a initial HRV of 0.337ms and a final

HRV of 0.120ms. Table 1

Group Before After

One Minute 3.47 ms 1.87 ms

Three Minute 0.42 ms 0.14 ms

Five Minute 0.68 ms 0.32 ms

Seven Minute 0.34 ms 0.12 ms

Table 1. Comparison before / after asphyxia.

Using Poincaré plots we observe the same behaviour for longer asphyxia periods the RR values decrease

after the injury (figure 1) in comparison for short asphyxia periods the RR values does not present a marked

change (figures 2,3,4).


100 120 140 160 180 200 220100

120

140

160

180

200

220RR Vs RRn-1 Values

RRms

RR

n-1

Before asphyxia

After asphyxia

Figure 1. Comparison before/after asphyxia for seven minutes

100 150 200 250 300 350 400100

150

200

250

300

350


RRms

RR

n-1

Before asphyxia

After asphyxia

Figure 2. Comparison before/after asphyxia for one minute.

100 120 140 160 180 200 220 240 260 280 300100

120

140

160

180

200

220

240

260

280


RRms

RR

n-1

Before asphyxia

After asphyxia

Figure 3 Comparison before/after asphyxia for three minutes.

100 120 140 160 180 200 220 240 260 280 300 320100

120

140

160

180

200

220

240

260

280

300


RRms

RR

n-1

Before asphyxia

After asphyxia


Figure 4. Comparison before/after asphyxia for five minutes.

Conclusions

In all cases the heart rate variability increases dramatically during transient asphyxia. The detection of this

increase could be used during labour to detect acute hypoxia.

The comparison of the base level of HRV after and before asphyxia shows that for longer asphyxia periods

the heart rate variability had decreased.

HRV is a very sensitive indicator of asphyxia, the depression of the HRV after severe asphyxia could be used

to estimate the severity of the asphyxia.

References

[1] Buerk D.G., Ghodadra R., Hao L., Mohadjer Y., Thakor N.V. “Nitric oxide changes in adult rat brain after

transient global ischemia”, Proceedings-19th International conference IEEE/EMBS (1997).

[2] Boardman Anita, Schlindwein S. Fernando, Thakor V. Nitish, Kimura Tetsu, Geocadin G. Romergryko.

“Detection of asphyxia using heart rate variability”, Med. Bio. Eng. Computing, vol 40, pp. 618-624, (2002).

[3] Contreras P., Canetti R., Eirea G., Hakas M., Machado A., Migliario R.E. “Short-term studies of heart rate

[4] Brennah M., Palaniswami. M., and Kamen P. “Do exixting measures of poincare plot geometry reflect

nonlinear features of heart rate variability?”, IEEE Transactions on Biomedical Engineering, vol 48, pp. 1342-

1347, (2001).

[5] Brennah M., Palaniswami. M., and Kamen P “Poincare interpretation using a physiological model of hrv

based on a network of oscillators”, Am. J. Physiol. Heart Circ. Physiol., vol 283, pp. 1873-1886, (2002).

[6] B.C. Galland, R.M. Hayman, D.P.G. Bolyon, R.M. Sayers and S.M. Williams. “Factors affecting heart rate

variability and heart rate responses to tilting in infants aged 1 and 3 months”, Pediatric Research, vol 48, pp.

360-368, (2000).

[7] Kamen P.W, Krum H., Tonkin A.M. “Poincare plot of heart rate variability allows quantitative display of

parasympathetic nervous activity”, Aust. Family Physician , vol 25, pp. 1087-1094, (1996).

[8] D.K. Moser, H.R. Middleekauff, M.A. Woo and W.G. Stevenson. “Patterns of beat to beat heart rate

variability in advanced heart failure” Am. Heart J., vol 123, pp. 704-710, (1992).

[9] Bezerianos A., Cimponeriu L., Moraru L., Thakor N., Ton S. “Characterization of heart rate variability

changes following asphyxia in rats”, Methods Inf. Med., vol 43, pp. 118-121, (2004).


Detección de patrones en el registro de la actividad eléctrica del corazón

humano utilizando memorias asociativas morfológicas.

A. P. Jaramillo y J.C. Salgado

Resumen

La interpretación del registro grafico de la actividad eléctrica del corazón (ECG) es la parte toral dentro del

diagnostico de patologías propias del corazón; los electrocardiogramas nos permiten reconocer por la

forma de los trazos, arritmias, bloqueos auriculo-ventriculares, bloqueos de rama, alteraciones

electrolíticas etc. al representar numéricamente la grafica de los registros de la actividad eléctrica del

corazón permite que el diseño de los patrones de entrada para el aprendizaje y recuperación de las

memorias asociativas morfológicas presenten características de viabilidad en su utilización .

Abstract

The interpretation of the graphic registration of the electric activity of the heart (ECG) it is the part toral

inside the I diagnose of pathologies characteristic of the heart; the electrocardiograms allow us to

recognize for the form of the lines, arrhythmias, auriculo-ventricular blockades, branch blockades,

alterations electrolytic etc. to the graficar with numerically the registrations of the electric activity of the

heart allow the design of the entrance patterns for the learning and recovery of the morphological

associative memoirs to present characteristic of viability in its use

Keywords: memorias asociativas, electrocardiograma, reconocimiento de patrones, corazón, ECG.

Introducción

El electrocardiograma (ECG) es la representación gráfica de la actividad eléctrica del corazón, figura 1. La

correcta interpretación de este registro permite determinar si el trazo presenta algún tipo de patrón que

determine algún tipo de patología; esta bioseñal se recolecta a través un determinado número de

electrodos colocados en la región torácica anterior izquierda y en las extremidades de forma distal.

Habitualmente la impresión, de esta señal, se realiza en papel milimetrado térmosensible, y se clasifica

mediante 12 trazos los cuales son catalogados en I, II, III, aVR, aVL, aVF, V1, V2, V3, V4, V5, V6.

En relación a la obtención de registros gráficos de la actividad eléctrica del corazón se han presentado

avances importantes, contando actualmente con dispositivos del alta especialización que permiten obtener

trazos ECG con una mínima o nula cantidad de ruido, pero en cuanto nos referimos a la interpretación de los

mismos, la situación cambia radicalmente y nos encontramos ante la limitante que esta acción tiene que ser

realizada por una persona altamente especializada en el área. Actualmente algunos trabajos se basan en la

utilización de filtros para determinar la morfología del ECG [1] también se ha utilizado la auto-correlación en

el método "So and Chan" [2] un método muy utilizado para la detección de patologías cardiacas es la

utilización de redes neuronales artificiales, [3].


O.

Figura 1. Representación grafica de la actividad eléctrica del corazón en aVF.

Vectorización de la imagen.

La vectorización del trazo se realiza mediante la graduación del papel milimetrado, se gradúa tanto en el eje

de las ordenadas como en el de las abscisas

El vector resultante de un trazo aVR es el siguiente: aVR=25.5, 25.5, 25.5, 26, 25.5, 25.5, 26, 23.5, 26, 24.5,

25.5, 25.5, 26, 25.5, 25.5, 26, 26, 26, 26, 25.5, 25.5, 25.5, 25.5, 26, 25.5, , , , , , , , , , , 26, 26, 26, 26,

25.5, 25, 25.5, 26, 25.5, 26, 26, 25.5, 26, 26.5, 26, 25.5, 25, 25.5, 26, 23.5, 26.5, 24.4, 25.5, 25.5, 25.5, 25.5,

25.5, 25.5, 26, 26, 26, 26, 26, 23.5, 25, 25, 25.5, 25.5, 25.5, 25.5, 25.5, 26, 26, 25.5, 25.5.

Este vector es multiplicado por la constante Z que tiene valor de 10, esto con la finalidad de tener un vector

compuesto por números enteros:

aVR=255, 255, 255, 260, 255, 255, 260, 235, 260, 245, 255, 255,, , , , , , , , , , , , , , , , , , , , , , , , ,

, , , , , , 260, 265, 260, 255, 250, 255, 260, 235, 265, 244, 255, 255, 255, 255, 255, 255, 260, 260, 260,

260, 260, 235, 250, 250, 255, 255, 255, 255, 255, 260, 260, 255, 255

De esta forma se generaron vectores de las 12 derivaciones los cules reciben la denotación I, II, III, aVL, aVR,

aVF V1, V2, V3, V4, V5, V6. que presenta un electrocardiograma (ECG), mismos que serán utilizados en la

fase de experimentación, tanto para el aprendizaje de las, como para la recuperación.

Conceptos básicos de Memorias Asociativas

Una memoria asociativa es un proceso que tiene por objetivo: “recuperar en forma perfecta patrones, a

partir de patrones de entrada, que quizá estén alterados con algún tipo de ruido” *4+; esta memoria se puede

ejemplificar como una caja negra que recibe de entrada un patrón x lo procesa y genera como resultado un

patrón y, como lo muestra la figura 2. La relación que existe entre el patrón de entrada x con el de salida y se

muestra mediante una pareja ordenada ,x y .


Figura 2. Memoria Asociativa vista como una caja negra

El patrón de entrada x y el patrón de salida y son vectores columnas; la memoria asociativa debe ser capaz

de aprender un conjunto de parejas ordenadas de patrones, y recuperar los de salida a partir de los de

entrada. La representación del conjunto de todos los patrones que conforman la memoria M es:

, | 1,2, ,x y p (1)

Donde p indica la cardinalidad del conjunto mostrado.

Al conjunto finito de patrones denotado en la expresión 1 se le conoce como: “conjunto fundamental de

patrones” y sus elementos “patrones fundamentales”, los cuales pueden ser de entrada o salida. Para hacer

referencia de algún elemento de un patrón x o de un patrón y, se usará la notación:

j jx o y (2)

Donde j, en la expresión 2, representa el índice de la posición del elemento del patrón y el índice de

pareja.

De acuerdo con la figura 2, M es la “matriz de aprendizaje M” ó “memoria asociativa M”. En M se almacena

la información codificada del conjunto fundamental, después que haya aprendido será operada de cierta

manera con el patrón x que se presente de entrada, el cual puede estar alterado con algún tipo de ruido, y

generará un patrón y de salida. El término “recuperar en forma perfecta” significa que el patrón que ha sido

recuperado (recordado por la memoria), es idéntico al patrón que fue aprendido.

Fases de las memorias asociativas

La fase de aprendizaje (generación de la memoria asociativa) consiste en encontrar el o los operadores

necesarios, para que de alguna manera se codifique la relación que existe entre los patrones de entrada y de

salida, y con dicha codificación se genere la matriz de aprendizaje M.

La fase de recuperación (operación de la memoria asociativa) consiste en encontrar el operador o los

operadores necesarios y las condiciones suficientes para generar un patrón de salida; es decir, una vez que

se ha conformado la matriz M, se le presenta un patrón de entrada x que previamente se aprendió, M se

opera con el operador o los operadores necesarios bajo ciertas circunstancias con el patrón x, y se genera un

patrón de salida y.

A un patrón de entrada alterado con ruido, se le representará como ~x

. Por ejemplo, la expresión ~x

representa el patrón de entrada x alterado con ruido. Si en la fase de recuperación todos los

patrones son recuperados en forma perfecta, se dice que la memoria es perfecta.

Una memoria es autoasociativa si se cumple la igualdad de la expresión 3


pyx ,...,2,1 (3)

Las memorias asociativas, en función a su diseño, obtienen los resultados esperados [5]; sin embargo, el

ruido es un factor que determina lo robusta que puede ser una memoria, el ruido suele clasificarse en:

figura 3.

Ruido aditivo

Ruido sustractivo

Ruido mezclado

Figura 3. Imagen original (arriba), imagen con ruido aditivo (abajo-izquierda), imagen con ruido sustractivo

(abajo-centro) e imagen con ruido mezclado (abajo-derecha)

Memorias Asociativas Morfológicas

Las memorias morfológicas se basan en: el uso de máximos o mínimos de sumas para la fase de aprendizaje

y máximos o mínimos de sumas para la fase de recuperación [5]

Existen dos tipos de memorias morfológicas: las memorias (max), simbolizadas por M, y las memorias

(min) simbolizadas por W .

El conjunto fundamental para las memorias asociativas morfológicas, como se muestra la expresión 5, es.

, | 1,2, ,x y p (5)

Se definen dos nuevas operaciones entre matrices en términos de las operaciones +, y , con el fin de

expresar las fases de aprendizaje y recuperación de las memorias asociativas morfológicas [5], [6].

Sea D una matriz ij m rd

y H una matriz ij r n

h

cuyos términos son números enteros.

Definición 1. El producto máximo de D y H, denotado por C D H , es una matriz ij m nc

cuya ij-ésima

componente ijc se define mediante la expresión 6:

1

r

ij ik kjk

c d h

(6)


Definición 2. El producto mínimo de D y H, denotado por C D H , es una matriz ij m n

c

cuya ij-ésima

componente ijc se define como:

1

r

ij ik kjk

c d h

(7)

A continuación se detallan por separado las memorias tipo max y las tipo min.

Memorias asociativas morfológicas tipo max

Fase de Aprendizaje.

La fase de aprendizaje para las memorias morfológicas de tipo max consta de dos etapas:

Primera Etapa.- En cada una de las p asociaciones ,x y se usa el producto mínimo, expresión 7.

Para crear la matriz t

y x de dimensión mxn, donde el negado transpuesto del patrón de entrada

x se define como: 1 2, , ,

t

nx x x x

1

2

1 2, , ,t

n

m

y

yy x x x x

y

(8)

Segunda Etapa.- Se aplica el operador (máximo) a las p matrices para obtener la memoria morfológica M,

como lo indica la expresión 9.

1

p t

ij m nM y x m

1

p

ij i jm y x

(9)


La fase de recuperación consiste en realizar el producto mínimo , expresión 7, de la memoria M con un

patrón de entrada x, donde 1,2, , p , para obtener un vector columna de dimensión m:

y M x (10)



1

n

i ij jj

y m x

(11)

Memorias asociativas morfológicas tipo min

Fase de Aprendizaje.

La memoria morfológica min para la fase de aprendizaje consta dos etapas:

Primera Etapa.- En cada una de las p asociaciones ,x y se hace uso del producto máximo, expresión 6,

para crear la matriz t

y x de dimensión mxn, donde el negado del transpuesto del patrón de

entrada xse define como:

1 2, , ,t

nx x x x

1

2

1 2, , ,t

n

m

y

yy x x x x

y

(12)

Segunda Etapa.- Se aplica el operador (mínimo) a las p matrices para obtener la memoria W.

1

p t

ij m nW y x w

(13)

1

p

ij i jw y x

(14)


La fase de recuperación consiste en realizar el producto máximo , expresión de la memoria W con un

patrón de entrada x, donde 1,2, , p , para obtener un vector columna y de dimensión m:

y W x (15)



1

n

i ij jj

y w x

Proceso de clasificación

El proceso de clasificación se lleva a cabo cuando ~x

se utiliza como patrón de entrada en la fase de

recuperación y se obtiene la matriz M. que entrega el patrón de salida y mismo que se compara con los

patrones aprendidos, utilizando la distancia de Hamming. Determinando el número de bits o porcentaje de

igualdad entre el patrón ruidoso y la memoria concluyendo así la clasificación. figura 4 y figura 5

Figura 4. Primera etapa de proceso de clasificación.

Figura 5. Segunda etapa de proceso de clasificación.

Experimentos

El vector aVR se utiliza como patrón de entrada para el Aprendizaje de la memoria asociativa morfológica,

en la fase de recuperación el patrón de entrada se considerara ruidoso y dependiendo el tipo de ruido

presente se utilizara la memoria adecuada max o min según sea el caso.

Se utilizaron los vectores aVL, aVR, aVF para obtener los patrones de entrada, así también cuando se

utilizaron los mismos patrones para el reconocimiento y mediante las distancias de Haming se obtuvieron

los siguientes resultados.


Vector Porcentaje mediante distancia de Hamming

aVL aVR aVF

95 %

75%

80%

Conclusión

El método descrito permite determinar la viabilidad de las memorias asociativas morfológicas para detectar

patrones en el registro electrocardiografico, los resultados obtenidos los podemos considerar dentro de los

límites aceptables.

Referencias

[1] Tabakov S, Iliev I, Krasteva V. Online digital filter and QRS detector applicable in low resource ECG

monitoring systems. Annals Of Biomedical Engineering [serial online]. November 28, 2008;36(11):1805-

1815. Available from: MEDLINE with Full Text, Ipswich, MA.

[2] K.F. Tan,1 K.L. Chan,1 and K. Choi11Dept. of Electron. Eng., CIty Univ. of Hong Kong, China First

International Conference on Advances in Medical Signal and Information Processing (CP476), p. 41 -47

Bristol, UK, 4-6 Sept. 2000 , ISBN: 0 85296 728 4

[3] Eggers K, Ellenius J, Dellborg M, et al. Artificial neural network algorithms for early diagnosis of acute

myocardial infarction and prediction of infarct size in chest pain patients. International Journal Of Cardiology

[serial online]. January 18, 2007;114(3):366-374. Available from: MEDLINE with Full Text, Ipswich, MA.

[4] Hassoun, M. H. (Ed.) (1993). Associative Neura Memories, New York: Oxford University Press.

[5] Salgado-Ramírez, J. C. (2005). Estudio estadístico comparativo entre Memorias Asociativas Clásicas,

Memorias Morfológicas y Memorias Alfa-Beta para el caso binario, Tesis de maestría, CIC-IPN, México.

[6] Yánez M., Díaz-de-León J. L., (2003). Introducción a las Memorias Asociativas, Editorial CIC-IPN, ISBN:

970-36-0116-2, México

http://scitation.aip.org/vsearch/servlet/VerityServlet?KEY=IEEDRL&possible1=Tan%2C+K.F.&possible1zone=author&maxdisp=25&smode=strresults&aqs=true

http://scitation.aip.org/vsearch/servlet/VerityServlet?KEY=IEEDRL&possible1=Chan%2C+K.L.&possible1zone=author&maxdisp=25&smode=strresults&aqs=true

http://scitation.aip.org/vsearch/servlet/VerityServlet?KEY=IEEDRL&possible1=Choi%2C+K.&possible1zone=author&maxdisp=25&smode=strresults&aqs=true


Filtrado de imágenes de ultrasonido en aplicaciones de telemedicina

Cruz Rodriguez G.; Rivera Arzola P. y Simancas Acevedo E.

Resumen

Este trabajo presenta la respuesta de los diferentes algoritmos de filtrado de imágenes obtenidas por

ultrasonido, las cuales nos servirán para el desarrollo de un sistema para la simulación de la columna

vertebral en 3D que es utilizado en la telemedicina. Se presentan el desempeño de 3 filtros con imágenes

de la columna vertebral por ultrasonido que nos proporcionó el hospital en donde se pretende practicar la

tele-operación; además, presentamos estos resultados resaltando que el filtro stack es uno de los más

viables para nuestras necesidades en el procesamiento de la imagen que nos servirá para la

reconstrucción de la columna vertebral en 3D.

Palabras claves: ondas sonograficas, ruido speckle, filtros, wavelet, stacking, local statistic.

Abstract

This paper presents the response of the different algorithms filtering images acquired by ultrasound,

which will help us to develop a system for the simulation of the spine in 3D which is used in telemedicine.

We present the performance of 3 filters with images of the spine by ultrasound that gave us the hospital

where he intends to practice tele-operation, in addition, we present these results highlight the filter stack

is one of the most viable for our needs in the image processing that will serve us for the reconstruction of

the spine in 3D.

Key words: sonograficas waves, speckle noise, filters, wavelet, Stacking, local statistic.

Introducción

El arte y la ciencia de la cirugía ha experimentado un desarrollo sustancial durante los últimos años desde la

introducción de las técnicas antisépticas de Lister, incluyendo el mejoramiento de los agentes anestésicos,

los antibióticos, la nutrición parenteral, y el transplante de órganos, en el cual las herramientas básicas y las

técnicas permanecieron básicamente iguales. La tarea central de la ”cirugía”, que es ”cortar y coser” con

instrumentos manuales, la visualización directa y el contacto con el órgano o tejido también se ha

mantenido igual. Sin embargo, ha habido un cambio paradigmático en las técnicas quirúrgicas, ya que se han

implementado nuevas tecnologías para llevar acabo una cirugía como lo es el desarrollo de la tele operación

que se realizan con sistemas de navegación intraoperatoria asistidas por computadora (NIAC) [1].

Es importante que los sistemas de navegación contengan imágenes que se vean con la mayor nitidez

posible, una alternativa podría ser las imágenes por ultrasonido ya que desde sus inicios ha sido una

tecnología que poco a poco ha venido creciendo, así como también el área en que se esta utilizando este

tipo de tecnología, la cual se centro en hacer ultrasonido a mujeres que estuvieran en gestación para revisar

a su bebe de cómo va evolucionando, en que estado de salud se encontraba, poco después se descubre que

esta tecnología se podía examinar en otras partes del cuerpo humano como por ejemplo el ojo, los

intestinos, entre algunos de los órganos internos y otros mas, ahora en la actualidad ya existen aparatos mas

modernos y sofisticados, ya se pueden realizar ultrasonidos en partes del cuerpo en tiempo real y en tercera

dimensión, pero todavía tiene sus limitantes ya que estas imágenes todavía no se ven con una buena nitidez


en la que podamos ver de forma mas clara estas imágenes, pero existen métodos y modelos con los cuales

podemos hacer que estas imágenes se vean con mayor nitidez.

Las imágenes ultrasónicas han evolucionado tanto, ya que han dejado de ser solo una foto estática, en la

que se nos muestra la imagen obtenida de alguna parte del cuerpo humano, ahora en la actualidad se

pueden realizar ultrasonidos los cuales nos muestra las imágenes en tiempo real, existen aparatos que ya se

pueden observar en tercera dimensión, esto y otros aspectos han despertado en el ser humano que se sigan

desarrollando nuevas investigaciones y nuevas tecnologías para buscar mejores técnicas de procesamiento

que permitan un diagnóstico más fiel y versátil.

Planteamiento del problema

El ultrasonido tuvo sus inicios a partir del siglo XVII, y surgió como un fenómeno de la naturaleza cuando el

biólogo italiano, Lazzaro Spallanzani descubre la existencia de las ondas sonoras, observando como los

murciélagos atrapaban a sus presas, otra forma con la cual se dieron cuenta de estas ondas fue probando

que pasaba si le tapaban los ojos a estos murciélagos y observaron que ellos perdían su capacidad de

orientación. Terminada la Segunda Guerra Mundial comienza el desarrollo de equipos diagnósticos en

medicina, cuando grupos de investigadores Japoneses, Americanos y de algunos países europeos trabajan

para fabricar los primeros prototipos de diagnostico medico. Luego de varios años de desarrollo, en la

década de 1950 el ultrasonido es aceptado por las sociedades medicas como un instrumento de diagnostico

en medicina, dando origen a un sin numero de trabajos de investigación en distintas áreas de aplicación [2].

El ultrasonido también llamado sonograma, es una tecnología que se basa en producir ondas sonoras en

una parte del cuerpo humano, y los ecos producidos por estas ondas rebotan cuando encuentran a un

órgano o hueso, dependiendo la zona que se esta explorando, y estas son enviadas a una pantalla de

visualización para video, en la cual vamos viendo la imagen del órgano o hueso. Estas imágenes de

ultrasonido son en general pruebas clínicas no dolorosas que sirven para que los médicos diagnostiquen las

enfermedades o también para ver al feto como se va desarrollando y en que condiciones de salud se

encuentra para tener un parto con mayor probabilidad de vida [3]. Anteriormente los primeros aparatos de

ultrasonido que se utilizaban, mostraban las imágenes en escala de grises, eran grandes y estáticos, es decir

que producían imágenes fijas como las de radiología. Ahora en la actualidad se pueden ver las imágenes en

color, permite verlas en movimiento y los aparatos son más pequeños, más ligeros con imágenes con mayor

nitidez y totalmente digitales pero eso si son caros.

Como ya se menciono anteriormente las ondas de ultrasonido o sonogramas son un fenómeno natural ya

que existen animales que emiten estas ondas de ultrasonido el cual lo utilizan como medio de orientación,

comunicación, localización de alimentos, defensa, etc. Un ejemplo de los animales que utilizan estas ondas

sonograficas o ondas de ultrasonido encontramos a los delfines, los pájaros, perros, polillas y murciélagos

La tecnología del ultrasonido ha avanzado tanto que hoy en día existen ultrasonidos tridimensionales que

transforma los datos de ondas acústicas en imágenes en tercera dimensión. También existen ultrasonidos de

cuarta dimensión, el cual consiste en imágenes de tercera dimensión con movimiento [4]. Existe el

ultrasonido Doppler que consiste en una técnica especial de ultrasonido que evalúa la sangre mientras

circula por los vasos sanguíneos, incluyendo las arterias y venas más importantes del organismo que se

encuentran en el abdomen, brazos, piernas y cuello. Existe mucha variedad de ultrasonido para todo el

cuerpo, los que se acaban de mencionar anteriormente son algunos ejemplos claros en donde se esta

haciendo el uso del ultrasonido. El ultrasonido tiene limitantes, una de ellas es que no puede atravesar el

aire y gas, por lo tanto hay órganos a los cuales un examen de ultrasonido en ellos no seria muy factible, tal


es el caso del estomago y los intestinos, y por esta razón no seria conveniente practicarse este examen de

ultrasonido [5].

Aunque la tecnología de ultrasonido es buena para mi gusto, no llega hacer perfecta ya que las imágenes

que muestra no son muy claras como para que los padres de familia puedan ver con claridad a su bebe o

para observar otras partes del cuerpo donde se allá llevado acabo el ultrasonido.

La desventaja que tiene un examen de ultrasonido es que las imágenes que muestra al ser creadas

presentan un ruido muy característico llamado speckle, la cual degrada significativamente la calidad de la

imagen, aumentando así la dificultad de ver detalles mas finos y poder dar los médicos un mejor diagnostico

para el paciente [6].

Desarrollo

Entre los métodos tradicionales para la reducción de ruido speckle, se encuentran los filtros lineales

adaptativos basados en las propiedades estadísticas locales de la imagen, que implican una pérdida de

información útil en la imagen, y las técnicas basadas en las propiedades estadísticas reales tanto de la señal

como del ruido, uno de estos métodos se le conoce como La transformada wavelet descompone una señal

sobre un conjunto de funciones básicas wavelets, obtenidas mediante versiones escaladas y trasladadas de

una wavelet prototipo. Produce una representación de la señal en tiempo-escala que introduce como

principal ventaja frente a la transformada localizada de Fourier (STFT) el uso de ventanas moduladas de

dimensión variable ajustadas a la frecuencia de oscilación, utilizando frecuencias sobre periodos de tiempo

cortos y frecuencias bajas sobre periodos de tiempo largos. De esta forma, la resolución en el tiempo se

incrementa con la frecuencia, realizando un análisis multirresolución [7]. Un filtro es una función que mapea

señales de entrada en señales de salida con características determinadas. El objetivo del filtrado de una

señal es atenuar o eliminar el ruido contenido en la misma. Los filtros pueden ser lineales o no lineales al

satisfacer o no las condiciones de linealidad: h(ax + by) = ah(x) + bh(y) donde h es la función de filtrado, x, y

son las variables de función y a y b son valores constantes. Los filtros no lineales poseen la ventaja de que

atenúan el ruido de la imagen, preservando bordes y detalles. Los filtros stack son un caso especial de filtros

no lineales, por lo tanto tienen buena performance para filtrado de imágenes con distintos tipos de ruido

preservando bordes y detalles. Estos filtros se basan en la descomposición por umbrales de la señal de

entrada, obteniéndose una señal binaria para cada uno de ellos, y en la aplicación de un filtro a cada una de

esas señales por medio de una ventana deslizante. Este filtro se genera por medio de un algoritmo

adaptativo, de manera que cumpla la propiedad de stacking. Luego se aplica una función de filtrado Sf a

cada una de esas imágenes por medio de una ventana deslizante, donde Sf es construido a partir de una

función f que cumple con la propiedad de stacking. Las salidas de los filtros correspondientes a cada umbral

se suman para dar el resultado final. La ventaja de este método es que se aplica el filtro a imágenes binarias,

además de que el procesamiento de la imagen correspondiente a cada umbral, puede realizarse en paralelo.

[8].

Algoritmo sticks, ha sido mostrado que el numero de falsos bordes puede ser reducido al modelar los bordes

en imágenes de ultrasonido como un proceso de líneas. Utilizando segmentos de líneas en diferentes

orientaciones angulares y eligiendo para cada punto la orientación que mas probablemente represente a la

línea en la imagen, es posible reducir significativamente el ruido speckle y enfatizar la información de

bordes. El algoritmo consiste en considerar una ventana cuadrada de tamaño NxN en la imagen. Para cada

ventana, hay 2N- 2 líneas (ninguna interpolación es llevada a cabo) que pasan por el píxel central, con cada

línea conteniendo exactamente N píxeles. Para cada una de estas líneas, se calcula la suma de los píxeles a lo


largo de la misma. El segmento con el mayor valor de la suma realizada anteriormente es seleccionado,

siendo el valor del píxel en la imagen de salida el máximo de las 2N ¡ 2 sumas. Este paso se repite para todos

los píxeles de la imagen.

El filtro Local statistic utiliza estadísticas locales de primer orden, como la media y la varianza. El principio de

trabajo consiste en realizar promedios ponderados, utilizando estadísticas de sub regiones para estimar las

medidas estadísticas sobre la ventana deslizante (típicamente 3x3, 5x5, 7x7) de los píxeles. Estos filtros

asumen que el ruido speckle es multiplicativo, de la forma:

gi;j = fi;j x ni;j

donde gi;j representa el píxel ruidoso en el medio de la ventana, fi;j el píxel libre de ruido y ni;j es un píxel de

ruido con distribución de Rayleigh. Se recorre la imagen y calcula

fi;j = gi;j +ki;j x[gi;j – gi;j]

donde fi;j es el nuevo valor del píxel estimado, gi;j es el valor de la media local de una región de N1xN2, ki;j

es un factor de ponderación, k ² [0..1] e i,j son las coordenadas absolutas del píxel. El factor ki;j es una

función de la estadística local de la ventana deslizante, y se calcula como

ki:j = [1 – gi;j ] / [ n)]

n representan la varianza y la varianza del ruido en la respectiva ventana deslizante. Un valor de 1 para k,

indica que el píxel quedará con el mismo valor, y un valor de 0 reemplaza el valor del píxel por la media local

gi;j.[9]

Concluciones:

El lograr eliminar el ruido en imágenes de ultrasonido seria satisfactorio para las personas de escasos

recursos ya que la modalidad es más barata en comparación con otras modalidades como la tomografía, la

resonancia magnética computarizada entre otras, sería una alternativa el realizarse un examen de

ultrasónico en lugar de una tomografía o una resonancia magnética. Lo cual el algoritmo de filtrado de estas

imágenes ultrasónicas se podría implementar en equipos de ultrasonido existentes.

Referencias

[1].-Cirugía robótica mismamente invasiva, Michael J. Mack, MD

[2].- Revista Chilena de Radiología. Vol. 10 Nº 2, año 2004; 89-92, HISTORIA DEL ULTRASONIDO: EL CASO

CHILENO Dra. Dulia Ortega, TM. Solange Seguel.

[3].-procesamiento digital de señales ultrasónicas en end L.G. Ullate, O. Martínez, M.A.G. Izquierdo, M.

Parrilla Instituto de Automática Industrial, CSIC Madrid, España

[4].- ULTRASONIDO Lisa María Jaramillo, Sirley Marín y Catalina Pineda, Programa de Ingeniería Biomédica,

Escuela de Ingeniería de Antioquia - Instituto de Ciencias de la Salud


[5].- Avances en el estudio no invasivo de la fisiología cardiaca mediante el procesado de imágenes de

ecocardiografía Doppler- color, J Carlos Antoranz, Javier Bermejo, Raquel Yotti M. Mar Desco, Miguel Ángel

García-Fernández

[6].- Imágenes de Ultrasonido, Martín Bianculli, Andres Duffour, Facultad de Ingeniería Universidad ed. la

República, 18 de julio de 2005

[7].- Reducción n de ruido speckle sobre imágenes SAR en el dominio wavelet, Ana María Cóbreces Álvarez,

Manuel Rosa Zurera, Raúl Vicen Bueno, José B. Sáez Landete, [email protected], [email protected],

[email protected], [email protected] Departamento de Teoría de la Señal y Comunicaciones. Escuela

Politécnica Superior. Universidad de Alcalá. Ctra. Madrid-Barcelona, Km. 33,600, 28801 Alcalá de Henares

(Madrid)

[8].- Aplicación de un Filtro Stack en Imágenes con Ruido Speckle, María E. Buemi, Juliana Gambini,

Marta Mejail y Julio Jacobo Berllés, Departamento de Computación, FCEyN, UBA, Buenos Aires,

Argentina, mebuemi; jgambini; marta; [email protected]

[9].- Imágenes de Ultrasonido, Martin Bianculli, Andres Duour, Facultad de Ingeniería Universidad

de la República, 18 de julio de 2005.

mailto:[email protected]


Blind Parallel Multiuser Detection in CDMA Receivers

Tapia D.

Abstract

In this paper, we introduce a new approach for blind adaptive multiuser detection in DS-CDMA systems,

which can save more computational efforts than similar methods proposed

in the literature. The proposed algorithm is based on subband decomposition of CMA cost function

utilized to perform blind equalization and detection from received signal. Subband decomposition leads

to considerable reduction of computational complexity associated with CMA algorithms, which is a

fundamental requirement in practical systems.

Gradient algorithms can be applied to iteratively calculate the tap weights in every subband more

efficiently because to difference from conventional blind adaptive algorithms, the adaptation process is

performed over filters with shorter lengths, which leads to considerable complexity reduction.

Simulations indicate that the performance of the proposed method is acceptable while conserve a

reasonable computational cost.

Keywords: Blind multiuser detection, constant modulus algorithm , subband decomposition.

Introduction

Direct-sequence (DS) code division multiple access (CDMA) is a multiplexing technique where several

independent users share a common channel by modulating pre-assigned signature waveforms [1]. The

receiver then observes the sum of the transmitted signals over an additive white Gaussian noise (AWGN)

channel. The major limitation on the performance and channel capacity of

DS-CDMA systems is the multiple-access interference (MAI) due to simultaneous transmissions. In this

sense, blind adaptive multiuser detection has received some attention and several blind adaptive detectors

have been proposed [1]–[4]. Blind detection avoids the requirements for prior knowledge of system

parameters, and under appropriate initial conditions its performance is not considerably degraded when

compared to detectors requiring a training sequence. Blind techniques can substantially improve the

performance of multiuser detection in CDMA systems and several blind adaptive methods have been

proposed to cancel intersymbol interference (ISI) and multiple-access interference for digital transmission

through band-limited channels.

In its basical form, a blind multiuser detector can consist of a bank of equalizers followed by quantizers to

recover the user information. Decision feedback equalization is a common structure in equalizer design, so,

based on the combined channel and equalizer parameter space, a finite-length tap filter with blind

adaptation will be able to converge nearly to global minimum. The classical blind adaptation utilizes the well

known constant modulus algorithm and some CMA cost function to derive a iterative procedure to obtain

the optimal weights for equalizer.


However, the complexity associated with these approaches can be prohibitive in practical applications. In

this paper, we describe a modified version of CMA algorithm using an equivalent multi-band representation

of equalizer. Sub-band partitioning is used to obtain a more efficient representation of equalizer before

adaptation.

Because the adaptation process is performed over shorter length filters in every sub-band instead

to use a long tap filter, the convergence is improved while complexity is reduced. An orthogonal

transform is applied on received signal to decompose the system input into a finite number of

mutually exclusive bands and gradient algorithms are then used to calculate weights in every sub-band.

The rest of the paper is organized as follows. Section 2 describes the problem and system model. In Section

3 we describe the sub-band decomposition procedure and use this theory to develop a fast blind multiuser

detector. In Section 4 we provide some simulation examples to demonstrate the performance of the

proposed scheme and, finally, Section 5 contains the conclusion.

System model

In this section we describe an asynchronous DS-CDMA array receiver subject to a frequency selective

channel. At the base station the superimposed radio signals for all users and paths are received through an

antenna array. We consider K mobile stations with Mk paths for the kth user.

Consider the system model of Fig. 1 before the sampler with the input/output (I/O) relationship

ij is the path delay, Mk (T - ij ) is the baseband DS-CDMA transmitted signal, and r(T) is AWGN noise. The

Nx1 received signal x(T) is sampled at the symbol rate 1/Ts and the samples are passed through N tapped

delay lines of length 2L, where is the maximal path delay, which are used to solve certain problems due to the

lack of synchronization. A long vector x(n) is formed by concatenating the contents of the tapped delay lines for

all antennas and reading the entries every symbol period,

A blind adaptive multiuser detector can be implemented by introducing a bank of equalizers followed by

quantizers as shown in Figure 1. Proper equalizer design usually requires channel information.


Figure 1: Array receiver structure for DS-CDMA system.

Some adaptive methods such as LMS require a bandwidth consuming training sequence (see [9]). Blind

equalization [10] allows adaptation to ISI reducing equalizer settings without the need for such training

sequences or channel estimates. In this sense, the output of the equalizer for the ith user can be expressed as

The length N equalizer’s tap weights wi(n) are adapted using an instantaneous estimate of the gradient of J

with respect to tap weight vector w. Assuming wi(n) at the nth instant are known, the recursive formula for

the next decision can be written as

where µ is the step-size parameter. By differentiating J(di(n)) and dropping the expectation operation, we

can get the recursive formula as follows:

From (3), only the signal wi(n) contains the desired information bit bi(n) of user i, the minimization of the

cost function (4) naturally results in an optimal solution for th user only if the main tap coefficient wii is not

equal to zero. After convergence of the blind equalizer, the decision for th user at the n th instant can be

made by taking the sign of di(n)


Based on the noise-whitened statistics, equalization for user 1 is not necessary because wi(n) is not

perturbed by MAI from the other users. The decision for user 1 is made directly as

For user 2, since the decision for user 1 has been made, the equalization for the user can be realized by

feeding back the decision as

The decision for user 2 can be obtained as

Similarly, for th user, the output of the equalization can be expressed as

Where

is the input vector of the equalizer at the nth instant. Therefore, the decision for the i th user can be made by

Substituting (12) into (4)–(6), we get the decision feedback blind equalization algorithm. The recursive

formula of the tap coefficients for the blind equalizer can be re-written as

Combining (13)–(15), we obtain the decision-feedback blind adaptive multiuser detector. The principal

problem with this method is the slow convergence rate derived from its gradient-based structure.


Moreover, in practical implementations, the order for equalizer filters can be extremely long. This leads a

serious degradation in the performance, which can make difficult its implementation under real conditions.

Although (15) seems easy to implement, it does have limitations that have motivated us to investigate a

method to improve its convergence while its complexity is reduce. Because this is a gradient based

algorithm, one limitation concerns the sensitivity of convergence to the statistics of the input signal. An

examination of this limitation in the non blind case, and the methods that have been devised to deal with it,

provide background material for the adaptive algorithm developed in next section. In this paper we propose

the orthogonal adaptive filtering as method to improve the performance of blind multiuser detector

described above.

Orthogonal Adaptive Filtering

In orthogonal adaptive filtering, the input time series is transformed to an orthogonal coordinate system

and then updates the filter’s tap weights in the coordinates of orthogonal system. Consider the transfer

function of an adaptive filter W(z) defined as

where wi is the ith tap weight of transversal filter. Using a band-partitioning, W(z) can be represented in

terms of a bank of k sub-filters operating in parallel in the form:

where C represents an orthogonal transform of k× k and Gr (Z L) defines a subfilter with transfer function

given by

where Q is a factor of interleave between coefficients and P is the number of coefficients in each sub-filter

(Fig. 2).


Figure 2: Subband partitioning scheme.

If we introduce an appropriate definition for the discrete transform C such as

we can save additional efforts because its simple computation. Equations (16)-(19) lead to the parallel

structure defined by the transfer function

where Cr(z) is the discrete cosine transform of input signal (Fig. 3). Experimental results [4][5] show that this

scheme can improve considerably the performance of adaptive algorithms based on gradient.

Eficient Parallel Form for Blind Multiuser Detection

In this section we introduce a novel blind algorithm based on the blind multiuser detector described in

section 2 and sub-band partitioning which can achieve a better performance than conventional blind and

non-blind multiuser detectors. The principal idea behind the proposed algorithm is to transform the signal

input of blind equalizer to an orthogonal domain and so improving performance properties of CMA

algorithm. First, rewriting equation (15), the recursive formula for blind equalizer’s tap weights is defined by


Figure 3: Orthogonal system with subband partitioning.

Applying sub-band partitioning on this result, we can utilize equations (16)-(20) to obtain an improved

model for equalizer adaptation as follows

Where

is the orthogonal transform of (13) using the discrete cosine transform for the k th user (See Fig. 4). In case

of first user, k =1, equalization is not necessary as we could observe in section 2 and the decision is made

directly as in (8). Another reason is that discrete cosine transform for scalar values is the same value, so it is

not necessary compute the transform. For k ≥2, the transfer function w(z) requires an orthogonal transform

of order equivalent to the user number, i.e., for the k th user, (20) must be 2

which take in account all contributions of the previous users. k – 1


Figure 4: Proposed system for blind MUD.

Simulation results

In this section, we explain some experimental results obtained via simulation of the blind algorithm

described above. In order to ilustrate the performance of proposed method we have considerate two

different scenarios.

First, the blind adaptive multiuser detector (BMUD) described in section 2 is simulated using an

asynchronous DS-CDMA system, and next subband partitioning is introduced into the same model (DCT-

MUD) to compare the performance of both cases. Two important parameters of both of the detectors are

calculated in our analysis: the convergence performance or mean square error (MSE) and the bit error rate

(BER). The results for these parameters for 5, 10 and 15 users in the DS-CDMA system are shown at next.

The convergence performance of the BMUD and the DCT-MUD for the fifth-user assuming that the energies

of all the users are identical is shown in Figure 5. In this case, the signal-to-noise ratio (SNR) is 10 dB, and the

step size of the blind equalizers is µ =0.01. The same parameter is shown for the 10th user and 15th user in

Figures 7 and 9, respectively.

From this figure, we can see that the DCT-MUD achieve better convergence performance in relation to

BMUD.


Figure 5: Convergence performance of the BMUD and DCT-MUD for user 5. The SNR=10dB, Step size is

0.001 and all user energies are identical.

This important result is due to DCT-MUD perform the adaptation process over improved signal

characteristics derived from sub-band partitioning.

On other hand, Figures 6, 8 and 10 illustrate the symbol error probability performance of the two detectors

for 5, 10 and 15 users in the DS-CDMA system. In all cases, the users have identical energies. For the sake of

comparison, we have simulated the performance of the two detectors.

Figure 6: Bit error performance of the BMUD and DCT-MUD for the fifth user.


Figure 7: Convergence performance of the BMUD and DCT-MUD for user 10. The SNR=10dB, step size is


Figure 8: Bit error performance of the BMUD and DCT-MUD for the 10th user.

From Section 4, we can make sure that the performance for both detectors must be the same for the case of

user 1. However, as we can see in Figures 6, 8 and 10, as the user number is increasing, the presence of

multiple access interference (MAI) is also more severe.

This fact introduce conduce to major error rate and the performance is decreased.


Figure 9: Convergence performance of the BMUD and DCT-MUD for user 15. The SNR=10dB, Step size is


Figure 10: Bit error performance of the BMUD and DCT-MUD for the 15th user.

Conclusions

In this paper we described an alternative approach to blind multiuser detection in DS-CDMA communication

systems which can reduce the complexity and improve the performance of the blind equalizer used to


implement the user detection. The proposed method use a decision-feedback structure to combine sub-

band decomposition and blind adaptation of the equalizer. The proposed

algorithm introduces a sub-band partitioning of CMA cost function utilized to perform blind equalization and

detection from received signal. Sub-band decomposition leads to considerable reduction of computational

complexity associated with CMA algorithms, which is a fundamental requirement in practical systems.

Simulation results shown that proposed algorithm presents better

convergence performance than conventional blind adaptive multiuser detector proposed in the literature

while it holds acceptable bit error performance for different user number.

Simulation results let us to make sure that sub-band partitioning can improve the convergence properties of

CMA based algorithms which suffer of high complexity and slow convergence.

References

[1] Hector Perez and S. Tsujii, (1991)‘A system identification Using Orthgonal Functions’, IEEE Trans. on

Signal Processing, vol. 39, No. 3, March 1991.

[2] He Ping, Tjeng Thiang Tjhung, and Lars K. Rasmussen (2000) ‘Decision-Feedback Blind Adaptive Multiuser

Detector for Synchronous CDMA System’, IEEE Trans. on Vehicular Tech. Vol. 49, No. 1, Jan 2000.

*3+ Daniel Tapia, Hector Perez and Mariko Nakano (2002) ‘A Fast Parallel Form Filtered-X LMS Algorithm for

Active Noise Control’, Proceedings of 4th International Conference on Control, Virtual Instrumentation and

Digital Systems 2002, CIC-IPN-UAEH, Pachuca, Hgo., Agosto 2002.

*4+ H. Liu and M. Zoltowski (1997) ‘Blind equalization in antenna array CDMA systems’ IEEE Trans. signal

Processing, vol. 45, pp. 161–172, Jan. 1997.

[5] T. P. Krauss, W. J. Hillery, and M. D. Zoltowski (2002) ‘Downlink specific linear equalization for frequency

selective CDMA cellular systems’ J. VLSI Signal Process., vol. 30, pp. 143–161, 2002.

*6+ S. Buzzi and H. Poor (2001) ‘Channel estimation and multiuser detection in long-code DS/CDMA systems’

IEEE J. Select. Areas Commun., vol. 19, pp. 1476–1487, Aug. 2001.

*7+ M. Honig, U. Madhow, and S. Verdú (1995) ‘Blind multiuser detection’ Trans.Inform. Theory, vol. 41, pp.

944–960, July 1995.

[8] M. Torlak and G. Xu (1997) ‘Blind multiuser channel estimation in asynchronous CDMA systems’ IEEE

Trans. Signal Processing, vol. 45, pp. 137–147, Jan. 1997.

*9+ X. Wang and H. V. Poor (1998) ‘Blind equalization and multiuser detection in dispersive CDMA channels’

IEEE Trans.Commun., vol. 46, pp. 91–103, Jan. 1998.

*10+ I. Ghauri and D. T. M. Slock (1998) ‘Blind and semi-blind single user receiver techniques for

asynchronous CDMA in multipath channels’ Proc. Globecom, Sydney, Australia, Nov. 1998.


Evaluación y selección de códecs de video para una mejor compresión

Callejas Sáenz L. M. y Nieves Rivera Y.

Abstract

Once of main problems with commercial broad band connection offers by the Internet services providers

has been the high level of contention base on best esfort, and it produces a limitated connection capacity to

web 2.0 applications, because this uses audio and video so much. Also the Voice over IP (VoIP)

communications models lacks whit the same problem.

However, we can found a client - server software in order to solve this type of trouble, but its price is very

expensive or they are condicionated by their band wide used. This paper shows a model base on open

technologies which making audio and video compression allows the transmition and reception of streaming

video or under demand with not relation with the band wide used by final users.

Key Words: iptv, Codec, Broad band, Moodle

INTRODUCCIÓN

Este árticulo tiene como objetivo el de realizar una evaluación del estándar MPGE-4, para poder determinar

que no reúne los requisitos necesarios para poder ser utilizado en una solución de Video sobre IP que no se

vea limitado por los anchos de banda más comunes en países con difícil acceso a servicios de banda ancha y

implementarlo en una solución tecnológica para e-learning.

El articulo es parte de un proyecto que pretende demostrar que es necesario desarrollar un nuevo Códec

para audio y video capaz de enviar / recibir video y audio digital que permitiría el uso de la videoconferencia

o de video bajo demanda en redes de comunicaciones con baja transferencia de bits por segundo.

Como parte de ese proyecto se pretende implementar el nuevo Códec en una aplicación de e-learning.

ANTECEDENTES

El Internet Protocol Television (IPTV o iTV) se ha convertido en la denominación más común para los

sistemas de distribución de vídeo que utilizan conexiones de banda ancha.

IPTV no es un protocolo en sí mismo. El IPTV o Televisión sobre el protocolo IP, ha sido desarrollado

basándose en el denominado “video-streaming”. Este tipo de tecnología permite que difundir video, ya sea

por TV, Internet o Telefonía Celular, en tiempo real, sin embargo para que esto suceda es necesario contar

con acceso de un ancho de banda de no menos de 1.5 Mbps para que se pueda garantizar la calidad en el

servicio.

Actualmente se ha desarrollado otra tecnología para poder transmitir video, por medio de la cual el

proveedor no emite sus contenidos esperando que el espectador se conecte, sino que los contenidos llegan

solo cuando el cliente los solicite; esta tecnología se denomina video bajo demanda.


Para que la IPTV pueda desarrollarse de una manera completa es necesario que la velocidad de las

conexiones actuales aumente o que el método de envió se optimice, ya que si se requiere una conexión con

definición estándar, se requiere un canal de al menos 1.5 Mbps, pero si tenemos varios receptores en uso

simultaneo se requiere de más ancho de banda.

Además, a este ancho de banda hay que sumarle el que se requiere para la conexión a Internet. Con lo cual

estamos hablando de que si tenemos tres canales de video requerimos de al menos 4.5 Mbps. Esto vuelve

que los actuales enlaces puedan implementar de manera fiable y con calidad de servicio este método de

transmisión.

También es cierto que el método de compresión / codificación del video juega un gran papel, sin embargo

para obtener un servicio de calidad estándar se requiere del uso de la tecnología de compresión /

codificación MPEG-2, la cual solo trabaja con tasas de 1 Mbps, lo cual aun demanda de un gran ancho de

banda.

En la actualidad existe una gran variedad de tecnologías de compresión / codificación de video y audio, sin

embargo estas no ofrecen la calidad de video estándar, y además están determinadas por el uso de una

determinada aplicación cliente-servidor, que en muchos de los casos no son de uso publico.

DEFINICIÓN DEL PROBLEMA

En uno de los últimos estudios de la Asociación Mexicana de Internet (AMIPCI), se presenta que México

cuenta con 22.7 millones de cibernautas. A partir de esta cifra se deduce que la Tasa de Penetración

Nacional de Internet es del 24.6 por ciento y el índice de crecimiento, en relación con años anteriores, es del

12.4 por ciento. Los cibernautas mexicanos, que casi llegan a los 23 millones, conocen y utilizan las nuevas

tecnologías.

De estos usuarios, 1 millón de usuarios tienen una conexión tipo dial up, 139,000 cuentan con enlaces

dedicados y casi 3.9 millones de usuarios tiene enlaces ADSL o de alguna tecnología similar.

A pesar de estos números, México no reúne los suficientes puntos dentro del ranking de transferencia de

conocimiento y adopción de tecnología dentro de las evaluaciones realizadas por Organismos como la

UNESCO o la OCEDE.

Este rezago tecnológico, provoca que las aplicaciones que requieren del uso de video y sonido sobre la

Internet, como serían las aplicaciones IPTV o las de voz sobre IP, no puedan masificarse, y por consecuencia

aplicaciones que requieren de estos modelos tecnológicos como lo es el denominado e-learning pueda ser

explotado en todo su potencial.

Ya que es básico para un modelo de e-learning el permitir que los alumnos a distancia tengan acceso a

videos o videoconferencias con sus tutores o profesores. En la actualidad existen varias soluciones

tecnológicas para la implementación del modelo e-learning, algunos de uso público y otros de uso comercial,

sin embargo estos mismos modelos están supeditados al uso de las soluciones cliente-servidor de

transmisión de video, que como ya se menciono, en muchos de los casos no poseen interoperabilidad, y son

caras.

Como consecuencia de todo esto, la nula o casi nula aplicación de videoconferencias o del uso de videos

bajo demanda en las plataformas tecnológicas de e-learning, no apoyan de una manera adecuada la


adquisición de conocimiento por parte de los alumnos, trayendo como consecuencia que el modelo de

educación a distancia no sea bien aceptado, de entre otras causas.

Por lo tanto, el desarrollo de un modelo que permita el envió y recepción de audio y video digital con tasa

de transmisión de bits menor a 1 Mbps seria una herramienta útil para el desarrollo de varias industrias

entre ellas las de la educación y la de entretenimiento.

CODECS DE AUDIO Y VIDEO

Un códec no es más que un programa que incluye un conjunto de algoritmos e instrucciones para codificar y

decodificar vídeo o audio digital, de forma que se reduzca el tamaño que ocupan. De hecho, códec son las

iníciales de COdificador / DECodificador. El vídeo o audio sin compresión ocuparían muchísimo, de ahí que

sea necesario algo que reduzca su tamaño. Normalmente los algoritmos de compresión empleados

conllevan una pérdida de calidad, por lo que siempre interesará utilizar los códecs que más compresión

logren y menos calidad pierda.

La función del códec es precisamente ayudar a disminuir el tamaño del archivo sin tener una pérdida

apreciable de calidad. Igualmente, para poder reproducir un vídeo o audio necesitamos el códec con el que

fue comprimido, no nos vale otro. Esto es porque cada códec tiene su forma de comprimir y descomprimir,

sus propios algoritmos, distintos en cada caso. De ahí la gran cantidad de códecs que existen: unos mejoran

calidad, otros mejoran la compresión

Los CODECs utilizan distintos sistemas para comprimir el video pero, podemos distinguir básicamente dos

tipos:

CODECs sin pérdida, es decir, los que conservan los datos originales y aseguran que las imágenes sean las

mismas después de la compresión y posterior descompresión.

Estos CODECs usan normalmente el sistema RLE (Run Length Encoding). Éste consiste en descartar regiones

o bloques de similares colores entre imagen e imagen. Esta técnica funciona bien con imágenes generadas

por ordenador, donde existen áreas de color uniforme. Sin embargo, las técnicas de compresión sin pérdida

no son, en general, muy efectivas con el Video digital, ya que éste tiene pocas áreas de color continuo y está

formado por numerosas variaciones de color. El ratio típico de estos CODECs es de 1:2.

CODECs con pérdidas, intentan eliminar información de las imágenes de forma que sea lo más inapreciable

posible por el espectador.

Estos sistemas eliminan información que no puede ser recuperada. La cantidad de información perdida

depende del grado de compresión y es proporcional a la disminución de calidad, es decir:

Máxima calidad máximo tamaño de fichero = mínima compresión.

Mínima calidad = mínimo tamaño de fichero máxima compresión-

Dentro de los algoritmos de compresión con pérdida podemos distinguir, a su vez, dos tipos básicos:

Algoritmos de compresión espacial. Estos sistemas comprimen cada imagen independiente del video, es

decir, cada cuadro del mismo sin tener en cuenta el resto.


Algoritmos de compresión temporal. Son parecidos al sistema RLE antes mencionado, ya que se basa en la

variación entre un cuadro y el siguiente. Pero con la gran diferencia de qué esta variación (comparación

entre un frame y el siguiente) no se almacena en su totalidad, sino que se le aplica una compresión con

pérdida. Este tipo de algoritmo utiliza los llamados Keyframes, que son cuadros del video que se almacenan

con poca o ninguna compresión para que sirvan de referencia para generar los siguientes, que son llamados

Deltaframes.

Se debe mencionar también la llamada simetría del CODEC, decimos que un CODEC es simétrico cuando las

velocidades de codificación y decodificación son iguales. De la misma manera, decimos que un CODEC es

altamente asimétrico cuando estas velocidades son muy distintas. Esto significa que, por ejemplo, existen

Códecs que tardan mucho en comprimir/codificar, pero que son muy rápidos decodificando, esto sería un

códec muy asimétrico.

VIDEO DIGITAL y EL ESTANDAR MPEG-4

Cuando se digitaliza una secuencia de video analógico cualquiera de acuerdo al estándar ITU-R BT.601 (CCIR

601), se requiere un ancho de banda de 116 Mbit/segundo ó de 116 millones de bits cada segundo.

Dado que la mayoría de las redes son sólo de 100 Mbit/segundo, no es posible ni deseable transmitir las

secuencias de vídeo sin alguna modificación. Para solucionar este problema se han desarrollado una serie de

técnicas denominadas técnicas de compresión de vídeo e imágenes, que reducen el alto nivel de bits

precisos para transmisión y almacenamiento.

La compresión de imágenes se aplica sobre una imagen individual haciendo uso de las similitudes entre

píxeles próximos en la imagen y de las limitaciones del sistema de visión humana. JPEG es un ejemplo de una

técnica de compresión de imágenes. La compresión de video se aplica sobre series consecutivas de

imágenes en una secuencia de video, haciendo uso de las similitudes entre imágenes próximas. Un ejemplo

de este tipo de técnicas es MPEG.

La efectividad de una técnica de compresión de imágenes viene dada por la relación de compresión,

calculado como el tamaño del archivo de la imagen original (sin comprimir) dividido por el tamaño del

archivo de imagen resultante (comprimida). A mayor relación de compresión se consume menos ancho de

banda manteniendo un número de imágenes por segundo determinado. O si el ancho de banda se mantiene

constante se aumenta el número de imágenes por segundo. Al mismo tiempo, un mayor nivel de

compresión implica menor nivel de calidad de imagen para cada imagen individual.

Cuanto más sofisticada sea la técnica de compresión utilizada, más complejo y caro resultará el sistema. Lo

que ahorre en ancho de banda y almacenamiento encarecerá los costos de latencia, codificación y

complejidad del sistema. Otro factor adicional a considerar son los costos de las licencias y los honorarios

asociados a un número de estándares de compresión. Estos factores generalmente hacen que la compresión

sofisticada resulte restrictiva para mantener robusto el sistema a la vez que se consiguen o mantienen bajos

los costes del mismo.

Compresión de imágenes JPEG

JPEG es un conocido método de compresión, que fue originalmente estandarizado a mediados de los años

80 en un proceso iniciado por el Joint Photographic Experts Group.


La compresión JPEG puede realizarse a diferentes niveles definidos por el usuario y que determinan cuanto

tiene que comprimirse una imagen. El nivel de compresión seleccionado tiene una relación directa con la

calidad de imagen obtenida. Además del nivel de compresión la escena de la imagen en sí misma también

tiene un impacto en el nivel de compresión resultante. Mientras que un muro blanco, por ejemplo, puede

producir un archivo de imagen relativamente pequeño (y aceptar un mayor nivel de compresión), el mismo

nivel de compresión aplicado a una escena compleja y patronizada producirá un archivo de mayor tamaño y

con un nivel de compresión menor.

El video como una secuencia de imágenes JPEG ( Motion JPEG o M-JPEG)

Al igual que una cámara fotográfica digital, una cámara de red captura imágenes individuales y las comprime

en formato JPEG. La cámara de red puede capturar y comprimir las imágenes, por ejemplo 30 imágenes o

cuadros individuales por segundo (30 cps), y después hacerlas disponibles como un flujo continuo de

imágenes sobre una red a una estación de visualización. Nosotros denominamos a este método como

Motion JPEG o M-JPEG.

Dado que cada imagen individual es una imagen JPEG comprimida todas tendrán garantizada la misma

calidad, determinada por el nivel de compresión definido en la cámara de red o el servidor de vídeo en red.

Compresión de vídeo - MPEG

Una de las técnicas de vídeo y audio más conocidas es el estándar denominado MPEG (iniciado por el

Motion Picture Experts Groups a finales de los años 80). Este documento se centra en la parte de video de

los estándares de vídeo MPEG.

Descrito de forma sencilla, el principio básico de MPEG es comparar entre dos imágenes para que puedan

ser transmitidas a través de la red, y usar la primera imagen como imagen de referencia (denominada I-

frame), enviando tan solo las partes de las siguientes imágenes (denominadas B y P –frames) que difieren de

la imagen original. La estación de visualización de red reconstruirá todas las imágenes basándose en la

imagen de referencia y en los "datos diferentes"; contenidos en los B- y P- frames

MPEG es de hecho bastante más complejo que lo indicado anteriormente, e incluye parámetros como la

predicción de movimiento en una escena y la identificación de objetos que son técnicas o herramientas que

utiliza MPEG. Además, diferentes aplicaciones pueden hacer uso de herramientas diferentes, por ejemplo

comparar una aplicación de vigilancia en tiempo real con una película de animación. Existe un número de

estándares MPEG diferentes: MPEG-1, MPEG-2 y MPEG-4.

El estándar MPEG-4 fue aprobado en 2000 y es uno de los desarrollos principales de MPEG- 2. En esta

sección realizaremos una profundización en MPEG-4 para comprender mejor términos y aspectos como:

Perfiles MPEG-4

MPEG-4 short header y MPEG-4 long header

MPEG-4 y MPEG-4 AVC

MPEG-4 constant bit-rate (CBR) y MPEG-4 variable bit rate (VBR)


Cuando la gente habla de MPEG-4 generalmente se está refiriendo a MPEG-4 parte 2. Este es el estándar de

transmisión de vídeo clásico MPEG-4, también denominado MPEG-4 Visual.

Como uno de los desarrollos principales de MPEG-2, MPEG-4 incorpora muchas más herramientas para

reducir el ancho de banda preciso en la transmisión para ajustar una cierta calidad de imagen a una

determinada aplicación o escena de la imagen. Además la relación de imágenes por segundo no está

bloqueado a 25 (PAL)/30 (NTSC) cps.

Es importante destacar, no obstante, que la mayoría de las herramientas para reducir el número de bits que

se transmiten son sólo relevantes para las aplicaciones en tiempo no real. Esto es debido a que alguna de las

nuevas herramientas necesitan tanta potencia de proceso que el tiempo total de codificación/decodificación

(por ejemplo la latencia) lo hace impracticable para otras aplicaciones que no sean la codificación de

películas, codificación de películas de animación y similares. De hecho, la mayoría de las herramientas en

MPEG-4 que pueden ser usadas en aplicaciones en tiempo real son las mismas herramientas que están

disponibles en MPEG-1 y MPEG-2.

Otra mejora de MPEG-4 es el amplio número de perfiles y niveles de perfiles (explicados posteriormente)

que cubren una variedad más amplia de aplicaciones desde todo lo relacionado con transmisiones con poco

ancho de banda para dispositivos móviles a aplicaciones con una calidad extremadamente amplia y

demandas casi ilimitadas de ancho de banda. La realización de películas de animación es sólo un ejemplo de

esto.

Perfiles MPEG-4

En uno de los extremos del sistema, tiene lugar la codificación al formato MPEG en la cámara de vídeo.

Obviamente en el otro extremo, esta secuencia MPEG necesita ser decodificada y posteriormente mostrada

como video en la estación de visualización.

Dado que hay un gran número de técnicas (herramientas) disponibles en MPEG (especialmente en MPEG-4)

para reducir el consumo de ancho de banda en la transmisión, la variable complejidad de estas herramientas

y el hecho de que no todas las herramientas sean aplicables a todas las aplicaciones, sería irreal e

innecesario especificar que todos los codificadores y decodificadores MPEG deberían soportar todas las

herramientas disponibles. Por consiguiente se han definido subconjuntos de estas herramientas para

diferentes formatos de imágenes dirigidos a diferentes consumos de ancho de banda en la transmisión.

Hay diferentes subconjuntos definidos para cada una de las versiones de MPEG. Por ejemplo hay un

subconjunto de herramientas denominados MPEG Profile. Un MPEG Profile específico establece

exactamente qué herramientas debería soportar un decodificador MPEG. De hecho los requerimientos en el

codificador y el decodificador no tienen porque hacer uso de todas las herramientas disponibles.

Además, para cada perfil existen a diferentes niveles. El nivel especifica parámetros como por ejemplo la

relación de bits máximo a usar en la transmisión y las resoluciones soportadas. Al especificar el Nivel y el

Perfil MPEG es posible diseñar un sistema que solo use las herramientas MPEG que son aplicables para un

tipo concreto de aplicación.

MPEG-4 tiene un amplio número de perfiles diferentes. Entre ellos se encuentran el Simple Profile y el

Advanced Profile que son los más utilizados en aplicaciones de seguridad. Mientras muchas herramientas se


usan para ambos perfiles, existen algunas diferencias. Por ejemplo, Simple Profile soporta I- y P- VOPs

(frames), mientras que Advanced Simple Profile soporta los frames I-, B- y P-VOPs.

Otra diferencia entre el Simple y el Advanced Profile es el soporte a rangos de resoluciones y a diferentes

consumos de ancho de banda, especificados en un nivel diferente. Mientras que el Simple Profile alcanza

resoluciones hasta CIF (352x288 píxeles en PAL) y precisa un ancho de banda de 384 kbit/segundo (en el

nivel L3), Advanced Simple Profile consigue la resolución 4CIF (704x480 píxeles en PAL) a 8000 kbit/segundo

(en el nivel L5).

Algunos sistemas de transmisión de video especifican soporte para MPEG-4 short header; de forma que

resulta importante comprender este término. De hecho, no es más que un transmisor de vídeo H.263

encapsulado con cabeceras de transmisión de vídeo MPEG-4.

MPEG-4 short header no aprovecha ninguna de las herramientas adicionales especificadas en el estándar

MPEG-4. MPEG-4 short header está solo especificado para asegurar compatibilidad con equipos antiguos

que emplean la recomendación H.263, diseñada para videoconferencia sobre RDSI y LAN. De forma práctica,

el MPEG-4 short header es idéntico a la codificación/decodificación H.263, que da un nivel de calidad menor

que MPEG-2 y MPEG-4 a un ratio de bis determinado.

La calidad de la imagen y del vídeo en “short header” no está cercana a la del MPEG-4 real, dado que no

hace uso de las técnicas que permiten filtrar información de la imagen que no es visible por el ojo humano.

Tampoco usa métodos como la predicción DC y AC que pueden reducir de forma significativa las

necesidades de ancho de banda.

Para clarificar una especificación de un sistema de distribución de vídeo, el soporte a MPEG- 4 a veces se

denomina como MPEG-4 long header; que en otras palabras es el método en el que se emplean las

herramientas de compresión propias de MPEG-4.

MPEG-4 parte 10 (AVC, Control de Vídeo Avanzado)

MPEG-4 AVC, al que también se refiere como H.264 es un desarrollo posterior en el que MPEG tiene un

conjunto completamente nuevo de herramientas que incorporan técnicas más avanzadas de compresión

para reducir aun más el consumo de ancho de banda en la transmisión con una calidad de imagen

determinada. Pese a ser más complejo añade también requerimientos de rendimiento y costes,

especialmente para el codificador, al sistema de transmisión de vídeo en red. MPEG-4 AVC no se tratará en

este documento.

Constant bit-rate (CBR) y Variable bit-rate (VBR)

Otro aspecto importante de MPEG es el modo en el que se usa el ancho de banda disponible. En la mayoría

de los sistemas MPEG es posible seleccionar si el ratio de bits debe ejecutarse en modo CBR (constante) o

VBR (variable). La selección óptima depende de la aplicación y de la infraestructura de red disponible.

Con la única limitación del ancho de banda disponible el modo preferido es normalmente CBR, dado que

este modo consume un ancho de banda constante en la transmisión. La desventaja es que la calidad de la

imagen variará y, aunque se mantendrá relativamente alta cuando no hay movimiento en la escena, la

calidad bajará significativamente cuando aumente el movimiento.


El modo VBR, por otra parte, mantendrá una alta calidad de imagen, si así se define, sin tener en cuenta si

hay movimiento o no en la escena. Esto es a menudo deseable en aplicaciones de seguridad y vigilancia en

las que hay la necesidad de una alta calidad, especialmente si no hay movimiento en la escena. Dado que el

consumo de ancho de banda puede variar, incluso si se define una media de ratio de bits objetivo, la

infraestructura de red (el ancho de banda disponible) necesitará tener esta capacidad para un sistema de

este tipo.

Ventajas y desventajas para M-JPEG, MPEG-2 y MPEG-4

Dada su simplicidad, M-JPEG es una buena elección para su uso en múltiples aplicaciones. JPEG es un

estándar muy popular y en muchos sistemas se usa por defecto.

Es una técnica simple de compresión/descompresión, lo que significa que los costes, tanto en tiempo del

sistema como en inversión total son reducidos. El aspecto del tiempo significa que hay un retraso limitado

entre el momento en el que la cámara captura la imagen, la codificación, la transmisión a través de la red, la

decodificación y finalmente el mostrar la imagen en la pantalla de la estación de visualización. En otras

palabras, M-JPEG proporciona una baja latencia debido a su simplicidad (compresión de imágenes e

imágenes individuales completas), y por esta razón es también idóneo para cuando se necesita realizar

procesamiento de imágenes, por ejemplo para la detección de movimiento o el seguimiento de objetos.

M-JPEG es válido para cualquier resolución de imagen, desde la pantalla de un teléfono móvil hasta

imágenes de video (4CIF, 704x480 píxeles en PAL). También garantiza la calidad de la imagen sin importar el

movimiento o la complejidad de las escenas de las imágenes. Además ofrece la flexibilidad de poder

seleccionar por un lado imágenes de alta calidad (baja compresión) o menor calidad de imagen (alta

compresión) con el beneficio de que imágenes menores producen ficheros más pequeños, lo que permite

usar un menor volumen de bits en la transmisión y un menor uso del ancho de banda. Al mismo tiempo el

número de imágenes por segundo se puede controlar fácilmente, proporcionando una referencia para

limitar el uso del ancho de banda al reducir el número de imágenes por segundo, aunque manteniendo una

calidad de imagen garantizada.

Dado que M-JPEG no hace uso de una técnica de compresión de vídeo genera una cantidad de datos de

imágenes relativamente alto que se envía a través de la red. Por esta razón con un nivel de compresión de

imagen determinado (definiendo la calidad de la imagen del I-frame y de la imagen JPEG respectivamente),

un número de imágenes por segundo y la escena de la imagen, la cantidad de datos por unidad de tiempo

que envía por la red (bit rate, ratio de bits) es menor para MPEG que para M-JPEG, excepto con pocas

imágenes por segundo como se explica posteriormente.

Lo siguiente resume claramente el beneficio de MPEG: la capacidad para dar una calidad de imagen

relativamente alta con un consumo de ancho de banda reducido (un ratio de bits de transmisión bajo). Esto

puede ser especialmente importante cuando está limitado el ancho de banda disponible en la red, o si el

video debe ser almacenado (grabado) con un alto número de imágenes por segundo. Estas menores

demandas de ancho de banda son a costa de una mayor complejidad en la codificación/decodificación, lo

que por otra parte contribuye a una latencia mayor si se compara con M-JPEG.

Otro elemento a tener en cuenta: tanto MPEG-2 como MPEG-4 están sujetos al pago de licencias.


Pros y contras: M-JPEG

Pros:

Degradación elegante: si se reduce el ancho de banda la calidad se mantiene reduciendo el número de

imágenes por segundo.

Calidad de imagen constante: la calidad permanece constante sin importar la complejidad de la imagen.

Interoperabilidad: compresión/descompresión estándar disponible en todos los PC.

Menor complejidad: codificación y decodificación de bajo coste. Más rápido y más sencillo para realizar

búsquedas de contenido y para realizar manipulación de las imágenes.

Menor necesidad de procesamiento: múltiples canales pueden ser decodificados y mostrados en el monitor

de un PC.

Menor latencia: una codificación/decodificación relativamente sencilla que provoca poca latencia significa

que es ideal para vídeo en directo.

Imágenes individuales claras.

Elasticidad: Recuperación rápida de secuencias de imágenes en el caso de pérdida de paquetes.

Contras

Mayor consumo de ancho de banda cuando se transmiten muchas imágenes por segundo (más de 5

imágenes por segundo).

Mayores requerimientos de almacenamiento cuando se transmiten muchas imágenes por segundo (más de

5 imágenes por segundo).

Sin soporte para audio sincronizado.

COMENTARIOS

Como se ha comentado al principio, el estándar de compresión MPEG-4 ha generado un creciente interés en

la industria de la seguridad en los últimos años. En cualquier caso este interés ha venido acompañado de

una considerable cantidad de malos entendidos y falsos mitos.

Algunas de las carencias informativas respecto a MPEG-4 incluyen cuestiones que van de lo más sencillo a lo

más fundamental. Entre estas se encuentran: ¿Qué es realmente diferente y confuso respecto al estándar

MPEG-4?, ¿Porqué algunas veces los estándares H.263 y MPEG-1 se “renombran” como MPEG-4?, ¿Existe

como tal un MPEG-4 totalmente funcional?, ¿Dejará obsoleto MPEG-4 a otros estándares?, y finalmente

¿Qué significa que haya un MPEG-4 “bueno” y otro MPEG-4 “malo”?

Otra área de confusión es que en situaciones que no son en tiempo real, como cuando se descomprime una

película de DVD en MPEG-4, se permiten desplegar más herramientas para aumentar el nivel de compresión

debido a que toda la información es conocida y se puede emplear más tiempo de procesamiento. Es posible


encontrar quejas debido a que la codificación MPEG-2 consigue hasta un 40% más de compresión que

MPEG-4, aunque en situaciones en tiempo real estas diferencias son menores.

Finalmente otra área de confusión es debida a que en vigilancia suele haber muchas fuentes y pocos

receptores y a que los estándares MPEG fueron desarrollados para broadcasting (multidifusión), lo que

implica una fuente hacia muchos visualizadores diferentes, es decir lo opuesto a la mayoría de las

situaciones en el ámbito de la seguridad. La tecnología de multidifusión es una de estas características que

muestra las ventajas de MPEG-2 y MPEG-4 pero no se utiliza y no es deseada en aplicaciones de video

vigilancia.

No es la intención de este documento contestar a todas estas cuestiones o desinformaciones. Lo que

queremos es demostrar que estas malas informaciones relacionadas con el estándar MPEG-4 pueden

afectar al usuario final, quien debe realizar ejercicios profundos de análisis al considerar cuan apropiada es

la compresión MPEG-4 para su aplicación. Los usuarios finales deben comprobar y asegurarse de qué

"MPEG-4" se soporta, aunque también deben revisar que nivel o perfil de MPEG-4 se especifica y las

características asociadas que incluye, como el valor de latencia y VBR/CBR. Por ejemplo, en aplicaciones de

vigilancia se prefiere VBR, aunque hace que el diseño de la red sea más complicado.

¿Es realmente MPEG-4 la mejor solución considerando sus necesidades y presupuesto? ¿Puede que un

sistema basado en M-JPEG se ajuste mejor y cueste menos?

Como se ha podido comprobar a lo largo de este trabajo no todos los métodos de compresión analizados se

ajustan a todas las instalaciones o aplicaciones.

La técnica de compresión más adecuada para una aplicación depende enormemente de una compensación

entre lo que el usuario desea y puede aceptar en lo relacionado con el número de imágenes por segundo, la

calidad de las imágenes del vídeo, la latencia, la robustez del sistema y el consumo de ancho de banda.

La lista de comprobaciones relacionadas con la compresión:

Menos de 5 imágenes por segundo la mayor parte del tiempo, sistema robusto y flexible, baja latencia, más

importante la calidad de las imágenes que el número de ellas por segundo o que un ancho de banda

limitado. Se aplicará procesamiento a las imágenes M-JPEG

Se precisa mucha calidad de imagen, (siempre 25/30 ips), hay un gran ancho de banda disponible que puede

garantizarse, principalmente para visualización y grabación ==> MPEG-2

Más de 10 imágenes por segundo la mayor parte del tiempo, se acepta mayor latencia, ancho de banda

limitado pero garantizado, principalmente para visualización y grabación MPEG-4

Una nota final: Actualmente muchos sistemas en red utilizan detección de movimiento de manera que sólo

se mandan datos en función de eventos activados. Esta funcionalidad, en muchos casos tiene más influencia

sobre el ancho de banda y el almacenamiento que la elección de la metodología de compresión. Tenga esto

en cuenta.

De cara al futuro de la tecnología de vídeo IP un único estándar no se ajustará a todas las necesidades. En la

actualidad, aunque MPEG-4 parece la panacea, el usuario final debe conocer que no resuelve todos los

problemas requeridos para poder realizar una transmisión de video digital en un canal que no es de banda


ancha, por lo cual los autores continuaran con su estudio y pararan al desarrollo de un nuevo CODEC de

audio y video que permita solucionar dicho problema e implementarlo en una aplicación de e-learning.

REFERENCIAS

[1] O'Driscoll, Gerard; Next Generation IPTV Services and Technologies; Addison Wiley; ISBN

9780470163726; 2008.

[2] Harte, Lawrence; IPTV Basics, Technology, Operation and Services; Althos Publishing; ISBN

9781932813562; 2007.

[3] Harte, Lawrence; Introduction to MPEG; MPEG-1, MPEG-2 and MPEG-4; Althos Publishing; ISBN 978-

1932813531; 2006.

[4] Simpson, Wes; Video Over IP: A Practical Guide to Technology and Applications; Focal Press; ISBN 978-

0240805573; 2005.

[5] Symes, Peter; Digital Video Compression; McGraw Hill; ISBN 978-0071424875; 2003.

[6] Richardson, Iain; Video Codec Design: Developing Image and Video Compression Systems; Addison Wiley;

ISBN 978-0471485537; 2002.

[7] Rosenberg, Marc J.; Beyond E-Learning: Approaches and Technologies to Enhance Organizational

Knowledge, Learning, and Performance; Pfeifer Press; ISBN 978-0787977573; 2005.

[8] Korte, Laurie; Moodle Magic: Make It Happen; FTC Publishing Inc.; ISBN 978-0979878701; 2007.

Raices Para El Futuro de Las TIC

Documents

Transcript of Raices Para El Futuro de Las TIC