Tesis UTPL (Voip Estetoscopio

download Tesis UTPL (Voip Estetoscopio

of 78

Transcript of Tesis UTPL (Voip Estetoscopio

UNIVERSIDAD TCNICA PARTICULAR DE LOJA La Universidad Catlica de Loja ESCUELA DE ELECTRONICA Y TELECOMUNICACIONES ESTUDIO DE UN CDEC DE COMPRESIN DE AUDIO PARA MEJORAR LA CALIDAD DE SERVICIO DE SONIDOS ESTETOSCPICOS SOBRE UNA RED IP TESIS PREVIA A LA OBTENCIN DEL TTULO DE INGENIERO EN ELECTRNICA Y TELECOMUNICACIONES AUTORES: VICENTE MIGUEL MARTNEZ CHUQUIMARCA PEDRO DAMIN VLEZ SALAS DIRECTORA: ING. KATTY ALEXANDRA ROHODEN JARAMILLO LOJA ECUADOR 2010 CERTIFICACIN: ACEPTACINPROYECTO DE FIN DE CARRERA Loja, enero de 2010 Ing. Katty A. Rohoden Escuela de Electrnica y Telecomunicaciones GESE Dejoconstanciadehaberrevisadoyestardeacuerdoconelproyectodefinde carrera,titulado:Estudiodeuncdecdecompresindeaudioparamejorarla calidad de servicio de sonidos estetoscpicos sobre una red IP. Presentado por: Vicente Miguel Martnez Chuquimarca Pedro Damin Vlez Salas Particular que comunico para los fines legales pertinentes. ---------------------------------------- Ing. Katty Alexandra Rohoden Visto Bueno Direccin Escuela F)..................................... Ing. Jorge Luis Jaramillo Pacheco DIRECTOR DE LA ESCUELA DE ELECTRNICA Y TELECOMUNICACIONES Enero de 2010 iii CESIN DE DERECHOS Vicente Miguel Martnez Chuquimarca y Pedro Damin Vlez Salas, declaramos ser autoresdelpresentetrabajoyeximamosexpresamentealaUniversidadTcnica Particular de Lojay a sus representantes legales de posibles reclamos o acciones legales. Adicionalmente declaramos conocer y aceptar la disposicin del Art. 67 del Estatuto OrgnicodelaUniversidadTcnicaParticulardeLojaqueensupartepertinente textualmentedice:FormanpartedelpatrimoniodelaUniversidadlapropiedad intelectual de investigaciones, trabajos cientficos o tcnicos y tesis de grado que se realicen a travs o con el apoyo financiero, acadmico o institucional (operativo) de la Universidad. Los Autores Vicente M. Martnez Pedro D. Vlez iv AUTORA Las ideas, opiniones, conclusiones, recomendaciones y ms contenidos expuestos en el presente informe de tesis son de absoluta responsabilidad de los autores. Vicente Miguel Martnez Chuquimarca Pedro Damin Vlez Salas v INTRODUCCIN Paraaplicacionesentelemedicina,comorealizarundiagnsticoremoto,es importante tener en cuenta cmo se van a transmitir los datos. El propsito de este proyecto de investigacin es realizar un anlisis de cdecs de compresin de audio ya disponibles, para determinar cul es el ms apropiado en cuanto a la transmisin de sonidos estetoscpicos en tiempo real. Adems, se ha realizado un estudio que abarca la determinacin de caractersticas tcnicas de los diferentes sonidos tanto cardacos como respiratorios, teniendo en cuenta varias anomalas posibles que se presentancomnmenteenpacientes,conelafndedeterminarlosrangosde frecuenciasenqueseencuentranlocalizadosestossonidosysuanchodebanda dentrodelespectrodefrecuenciasauditivas.Unavezrealizadoesteestudio,se analizaron varios cdecs de audio utilizados actualmente en transmisin de tiempo real,parapoderescogerelmsadecuadoenestetipodeaplicacin,teniendo siempreencuentaelptimousodeloquepodraseruncanaldetransmisin, evitando elegir algn cdec que pueda significar un desperdicio de ancho de banda. Despusdeseleccionarelcdecdecompresin,seprocediaanalizarlopara tener especificaciones de lo que significa utilizar este cdec. Elpresentetrabajoservircomoreferenciaparafuturasinvestigacionesquese dediquenalanlisisdesonidostransmitidosenenlaces,tantoguiadosono guiados,pudiendoservircomobasedelprocedimientoaseguirencasoquese requieranrealizarinvestigacionessimilaresaesta.Elesquemamostradoenel AnexoApresentadeformagenerallaaplicacinsobrelacualseutilizarel compresorde audio.Unavezseleccionado elcdec decompresinpara estetipo desonidos,sepuedetenerlapautaparalasespecificacionestcnicasquelared de telemedicina deber tener en lo que se refiere a los protocolos de transmisin a utilizar.Comoenesteproyectoyasedefineuncdecrecomendableparala transmisindesonidosestetoscpicos,esposibleimplementarunsistemade videoconferencia que utilice un estndar que incluya al cdec seleccionado, dando paso a que el proyecto se expanda en varios tipos de interfaces. vi La manera en que se llev a cabo este estudio involucr la recoleccin de dieciocho archivosdesonidosenformatodigital,tantocardacoscomorespiratorios.Se procurquecadaunodeestossonidosnohayasidocomprimidomediante mtodosquecontienenprdidas,comoloesMP3,porqueesopodraomitir informacinimportanteparaelanlisis.Cadaarchivodesonidofueanalizado utilizandolaherramientaMATLAB,obteniendosuformadeonda(amplituden funcindeltiempo),suespectrograma(frecuenciaenfuncindeltiempo)ysu densidaddepotenciaespectral(potenciaenfuncindelafrecuencia).Estostipos de anlisis permitieron, de manera grfica, apreciar cmo es el comportamiento de cadasonido,pudiendoverloscomponentesdelasanomalasencadacasoyas tomar un criterio de en qu tipo de frecuencias se encuentra cada sonido. Una vez realizadotodoesteanlisis,seprocediarecrearunatablacomparativaque contienetodoslosdatostcnicosrecolectadosparadeterminarfrecuencias mximas y mnimas del peor de los casos posibles, llegando a conclusiones que en lossonidosrespiratoriossepuedenencontrarfrecuenciasmsaltasqueenlos sonidoscardacos.Conlaayudadelosdatosdeestatablasepropusolas caractersticasdeuncdecidealqueserviraparacomprimirlosdatosdelos sonidosenestudiodemaneraquenoseatenenfrecuenciasquecontengan informacinimportante.Estopermitehacerunacomparacinconcdecsya existentes y seleccionar el ms apropiado a esta aplicacin. Esteproyectoempiezaconladescripcintcnicadelossonidos,contenidosen cadamuestra,tratandodeobviarladescripcinmdicadecadaunodeellos, puesto que no influye a los resultados de este proyecto de investigacin. Luego, se describecmofuncionalacompresindedatosdeformageneral,paraentender cmo afecta a una seal cuando es sometida a este procedimiento. Es importante entenderestosconceptosyaspoderrealizarunacorrectaeleccindelcdec. Despus, se menciona brevemente el funcionamiento de la transmisin de datos en tiempo real en una red de datos, incluyendo conceptos bsicos de cmo funcionan losprotocolosquepermitenestetipodeaplicacinypartiendodelosaspectos tomadosencuentaenaplicacionesyaexistentescomoVozsobreIP(VoIP)para establecerlasrecomendacionesqueunareddeestandoledebetener,haciendo bsicamente un enfoque en lo que concierne a la transmisin de sonidos, ignorando latransmisindevdeo.Dentrodelacomparacindeloscdecsdecompresin considerados,sehaincluidoinformacinrelevanteaesteproyectocomoelancho vii de banda, la frecuencia mxima que cada uno abarca, el ndice de retardo que este tieneenunatransmisinentiemporealysutasadebitsporsegundo(bits/s). Finalmente,enbasealcdecidealpropuesto,enreferenciaalasconclusiones obtenidasenestainvestigacin,seseleccionuncdecdecompresindelos analizados,recomendadoparaestaaplicacin,seguidoporlasconclusionesy recomendaciones. viii OBJETIVOS OBJETIVO GENERAL Estudiar un cdec de compresin de audio que mejore la calidad de servicio de los sonidos estetoscpicos para ser transmitidos sobre una red IP. OBJETIVOS ESPECFICOS Estudiarlosvaloresdetiempo,frecuenciaypotenciadesonidos estetoscpicos. DescribirelfuncionamientodeunaredIPorientadaalatransmisinde sonido en tiempo real. Estudiar los conceptos bsicos de compresin de audio. Recopilarycomparardiferentescdecsdecompresindeaudioutilizados en transmisin en tiempo real. Seleccionaryanalizaruncdecdecompresinparalatransmisinde sonidos estetoscpicos en tiempo real. ix TABLA DE CONTENIDO Cesin de derechos....iii Autora..iv Introduccin..v Objetivos..viii Tabla de contenido.ix Lista de figuras.xi Lista de tablas..xiii 1 Auscultacin..1 1.1 Auscultacin cardaca..1 1.1.1 Ruidos normales1 1.1.2 Ruidos normales alterados... 3 1.1.3 Ruidos anormales.. 3 1.2 Auscultacin pulmonar....10 1.2.1 Sonidos normales..12 1.2.2 Sonidos adventicios..16 2 Compresin de datos..23 2.1 Algunas mediciones....24 2.2 Compresin de audio...25 2.2.1 El sonido.25 2.2.2 Digitalizacin del sonido.... 26 2.2.3 El odo humano..26 2.2.4 Mtodos convencionales de compresin 28 2.2.5 Compresin de audio con prdidas29 3 Transmisin de sonido en tiempo real sobre una red IP 30 3.1 Criterios para evaluar el servicio VoIP..31 3.1.1 Requisito de servicio antes de los intentos de llamada... 31 3.1.2 Requisito de servicio durante la llamada...31 3.1.3 Requisito de servicio al finalizar la llamada... 33 3.2 Protocolos para la transmisin de audio en tiempo real..... 33 3.2.1 Protocolo de transporte en tiempo real (RTP)..34 x 4 Cdecs de compresin de audio...36 4.1 Cdec ideal36 4.2 Algunos cdecs considerados37 4.2.1 G.711.38 4.2.2 G.711.1..38 4.2.3 G.722.39 4.2.4 G.723.1..39 4.2.5 G.726.40 4.2.6 G.728.40 4.2.7 G.729.41 4.2.8 Speex.41 4.2.9 Vorbis I. 42 4.3 Comparacin de las caractersticas de los cdecs de compresin considerados para la transmisin de sonido en tiempo real. 42 5 Cdec de compresin Vorbis I..45 5.1 Descripcin general. 45 5.2 Funcionamiento.46 5.3 Comparacin de sonidos estetoscpicos utilizando formatos wav y ogg. 47 Conclusiones53 Recomendaciones .. 54 Bibliografa y referencias55 Glosario de trminos mdicos...58 Anexos.60 xi LISTA DE FIGURAS Figura 1.1 Vlvulas del corazn y la direccin en que fluye la sangre en las fases distole y sstole2 Figura 1.2 Forma de onda del sonido de un corazn normal..3 Figura 1.3 Niveles de potencia del sonido de un corazn normal... 4 Figura 1.4 Espectrograma de un corazn normal..4 Figura 1.5 Ruidos cardacos anormales..5 Figura 1.6 Forma de onda del ruido anormal clic de eyeccin5 Figura 1.7 Niveles de potencia del ruido anormal clic de eyeccin6 Figura 1.8 Espectrograma del ruido anormal clic de eyeccin6 Figura 1.9 Forma de onda del ruido anormal chasquido de apertura.. 7 Figura 1.10 Niveles de potencia del ruido anormal chasquido de apertura 8 Figura 1.11 Espectrograma del ruido anormal chasquido de apertura 8 Figura 1.12 Forma de onda del ruido anormal estenosis mitral 9 Figura 1.13 Niveles de potencia del ruido anormal estenosis mitral 9 Figura 1.14 Espectrograma del ruido anormal estenosis mitral 10 Figura 1.15 Forma de onda del ruido anormal defecto septal atrial. 11 Figura 1.16 Niveles de potencia del ruido anormal defecto septal atrial. 11 Figura 1.17 Espectrograma del ruido anormal defecto septal atrial. 12 Figura 1.18 Niveles de potencia del sonido normal bronquial...... 13 Figura 1.19 Espectrograma del sonido normal bronquial.. 14 Figura 1.20 Niveles de potencia del sonido normal traqueal. 15 Figura 1.21 Espectrograma del sonido normal traqueal 15 Figura 1.22 Niveles de potencia del sonido adventicio crujido. 17 Figura 1.23 Espectrograma del sonido adventicio crujido. 17 Figura 1.24 Niveles de potencia del sonido adventicio chillido. 18 Figura 1.25 Espectrograma del sonido adventicio chillido. 19 Figura 1.26 Niveles de potencia del sonido adventicio silbido.. 20 Figura 1.27 Espectrograma del sonido adventicio silbido.. 21 Figura 1.28 Niveles de potencia del sonido adventicio estridor de un beb... 21 Figura 1.29 Espectrograma del sonido adventicio estridor de un beb...... 22 Figura 2.1 (a) Umbral de sensibilidad del odo humano en un ambiente silencioso. (b) Umbral de sensibilidad debido al efecto de enmascaramiento.. 27 xii Figura 3.1 Protocolos para la transmisin de audio en tiempo real, segn el modelo TCP/IP.34 Figura 4.1 Diagrama de bloques del cdec ideal 39 Figura 5.1 Diagrama de bloques del algoritmo de Vorbis I 46 Figura 5.2 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 8 kbits/s... 48 Figura 5.3 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 16 kbits/s. 49 Figura 5.4 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 24 kbits/s. 49 Figura 5.5 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 8 kbits/s..... 50 Figura 5.6 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 16 kbits/s... 50 Figura 5.7 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 24 kbits/s... 51 Figura 5.8 Comparacin de densidad de potencia espectral de un corazn normal, utilizando formatos wav y ogg a 8, 6 y 24 kbits/s.. 51 Figura 5.9 Comparacin de densidad de potencia espectral del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 8, 6 y 24 kbits/s.. 52 Figura 5.10 Comparacin de densidad de potencia espectral del sonido normal traqueal, utilizando formatos wav y ogg a 8, 6 y 24 kbits/s 52 Figura A.1 Esquema de la aplicacin de telemedicina, utilizando un cdec de compresin de sonido.. 60 xiii LISTA DE TABLAS Tabla 4.1 Comparacin de las caractersticas relevantes de los cdecs de compresin de audio para transmisin en tiempo real.. 43 Tabla C.1 Comparacin de las caractersticas de los sonidos cardacos..64 Tabla C.2 Comparacin de las caractersticas de los sonidos pulmonares 65 1 CAPTULO 1: AUSCULTACIN Laauscultacinesunmtodoutilizadoparaescucharlosruidososonidos generados por cierta parte del cuerpo que se desee examinar [1,2,4]. En principio, laauscultacinsepuederealizardirectamenteconelodo,perohabitualmentese utilizaunestetoscopioofonendoscopio,elcualsecomponebsicamentedeuna membranayunacampana,quepermitenamplificarlossonidosagudosygraves, respectivamente [2]. Losruidososonidoscorporalessongeneradosporelflujosanguneooflujode aire,cuyainterpretacinpuedecontenerinformacindemuchaimportanciaenel diagnsticodelestadodeunpaciente.Deestaforma,sepuedeclasificardos principalestiposdeauscultacin:auscultacincardaca,yauscultacinpulmonar [3]. Encadapartedelcuerpoaexaminar,existenlosllamadosfocosdeauscultacin, los cuales son puntos principales donde se deben analizar los ruidos corporales [2]. Acontinuacin,sedetallandichosruidos,analizandocaractersticasafinesasu procesamiento digital, como la frecuencia, amplitud, y tiempo de duracin. 1.1 AUSCULTACIN CARDACA 1.1.1 RUIDOS NORMALES Losruidososonidoscardacossongeneradosporelcierredelasvlvulasdel corazn.Estosruidosconformanloquecomnmenteseconoceporlatidodel corazn.Elcoraznestcompuestoporcuatrovlvulas(tricspide,mitral, pulmonar y artica) y cuatro cavidades (dos aurculas y dos ventrculos), mostradas en la Figura 1.1. Un latido del corazn se compone de dos fases, llamadas distole y sstole, que producen los dos ruidos cardacos normales R1 y R2 respectivamente [3,5]. El proceso es el siguiente: 2 Distole:lasaurculassellenandesangreysecontraen,impulsandolasangre hacialosventrculosatravsdelasvlvulastricspideymitral.Elcierredeestas dos vlvulas genera el primer ruido cardaco normal R1 [2]. Figura 1.1 Vlvulas del corazn y la direccin en que fluye la sangre en las fases distole y sstole [2]. Sstole:elventrculoderechoimpulsasangrealospulmonesparaoxigenarlos, regresa por la aurcula izquierda, pasa al ventrculo izquierdo y luego se distribuye haciaelcoraznyotraspartesdelcuerpoatravsdelasvlvulaspulmonary artica,respectivamente.Elcierredeestasdosvlvulasgeneraelsegundoruido cardaco normal R2 [2]. EnlaFigura1.2sepuedeobservarlagrficadelaformadeondadelsonido producidoporuncoraznnormal1.Fcilmenteseidentificandoscomponentes principales, que sern detallados posteriormente, adems de dos ruidos adicionales de pequea amplitud en relacin a los dos primeros. EnlasFiguras1.3y1.4esposiblecomprobardeformagrficaquelas componentes principales de frecuencia de este sonido se encuentran por debajo de los 500 Hz, teniendo picos prominentes en el rango de 100-300 Hz. Las frecuencias por debajo de -75 dB/Hz (detallado con lnea verde) no son perceptibles al odo, de acuerdo a varias pruebas realizadas en Matlab. Rango de frecuencias del sonido cardaco normal: 50-300 Hz Variacin de potencia entre el rango de frecuencia: -55 hasta -75 dB/Hz

1 Las Figuras desde la 1.2 hasta la 1.29, exceptuando a la Figura 1.5, son grficas obtenidas utilizando Matlab, analizando sonidos pregrabados con extensin wav [10]. El cdigo utilizado se encuentra en el Anexo B. 3 1.1.2 RUIDOS NORMALES ALTERADOS Lasalteracionesdelosruidoscardacosnormalesgeneranuncambioenla intensidad de los ruidos, debido al instante en el cual se cierran las vlvulas o a la velocidadconquesecierran.EnelsegundoruidocardacoR2tambinsepuede generarundesdoblamiento,queeslaseparacindelosruidosgeneradosporlas vlvulas pulmonar y artica, pero mantienen su rango de frecuencia y su tiempo de duracin [3]. Figura 1.2 Forma de onda del sonido de un corazn normal [6]. 1.1.3 RUIDOS ANORMALES Los ruidos anormales son los siguientes: Ruidos de llenado ventricular. Tercer ruido R3 y cuarto ruido R4: el tercer ruido es unruidodebajafrecuencialocalizadodespusdelsegundoruidonormalR2.El cuartoruidoesunruidodebajafrecuencialocalizadojustoantesdelprimerruido normal R1 [5]. Se pueden apreciar en la Figura. 1.5. 4 Figura 1.3 Niveles de potencia del sonido de un corazn normal [6]. Figura 1.4 Espectrograma de un corazn normal [6]. 5 Clicssistlicosdeeyeccin.Articoypulmonar:sonruidosdealtafrecuenciatipo metlicos que aparecen despus del primer ruido R1 (Figuras 1.6, 1.7, 1.8). Figura 1.5 Ruidos cardacos anormales2 [5]. Figura 1.6 Forma de onda del ruido anormal clic de eyeccin [6]. En este tipo de anomala se presentan componentes de frecuencias ms altas que en las de los latidos de un corazn normal. En la Figura 1.7 en el rango de 100-200 Hzesposiblevercomponentesdepotenciamayoresqueelrestodelespectro, habiendo un rango de frecuencia de 50-400 Hz de acuerdo al espectrograma de la Figura 1.8.

2 Los ruidos R1, R2, R3, y R4 tambin son denotados como S1, S2, S3, y S4, respectivamente. 6 Figura1.7. Niveles de potencia del ruido anormal clic de eyeccin [6]. Figura 1.8 Espectrograma del ruido anormal clic de eyeccin [6]. 7 Rango de frecuencias del ruido anormal clic de eyeccin: 0-400 Hz Variacin de potencia entre el rango de frecuencia: -42 hasta -75 dB/Hz Chasquidos de apertura de las vlvulas A-V: mitral y tricspide: posee ruidos de alta frecuenciaqueapareceninmediatamentedespusdelsegundoruido(Figuras1.9, 1.10, 1.11). Rango de frecuencias del ruido anormal chasquido de apertura: 0-500 Hz Variacin de potencia entre el rango de frecuencia: -32 hasta-75 dB/Hz Figura 1.9 Forma de onda del ruido anormal chasquido de apertura [6]. Estenosismitral:estetipodepatologapresentacomponentesdealtafrecuencia antesdelprimerruidoincrementandosufrecuenciahastaR1(Figuras1.12,1.13, 1.14). Adems se presentan componentes de gran amplitud en el ruido R3. En las Figuras 1.13 y 1.14 se puede observar que el rango de frecuencias que cubre este tipo de sonido va desde 50 hasta 500 Hz. 8 Figura 1.10 Niveles de potencia del ruido anormal chasquido de apertura [6]. Figura 1.11 Espectrograma de ruido anormal chasquido de apertura [6]. 9 Figura 1.12 Forma de onda del ruido anormal estenosis mitral [6]. Figura 1.13 Niveles de potencia del ruido anormal estenosis mitral [6]. 10 Figura 1.14 Espectrograma del ruido anormal estenosis mitral [6]. Rango de frecuencias del ruido anormal estenosis mitral: 50-500 Hz Variacin de potencia entre el rango de frecuencia: -50 hasta -75 dB/Hz Defecto septal atrial: en este caso, existen componentes de frecuencia altas entre el sonido R4y el primersonido R1, adems sepuede apreciar un incremento enlas componentesdefrecuenciadelaaperturadelosdossonidosprincipales(Figuras 1.15,1.16,1.17).EnlasFiguras1.16y1.17esposibleverqueelrangode frecuencias se encuentra entre 50 y 350 Hz. Rango de frecuencias del ruido anormal defecto septal atrial: 50-350 Hz Variacin de potencia entre el rango de frecuencia: -48 hasta-75 dB/Hz 1.2 AUSCULTACIN PULMONAR Dentro de los sonidos obtenidos utilizando un estetoscopio con propsitos de medir la condicin de un paciente relacionado a su salud respiratoria se pueden clasificar en sonidos normales y adventicios. 11 Figura 1.15 Forma de onda del ruido anormal defecto septal atrial [6]. Figura 1.16 Niveles de potencia del ruido anormal defecto septal atrial [6]. 12 Figura 1.17 Espectrograma de ruido anormal defecto septal atrial [6]. 1.2.1 SONIDOS NORMALES Lascaractersticasdelossonidosnormalesdependendellugarendondeseest ubicando el diafragma del estetoscopio, ya que debido a la composicin anatmica de la parte torcica, el sonido que viaja a travs de los pulmones hacia la superficie delcuerpopuedeserafectadoporlascapasqueformanlostejidos,msculos, cartlagos y huesos, creando una alteracin como lo hara un filtro. Es por esto que pararealizarundiagnsticodelacondicinrespiratoriadeunapersonasetoman muestras desde la superficie de la caja torcica al igual que en la trquea [8]. Sonidosnormalespulmonares:paraqueunsonidoobtenidodesdeelreadonde seencuentranubicadoslospulmonesseadiagnosticadonormalesnecesarioque seencuentredentrodelabandade100-1000Hz[7].Lascomponentesbajasde este sonido se dan debido a la ausencia de niveles acsticos agudos. Una muestra tomadadesdeestareaesafectadaporlasparedesdelpechoylostejidos, actuandocomounfiltropasabajasconunafrecuenciadecortede aproximadamente1500Hz,ylaenergasonoracaerpidamenteentrelos100y 13 200 Hz, como se puede observar en la Figura 1.18. Dentro de este rango tambin seencuentranlossonidosproducidosporlosmsculosrespiratoriosyporel corazn,afrecuenciasentre200y250Hz,losmismosquenopuedenser apreciadosconfacilidadenlasgrficasjuntoacomponentesdesonidos respiratorios, ya que se sobreponen debido a su mayor potencia. Adems, existe un retrasodefasecomplicadoporunnmerodefactorescomolopuedenserlas resonancias torcicas, las cuales indican reflexiones internas en frecuencias bajas y el potencial de caminos de propagacin mltiples [8]. Utilizando sonidos de muestra para el anlisis de la teora, se puede observar que unsonidonormalbronquialtomadoenelreadondeseencuentraubicadoslos pulmones,poseenivelessignificativosdepotenciaenunrangodefrecuencias desde0hasta1000Hz.ComosepuedeobservarenlasFiguras1.18y1.19,los niveles de potencia empiezan a ser imperceptibles a partir de los 1000 Hz. Rango de frecuencias del sonido normal bronquial: 0-1000 Hz Variacin de potencia entre el rango de frecuencia: -42 hasta -90 dB/Hz Figura 1.18 Niveles de potencia del sonido normal bronquial [6]. 14 Figura 1.19 Espectrograma del sonido normal bronquial [6]. Sonidos normales traqueales: cuando el sonido es escuchado desde la trquea es menos filtrado y adems se puede notar un aumento en el espectro de hasta 1200 Hz [9], permitiendo un rango desde menos de 100 hasta 3000 Hz. Debido a que el nmero de capas y obstculos que se encuentran entre el pasaje de la trquea y la superficie del cuerpo es menor, la informacin que se puede recolectar en esta rea esdemayordetalleynitidez.Laprincipalenergadelossonidostraquealesse extiendedesde50Hzhasta1000Hz,conunacadadepotenciapronunciadapor unafrecuenciadecortede850Hz[8],lacualesmayorencontrastealrangode 100-250Hzqueseencuentraenlossonidospulmonares.Estelugardemedicin es ideal para poder localizar la presencia de ronquidos. En las Figuras 1.20 y 1.21 se puede observar un cambio en el rango de frecuencias de un sonido normal tomado desde la ubicacin de la trquea, obteniendo un rango defrecuenciasdesde0hasta1600Hz.Losnivelesdepotenciayanoson perceptibles a partir de los 1600 Hz. 15 Figura 1.20 Niveles de potencia del sonido normal traqueal [6]. Figura 1.21 Espectrograma del sonido normal traqueal [6]. 16 Rango de frecuencias del sonido normal traqueal: 0-1600 Hz Variacin de potencia entre el rango de frecuencia: -35 hasta -85 dB/Hz 1.2.2 SONIDOS ADVENTICIOS Lossonidosadventiciossonloscaracterizadosporcontenercomponentesqueno estndentrodelosrangosnormales.Seranconocidoscomolossonidos producidosarazdelapresenciadeinfecciones,bloqueosyenfermedades respiratoriasrelacionadas.Estossonidosmuestrancomponentesconmayor energa en frecuencias fuera del rango normal. Estos sonidos son conocidos como crujidos,chillidos,silbidos,ronquidosyestridor.Cadaunoconcaractersticas diferentesenelespectrodefrecuencia,loquedapasoaqueunanlisis computacionaldeestossonidosseaunaformaacertadadeidentificacindela enfermedad [6,7,8]. Porejemplo,lapresenciadeasmaenunpacientegeneraunincrementode componentes en altas frecuencias en los llamados sonidos bronquiales, los cuales tienen componentes de hasta 600-1000 Hz [9]. Un paciente con enfisema presenta undecrementoyvariabilidadmslargodelaamplituddetransmisinen frecuenciasbajas.Unaedemapulmonarcardiognicaincrementalaamplituddel sonido transmitido en las paredes del pecho en una forma lineal [8]. Crujidos: son sonidos que se encuentran frecuentemente en enfermedades cardio-respiratorias. Su duracin es menor a 20 ms y su espectro de frecuencias va desde 100hasta2000Hz[9].Pansterkamp[8]describeestossonidoscomoexplosiones miniaturas escuchadas ms en la inhalacin que en la exhalacin. La parte inferior de los pulmones es la fuente ms rica en este sonido. En las Figuras 1.22 y 1.23 se obtienen rangos de frecuencias desde 0 hasta 1500 Hz. Los niveles de potencia empiezan a ser imperceptibles a partir de los 1500 Hz. Rango de frecuencias del sonido adventicio crujido: 0-1500 Hz Variacin de potencia entre el rango de frecuencia: -25 hasta -90 dB/Hz 17 Figura 1.22 Niveles de potencia del sonido adventicio crujido [6]. Figura 1.23 Espectrograma del sonido adventicio crujido [6]. 18 Chillido:esunsilbidocortoenlainhalacinqueocurreenenfermedades pulmonares restrictivas. Este sonido aparece ocurrir siempre junto con los crujidos. Estos sonidos raramente exceden los 400 ms de duracin [9]. En las Figuras 1.24 y 1.25 se obtiene un rango de frecuencias desde 0 hasta 1100 Hz. Los niveles de potencia empiezan a caer a partir de los 1100 Hz. En la Figura 1.25 es posible ver las componentes en donde se encuentran los chillidos antes del segundo 2y despus del segundo 4. Rango de frecuencias del sonido adventicio chillido: 0-1100 Hz Variacin de potencia entre el rango de frecuencia: -40 hasta -90 dB/Hz Figura 1.24 Niveles de potencia del sonido adventicio chillido [6]. Silbido:esunruidoqueocurrecuandoexisteunaobstruccindelasvas respiratorias,yesunparmetroparamedirlaseveridaddeasma.Sonsonidos pulmonaresmusicales,tambinllamadoscontinuos,debidoaquesuduracines mslarga que la de los crujidos. Estossonidos no se extienden msque 250 ms. Su forma es una sinusoide de rango de frecuencias se extiende desde menos que 100Hzhastamsde1000Hz [8].Pasterkampsugierequeelsilbidoproduce 19 componentes en frecuencias entre 350-950 Hz y en cambio, Gavriely menciona que lascomponentesdeestesonidoseencuentranentre80-1600Hz.Sufrecuencia dominante se encuentra por encima de los 100 Hz alrededor de los 400 Hz [9]. Este tipo de ruido se encuentra presente en el asma, estenosis y en la aspiracin de un cuerpo extrao. Figura 1.25 Espectrograma de sonido adventicio chillido [6]. En las Figuras 1.26 y 1.27 se tienen resultados de un paciente infante con silbidos, se observa un rango de frecuencias de 0-1200 Hz, con una duracin de 250 ms por silbido. Los niveles de potencia ya no son perceptibles a partir de los 1200 Hz. Rango de frecuencias del sonido adventicio silbido: 0-1200 Hz Variacin de potencia entre el rango de frecuencia: -40 hasta -90 dB/Hz Ronquido: los ronquidos son ruidos comnmente escuchados al dormir. Se sugiere quesonproducidosporvibracionesenlasparedesdelaorofaringe.Estos demuestran una intensidad mayor a -50 dB y contienen una frecuencia fundamental entre30y250Hz[9].Sonrepeticionesdeestructurassonorasqueestn relacionadasasecrecionesycolapsosenlasvasrespiratorias[8].Descritos 20 temporalmente, son series de sinusoides atenuadas rpidamente con una duracin menor a 100 ms. Figura 1.26 Niveles de potencia del sonido adventicio silbido [6]. Rango de frecuencias de los sonidos adventicios ronquido: 0-1000 Hz Estridor:sonsilbidosdelargaduracinusualmenteproducidosporlaobstruccin delalaringeolatrquea.Tienenunpicoprominenteen1000Hz.Estesonido puedeserescuchadocercadelpacientesinlanecesidaddeutilizarun estetoscopio. La envolvente del pico y la complejidad del espectro dependen de la enfermedad.Unaobstruccinfijagenerarunpicoconstanteyunaobstruccin dinmica modular el pico en frecuencia. EnlasFiguras1.28y1.29esposibleobservaruncasodiferentealossonidos previos,lamuestrasehabratomadoaunpacienteinfantedepocosmesesde edad.Lascomponentesdefrecuenciaseencuentranenunrangomuchoms ampliodelomencionadoenotroscasossiendodesde100-1300Hzconuna componenteprominente en 1000 Hz. Cadacomponente de esta enfermedadtiene una duracin de 700 ms. 21 Figura 1.27 Espectrograma del sonido adventicio silbido [6]. Figura 1.28 Niveles de potencia del sonido adventicio estridor de un beb [6]. 22 Figura 1.29 Espectrograma de sonido adventicio estridor de un beb [6]. Rango de frecuencias de los sonidos adventicios estridor: 0-1300 Hz Variacin de potencia entre el rango de frecuencia: -35 hasta -90 dB/Hz ElAnexoCmuestralasTablasC.1yC.2,lascualesbrindanunacomparacinde lascaractersticasdeintersdelossonidoscardacosypulmonares, respectivamente. No comprenden todas las anomalas que se pueden presentar en un paciente, pero constan las ms comunes. Como resultado de esta comparacin, se obtienen los valores mximos y mnimos de sus componentes en frecuencia, su ancho de banda y su tiempo de duracin. En la Tabla C.2 se han aadido valores como el tiempo de respiracin. 23 CAPTULO 2: COMPRESIN DE DATOS Aunqueeltemadecompresindedatosparezcanetamentetcnico,enrealidad nace de una necesidad del ser humano. Desde hace ya ms de 3 siglos, el hombre ha intentado transmitir informacin ahorrando recursos, como es el caso de Samuel MorseysuconocidaClaveMorse.Otroejemplodecompresindedatosesel alfabeto Braille, ideado por el francs Louis Braille y pensado para personas ciegas [16].Deestamanera,sepuedeobservaralacompresindedatoscomouna necesidad natural del hombre interesado en las comunicaciones. Sedefinealacompresindedatoscomoelprocesodeconvertirlosdatosde entradaendatosdesalidademenortamao.Losdatosdeentradaseconocen como datos fuente o datos originales, y los datos de salida como datos comprimidos o simplemente salida [16]. Actualmente existe una infinidad de mtodos para comprimir datos, y de acuerdo al tipodedatos,seutilizandistintoscdecsdecompresinquebrindandiferentes resultados,perotodosloscdecssebasanenelmismoprincipio:removerla redundancia de los datos originales [16]. Existenmuchosalgoritmosquecomprimenlosdatosdeformaeficaz,perosise analizanestosalgoritmos,ysedescubreunaformadecomprimiraunmsala informacin,muchasdelasvecessellegaaunaumentoconsiderablede procesamiento, lo cual se ve reflejado en ms ciclos de mquina y afecta al tiempo de compresin [16], dando un salto hacia atrs en lo que respecta a la optimizacin de la compresin de datos. Debidoaquelacompresindedatossebasaenlaeliminacinderedundancia, existe un lmite hasta donde un archivo puede ser comprimido, esto ocurre cuando todas las redundancias posibles han sido removidas. Existen algunos mtodos de compresin que eliminan informacin para obtener una mejorcompresin.Cuandosedescomprime,elresultadonoesigualalosdatos originales,perosilaprdidadeinformacinespequea,staserimperceptible. Este tipo de compresin se utiliza especialmente en imgenes, vdeos o sonidos. La 24 compresinsinprdidasesmuyutilizadaenarchivosdetextooprogramasde computacin, donde no se pueden eliminar bits de informacin [12,16]. Cuando se utiliza el mismo algoritmo para la codificacin y decodificacin de datos, seconocecomocompresinsimtrica.Seutilizacompresinasimtricacuando tanto la codificacin como la decodificacin tienen diferentes prioridades [16], como porejemploenarchivosdeaudio,dondeeldecodificadordebesermuyrpido, capaz de descomprimir el archivo y reproducirlo en tiempo real. 2.1 ALGUNAS MEDICIONES Paraevaluarelrendimientodeuncompresordedatos,hayquedefiniralgunas mediciones. Relacin de compresin: es la relacin entre el tamao de los datos de salida y el tamao de los datos de entrada. Rclocion Jc comprcsion =Iomoo Jc los Jotos Jc soliJoIomoo Jc los Jotos Jc cntroJo Un valor de 1 significa que los datos de salida son idnticos a los datos de entrada, ynosehaencontradoredundanciaenlosdatosdeentrada.Unvalorde0.7 significaqueelarchivocomprimidoocupael70%deltamaoqueocupabael archivo original [16]. Factor de compresin: es el inverso de la relacin de compresin. Foctor Jc comprcsion = Iomoo Jc los Jotos Jc cntroJoIomoo Jc los Jotos Jc soliJo En este caso, un valor superior a 1 significa que el archivo ha sido comprimido. Este valoresmsfamiliarparalosusuariosdebidoaquemientraselfactorde compresin es mayor, significa que los datos tienen mejor compresin [16]. (2.1) (2.2) 25 2.2 COMPRESIN DE AUDIO Existen dos caractersticas importantes en el momento de analizar la compresin de audio: (1) puede ser con prdidas, y (2) necesita un decodificador muy rpido [16]. Unarchivodeaudio,aligualqueunarchivodeimagenovdeo,puedeperderun pocodeinformacinsindegradarsignificativamentesucalidad,demodoque existencdecsdeaudioconprdidasysinprdidas.Peroadiferenciadeun archivo de texto, un usuario muchas veces querr acceder a un archivo de audio sin necesidaddedescomprimirloyalmacenarlonuevamente.Estaeslarazndeque la mayora de cdecs de audio sean asimtricos. El audio a menudo es almacenado en su forma codificada, y debe ser decodificado en tiempo real para que un usuario pueda acceder a l [16]. 2.2.1 EL SONIDO Alsonidoselopuededefinirdesdedospuntosdevista:intuitivamentey cientficamente.Intuitivamentesepuededecirqueelsonidoeslasensacinque detecta nuestros odos y que es interpretada por nuestro cerebro. Cientficamente el sonidoesunaperturbacinfsicadadaenunmedio,ysepropagaatravsdel medio gracias al movimiento de los tomos y molculas [16]. Comocualquierotraseal,elsonidotienetrescaractersticasprincipales: velocidad,amplitudyfrecuencia.Lavelocidaddelsonidodependedelmedioyla temperatura por donde se propaga. La velocidad del sonido de 343.8 m/seg se da cuandoelsonidosepropagaenelaire,aniveldelmaryaunatemperaturade 20C [16]. La amplitud es lo que se percibe como sonidos fuertes o dbiles. Se experimenta el sonidocuandolasmolculasdeairegolpeaneldiafragmadelodoyaplican presin sobre l. La sensibilidad del odo humano hacia el nivel de sonido depende tambin de la frecuencia [12,16]. 26 2.2.2 DIGITALIZACIN DEL SONIDO El proceso de digitalizacin del sonido consta de tres etapas principales: muestreo, cuantificacinycodificacin[11].Mientrassetomanmsmuestrasdelsonido original,lacalidaddelsonidodigitalsermayor,peroasmismoelarchivoser mayor. La solucin a este problema la da la frecuencia de Nyquist, que es el doble de la frecuencia mxima del sonido [16]. Debidoaqueelodohumanoessensibleenlosrangosdesde16-20Hzhasta 20000-22000Hz[16],unsonidodigitaldealtafidelidaddebersermuestreadaa una frecuencia un poco mayor al doble de 22000 Hz, es decir 44100 Hz [12,16]. Si algn sonido es muestreado a una frecuencia menor a la mencionada, el resultado estardistorsionado,mientrasquealutilizarunafrecuenciamayor,su reconstruccin no genera ninguna mejora en el sonido [16]. Yaquesetieneelnmerodemuestrasatomardeunsonido,esnecesario establecereltamaodecadamuestra(cuantificacin).Enlaprctica,seutilizan tamaosde8-bitsy16bits,yalgunastarjetasdesonidodealtacalidadutilizan muestras de hasta 32-bits [16]. La diferencia se puede identificar en el siguiente ejemplo. Supngase que el sonido de mayor amplitud genera 1 voltio. Al utilizar 8-bits se tendra 256 niveles de voltaje, y cada nivel tendra 0.004 voltios aproximadamente. Esto quiere decir que cualquier sonidoqueestpordebajodeestenivelseprocesarcomosilencio.Adiferencia de si se utilizan 16-bits, el nivel ms bajo sera 15 microvoltios aproximadamente, lo cual permitira distinguirsonidosmucho ms bajos que 4 milivoltios. Utilizando16-bits se mejora la calidad del sonido, pero se estara utilizando el doble del tamao deloquesepodracomprimircon8-bits.Sinembargo,utilizando8-bitsse obtendra una seal reconstruida de baja calidad [16]. 2.2.3 EL ODO HUMANO Lasensibilidaddelodohumanonoesuniforme,locualpermiteestablecerun umbraldesensibilidaddelodo[12,16].LaFigura2.1(a)muestraesteumbralde 27 sensibilidad. Cabe sealar que la voz humana tiende a estar en el rango de 600 Hz a 6000 Hz [12]. Figura 2.1 (a) Umbral de sensibilidad del odo humano en un ambiente silencioso. (b) Umbral de sensibilidad debido al efecto de enmascaramiento [12]. Laexistenciadeunumbraldesensibilidadpermiteintuirenuncdecde compresin con prdidas. Bsicamente se tendra que eliminar el sonido por debajo delumbral.Yaquesehabladelafrecuencia,elcodificadordebeanalizarel espectrodelsonidoasercomprimidoencadainstante.Silafrecuenciaestpor debajo del umbral, el dato puede ser eliminado [12]. Ademsdeestacaracterstica,uncompresordeaudiodebeconsiderarel enmascaramiento de frecuencia y el enmascaramiento temporal, lo que se conoce como codificacin perceptual [12,16]. Elenmascaramientodefrecuenciasedacuandounsonidoquenormalmentese podraescuchar,esenmascaradoporotrosonidomsfuerte,aunafrecuencia cercana.Unbuencdecdecompresindebesercapazdeidentificarestetipode casos,yeliminarlossonidosqueseencuentranenmascarados,yaquedetodas formas no se escucharan [12,16]. Elenmascaramientotemporalocurrecuandounsonidofuerteesprecedidoo seguidoporotrosonidodbilaunafrecuenciaigualocercana.Sielintervalode tiempo entre estos dos sonidos es corto, el sonido dbil no va a ser audible. En este caso el sonido dbil podra ser eliminado [12,16]. 28 2.2.4 MTODOS CONVENCIONALES DE COMPRESIN Existenvariosmtodosconvencionalesdecompresindeaudio.Algunoscdecs sinprdidaspuedensertiles,perodependedeltipodesonidoacomprimir.Los mtodosqueseanalizarnbrevementesonlosmtodosRLE(run-length encoding), mtodos estadsticos y mtodos basados en diccionario [16]. UnmtodoRLEsebasaenelprincipiodequesiundatoxocurrenveces consecutivas, se almacenar como xn. Aplicado a los sonidos, podra ser eficiente al comprimir un sonido uniforme y repetitivo si se utilizan 8-bits por muestra, ya que lavariacinentremuestraymuestraserade4milivoltios.Sinembargo,alutilizar 16-bits,estemtodosetornaraineficiente,yaquenoseencontraranmuchos datos consecutivos repetidos [16]. Un mtodo estadstico asigna distintos tamaos de cdigo a cada caracter (en este caso a cada muestra). Los caracteres que tengan mayor probabilidad de ocurrencia sonasignadosporcdigodemenorlongitud,yloscaracteresquetenganmenor probabilidad de ocurrencia son asignados con cdigo de mayor longitud, de manera queseoptimiceelnmerodebitsencadacaracter[18].Unarchivodeaudio extenso por lo general tendr una distribucin plana, de modo que es poco probable queexistanmuestrascuyaprobabilidadvaresignificativamentefrentealasotras muestras[16],demodoqueestemtodonosiempreseraeficienteaplicndoloa un archivo de audio. Unmtodobasadoendiccionariobuscafrasesrepetidasdentrodelarchivoa comprimir.Estemtodoespocoeficientealcomprimiraudio,debidoaque, existirnfrasesrepetidascuyasmuestrasvarenanalgicamenteenmuypoco voltaje, y debido a la resolucin del ADC (conversor anlogo-digital), pertenezcan a diferentesnivelesdecuantificacin[16].Estoreduciranotoriamentelacapacidad de compresin del cdec. 29 2.2.5 COMPRESIN DE AUDIO CON PRDIDAS Frente a los mtodos previamente expuestos, es mucho ms eficaz utilizar mtodos con prdidas al comprimir sonidos, eliminando datos que el odo humano no pueda percibir.Estosmtodossebasanenqueunasealanalgica,alserdigitalizada, pierdeinformacin.Sicuidadosamenteseeliminamsdatos,alserreproducidoy comparado con el archivo original, la diferencia no se distinguira [12,16]. Existendosmtodospropuestosparaestetipodecompresin:compresinde silencio y companding (compressing/expanding). LacompresindesilencioesunaadaptacindelmtodoRLEalsonido.Este mtodo se basa en que existen archivos de audio que contienen largos perodos de sonidoconvolumenbajo,queresponderneficazmentealacompresinde silencio. Este mtodo requiere un parmetro controlado por usuario que especifique la muestra de mayor tamao a ser eliminada. Adems, se requieren dos parmetros adicionales,quenonecesariamentedebensercontroladosporelusuario.El primeroespecificaelnmeromnimodemuestrasconsecutivasaeliminar,yel segundoespecificaelnmeromnimodemuestrasconsecutivasaudiblesque determinarn la finalizacin del silencio [16]. Companding utiliza el hecho de que se necesita ms precisin de muestras en los sonidos suaves (de baja amplitud) que en los sonidos fuertes (de mayor amplitud). Normalmente, un ADC convierte el voltaje analgico en varios niveles de voltaje de igual magnitud, es decir lo hace de forma lineal. Un mtodo de compresin basado encompandingexaminacadamuestradesonidoyaplicaunaecuacinnolineal paradeterminarlosnivelesdevoltajeyasignarbits.Estemtodonoestbasado solamente en ecuaciones, sino que pueden ser distribuciones logartmicas, como es el caso de las leyes A y , que son estndares internacionales [16]. 30 CAPTULO 3: TRANSMISIN DE SONIDO EN TIEMPO REAL SOBRE UNA RED IP Enelmomentoquesequiererealizarlatransmisindedatosquecontenga informacinacercadesonidos,sepuedeoptarpordoscaminos:enviarlosdatos previamentealmacenadosyrecibirlosluegodeunaesperalargaenrelacinal instante en que se inici la transmisin; o transmitir y recibir los paquetes con una demorarelativamentebaja,haciendolarecepcininstantneaotambinllamado transmisin en tiempo real. Enelcasodelatransmisindelossonidosestetoscpicos,seconcibelaideade queexisteunatransmisinentiemporeal,lacualpermitedarundiagnstico inmediatoluegodequeseestanalizandolacondicindelpacientemedianteel respectivo examen. Lo ms importante en este tipo de aplicacin es, en el mejor de los casos, recibir la informacin completa del examen auditivo, pero como eso no es muycomnenlarealidadporcausadefenmenosquealteranlacalidady contenidodelainformacin,esimportantetomarencuentalosparmetrosque puedan presentar problemas en la recepcin de la informacin, para decidir el tipo de compresor que se puede utilizar y que pueda ayudar de manera eficiente a dar un diagnstico adecuado. Unaaplicacinrecientementeutilizadayqueseencuentraenauge,esla transmisindeVozsobreIP,otambinllamadoVoIP.Elprincipiodeesta aplicacinconsisteenlacapacidaddeestablecerunaconversacintelefnica sobreunaredIPconsimilarescaractersticasycalidadaunaconversacin realizada sobre los circuitos de una central telefnica. Esteproyectosepuedefamiliarizarconelpresentetema,teniendoencuentael anchodebanda,tasademuestreoycalidaddeservicio.Seiniciaconlas consideracionesyaestablecidasparaestesistemaysuadaptacinparala aplicacindetransmisindesonidosestetoscpicossobreunaredIP,basndose enlascaractersticastcnicasdesonidoscardacosyrespiratoriostratadosenel captulo 1. 31 3.1 CRITERIOS PARA EVALUAR EL SERVICIO VOIP Segn Khasnabish, los parmetros y criterios para poder calificar una conversacin deVozsobreIPseenmarcanen:requisitosdeservicioantesdelosintentosde llamada, requisitos de servicio durante la llamada y requisitos de servicio al finalizar la llamada [17]. 3.1.1 REQUISITOS DE SERVICIO ANTES DE LOS INTENTOS DE LLAMADA Antes de empezar una llamada se debe contar con la disponibilidad de recursos de cmputo y de red para dar cabida a los pedidos de llamada. Esto incluye recolectar informacinenlaidentificacindelaspartes,yprocesarestainformacinpara determinarlamejorrutaparainiciarunasesin,utilizandoelProtocolodeTiempo Real (RTP), el Protocolo de Datagrama de Usuario (UDP) y el Protocolo de Internet (IP). El tiempo total que toma establecer una llamada es medido desde el momento en que el ltimo dgito de la parte inicial se ha terminado de ingresar. DeacuerdoalasrecomendacionesdelaUIT-TE.721(UninInternacionalde Telecomunicaciones),elretrasodelasealdecontestacindeberser750ms para llamadas locales, 1.5 segundos para llamadas de larga distancia y 8 segundos parallamadasdelargadistanciainternacional.Estetipoderequerimientosestn presentesparapodersimularunambientedellamadasimilaralquesetiene cuandoseutilizaeltelfonoconectadoalareddetelefonapblica.No necesariamenteseranestosaplicablesalambienterequeridoparalatransmisin de sonidos estetoscpicos. 3.1.2 REQUISITOS DE SERVICIO DURANTE LA LLAMADA UnavezquesehaestablecidounasesinVoIP,lasealpuestaenpaquetes deber ser entregada desde la fuente al destino en tiempo real sin comprometer la integridaddelaseal.Estoeshablandoenunsistemaideal,puestoqueexisten variosfactoresquepuedenalterarlasealyeldesempeodelatransmisin.Los 32 parmetros relevantes de inters son la codificacin de voz, procesamiento, retraso porenvolvente,prdidadepaquetes,bufferingyestrategiasdereconstruccin. Todosestosparmetroscontribuyenaunvaloragregadoalosproblemasque pueden existir dentro de una comunicacin. Es por esto que es necesario entender a qu clase de comunicacin se va a enfrentar para priorizar los parmetros que se quiere que afecten menos a la seal. Dentro de las consideraciones y estndares, por ejemplo, para la codificacin G.711 en ambos extremos, el retraso por codificacin y procesamiento no deber exceder el 15% del retraso de boca-a-odo. Cuando se utilizan mecanismos de codificacin avanzados,porejemploparaG.723yG.729,elretrasoenlaredreceptorao emisora puede ser tan alto como el 30% de los 150 ms, y el presupuesto de retraso para la red de transporte es reducido a 60 ms. Estos tipos de escenarios requieren enlacesdealtavelocidadenlareddetrasporteyoperarlosatasasdeutilizacin bajas. EltiemporequeridoparatransmitirunpaquetedeVoIPde128bytes(ouna muestrade7msdeG.711oPCM(modulacinporpulsoscodificados),devoz codificada) en un enlace IP pasivo en una red WAN es [(128x8)/(128x105)] u 8 ms. Este valor de retraso puede ser 15 ms cuando el enlace se vuelve moderadamente utilizado, y 50 ms cuando el enlace se vuelve altamente utilizado. Paraaliviaresteproblema,cualquieradelassiguientestcnicaspuedenser usadas:(a)reducireltamaodelospaquetesVoIPusandounamuestrams pequeadevozy/ocomprimirlosencabezadosRTP/UDP/IPutilizandolas recomendaciones sugeridas en RFC 2008 de IETF (Grupo de Trabajo en Ingeniera de Internet); (b) usar IntServ de IETF para ofrecer una prioridad mayor de emisin parapaquetesdevoz;(c)usarlosenlacesIPWANmoderadamenterpidospara aplicacionesVoIP,yperidicamentemonitorearlautilizacindeesteenlacepara poder enrutar las llamadas de VoIP por la ruta menos utilizada; y (d) utilizar enlaces de capacidad alta cuando informacin de trfico de tiempo real y tiempo no real es transmitida sobre el mismo enlace. El retraso de la propagacin de la seal depende de la distancia fsica entre las dos partes y del medio de transmisin. El estndar G.114 de la UIT-T establece que el 33 retraso en el transporte de voz de una va debe de ser por debajo de 150 ms para una comunicacin de buena calidad en tiempo real [11]. 3.1.3 REQUISITOS DE SERVICIO AL FINALIZAR LA LLAMADA DespusdequeunasesinVoIPescompletada,laBitcoradeLlamadayel Rcord Detallado de Llamada (CDR) deben ser mantenidos. El CDR debe capturar y guardar correctamente la anatoma de la llamada. Estas recomendaciones pueden ser adaptadas para la transmisin de sonido sobre IP.Elenvodesonidosestetoscpicosnodemandaraunretrasobajoenla transmisin, pero s una calidad derecepcin superior a laque se puede concebir enlatransmisindeVozsobreIP.Enelcasoquesepierdaunsegmentodel sonidoenunaconversacindevoz,sepuedenimplementartcnicasde interpolacin para poder reconstruir ese sonido, o rellenarlo de tal forma que solo se percibaunabajainsignificanteenlacalidaddesonido.Sinembargo,enla transmisin de sonidos estetoscpicos, el relleno o retransmisin de la informacin debeseranalizadocuidadosamente,deformaquenocauseconfusinenel momento del anlisis de los sonidos, y que se puede reflejar en un mal diagnstico. 3.2 PROTOCOLOS PARA TRANSMISIN DE AUDIO EN TIEMPO REAL El servicio de VoIP utiliza protocolos RTP/UDP/IP [11]. El protocolo TCP (Protocolo deControldeTransmisin)esraramenteutilizadoentransmisindeaudioen tiempo real, porque un error en un paquete y una retransmisin del mismo podran introducirunespaciodemasiadograndeenelsonido[12].EnlaFigura3.1se resumen los protocolos a utilizar, segn el modelo TCP/IP. 34 Figura 3.1 Protocolos para la transmisin de audio en tiempo real, segn el modelo TCP/IP. 3.2.1 PROTOCOLO DE TRANSPORTE EN TIEMPO REAL (RTP) Estetipodeprotocoloesutilizadoenaplicacionestantodeaudiocomode videoconferencia.Sufuncineseldemultiplexarvariosflujosdedatosentiempo realenunsloflujodepaquetesUDP.LacabeceradecadadatagramaRTP contieneunamarcadetiempo(timestamp)quedeterminaelordenenelcualla cargatildebedeserreorganizadaenelreceptor.Adems,estacabecera determina el tipo de codificacin del sonido para este caso. Enlaacumulacindeinformacin,dosterciosdecadadatagramaesinformacin de cabecera. Se concluye as, que el consumo real de ancho de banda es mayor de lo que parece. Para poder calcular el tamao de la carga til se puede utilizar la siguiente frmula querelacionalavelocidaddelcdec,elretardoendatagramayeltamaodela carga til. Iomoo Jc corgo til (cn Bytcs) = IclociJoJ Jcl coJcc[bitss x rctorJo cn Jotogromo (ms) 8_bitsbytc] x 1uuu[mss Porejemplo,a64kbit/s,undatagramadevoza20msimplicaqueelladodel emisorproduzcaundatagramade160bytesdecargatilcada20ms[12].Enel casodelsonidoanalizadocorrespondienteauncoraznnormal,sutiempode (3.1) 35 duracin es de 500 ms y si se toma una tasa de transmisin de 64 kbits/s se tendra comoresultadoundatagramade4000bytesdecargatilcada500ms.Parael casodelsonidorespiratorionormalbronquial,conuntiempode1000ms,se obtiene como resultado 8000 bytes de carga til cada 1 segundo. TambinexisteelProtocolodeControldeTransporteenTiempoReal(RTCP),el cualvadelamanoconelRTP,adiferenciaqueestesegundomaneja retroalimentacin, sincronizacin e interfaz de usuario, pero no porta ningn tipo de datos. 36 CAPTULO 4: CDECS DE COMPRESIN DE AUDIO Cuando se habla de transmisin de sonido sobre una red IP, es necesario vincular este temaconlacompresinycodificacindelsonidoatransmitirse.Estoesporqueel tamao del sonido debe ser reducido para que sea ms fcil de transmitir, cancelando lascomponentesquenosonnecesarias,comoporejemploelruidoblanco,ypoder determinarlamejorformadeenviarlopormediodedatagramassintenerprdidas significativas. 4.1 CDEC IDEAL Con la descripcin de los captulos anteriores, es posible reunir algunas caractersticas quedeterminaranauncdecidealparalatransmisindesonidosestetoscpicos sobre una red IP. En base a estas caractersticas se realizar la eleccin del cdec, el cualdebesatisfacerdemejorformalasnecesidadesexpuestasacontinuacin.El diagrama de bloques del cdec ideal se muestra en la Figura 4.1.

Elcdecdebeprocesarhastaunafrecuenciade2000Hz,debidoalosdatos observadosenlossonidosrespiratorios(loscardacossondemenor frecuencia). El cdec debe soportar una tasa de muestreo mnima de 4 kHz (frecuencia de Nyquist). Conunafrecuenciademuestreode4kHzseobtendrn4000muestraspor cada segundo, es decir, se va a tomar muestras cada 250 s. Elalgoritmoutilizadoporelcdecdeberrealizarunatransformacinasus componentesenfrecuencia,debidoaquelainformacinseconcentraen intervalosdefrecuenciacortos,permitiendolaeliminacindearmnicas imperceptibles por el odo humano. Si se utilizan 8 bits por muestra, se obtendran 4000 x 8 = 32000 bits/s. 37 Elmayortiempodeduracinsepresentaenlossonidosrespiratorios,siendo 1800ms,locualserarepresentadopor7200muestras,queequivaldrana 7200 x 8 = 57600 bits/s. Si se utilizan 16 bits por muestra, se obtendran 4000 x 16 = 64000 bits/s. Para los 1800 ms, se necesitaran 7200 x 16 = 115200 bits/s. El retraso permitido por el cdec no debe superar significativamente los 150 ms, en base al estndar G.114 de la UIT-T. Figura 4.1 Diagrama de bloques del cdec ideal. 4.2 ALGUNOS CDECS CONSIDERADOS Existen muchos tipos de cdecs de compresin para sonido, pero solo algunos se han consideradocomounaopcindebidoaquedebenseraplicablesalatransmisinen tiempo real. Dentro de los estndares de la UIT se pueden observar recomendaciones comoG.711,G.723.1,G.728,etc.quesonmuyutilizadosysernexpuestos brevemente.Adems,sehanconsideradodoscdecsdecompresinbasadosen cdigoabierto,cuyaflexibilidaddeparametrizacinloshaceinteresantesparasu anlisis. 38 4.2.1 G.711 El cdec G.711 es un cdec de compresin de audio para seales de frecuencias que caracterizanalavoz.Estecdecfuelanzadoen1972yestodavaaplicadoen estndaresdevideoconferenciacomoH.320yH.232.Debidoaqueutiliza8bitspor muestra, es suficiente para poder ser utilizado en aplicaciones de telefona. Este cdec utilizatcnicasdemodulacinporpulsoscodificados(PCM)juntocondosalgoritmos decompresinlogartmicos,laLey-utilizadoenNorteAmricayJapn,ylaLey-A utilizado en Europa y el resto del mundo [19]. Frecuencia de Muestreo: 8 kHz Frecuencia mxima de la seal: 4000 Hz Tasa de bits: 64 kbits/s Latencia (Retraso): 1 ms 4.2.2 G.711.1 ElcdecG.711.1esunaextensindelcdecG.711lanzadaen2008,permitiendo muestrearsealesa16kHz,denominadocomobandaanchaysiendotambin compatiblecon8kHz,denominadocomobandaangosta.Estecdecutilizauna estructuradecodificacindetrescapas:modulacinporcodificacindepulso(PCM) delabandainferiorincluyendolaretroalimentacinderuido,extensinembebidade PCM con asignacin adaptativa de bits para mejorar la calidad de la capa basada en la bandainferior(0-4000Hz),ycodificacindecuantificacindevectorparalabanda superior(4000-8000Hz)basadoenlatransformacindiscretadecosenomodificada (MDCT) [20]. Frecuencia de Muestreo: 16 kHz, 8 kHz Frecuencia mxima de la seal: 8000 Hz, 4000 Hz Tasa de bits: 80 y 90 kbits/s (para 16kHz), 64 y 80 kbits/s (para 8 kHz) Latencia (Retraso): 11.87 ms 39 4.2.3 G.722 ElcdecG.722,lanzadoen1988,esutilizadoparaaplicacionesdevozdebanda anchaconfrecuencias desde50 hasta7000Hz,yofrece mayorcalidadyclaridaden audioacostedelanchodebanda.Estecdecestilenaplicacionesenunaredde VoIP fija, donde el ancho de banda no es limitado. Este cdec de compresin utiliza el mtodo de Modulacin por Pulsos Codificados Diferencial Adaptativo (ADPCM), el cual cambia el tamao de la etapa de cuantificacin, teniendo un factor adaptativo de escala [21]. Frecuencia de Muestreo: 16 KHz Frecuencia mxima de la seal: 7000 Hz Tasa de bits: 64 kbits/s Latencia (Retraso): 4 ms 4.2.4 G.723.1 El cdec G.723.1 es un cdec de compresin de audio utilizado para el transporte de seales de voz, el cual las comprime en frames de 30 ms. Este cdec toma un bloque de 240 muestras y utiliza la codificacin predictiva (ACELP) para reducirlo ya sea a 24 oa20bytes[12].EsutilizadoenaplicacionesdeVoIPdebidoasubajorequisitode ancho de banda, pero no es capaz de transportar de forma ptima tonos de msica o tonos de fax, debido a su baja tasa de bits. Posee un algoritmo de look-ahead de 7.5 ms lo que crea un retardo total de 37.4 ms [22]. Frecuencia de Muestreo: 8 KHz Frecuencia mxima de la seal: 4000 Hz Tasa de bits: 6.4 kbits/s, 5.3 kbits/s Latencia (Retraso): 37.4 ms 40 4.2.5 G.726 ElcdecG.726esuncdecdecompresindeaudioquefuelanzadoen1990para seales de voz que utiliza el mtodo de ADPCM (PCM Diferencial Adaptativo). Este fue elaborado para reemplazar los estndares G.721 y G723. Se introdujo una nueva tasa debitsa16kbits/s.Utiliza2(16kbits/s),3(24kbits/s),4(32kbits/s)y5(40kbits/s) bitspormuestra.Laaplicacinprincipala24y26kbits/sesparacanalesde sobrecargaquetransportansealvocalenEquiposdeMultiplicacindeCircuitos Digitales (DCME). La aplicacin a 40 kbits/s es la del transporte de seales de mdem dedatosenDCME.Estecdecesutilizadoentroncalesinternacionalesyredesde telefona [23]. Frecuencia de Muestreo: 8 KHz Frecuencia mxima de la seal: 4000 Hz Tasa de bits: 40 kbits/s Latencia (Retraso): 0.125 ms 4.2.6 G.728 El cdec G.728 es un cdec para seales de voz que utiliza un algoritmo de Prediccin Lineal con Excitacin por Cdigo de Bajo Retardo (LD-CELP) para la codificacin a 16 kbits/s. Este cdec fue lanzado en 1992 [24]. Frecuencia de Muestreo: 8 KHz Frecuencia mxima de la seal: 4000 Hz Tasa de bits: 16 kbits/s Latencia (Retraso): 0.625 ms 41 4.2.7 G.729 ElcdecG.729utilizaelalgoritmodecompresindedatosdeaudioCS-ACELPque comprimelavozdigitalizadaenpaquetesdeduracinde10ms.Esusadoenredes VoIP donde se debe preservar el ancho de banda. Originalmente opera a 8 kbits/s pero existen extensiones que permite que este opere a 6.4 kbits/s y 11.8 kbits/s. Los tonos defaxydeaudiodealtacalidadnopuedensertransportadosptimamenteusando este estndar [25]. Frecuencia de Muestreo: 8 KHz Frecuencia mxima de la seal: 4000 Hz Tasa de bits: 8 kbits/s Latencia (Retraso): 15 ms 4.2.8 SPEEX ElcdecSpeexesuncdecdecompresindecdigoabiertodiseadopara aplicacionesdeVoIPytransmisionesdevoz.ElalgoritmoutilizadoeselSpeech Encoding.Soportaunaampliacalidaddevozyvaloresdetasadebits.Tieneun funcionamientodinmicodetasadebitspudiendoajustarsedesde2.15kbits/shasta 44kbits/s.Ademspresentaunagranrobustezaprdidasdepaquetesenuna transmisin de datos [26]. Frecuencia de Muestreo: 8 kHz, 16 kHz, 32 kHz Frecuencia mxima de la seal: 4000 Hz, 8000 Hz, 16000 Hz Tasa de bits: 2.15 44 kbits/s Latencia (Retraso): 30 ms (8 kHz), 34 ms (16 kHz) 42 4.2.9 VORBIS I Vorbis I es un cdec de compresin de sonido libre de patentes y regalas que soporta tasasdemuestreodedesde8kHzhasta192kHz.Ademsesusadoparala representacindevariosrangosdecanales(monoaural,polifnico,estreo, cuadrafnico, 5.1, hasta 255 canales discretos). Se puede configurar a varias tasas de bits desde 16 hasta 128 kbits/s por canal. Utiliza el mtodo de transformacin discreta de coseno modificada (MDCT) [27]. Frecuencia de Muestreo: 8 192 kHz Frecuencia mxima de la seal: 4000 95000 Hz Tasa de bits: 45 - 500 kbits/s Latencia (Retraso): >100 ms 4.3COMPARACINDELASCARACTERSTICASDELOSCDECSDE COMPRESINCONSIDERADOSPARALATRANSMISINDESONIDOEN TIEMPO REAL LaTabla4.1realizaunacomparacindelascaractersticasmsrelevantesdelos cdecs de compresin mencionados con anterioridad. Adems, se incluyen los valores de relacin de compresin y factor de compresin a cada cdec. Alrealizarunacomparacinentrelascaractersticasdelcdecidealylas caractersticasdeloscdecsresumidosenlaTabla4.1,sepuedeconcluirqueel cdecdecompresinVorbisIeselquemsseasemejaalcdecidealpropuesto, debido a las siguientes razones: Sualgoritmodecompresin,mtododetransformacindiscretadecoseno modificada, se basa en la transformada de Fourier, lo que permite trabajar en el dominio de la frecuencia. 43 Tabla 4.1 Comparacin de las caractersticas relevantes de los cdecs de compresin de sonido para transmisin en tiempo real. Cdec AlgoritmoFrecuenciadeMuestreo[kHz]Retraso[ms]Tasadebitsporsegundo[kbits/s]Relacindecompresin[%]Factordecompresin[X:1]G.711PCM,leyA,ley8 1 64 50 2G.711.1MDCT,leyA,ley8 11,87 64 50 216 11,87 96 38 2,67G.722 ADPCM16 4 64 25 4G.723.1 ACELP 8 15,3 4 24,156,4 5 20,00G.726 ADPCM8 0,125 40 31 3,20G.728 CELP8 0,625 16 13 8G.729 CSACELP8 15 8 6 16SPEEXSpeechEncoding8302,15 2 59,5316 24,6 9 10,4132 32 44,2 9 11,58VORBISI MDCT 8192 >10045 35 2,8464 50 280 63 1,6096 75 1,33 Sufrecuenciademuestreopuedeserconfigurablea8kHz,siendoestala frecuenciademuestreomsbajaregistradaporlamayoradeloscdecs analizados. PeseaqueVorbisImanejaretrasossuperioresa100ms,estevalores considerado dentro del rango sugerido por el estndar G.114 de la UIT-T para una transmisin aceptable en tiempo real. Sutasadebitsesvariable,locualpermiteflexibilidadparacodificarsonido utilizando menos bits en porciones de seal con escasa informacin, y ms bits en porciones que contienen mayor informacin. VorbisIregistrafactoresdecompresinbajosenrelacinalrestodecdecs analizados. Sin embargo, puede llegar a tener similar factor de compresin que 44 elestndarG.711,queeselrequeridoporlamayoradeprotocolosde transmisin en tiempo real. LamayoradeestndarespropuestosporlaUIT-Tsebasanenelanlisisde sealesdevoz,dondeprevalecenlasamplitudespequeas.Estosalgoritmos utilizandistribucioneslogartmicascomolaley-Aylaley-,loscualesnoson eficacesconsonidosestetoscpicos,debidoaque,tantolasamplitudes grandes como las pequeas tienen igual probabilidad de ocurrencia. 45 CAPTULO 5: CDEC DE COMPRESIN VORBIS I 5.1 DESCRIPCIN GENERAL Vorbis I es un cdec de compresin de sonido de cdigo abierto desarrollado por la fundacin Xiph.org, empezado en 1993 por Chris Montgomery [27]. Estecdeccompresorsepuedeadaptaraunrangodemuestreode8kHzhasta 192 kHz y tasas de bits desde 45 kbits/s hasta 500 kbits/s. Puede ser utilizado con unaampliagamadecanalesdesdelosmonoauraleshasta255canalesdiscretos. Esposibleutilizarunatasademuestreode44kHza56kbits/sparaaspoder realizar transmisiones en tiempo real a velocidades de Dial-up [27]. Todo esto se lo puede realizar con la parametrizacin en el cdigo fuente provisto en la pgina web de esta fundacin, http://www.xiph.org. La organizacin auspiciante de este cdigo menciona una mejor calidad de sonido enelmomentodelareproduccinquelaqueproporcionaMP3[27].Paradar soporte a sus aseveraciones, han dejado al pblico del internet una seccin donde sepuedenhacercomparacionesauditivasdediferentesarchivoscodificados utilizando los dos cdecs de compresin. SualgoritmodecompresinestbasadoenlatransformadadeFourier,utilizando eltipoIVdelatransformadadecosenodiscretamodificada(MDCT),lacual expresaunasecuenciafinitadepuntosdedatosentrminosdelasumade funcionesdecosenooscilandoafrecuenciasdistintas.Fuecreadoen1987por Princen, Johnson, y Bradley. Est diseado para aplicaciones que contienen series debloquesconsecutivosendondebloquessubsecuentessonsolapadosde manera que la ltima mitad de un bloque coincida con la primera mitad del siguiente bloque.Adems,laMDTCevitaquelosartefactosdecompresin,producidospor compresiones de alto ndice,ocurran de las fronteras entre bloques,haciendo que este algoritmo sea atractivo para aplicaciones de compresin de seales en tiempo real [28]. 46 En el caso de un enlace en tiempo real, es posible configurar este cdec junto con el protocolo RTP. Para poder identificar como se debe de proceder en el momento de la decodificacin, Vorbis I presenta un encabezado en donde se detalla la forma encmofuecodificadalasealoriginal.Todaestainformacinvadespusdel encabezado RTP [27]. Es posible encontrar toda la informacin necesaria en el sitio web de la fundacin. Cuando se habla de los sonidos estetoscpicos, los valores mximos de frecuencia superiorregistradosfueronde1600Hzporloqueelusodeunafrecuenciade muestreo de 8 kHz sera utilizada ya que es la ms baja que se puede utilizar con este codificador. Con una tasa de muestreo de 45 kbits/s, se puede llegar a niveles de calidad iguales que G.711 a 64 kbits/s. Esto significara una tasa de compresin ms alta que la demostrada por G.711. Adems sin olvidar que Vorbis permite una variacin de tasa de bits segn se vea conveniente. 5.2 FUNCIONAMIENTO EnlaFigura5.1sepuedevereldiagramadebloquesdelalgoritmodeVorbisI. Estesebasaenlacuantizacinvectorial(VQ)ylatransformacinconventanas solapadas,conocidocomolaTransformadaDiscretadeCosenoModificada.Las ventanas pueden tener una de las longitudes especficas de 2048 o 512 muestras. Lamscortaseutilizaslocuandosecodificaunasealdesonidocrticacon cambios repentinos en el dominio del tiempo [29]. Figura 5.1 Diagrama de bloques del algoritmo de Vorbis I [29]. Despus de la transformacin al dominio de la frecuencia, la seal es analizada por unmodelopsicoacsticoylaparteinaudibledelespectroesremovida.Luegoun vectordepisoesgeneradoparacadaunodeloscanales.Estevectoresuna 47 representacin de baja resolucin del espectro de audio para el canal dado en ese tiempo.Elpisorepresentalacurvacomounarepresentacinlinearinterpoladaen una escala de amplitud en dB y una escala de frecuencia lineal [29]. El siguiente paso en el proceso de codificacin es la eliminacin de la curva de piso delespectrodeaudio.Semantienelainformacinrestantellamadaresiduo.Los vectoresderesiduosdeloscanalessontransformadosdeunarepresentacin cartesianaapolar.Esteprocesoesllamadoacoplamientodecanal.Siguientea eso,lainformacinescodificadaporcuantizacindevectoresencascada.Los resultadossoncodificadosconelalgoritmodeHuffmanparaeliminarms redundancia.ElproductofinaldetodoesteprocesoeselpaquetedeVorbis. FinalmenteesospaquetessonencapsuladosenuncontenedoruniversalOggyel contenido incluido est listo para la distribucin [29]. 5.3COMPARACINDESONIDOSESTETOSCPICOSUTILIZANDO FORMATOS WAV Y OGG En el momento de aplicacin del cdec Vorbis I, se puede hacer un anlisis de las caractersticasentiempo,amplitudyfrecuenciadelossonidoscomprimidosy contenidos en laextensin ogg, que es elcontenedor que utiliza Vorbis I para sus archivos.Seconsideralafrecuenciademuestreode8000Hzparalaaplicacin, siendostalamsbajaquesepuedeutilizar.Adicionalmentesecreandistintas versiones de las nuevas muestras de sonido a diferentes tasas de muestreo: 8, 16, 24kbits/s,siendolasnicasposiblescuandoseutilizalafrecuenciademuestreo mencionada.Estaaplicacinseharealizadoenlossonidos:cardaconormal, cardacoclicdeeyeccinyrespiratorionormaltraqueal.Lafinalidaddeesta comparacin es observar el comportamiento de discriminacin y similitud de Vorbis I en razn a los sonidos en su formato wav sin compresin. EnlasFiguras5.2ala5.7,sepuedeobservarlacomparacindelossonidoscon respecto a su original en extensin wav1. En las grficas de forma de onda, tanto de los sonidos cardiacos normal (Figuras 5.2, 5.3 y 5.4) y clic de eyeccin (Figuras 5.5,

1 Las Figuras desde la 5.2 hasta la 5.10 son grficas obtenidas utilizando Matlab, analizando sonidos pregrabadosconextensinwav[10]yconvirtindolosaextensinoggutilizandoelprogramaACE-HIGH MP3 WAV WMA OGG Converter [30]. El cdigo utilizado se encuentra en el Anexo B. 48 5.6y5.7),sepuedeverquelasealnoesalteradaradicalmenteapesardelas tasas bajas de bits. Esto es un aspecto positivo para la eleccin de Vorbis I, puesto que no se presenta un cambio de fase significativo en la seal comprimida. En lo que concierne a la densidad espectral, como se puede apreciar en las Figuras 5.8,5.9y5.10,esposibleobservarquelaconcentracindepotenciaenlas frecuencias significativas para cada caso semantiene con pocas variaciones de la sealoriginal;adems,semuestraunavariacindepotenciabajaafrecuencias altassiendopositivoparalaeliminacindecomponentescorrespondientea interferencia o ruido en este rango. En el caso de la compresin a una tasa de bits de8kbits/s,existeunacadadepotenciaconsiderableapartirdelos3000Hz aproximadamente, debido a que esta frecuencia se acerca a la frecuencia mxima deestascaractersticasdecompresin.Enelrestodecasossepuedeverquea esa misma frecuencia de 3000 Hz es donde se empieza a estabilizar la variacin de potencia, lo cual se debe al comportamiento de Vorbis I de eliminar sonidos que son inaudibles. Figura 5.2 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 8 kbits/s [31]. 49 Figura 5.3 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 16 kbits/s [31]. Figura 5.4 Comparacin de formas de onda de un corazn normal, utilizando formatos wav y ogg a 24 kbits/s [31]. 50 Figura 5.5 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 8 kbits/s [31]. Figura 5.6 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 16 kbits/s [31]. 51 Figura 5.7 Comparacin de formas de onda del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 24 kbits/s [31]. Figura 5.8 Comparacin de densidad de potencia espectral de un corazn normal, utilizando formatos wav y ogg a 8, 16 y 24 kbits/s [31]. 52 Figura 5.9 Comparacin de densidad de potencia espectral del ruido anormal clic de eyeccin, utilizando formatos wav y ogg a 8, 16 y 24 kbits/s [31]. Figura 5.10 Comparacin de densidad de potencia espectral del sonido normal traqueal, utilizando formatos wav y ogg a 8, 16 y 24 kbits/s [31]. 53 CONCLUSIONES Losmtodosdecompresindeaudioconprdidassoneficacesalcomprimir sonidos estetoscpicos, debido a la existencia de un umbral de sensibilidad del odo humano. Los sonidos estetoscpicos concentran mayor informacin en rangos cortos de frecuencia,locualpermiterealizarunmejorprocesodecodificacinenlas componentesespectralesdecadasonido,debidoaquesepuedeasignarun mayornmerodebitsalasbandasdondeexistamayorconcentracinde potencia espectral. Elprotocoloaconsiderarenunatransmisinentiemporealeselprotocolo RTP/UDP,debidoaqueesnoorientadoalaconexin,esdecir,norealiza retransmisiones en caso de fallos en la transmisin de sonidos estetoscpicos, comolohaceelprotocoloTCP,sacrificandoconfiabilidadacambiode velocidad, lo que se prioriza en la transmisin de sonidos estetoscpicos. Uncdecidealparalacompresindesonidosestetoscpicosdebecontener las siguientes caractersticas mnimas: 4 kHz de frecuencia de muestreo, 8 bits por muestra y 32 kbits/s de tasa de bits. Loscdecsdecompresindevoznosoneficacesparalacompresinde sonidosestetoscpicos,debidoaquesondesarrolladosparaamplitudesy frecuenciasespecficamentedevoz,cuyosrangosvarannotoriamentealos establecidos en los sonidos estetoscpicos. ElcdecdecompresinVorbisIpresentalamejoropcinparalatransmisin desonidosestetoscpicosentiemporeal,debidoasuflexibilidadde parametrizacin de frecuencia de muestreo y tasa de bits. 54 RECOMENDACIONES Para el anlisis de muestras de sonidos estetoscpicos es importante tomar en cuentaqueporlogeneral,lasenfermedadeshacenquesegenerenseales altamente no estacionarias, por lo que es necesario analizarlas en frecuencia y en tiempo simultneamente. Alrealizarelanlisisdesonidos,esrecomendableutilizarsonidosqueno hayansidopreviamentecomprimidosporalgnotrotipodecdec,comopor ejemplo MP3, debido a que su calidad disminuye. Lasgrficasdeformadeonda,espectrograma,ydensidaddepotencia espectralobtenidasenMatlabsonimportantesparaobtenerlosparmetros necesarios de evaluacin ya que estn expresadas en funcin de la frecuencia, tiempo y potencia. Serecomiendautilizarcdecsdecompresinqueseanconfigurables,debido alconstanteincrementodedemandahaciaelusodeaplicacionesde telemedicina sobre redes IP. AmsdelascaractersticastcnicasdelcdecdecompresinVorbis,cabe resaltarquesteesdecdigoabiertoynoposeelimitacionesdepatentesy licencias, lo cual lo hace de libre uso para el pblico. 55 BIBLIOGRAFA Y REFERENCIAS [1]J.S.Osorio,L.F.Cuesta,F.Gmez,Diseoyconstruccindeun fonocardigrafodigitalconvisualizacinenLabVIEW,RevistaIngeniera Biomdica, vol. 1, pp. 42-46, mayo 2007. [2]DALCAME, Fonocardiograma, http://dalcame.com/fono.htm, septiembre 2005. [3]J.G.Glez,M.Prez,J.A.Pelayo,C.H.Esparza,Electrofongrafo,VExposicin deDiseosdeSistemasElectrnicos,deComputacinydeInformtica Septiembre de 1998, pp. 1-3, Mxico D.F., noviembre 2001. [4]V. Kudriavtsev, V. Polyshchuk, D. L. Roy, Heart energy signature spectrogram for cardiovascular diagnosis, BioMedical Engineering OnLine, 6:16, pp. 1-14, 4 mayo 2007. [5]J.D.Echeverry,A.F.Lpez,J.F.Lpez,Reconocimientodevalvulopatas cardacasensealesdefonocardiografaempleandolatransformadaGabor, Scientia Et Technica, ao/vol. XIII, nm. 034, pp. 139-143, mayo 2007. [6]MatlabSignalProcessingToolbox,Version7.7.0.471(R2008b),The MathWorks, Inc., 3 Apple Hill Drive, Natick MA 01760-2098, 2008. [7]L.Lores,Anlisisacsticodelsonidorespiratoriotraquealdurantelasmaniobras deespiracinforzada.Comparacinentresujetossanosypacientesafectosde asmabronquialdurantelapruebabroncodilatadora,pp.29-52,Barcelona,11 octubre 2002. [8]H.Pansterkamp,S.S.Kraman,G.R.Wodicka,RespiratorySounds.Advances BeyondtheStethoscope,AmericanJournalofRespiratoryandCriticalCare Medicine, vol. 156, pp. 974-984, 1997. [9]A.R.A.Sovijrvi,L.P.Malmberg,G.Charbonneau,J.Vanderschoot,F. Dalmasso, C. Sacco, M. Rossi, J. E. Earis, Characteristics of breath sounds and adventitiousrespiratorysounds,EuropeanRespiratoryReview,10:77,pp.591-595, 2000. [10] 3MLittmanEstetoscopios,Sonidosdecoraznypulmn, http://solutions.3m.com.ar/wps/portal/3M/es_AR/Littmann/stethoscope/education/heart-lung-sounds/, 2009. [11] J. M. Huidrobo, R. Conesa, Sistemas de Telefona, Paraninfo, Thomson, pp. 294-297, 2006. [12] A. S. Tanenbaum, Redes de Computadoras, Pearson, Prentice Hall, pp. 680-683, 2003. [13] F. Ohrtman, Voice over 802.11, Artech House, pp. 28-29, 2004. 56 [14] RecomendacionesUIT-T,Sistemasyequiposterminalesvideotelefnicosde banda estrecha, UIT- T H.320, pp. 1-3, Ginebra, marzo 2004. [15] RecomendacionesUIT-T,Sistemasdecomunicacinmultimediabasadosen paquetes, UIT-T H.323, pp. 1-30, Ginebra, junio 2006. [16] D. Salomon, Data compression: The Complete Reference, Springer, pp. 1-13, 719-734, 2007. [17] B.Khasnabish,ImplementingVoiceoverIP,JohnWiley&SonsInc.,pp.49-58, 2003. [18] N. Abramson, Teora de la Informacin y Codificacin, Paraninfo, pp. 15-56, 1981. [19] RecomendacionesUIT-T,Modulacinporimpulsoscodificados(MIC)de frecuencias vocales, UIT-T G.711, Ginebra, noviembre 1988. [20] RecomendacionesUIT-T,Extensinincorporadadebandaanchaparala modulacin por impulsos codificados, UIT-T G.711.1, Ginebra, marzo 2008. [21] Recomendaciones UIT-T, Codificacin de audio de 7 kHz dentro de 64 kbit/s, UIT-T G.722, Ginebra, noviembre 1988. [22] Recomendaciones UIT-T, Cdec de voz de doble velocidad para la transmisin en comunicacionesmultimediosa5,3y6,3kbit/s,UIT-TG.723.1,Ginebra,mayo 2006. [23] RecomendacionesUIT-T,Modulacinporimpulsoscodificadosdiferencial adaptativa (MICDA) a 40, 32, 24, 16 kbit/s, UIT-T G.726, Ginebra, diciembre 1990. [24] RecomendacionesUIT-T,Codificacindesealesvocalesa16kbit/sutilizando prediccin lineal con excitacin por cdigo de bajo retardo, UIT-T G.728, Ginebra, octubre 1992. [25] RecomendacionesUIT-T,Codificacindelavoza8 kbit/smedianteprediccin lineal con excitacin por cdigo algebraico de estructura conjugada, UIT-T G.729, Ginebra, enero 2007. [26] J. M. Valin, The Speex Codec Manual, 2007. [27] Xiph Org. Foundation, Vorbis I Specification, 2 junio 2009. [28] Wikipedia,Modifieddiscretecosinetransform, http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform, noviembre 2009. [29] CESNET,OggVorbis:Subjectiveassessmentofsoundquality, http://www.cesnet.cz/doc/techzpravy/2006/vorbis/, diciembre 2006. [30] ACE-HIGHMP3WAVWMAOGGConverter,Trialversion,Version3.20, http://www.audio-converter.com/, 2003. [31] A.Fernandez,Vorbisoggaudioencoding/decoding,Matlab6.0Toolbox,febrero 2006. 57 [32] InstitutodeInvestigacinyDesarrolloQumico-BiolgicoIQM,Medciclopedia, http://www.iqb.es/diccio/diccio1.htm, 2007. 58 GLOSARIO DE TRMINOS MDICOS Asma:desordeninflamatoriocrnicodelasvasrespiratoriasenelcualmuchas clulasyelementoscelularesjuegandiversospapeles,enparticularlosmastocitos, eosinfilos,linfocitosT,neutrfilosyclulasepiteliales.Enlossujetossusceptibles, estainflamacincausaepisodiosrecurrentesdejadeos,dificultadesrespiratorias, opresin en el pecho y tos, en particular por la noche y por la maana temprano. Estos episodiosestnusualmenteasociadosaunaobstruccinampliaperovariabledelas vasrespiratorias,amenudoreversibleespontneamenteoconuntratamiento.Esta inflamacintambinocasionaunaumentoasociadodehipersusceptibilidadbronquial a una variedad de estmulos [32]. Aurcula:cadaunadelasdoscavidadessuperioresdelcorazn,aurculaderechay aurcula izquierda que reciben la sangre de las venas [32]. Chasquido:ruidobreve,secoysbito.Puedeserarticular,valvular,rtmico,dentario, etc. [32]. Coartacinartica:malformacincardacacongnitacaracterizadaporun estrechamientolocalizadodelaaortaqueproduceunaumentodelapresinenla zona proximal al defecto y una disminucin de la presin en la zona distal a ste [32]. Crujido: ruido producido cuando dos cuerpos rozan uno con el otro [32]. Defecto septal: problema cardaco congnito en el cual existe un hoyo en la pared que separa las cmaras del corazn [32]. Desdoblamiento(delosruidoscardacos):faltadesincronismoenlosruidos producidos por las vlvulas en ambos lados del corazn [32]. Edemapulmonar:infiltracindeserosidadeneltejidopulmonar;enfermedad frecuentementemortal,caracterizadaporlaexpectoracinespumosarosada, descensoconsiderabledelatensinsanguneayasistoliaaguda.Seobserva generalmentecomocomplicacindelaenfermedaddeBrightydelainsuficiencia cardaca, y en algunas intoxicaciones [32]. 59 Enfisema:estadodeuntejidodistendidodebidoalapresenciadeaireeneltejido celular subcutneo o pulmonar [32]. Estenosis:estrechezpatolgicacongnitaoadquiridadeunvaso,orificiooconducto [32]. Estridor: sonido agudo parecido a un silbido [32]. Eyeccin:expulsinforzadadealgo,enparticularlasangredesdeunventrculodel corazn [32]. Insuficiencia artica: trastorno caracterizado por el flujo retrgrado de la sangre desde la aorta al ventrculo izquierdo [32]. Orofaringe: porcin bucal de la faringe o garganta; es la regin anatmica posterior de la boca, se extiende desde el paladar blando hasta el hueso hioides e incluye el tercio posterior de la lengua [32]. Regurgitacin: flujo retrgrado de la sangre de una vlvula cardaca defectuosa [32]. Ronquido:ruidoproducidoporlavibracindelvelodelpaladarduranteelsueo,en particular durante la inspiracin [32]. Silbido: ruido que hace el aire al pasar por un conducto estrecho [32]. Vlvulascardacas:soncinco,cuatroenlapartesuperior:lavlvulamitralentrela aurcula y el ventrculo izquierdo; la tricspide entre la aurcula y el ventrculo derecho; laarticaalaentradadelaaorta;ylapulmonardelaarteriapulmonar(estasdos ltimassellamantambinvlvulassigmoideasosemi-lunares);ylavlvulade Eustaquio entre el borde anterior de la vena cava inferior y el orificio auriculoventricular derecho [32]. Ventrculo: vientre o cavidad pequea [32]. 60 ANEXOS ANEXOA:ESQUEMADELAAPLICACINDETELEMEDICINA,UTILIZANDOUN CDEC DE COMPRESIN DE SONIDO. Figura A.1 Esquema de la aplicacin de telemedicina, utilizando un cdec de compresin de sonido1.

1 Grficos tomados de: http://www.win-health.com/actinic/acatalog/electronic_stethoscopes.html http://es.wikipedia.org/wiki/Archivo:Computer-aj_aj_ashton_01.svg 61 ANEXO B: CDIGOS EN MATLAB B.1CDIGOENMATLABPARAELANLISISGRFICODESONIDOS ESTETOSCPICOS Elcdigoutilizadoparaelanlisisdelossonidosestetoscpicospregrabadosleeun archivodeformatowavygraficasuformadeonda,espectrogramaydensidadde potenciaespectral.Elsiguientecdigoeselutilizadoparaanalizarelsonidodela anomala chasquido de apertura. Para el anlisis de los sonidos respiratorios se obvi lagrficadeformadeondadebidoaquenoproporcionainformacinfcilmente apreciable. Cdigo: [6] %Lectura del sonido de extensin .wav FILEWAV = 'Chasquido de apertura.wav'; [resp, Fs] = wavread(FILEWAV);

%Figuras figure (1) t=(1:length(resp))/Fs; plot(t,real(resp)) axis('tight') xlim([0.7 1.4]) xlabel('Tiempo [seg]') ylabel('Amplitud') title('Ruido Anormal Chasquido de Apertura')

figure (2)[S,F,T,P] = spectrogram(resp,512,256,512,Fs,'yaxis'); surf(T,F,10*log10(abs(P)),'edgecolor','none') colormap(jet); axis tight; ylim([0 1000]); xlim([0.7 1.4]) view(0,90); xlabel('Tiempo [seg]') ylabel('Frecuencia [Hz]') title('Espectrograma Ruido Anormal Chasquido de Apertura')

figure (3) periodogram(resp,[],'twosided',512,Fs); xlim([0 4]) title('Densidad de potencia espectral Ruido Anormal Chasquido de Apertura') xlabel('Frecuencia [kHz]') ylabel('Potencia [dB/Hz]')

clear all 62 B.2CDIGOENMATLABPARALACOMPARACINGRFICADESONIDOS ESTETOSCPICOS UTILIZANDO FORMATOS WAV Y OGG El cdigo utilizado para la comparacin entre los sonidos estetoscpicos pregrabados de formato wav y ogg, grafica sus forma de onda, y densidad de potencia espectral. El siguiente cdigo es el utilizado para comparar el sonido de un corazn normal. Para el anlisisdelsonidorespiratorionormaltraquealseobvilagrficadeformadeonda debido a que no proporciona informacin fcilmente apreciable. Cdigo: [6,31] %Lectura del sonido de extensin .wav FILEWAV = 'normal.wav'; [resp, Fs] = wavread(FILEWAV);

%Lectura del sonido de extensin .ogg FILE = 'normal1';%lectura del sonido de extensin .ogg fs=8000Hz 8kbits/s [Y1,FS1,NBITS,encoding_info,tag_info] = OGGREAD(FILE); FILE = 'normal2';%lectura del sonido de extensin .ogg fs=8000Hz 16kbits/s [Y2,FS2,NBITS,encoding_info,tag_info] = OGGREAD(FILE); FILE = 'normal3';%lectura del sonido de extensin .ogg fs=8000Hz 24kbits/s [Y3,FS3,NBITS,encoding_info,tag_info] = OGGREAD(FILE);

%Figuras figure (1)t=(1:length(resp))/Fs; plot(t,real(resp), 'b-') hold on; t2=(1:length(Y1))/FS1; plot(t2,real(Y1), 'r-') axis('tight') xlim([0.1 0.6]) xlabel('Tiempo [seg]') ylabel('Amplitud') title('Corazn Normal')

figure (2) [S,F,T,P] = spectrogram(resp1,512,256,512,Fs,'yaxis'); surf(T,F,10*log10(abs(P)),'edgecolor','none') colormap(jet); axis tight; xlim ([0.8 1.5]); ylim([0 4000]) view(0,90); xlabel('Tiempo [seg]') ylabel('Frecuencia [Hz]') title('Espectrograma Corazn Normal')

figure (3) periodogram(resp,[],'twosided',512,Fs); hold on periodogram(Y1,[],'twosided',512,FS1); hold on 63 periodogram(Y2,[],'twosided',512,FS2); hold on periodogram(Y3,[],'twosided',512,FS3); xlim([0 4]) title('Densidad de potencia espectral Corazn Normal') xlabel('Frecuencia [kHz]') ylabel('Potencia [dB/Hz]')

clear all 64 ANEXOC:COMPARACINDELASCARACTERSTICASDESONIDOS CARDACOS Y PULMONARES Tabla C.1 Comparacin de las caractersticas de los sonidos cardacos SonidoFrecuenciainicial(Hz)Frecuenciafinal(Hz)Anchodebanda(Hz)Tiempoinicial(ms)Tiempofinal(ms)Duracindeanomala(ms)ClicdeEyeccin 0 400 400 10 600 590ChasquidodeApertura0 500 500 500 1000 500Coartacinartica50 375 325 5 510 505EstenosisMitral 50 500 450 10 900 890EstenosisArtica 50 250 200 700 1300 600EstenosisPulmonar50 225 175 5 560 555InsuficienciaArtica50 230 180 10 800 790CoraznNormal 50 250 200 100 600 500RegurgitacinMitral50 200 150 20 800 780RegurgitacinTricuspdea50 250 200 300 1000 700DefectoSeptalAtrial50 350 300 0 670 670DefectoSeptalVentricular50 230 180 49 411 362Valoresmximos 500 500 890 Tabla C.2 Comparacin de las caractersticas de los sonidos pulmonares SonidoFrecuenciainicial(Hz)Frecuenciafinal(Hz)Anchodebanda(Hz)Tiempoinicial(ms)Tiempofinal(ms)Duracindeanomala(ms)Tiempoinicialderespiracin(ms)Tiempofinalderespiracin(ms)Tiempototalderespiracin(ms)Chillido01100110060080020020020001800Crujido0150015001400170030020016001400Estridor013001300400650250160970810NormalBronquial010001000N/AN/AN/A015001500NormalTraqueal016001600N/AN/AN/A013001300Silbido01200120040065025040700660Valoresmximos160016003001800