Decodificador de vídeo MPEG-2 en Matlab y análisis del bitstream

download Decodificador de vídeo MPEG-2 en Matlab y análisis del bitstream

of 138

Transcript of Decodificador de vídeo MPEG-2 en Matlab y análisis del bitstream

  • ESCUELA SUPERIOR DE INGENIEROS DEPARTAMENTO DE TEORA DE LA SEAL Y COMUNICACIONES

    PROYECTO FIN DE CARRERA

    Decodificador de vdeo MPEG-2 en Matlab y

    anlisis del bitstream

    Autor: Elena Aguilar Fernndez

    Tutor: Jos Ramn Cerquides Bueno

    Sevilla - Junio 2008

  • PROYECTO FIN DE CARRERA

    Decodificador de vdeo MPEG-2 en MATLAB y

    anlisis del bitstream

  • UNIVERSIDAD DE SEVILLA

    ESCUELA SUPERIOR DE INGENIEROS

    Ingeniero de Telecomunicacin PROYECTO FIN DE CARRERA:

    Decodificador de vdeo MPEG-2 en

    MATLAB y anlisis del bitstream

    Autor: Elena Aguilar Fernndez

    Tutor: Jos Ramn Cerquides Bueno

    Sevilla Junio 2008

  • Resumen Decodificador vdeo MPEG-2

    PREFACIO

    En la actualidad, el vdeo digital es algo cotidiano en nuestras vidas, tanto en su

    reproduccin y almacenamiento, como para su transmisin a travs de distintos medios

    de comunicacin. Es en esta ltima aplicacin donde surge una clara necesidad de

    comprimir la informacin. Por esto, y como ha sucedido para las imgenes estticas y

    para la informacin de audio, han surgido varios estndares de codificacin (MJPEG,

    MPEG-1, MPEG-2, MPEG-4, etc).

    En este proyecto nos centraremos en uno de los estndares ms extendidos como es el

    caso de MPEG-2 [1] [2] [3]. Comenzaremos el proceso con un anlisis de las tcnicas de

    compresin generales empleadas en compresores de vdeo. En segundo lugar

    continuaremos con un estudio detallado de la estructura del vdeo comprimido MPEG-2

    [1] y la forma de convertir la informacin en un flujo de bits. Finalmente, se desarrolla una

    aplicacin en MATLAB que realiza dos tares principales: el demultiplexado de la

    informacin de vdeo, y la decodificacin de sta cumpliendo la recomendacin MPEG-2

    [2].

  • ndice Decodificador vdeo MPEG-2

    I

    NDICE DE CONTENIDOS .................................................................................... II

    NDICE DE FIGURAS ............................................................................................ V

    NDICE DE TABLAS............................................................................................ VII

    NDICE DE ECUACIONES ................................................................................. VIII

  • ndice de contenidos Decodificador vdeo MPEG-2

    II

    NDICE DE CONTENIDOS

    1 INTRODUCCIN ............................................................................................ 1 1.1 Introduccin .......................................................................................................1 1.2 Conceptos de vdeo digital ...............................................................................2

    1.2.1 Formatos de vdeo digital ............................................................................................. 6 1.2.2 Codificacin de la seal de vdeo digital ...................................................................... 9

    1.3 Necesidad de compresin ..............................................................................10 1.4 Motivaciones ....................................................................................................11 1.5 Objetivos...........................................................................................................12 1.6 Organizacin de la memoria ...........................................................................13

    2 TCNICAS DE COMPRESIN DE LA SEAL DE VDEO.......................... 15 2.1 Sistemas de compresin.................................................................................15 2.2 Tcnicas de compresin de imgenes ..........................................................17

    2.2.1 Redundancia espacial ................................................................................................ 17 2.2.2 Redundancia estadstica ............................................................................................ 23 2.2.3 Redundancia temporal ............................................................................................... 24

    3 CONCEPTOS BSICOS DE MPEG (Moving Pictures Experts Group) .... 29 3.1 Introduccin .....................................................................................................29 3.2 Historia..............................................................................................................30 3.3 El estndar MPEG-2.........................................................................................33

    3.3.1 Organizacin de la norma ISO/IEC 13818 ................................................................. 34 3.3.2 Perfiles y Nivles .......................................................................................................... 36

    3.4 Aspectos generales .........................................................................................37 3.4.1 Jerarqua de un vdeo en MPEG-2............................................................................. 39 3.4.2 Procesamiento temporal............................................................................................. 40 3.4.3 Divisin de una imagen en slices ............................................................................... 42 3.4.4 Formatos de crominancia ........................................................................................... 44 3.4.5 Reduccin de redundancia espacial........................................................................... 45 3.4.6 Representacin del movimiento macrobloques ...................................................... 45 3.4.7 Codificacin de vdeo entrelazado ............................................................................. 46

    3.5 Proceso de codificacin..................................................................................46 3.5.1 Descomponer imagen en bloques.............................................................................. 47 3.5.2 DCT ............................................................................................................................ 48 3.5.3 Cuantificador variable................................................................................................. 48 3.5.4 Escaneo en Zig-Zag ................................................................................................... 50 3.5.5 Codificacin entrpica ................................................................................................ 51 3.5.6 Compensacin de movimiento ................................................................................... 52

  • ndice de contenidos Decodificador vdeo MPEG-2

    III

    3.6 Resumen codificacin imgenes I .................................................................55 3.7 Resumen codificacin imgenes P................................................................56 3.8 Resumen codificacin imgenes B................................................................56 3.9 Peculiaridades de vdeo entrelazado .............................................................57

    3.9.1 Divisin en macrobloques .......................................................................................... 57 3.9.2 Escaneo coeficientes transformados.......................................................................... 58 3.9.3 Compensacin de movimiento ................................................................................... 59

    4 CAPA DE SISTEMA ..................................................................................... 62 4.1 Multiplexaje y sintaxis .....................................................................................62 4.2 Program Stream ...............................................................................................65 4.3 Transport Stream .............................................................................................67 4.4 Temporizacin..................................................................................................68

    5 CAPA DE AUDIO ......................................................................................... 70 5.1 Conceptos bsicos de seal de audio...........................................................70

    5.1.1 Necesidad de compresin .......................................................................................... 70 5.1.2 Tcnicas de compresin de audio.............................................................................. 70

    5.2 Proceso de codificacin en MPEG-2..............................................................72 5.2.1 Capa 1 ........................................................................................................................ 74 5.2.2 Capa 2 ........................................................................................................................ 74 5.2.3 Capa 3 ........................................................................................................................ 74

    6 CAPA DE VDEO.......................................................................................... 75 6.1 Estructura de datos de vdeo codificados.....................................................75

    6.1.1 Jerarqua de la capa bsica ....................................................................................... 75 6.1.2 Cdigos de comienzo ................................................................................................. 76 6.1.3 Reglas semnticas para estructuras sintcticas ms altas........................................ 77

    6.2 Sintaxis y semntica del bitstream de vdeo.................................................80 6.2.1 Video Sequence ......................................................................................................... 81 6.2.2 Group of Pictures........................................................................................................ 83 6.2.3 Picture......................................................................................................................... 84 6.2.4 Slice ............................................................................................................................ 86 6.2.5 Macroblock ................................................................................................................. 87 6.2.6 Block ........................................................................................................................... 90

    6.3 Extensiones escalables...................................................................................91 6.3.1 Extensin escalable espacial ..................................................................................... 92 6.3.2 Extensin escalable SNR ........................................................................................... 92 6.3.3 Extensin escalable temporal..................................................................................... 93 6.3.4 Extensin de particin de datos ................................................................................. 93

    7 DESARROLLO DEL DECODIFICADOR...................................................... 95 7.1 Funcionalidad...................................................................................................95

    7.1.1 Demultiplexor.............................................................................................................. 95 7.1.2 Decodificador.............................................................................................................. 96

  • ndice de contenidos Decodificador vdeo MPEG-2

    IV

    7.2 Estudio de tiempos........................................................................................116 7.2.1 Compresin frente a velocidad de decodificacin.................................................... 116 7.2.2 Reparto de tiempo en el proceso de decodificacin ................................................ 119

    8 CONCLUSIONES ....................................................................................... 120 8.1 Conclusiones .................................................................................................120 8.2 Objetivos cumplidos......................................................................................121 8.3 Lneas futuras de investigacin ...................................................................122

    REFERENCIAS.................................................................................................. 123

    GLOSARIO ........................................................................................................ 125

  • ndice de figuras Decodificador vdeo MPEG-2

    V

    NDICE DE FIGURAS

    Figura 1.1 Divisin de la imagen en dos campos entrelazados .............................................................. 3 Figura 1.2 Muestreo espacial y temporal de la secuencia de vdeo ....................................................... 4 Figura 1.3 Retcula de muestreo rectangular para la digitalizacin de las imgenes .......................... 4 Figura 1.4 Versiones de una misma imagen con distintas resoluciones ............................................... 5 Figura 1.5 Distribucin espacial de las muestras de luminancia y croma en el formato 4:2:2 ........... 7 Figura 1.6 Distribucin de las componentes de luminancia y croma en el formato 4:2:0 ................... 7 Figura 1.7 Etapas en la codificacin y transmisin de una seal de vdeo digital................................ 9 Figura 2.1 Proceso general de codificacin y decodificacin de la informacin ................................. 15 Figura 2.2 Proceso general de codificacin y descodificacin de imgenes mediante la transformada coseno ................................................................................................................................... 18 Figura 2.3 Ejemplo numrico y grfico de la transformada discreta del coseno ................................ 22 Figura 2.4 Ejemplo de dos fotogramas seguidos y su diferencia.......................................................... 24 Figura 2.5 Ejemplo de bloques utilizados para realizar la prediccin en codificacin diferencial .... 25 Figura 2.6 Ejemplo del bloque utilizado para la prediccin en una codificacin por compensacin de movimiento ............................................................................................................................................... 26 Figura 2.7 Clculo del vector de movimiento para la compensacin de movimiento......................... 27 Figura 3.1 Modelo de la capa de Sistema de MPEG-2........................................................................... 35 Figura 3.2 Esquema codificador y decodificador MPEG-2..................................................................... 38 Figura 3.3 Estructura jerrquica del vdeo MPEG ................................................................................... 39 Figura 3.4 Ejemplo de estructura de imagen temporal ........................................................................... 41 Figura 3.5 Reordenacin de imgenes (GOP N=9, M=3) ...................................................................... 42 Figura 3.6 Estructura slice general ............................................................................................................ 43 Figura 3.7 Estructura slice restringida ....................................................................................................... 43 Figura 3.8 Bloques en el formato 4:2:0 ..................................................................................................... 44 Figura 3.9 Bloques en el formato 4:2:2 ..................................................................................................... 44 Figura 3.10 Bloques en el formato 4:4:4 ................................................................................................... 45 Figura 3.11 Diagrama del proceso de codificacin en MPEG-2............................................................ 47 Figura 3.12 Entrada y salida descomposicin en bloques NxN ............................................................ 47 Figura 3.13 Bloques en el formato 4:2:0 ................................................................................................... 47 Figura 3.14 Entrada y salida DCT bidimensional .................................................................................... 48 Figura 3.15 Entrada y salida cuantificador variable................................................................................. 48 Figura 3.16 Matriz de cuantificacin para luminancia y crominancia W(v,u)....................................... 49 Figura 3.17 Ejemplo de cuantificacin de un bloque............................................................................... 50 Figura 3.18 Entrada y salida escaneo Zig-Zag ........................................................................................ 50 Figura 3.19 Matriz de escaneo zig-zag ..................................................................................................... 51 Figura 3.20 Entrada y codificacin entrpica ........................................................................................... 51 Figura 3.21 Prediccin de trama en imgenes de trama........................................................................ 54 Figura 3.22 Prediccin de campo en imgenes de trama ...................................................................... 54 Figura 3.23 Prediccin Dual-prime en imgenes de trama .................................................................... 55 Figura 3.24 Esquema de codificacin de las imgenes I ....................................................................... 55 Figura 3.25 Esquema de codificacin de las imgenes P...................................................................... 56 Figura 3.26 Esquema de codificacin de las imgenes B...................................................................... 57 Figura 3.27 Divisin en bloques de un macrobloque para imgenes progresivas y entrelazadas .. 58 Figura 3.28 Matriz de escaneo alternada.................................................................................................. 59 Figura 3.29 Prediccin de campo en imgenes de campo .................................................................... 60 Figura 3.30 Prediccin 16x8 en imgenes de campo ............................................................................. 60 Figura 3.31 Prediccin Dual-prime en imgenes de campo .................................................................. 61 Figura 4.1 Compresin MPEG-2 de la seal de vdeo digital ................................................................ 62 Figura 4.2 Conversin de ES a PES ......................................................................................................... 63 Figura 4.3 Esquema del proceso de generacin y decodificacin del PS y TS.................................. 64

  • ndice de figuras Decodificador vdeo MPEG-2

    VI

    Figura 4.4 Estructura del Program Stream ............................................................................................... 65 Figura 4.5 Divisin de un PES en TS packets ......................................................................................... 67 Figura 5.1 Esquema de un codificador de subbanda.............................................................................. 71 Figura 5.2 Esquema de un decodificador de subbanda ......................................................................... 71 Figura 5.3 Esquema de un codificador de audio MPEG......................................................................... 73 Figura 5.4 Esquema de un decodificador de audio MPEG .................................................................... 73 Figura 6.1Estructura jerrquica del tren de bits de vdeo ....................................................................... 76 Figura 6.2 Organizacin del tren de bits de alto nivel ............................................................................. 79 Figura 7.1 Diagrama de flujo del demultiplexor........................................................................................ 96 Figura 7.2 Reparto de tiempos considerando mismo tiempo de decodificacin............................... 117 Figura 7.3 Reparto de tiempos real ......................................................................................................... 118 Figura 7.4 Reparto de memoria ocupada ............................................................................................... 118 Figura 7.5 Reparto de tiempo en el proceso de decodificacin .......................................................... 119

  • ndice de tablas Decodificador vdeo MPEG-2

    VII

    NDICE DE TABLAS

    Tabla 1.1 Caractersticas bsicas de los sistemas PAL y NTSC ............................................................ 3 Tabla 1.2 Comparacin entre formatos digitales ....................................................................................... 9 Tabla 3.1 Caractersticas de los perfiles de MPEG-2 ............................................................................. 37 Tabla 3.2 Resoluciones mximas de los niveles de MPEG-2 ............................................................... 37 Tabla 3.3 Combinaciones recomendadas Perfil/Nivel y Mximo bitrate (Mbps)................................. 37 Tabla 6.1 Valores de cdigo de comienzo................................................................................................ 77 Tabla 6.2 Cdigos de identificador de cdigo de comienzo de extensin ........................................... 80 Tabla 6.3 Significado de chroma_format .................................................................................................. 82 Tabla 6.4 Nmero de bloques en funcin de chroma_format................................................................ 82 Tabla 6.5 Estructura time_code.................................................................................................................. 83 Tabla 6.6 Tipo de codificacin de imagen ................................................................................................ 84 Tabla 6.7 Precisin coeficientes DC intracodificados ............................................................................. 85 Tabla 6.8 Significado de picture_structure................................................................................................ 85 Tabla 6.9 Significado frame_motion_type................................................................................................. 88 Tabla 6.10 Siginficado field_motion_type ................................................................................................. 89 Tabla 6.11 Relacin entre intra_dc_precision y el valor de reiniciacin del predictor........................ 90 Tabla 6.12 Seleccin de tablas VLC de coeficientes DC ....................................................................... 91 Tabla 7.1 Tiempos y espacio en memoria de decodificacin en un GOP ......................................... 117

  • ndice de ecuaciones Decodificador vdeo MPEG-2

    VIII

    NDICE DE ECUACIONES

    Ecuacin 2.1 Transformada discreta del coseno 2D............................................................................... 21 Ecuacin 2.2 Transformada inversa discreta del coseno 2D................................................................. 21 Ecuacin 3.1 Obtencin de los coeficientes cuantificados..................................................................... 50

  • Introduccin Decodificador vdeo MPEG-2

    1

    1 INTRODUCCIN

    1.1 Introduccin

    Actualmente nos encontramos en una poca en la que prcticamente todo tratamiento de

    informacin que imaginemos se hace mediante un dispositivo con funcionamiento digital.

    Podemos ver como a lo largo de la ltima dcada, se han ido sustituyendo los mtodos

    de adquisicin, almacenaje y reproduccin de cualquier tipo de informacin. As por

    ejemplo, las cmaras fotogrficas, videocmaras, reproductores de msica, grabadoras,

    etc, han sido reemplazadas por sus homlogos digitales con las diferencias que esto

    conlleva.

    La digitalizacin de seales analgicas aporta considerables ventajas entre las que

    podemos citar la proteccin frente a ruidos, la facilidad para encriptar las seales, la

    posibilidad de procesar digitalmente los datos, el poder enviar las seales digitales a

    grandes distancias, as como la gran capacidad de almacenamiento que en medios

    digitales encontramos y que aumenta a velocidad vertiginosa. No obstante, por lo

    general, la digitalizacin supone un aumento considerable del ancho de banda. A pesar

    de esto, el gran desarrollo experimentado por las tecnologas de la informacin en los

    ltimos tiempos ha provocado, entre otros avances, un incremento de las comunicaciones

    digitales. El procesamiento digital de seales adquiere un inters especial, puesto que es

    la base para plataformas tales como Internet, multimedia, televisin digital y sonido

    digital. La posibilidad de transmitir vdeo digital se presentaba como algo muy lejano hace

    unos aos. Incluso se lleg a pensar que su introduccin no se lograra hasta bien

    entrado el siglo XXI [13].

    Lo que hizo cambiar esta percepcin fue la aparicin de eficaces algoritmos de

    compresin de vdeo, que reducan de manera significativa el flujo necesario para la

    transmisin de imgenes.

    Para comprender la necesidad de algoritmos compresores necesitaremos primero unas

    nociones bsicas sobre el vdeo digital sin comprimir. Por esto, en el siguiente captulo

    haremos una introduccin al vdeo digital., hablando de los principales formatos

    existentes y de las etapas en el proceso de codificacin. A continuacin, expondremos la

    necesidad de compresin de una forma razonada. Por ltimo encontraremos las

  • Introduccin Decodificador vdeo MPEG-2

    2

    motivaciones que nos han llevado ha desarrollar este proyecto y los objetivos propuestos

    en su comienzo. Adems, se incluye un apartado con la organizacin del resto de la

    memoria.

    1.2 Conceptos de vdeo digital

    El vdeo es una captura, grabacin, almacenamiento, y reconstruccin de una secuencia

    de imgenes que representan escenas en movimiento. Tanto el cine, la televisin y el

    vdeo domstico estn basados, entre otros, en un fenmeno conocido como

    persistencia de la visin. Dicho fenmeno consiste en una imperfeccin del ojo humano,

    por el cual toda imagen que visualice se queda almacenada en la retina durante una

    fraccin de segundo. De esta forma, si al ojo humano se le muestra una rpida sucesin

    de imgenes, tender a unirlas, y si stas son muy similares, con pequeos cambios y se

    exponen a una velocidad adecuada, el cerebro las reconoce como imgenes en

    movimiento.

    El vdeo surge como una tecnologa ntimamente ligada a la televisin, pues naci como

    auxiliar de sta para evitar que toda la programacin fuera en directo, facilitando el

    trabajo de grabacin, la planificacin de horarios, el almacenaje de programas y la

    reproduccin de los mismos. Por esto actualmente, cualquier formato de vdeo tiene

    herencias de este sistema.

    La innovacin en el registro de imgenes visuales y auditivas en este formato, comienza

    a finales de los aos 50 e inicios de los 60. Entre 1965 y 1978 se consolida como un

    medio con singularidad y aplicaciones propias y empieza a ser independiente de la

    produccin televisiva.

    Una fecha importante en la historia de este medio es 1964, durante los Juegos Olmpicos

    de Tokio, ao en el que se hace la primera emisin diferida de la transmisin en directo

    de este acontecimiento.

    En 1965 se efecta el primer vdeo personal con una intencin artstica, cuando el

    coreano Nam June Pail film la visita del Papa Pablo VI a Nueva York desde la ventanilla

    de un taxi.

    Posteriormente, en 1968. la Sony Corporation produce el portpack, primera cmara

    porttil comercializada, y en ese mismo ao ocurre que Jean Louis Godard graba la

  • Introduccin Decodificador vdeo MPEG-2

    3

    revuelta francesa de estudiantes por la maana (hecho conocido como el Mayo Francs),

    y es visto por la noche en una librera francesa [19].

    Como hemos dicho, el vdeo y la televisin se relacionan y se pueden considerar medios

    complementarios. Por esto, para estudiar la transicin entre vdeo analgico y vdeo

    digital tomaremos como ejemplo la seal analgica empleada en televisin.

    La seal analgica de televisin est compuesta de imgenes. Como hemos dicho, para

    crear la sensacin de movimiento dichas imgenes deben cambiar cada cierto tiempo de

    forma que el ojo no lo perciba (25 imgenes por segundo en PAL, y 30 en NTSC). A su

    vez, cada imagen est formada por lneas (625 lneas para un televisor PAL, 525 para un

    televisor NTSC), pero una imagen digital est compuesta de pxeles. Las principales

    caractersticas de estos dos sistemas se detallan en la siguiente tabla.

    IMAG/S CAMP/S LINEAS/IMAG TLINEA FLINEA TIMAGEN FIMAGEN TCAMPO FCAMPO

    PAL B/G 25 50 625 64 s 15625 Hz 40 ms 25 Hz 20 ms 50 Hz

    NTSC 30 60 525 63,56 s 15734 Hz 33,33 ms 29,97 Hz 16,66 ms 60 Hz

    Tabla 1.1 Caractersticas bsicas de los sistemas PAL y NTSC

    Puesto que ms adelante hablaremos del vdeo entrelazado introducimos aqu algunos

    conceptos. Consiste en realizar una doble exploracin entrelazada de las lneas de cada

    imagen como se muestra en la figura 1.1. La imagen se divide en dos subimgenes o

    campos explorando alternativamente las lneas pares y las impares. La proximidad entre

    lneas consecutivas hace que el espectador integre las dos subimgenes y obtenga la

    sensacin de que stas se estn renovando a una frecuencia doble de la real. Con ello se

    consigue eliminar un fenmeno de parpadeo que apareca con la exploracin normal.

    Figura 1.1 Divisin de la imagen en dos campos entrelazados

  • Introduccin Decodificador vdeo MPEG-2

    4

    Para la digitalizacin de esta seal de vdeo se hace un muestreo de cada una de las

    imgenes (muestreo temporal) en filas y columnas (muestreo espacial) tal y como se

    representa en la figura 1.2.

    Figura 1.2 Muestreo espacial y temporal de la secuencia de vdeo

    Si consideramos una seal analgica en blanco y negro (solo tiene informacin de la

    luminancia, es decir, del nivel de gris en cada punto) y tomamos muestras

    equiespaciadas en cada una de sus lneas, se obtendr un muestreo de la imagen con

    estructura rectangular (cada cuadro de televisin guarda una relacin de aspecto

    rectangular 4/3), en la que cada muestra representa los valores de luminancia obtenidos

    como se representa en la figura 1.3.

    Figura 1.3 Retcula de muestreo rectangular para la digitalizacin de las imgenes

  • Introduccin Decodificador vdeo MPEG-2

    5

    De este modo, la imagen digital puede tratarse como una matriz u[n,m]. Cada una de

    estas muestras sern los llamados elementos de imagen o pxeles. El nmero de

    muestras que se toman en cada lnea de la imagen debe guardar una relacin con el

    nmero de lneas de cada imagen con objeto de que la resolucin en ambas direcciones

    tenga valores parecidos. As pues, como primera aproximacin, en un sistema como el

    europeo (PAL) que utiliza 575 lneas activas, el nmero de muestras tomadas en cada

    lnea debera ser de unas (4/3) x 575 = 766 muestras, donde hemos multiplicado por la

    relacin de aspecto para tener en cuenta que la imagen no es cuadrada. En la figura 1.4

    se muestran distintas versiones de la misma imagen muestreada con distintas

    resoluciones (en este caso cuadradas).

    Figura 1.4 Versiones de una misma imagen con distintas resoluciones

    Cada una de estas muestras de luminancia deber representarse con un nmero de bits

    o una profundidad. La experiencia emprica demuestra que el nmero mnimo de niveles

    a partir del que no se aprecia ninguna mejora en la calidad de las imgenes se sita entre

    los 45 y 60 por lo que bastara con 6 7 bits para codificarlos. Debido a que toda la

    estructura de las memorias est basadas en palabras de 8 bits, se decidi cuantificar los

    niveles de luminancia con 8 bits (256 niveles posibles).

    En el caso en que se trate de imgenes en color, puede optarse por muestrear las 3

    componentes de color RGB o bien la luminancia y las seales diferencia de color. En el

    primer caso, la resolucin de las tres imgenes debe ser la misma. En el segundo, es

    habitual muestrear las seales diferencia de color con una retcula de muestreo que

    incluya un menor nmero de muestras espaciales aunque con el mismo nmero de bits.

  • Introduccin Decodificador vdeo MPEG-2

    6

    1.2.1 Formatos de vdeo digital

    La primera norma que surge para la televisin digital ser la CCIR 601, que se encarga

    del muestreo de la seal, sin llevar a cabo ningn tipo de compresin. Puesto que se har

    referencia a este formato en el futuro, considero oportuno introducir algunos conceptos.

    Recomendacin 601

    En 1982, el ITU-R (anteriormente CCIR), en su recomendacin 601, desarroll un

    conjunto de especificaciones para seales de televisin digital en estudios de televisin o

    de produccin de vdeo.

    El objetivo de esta recomendacin era facilitar el intercambio de programas a escala

    internacional. Las recomendaciones definen muchos parmetros comunes entre el

    formato americano (NTSC) y europeo (PAL) con el objeto de que los fabricantes puedan

    incluir varios mdulos comunes en equipos para 525 y 625 lneas. El uso de este formato

    permite la interconexin entre distintos equipos digitales.

    Existen bsicamente dos variantes bsicas conocidas como 4:2:2 y 4:4:4, donde los

    dgitos indican la proporcin entre las muestras dedicadas a la luminancia (Y) y las

    dedicadas a las componentes de color (Cr y Cb, componentes diferencia).

    Las dimensiones de la componente de luminancia en los formatos 4:4:4 y 4:2:2 son de

    720x576 en los sistemas de 625/50 y de 720x480 en los de 525/30.

    El sistema ms utilizado es el 4:2:2, en el que estn codificadas la luminancia y las

    seales diferencia de color. El formato 4:4:4 puede utilizarse tambin con componentes

    RGB.

    En la figura 1.5 se muestra la disposicin de las muestras tomadas en el formato 4:2:2.

    Como se puede ver, las seales diferencia de color tienen la mitad de muestras en el

    sentido horizontal y el mismo que la luminancia en el sentido vertical.

  • Introduccin Decodificador vdeo MPEG-2

    7

    Figura 1.5 Distribucin espacial de las muestras de luminancia y croma en el formato 4:2:2

    Adems de las dos variantes bsicas 4:2:2 y 4:4:4, destaca tambin el formato 4:2:0 que

    es una simplificacin del 4:2:2. Se obtiene reduciendo a la mitad la frecuencia de

    muestreo de las componentes de croma en el sentido vertical. Con ello, se iguala la

    densidad de muestras de croma en las dos direcciones. Las muestras de croma se

    obtienen a partir de las muestras del formato 4:2:2, promediando dos filas consecutivas.

    En la figura 1.6 se muestra un ejemplo del muestreo de este formato.

    Figura 1.6 Distribucin de las componentes de luminancia y croma en el formato 4:2:0

    Formatos reducidos

    En algunas aplicaciones donde no resulta necesaria una excesiva calidad de la imagen

    de vdeo digital suelen emplearse reducciones sobre el tamao de la imagen. Con ello, se

  • Introduccin Decodificador vdeo MPEG-2

    8

    consigue una importante reduccin respecto a la tasa de bits original, que puede hacer

    factible la codificacin de la seal en soportes de baja densidad o canales de reducido

    ancho de banda.

    Uno de los formatos de vdeo reducido ms populares es el SIF (Source Intermediate

    Format) que, esencialmente, consiste en un submuestreo de factor dos del formato 4:2:0

    que se aplica tanto a las componentes de luminancia como de croma. Los tamaos de las

    matrices de luminancia para el formato SIF son de 360x288 para el estndar de 625

    lneas y 360x240 para el de 525 lneas. Las matrices de croma tambin se submuestrean

    en un factor 2 en cada direccin respecto las matrices de croma del 4:2:0 (180x144 para

    625 lneas y 180x120 para 525). Tambin se realiza una reduccin de la frecuencia de

    imagen a 25 Hz para el sistema europeo y a 30 Hz para el americano. Con ello, las

    imgenes resultantes no son entrelazadas. En estas condiciones, se obtiene una calidad

    equivalente al formato de vdeo analgico VHS.

    El formato CIF (Common Intermediate Format) es un compromiso entre el formato SIF

    para 625 y 525 lneas. Utiliza 360x288 muestras de resolucin de luminancia (europeo) y

    una frecuencia de refresco de 30 Hz (americano).

    Los formatos QSIF y QCIF (Quater) se obtienen reduciendo de nuevo la resolucin

    espacial en un factor 4 (factor 2 en cada direccin) y la resolucin temporal en un factor

    de 2 o 4. Estos formatos suelen utilizarse para la transmisin de seales de vdeo

    telefona con el estndar de compresin H.261 o para la transmisin de vdeo en directo

    por Internet. Los submuestreos espaciales se realizan filtrando las seales SIF (o

    directamente la 4:2:0). Las posiciones espaciales de las componentes de luminancia y

    croma resultantes son parecidas a las del formato SIF.

    Formatos de pxel cuadrado

    En aplicaciones informticas es conveniente que los pxeles tengan una relacin de

    aspecto cuadrada, ya que las tarjetas de visualizacin y los programas de tratamiento de

    imagen asumen esta propiedad. Por ello, es conveniente redefinir unos formatos

    alternativos para poder gestionar las seales de vdeo digital mediante ordenador. Los

    formatos utilizados en entornos informticos se suelen denominar formatos de pxel

    cuadrado y son equivalentes a los formatos que hemos considerado hasta ahora, con la

    salvedad de que se modifica el nmero de elementos por fila para forzar que la relacin

    de aspecto del pxel sea cuadrada. As, en el estndar de 625 lneas, el tamao de una

    imagen 4:2:0 ser de 768x576 pxeles (768 = (4/3) x 576) mientras que en el estndar de

  • Introduccin Decodificador vdeo MPEG-2

    9

    525 lneas tendremos un tamao de imagen de 640x480 pxeles (640 = (4/3) x 480). Este

    formato es conocido como VGA y, como vemos, proviene del estndar americano. El

    resto de formatos SIF, CIF y QCIF de pxel cuadrado se obtienen dividiendo las

    resoluciones espaciales por factores de dos. En la tabla 1.2 se comparan los tamaos de

    cada formato en las versiones de 625 lneas, 525 lneas y formatos cuadrados.

    Europeo TV Americano TV Eur. Cuadrado Amer. Cuadrado

    4:2:0 720x576 720x480 768x576 640x480 SIF 360x288 360x240 384x288 320x240 CIF 360x288 360x288 384x288 384x288 QSIF 180x144 180x120 192x144 160x120

    Tabla 1.2 Comparacin entre formatos digitales

    1.2.2 Codificacin de la seal de vdeo digital

    En la figura 1.7 se representan las distintas etapas conceptuales que intervienen en el

    proceso de codificacin de la seal de vdeo digital.

    Figura 1.7 Etapas en la codificacin y transmisin de una seal de vdeo digital

    La codificacin de fuente consiste en extraer toda la redundancia posible en la seal, reduciendo el nmero de bits con el que se representa la informacin sin

    que ello suponga una prdida aparente de calidad para el sistema visual humano.

    Los mtodos y estrategias empleados para la codificacin de fuente son muy

    variados, y resulta difcil establecer un procedimiento de compresin ptimo

    puesto que los resultados dependen, en gran medida, de las caractersticas de las

    seales. Generalmente los mtodos de compresin avanzados combinan distintas

    estrategias simultneamente para codificar la seal.

  • Introduccin Decodificador vdeo MPEG-2

    10

    La multiplexacin de distintas seales bsicas es necesaria para formar una nica trama binaria que transporte la informacin y contenidos de todo el canal definido

    por la plataforma operadora.

    La codificacin de canal se utiliza para adecuar la forma de onda de las seales a las caractersticas del canal. En esta etapa se introducen cdigos de proteccin

    frente a errores, cdigos de encriptacin de la informacin y se adecua la forma

    de onda de las seales para que puedan ser directamente utilizadas por la etapa

    de modulacin o transmisin. Esta ltima etapa se encarga de adaptar los datos a

    las caractersticas del medio de transmisin, para garantizar una correcta

    recepcin de las seales.

    El medio de transmisin condiciona el tipo de modulacin que se utiliza y la codificacin de canal. As, en un medio como el cable, los sistemas de deteccin y

    correccin de errores pueden ser ms simples que en el caso de la comunicacin

    va satlite, debido a que la relacin seal a ruido es mucho mayor y, por tanto, se

    reduce la probabilidad de error.

    1.3 Necesidad de compresin

    Para tener una idea general del volumen de datos binarios que supone la digitalizacin de

    una seal de vdeo, y por ello, la necesidad de compresin, consideremos como ejemplo

    el caso del estndar 4:2:2. La luminancia se muestrea a una frecuencia de 13.5 MHz

    tomando 8 bits por muestra, lo que da un total de 108 Mbps. Adems, cada una de las

    seales de diferencia de color se muestrean a 6.75 MHz, nuevamente con 8 bits por

    muestra, lo que produce un nuevo flujo de 108 Mbps. En total tenemos un flujo de 216

    Mbps asignados exclusivamente a la seal de vdeo digital, sin tener en cuenta las

    componentes de audio o de informacin adicional que pueden desear incluirse en la

    seal de televisin [6]. Este flujo de datos, si bien puede ser soportado en la transferencia

    de datos entre equipos de un estudio, es excesivo para su transmisin directa al usuario,

    ya que requerira utilizar un considerable ancho de banda.

    Por ello, en el momento que haya que transmitir o almacenar la seal de vdeo digital es

    fundamental aplicar procedimientos y tratamientos especficos de los datos que permitan

    comprimir la cantidad de informacin que debe transmitirse al canal.

  • Introduccin Decodificador vdeo MPEG-2

    11

    En el caso de seales de vdeo analgicas resultaba suficiente un ancho de banda de 5

    MHz para mantener una resolucin espacial y tasa de refresco de imgenes aceptable.

    Evidentemente, aunque se usen cdigos y modulaciones digitales de gran eficiencia

    espectral, el ancho de banda necesario para transmitir una tasa de bits de 216 Mbps es

    muy superior a los 5 MHz que requiere el sistema analgico.

    Por esta razn, los formatos digitales derivados del ITU 601 se han mantenido como

    estndares digitales para el intercambio de informacin entre equipos terminales en

    estudios de grabacin y produccin de vdeo y no se han extendido a sistemas de

    transmisin y almacenaje de la seal de vdeo.

    Tomando estos formatos digitales como punto de partida, es necesario aplicar un proceso

    de reduccin de la tasa de bits que permita la transmisin o almacenaje de las seales

    sin una prdida aparente de calidad o sin hacer uso excesivo de los medios de los que se

    dispone. Este proceso es conocido como compresin o codificacin y consiste

    bsicamente en la reduccin del nmero de parmetros requeridos para representar la

    seal, manteniendo una buena calidad de imagen.

    1.4 Motivaciones

    En un primer momento, el proyecto iba a consistir en un estudio y comparacin de

    distintos algoritmos de deteccin de cambios de plano en vdeo comprimido. La idea

    consista en programar en MATLAB algunos de los algoritmos ms caractersticos y

    comparar su bondad con respecto a distintos parmetros. Se pens en basarse en el

    estndar de vdeo comprimido MPEG-2. Para ello, en primer lugar, me centr en la

    documentacin de estos algoritmos, seleccionando tres de ellos. Cuando comenc la

    parte tcnica y lleg la hora de programar, result que no exista ningn cdigo abierto en

    MATLAB que analizara la estructura del vdeo comprimido. Esto era necesario, ya que

    cualquier algoritmo de cambio de plano compara determinados parmetros (presentes en

    el bitstream de vdeo) en las sucesivas imgenes, de forma que cuando detectan una

    diferencia mayor a un umbral, indicarn que se ha producido el cambio.

    Ya que no exista en cdigo abierto una aplicacin que hiciera lo que necesitbamos, nos

    planteamos desarrollarla en este proyecto. Adems, en aras a servir a futuras

    investigaciones y como un aporte ms a la comunidad de la informacin, se ha decidido

    publicar la aplicacin desarrollada en el File Exchange de Mathworks.

  • Introduccin Decodificador vdeo MPEG-2

    12

    La razn de haber escogido el estndar de vdeo comprimido MPEG-2, y no otra de las

    versiones de MPEG, es principalmente el gran nmero de aplicaciones en las que se

    emplea este estndar, desde sistemas de almacenamiento digital como el DVD (en una

    versin modificada) hasta la televisin de alta definicin.

    1.5 Objetivos

    Aunque el principal objetivo de este proyecto es el desarrollo de un decodificador de

    vdeo MPEG-2 en MATLAB, su consecucin necesariamente se ha tenido que basar en

    la realizacin de varias tareas previas.

    En primer lugar se deba entender por qu es necesaria la compresin al mismo tiempo

    que estudiar las tcnicas empleadas para realizarla. Estas tcnicas, basadas en la

    compresin empleada en imgenes estticas, deben conseguir un flujo de bits ptimo

    para las aplicaciones en las que se usar la informacin de vdeo. Hasta este punto,

    muchos de los distintos estndares de compresin existentes se basan en procesos

    equivalentes.

    Centrndonos en el estndar elegido, MPEG-2, la primera tarea a realizar fue un estudio

    exhaustivo del estndar. Aparte de las tcnicas de compresin empleadas en este caso

    particular, debamos comprender las distintas estructuras existentes en su bitstream. Al

    ser un estndar abierto, la recomendacin proporciona simplemente una sintaxis que

    deben cumplir los vdeos comprimidos con este estndar, lo cual deja gran libertad al

    diseador del codificador o decodificador. Las distintas estructuras que forman un

    bitstream con formato MPEG-2 y las relaciones entre ellas vienen recogidas en la

    recomendacin ISO/IEC 13818-1, denominada Capa de Sistema. Adems, como la

    informacin que se iba a descomprimir era la de vdeo, se realiz el estudio pertinente de

    la Capa de Vdeo, recogida en la recomendacin ISO/IEC 13818-2.

    En la parte de desarrollo tcnico se fijaron dos objetivos. El primero de ellos era realizar

    un programa capaz de demultiplexar la informacin de vdeo, para su posterior

    descompresin y anlisis. El segundo era el decodificador propiamente dicho. Para la

    realizacin de este programa se deba emplear como patrn la sintaxis recogida en la

    Capa de Vdeo del estndar, con los mismos algoritmos y, en la medida de lo posible, la

    misma informacin. De esta forma se conseguira que cualquier persona ajena al

    proyecto, siempre que tenga en cuenta la recomendacin, pudiera comprender e incluso

    modificar el cdigo para cualquier otra aplicacin.

  • Introduccin Decodificador vdeo MPEG-2

    13

    Aunque no se fij como objetivo minimizar la velocidad de descompresin, se llevar a

    cabo un estudio de tiempos empleados en el desarrollo de la aplicacin para detectar

    cul seran las partes mejorables del algoritmo.

    1.6 Organizacin de la memoria

    La memoria est dividida en ocho captulos, a su vez subdivididos en partes y temas

    concretos que relacionamos a continuacin.

    El primer captulo sirve de introduccin o de prembulo, mostrndose algunos conceptos

    de vdeo digital y la necesidad de comprimir este tipo de informacin. Incluyndose

    tambin las motivaciones que nos han llevado a realizar este proyecto y los objetivos

    fijados.

    En el segundo captulo se exponen las tcnicas usadas en los estndares de compresin

    de vdeo. Se da por tanto, una visin general, sin particularizar ni definir ningn estndar

    en concreto.

    El tercer captulo nos detalla la informacin relacionada con el estndar MPEG-2, en cuya

    primera parte, se habla de su historia y de la organizacin de la recomendacin ISO/IEC

    13818. Posteriormente, y con un nivel ms detallado que en el captulo segundo, se

    presentan las tcnicas de compresin empleadas.

    En el cuarto captulo hablamos de la Capa de Sistema (ISO/IEC 13818-1), que contiene

    la forma de multiplexar la distinta informacin de vdeo, audio y de otros tipos. Adems se

    explican las dos formas de agrupar dicha informacin.

    En el quinto captulo damos un repaso general a las tcnicas de compresin de audio y

    de una forma algo ms superficial que en el caso de vdeo hablamos del proceso de

    codificacin empleado en MPEG-2.

    En el sexto captulo llegamos a la informacin de vdeo. Presentando la estructura de

    datos de vdeo y los principales parmetros que definen este tipo de informacin.

    La informacin del desarrollo se recoge en el captulo siete. En primer lugar se explican

    las caractersticas fundamentales de las aplicaciones diseadas, haciendo un estudio de

    tiempos. Por ltimo, se muestra un ejemplo del bitstream de vdeo y su interpretacin

    correspondiente.

  • Introduccin Decodificador vdeo MPEG-2

    14

    Finalmente y como colofn, en el octavo captulo se incluyen las conclusiones, los

    objetivos cumplidos y las posibles vas futuras de desarrollo a partir de este proyecto.

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    15

    2 TCNICAS DE COMPRESIN DE LA SEAL DE VDEO

    La compresin es el proceso de compactar los datos en un menor nmero de bits. En el

    caso de la compresin de vdeo hemos dicho que necesitamos disminuir la tasa

    necesaria (unos 216 Mbps) para poder almacenar y transmitir este tipo de informacin.

    2.1 Sistemas de compresin

    Un sistema de compresin de informacin suele estar formado por dos etapas que se

    ilustran en la figura 2.1. La transformacin de los datos es un procedimiento genrico que

    se utiliza para representar la informacin en una forma alternativa y en la que, en

    principio, resulta ms evidente la redundancia existente en los datos originales. Es

    necesario que esta transformacin sea invertible, es decir, que a partir de los datos

    transformados podamos recuperar de forma lo ms exacta posible la informacin original.

    Figura 2.1 Proceso general de codificacin y decodificacin de la informacin

    Consideremos como ejemplo la aplicacin de una transformada de Fourier a las seales

    que representan la informacin de un fragmento de audio. Es posible que resulte ms

    eficiente codificar los datos resultantes de esta transformacin que los datos originales.

    En efecto, en el dominio transformado de Fourier es ms simple identificar las regiones

    espectrales que tienen una energa por debajo del umbral de audicin, o analizar las

    bandas que resultarn enmascaradas por otras seales y que por lo tanto no seran

    audibles. Si este anlisis de la seal es factible, no tendr sentido codificar toda aquella

    informacin que el sistema auditivo humano es incapaz de escuchar y resulta ms

    rentable dedicar los bits a las zonas audibles. El resultado final es que en este dominio

    transformado podemos codificar la informacin de forma ms eficaz. No obstante,

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    16

    debemos recordar que al final de la cadena de codificacin / decodificacin, deben

    presentarse los datos en el mismo formato de entrada para que puedan ser

    correctamente interpretados por el sistema auditivo. Esto significa que deberemos aplicar

    la transformacin inversa sobre los datos codificados para devolverlos a su dominio de

    representacin original.

    En general, la compresin puede ser con prdidas (lossy) o sin prdidas (lossless) en

    funcin de si la informacin que se recupera coincide exactamente con la original o es

    slo una aproximacin. Los mtodos de codificacin sin prdidas se utilizan sobre todo

    en aplicaciones de codificacin de datos binarios de aplicaciones informticas en los que

    es absolutamente necesario recuperar la informacin original. Los formatos ms

    populares son el zip y el arj. En tratamiento de imgenes los mtodos de compresin sin

    prdidas encuentran su aplicacin en la codificacin de imgenes mdicas o cientficas

    en las que puede resultar crtico la prdida de parte de la informacin. El formato JPEG

    dispone de una versin de codificacin sin prdidas que suele emplearse en estas

    aplicaciones.

    La compresin con prdidas es la ms habitual en la codificacin de seales de vdeo y

    audio. Evidentemente, las prdidas son tolerables siempre que la calidad de las seales

    decodificadas sean aceptables. El principio general sobre el que se sustenta la

    codificacin con prdidas es que no resulta necesario codificar aquellas componentes de

    la informacin que no son observables por los sistemas de percepcin humana. Por lo

    tanto, estos mtodos se fundamentan en las caractersticas psicofisiolgicas de los

    sistemas auditivo y visual, que son, en ltima instancia, los que deben evaluar la calidad

    del algoritmo de compresin. Por ello, es fundamental comprender las limitaciones y

    caractersticas de estos sistemas de percepcin para disear codificadores en los que las

    prdidas de informacin resulten poco evidentes o incluso inapreciables. La principal

    ventaja de estas estrategias de codificacin es que consiguen unos factores de

    compresin muy superiores a los que se obtienen con los mtodos sin prdidas. Adems,

    suelen ser mtodos escalables con la aplicacin, es decir, el grado de prdida de calidad

    que se tolera depende del mbito al que se destine el codificador. As, la calidad que se

    exige en una aplicacin de vdeo en directo para Internet es muy inferior a la que se exige

    para la radiodifusin de televisin. Anlogamente, un codificador de vdeo para

    aplicaciones multimedia (MPEG-1) deber realizar una compresin mucho mayor que un

    codificador para aplicaciones de televisin (MPEG-2), ya que las tasas de transferencia

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    17

    de bits que admite un CDROM son mucho menores que las que admiten los canales de

    televisin.

    2.2 Tcnicas de compresin de imgenes

    La compresin de imgenes y de secuencias de vdeo se basa en la eliminacin de tres

    tipos de redundancias:

    Redundancia Espacial: Se basa en los pxeles que estn cerca unos de otros, ya que estos tienen un parecido muy grande entre ellos. Para eliminar esta

    redundancia se usan mtodos transformados, como por ejemplo la (DCT, Discret

    Cosinus Transform) y la cuantificacin. Estas tcnicas sern conocidas como

    codificacin Intratrama.

    Redundancia Estadstica: Consiste en determinar que valores de bit se repiten ms en una secuencia. Utilizaremos mtodos como el VLC (Variable Length

    Code) y el RLC (Run Length Code) para poder eliminar esta redundancia.

    Redundancia Temporal: Pretende aprovechar el hecho de que un pxel se repita a lo largo del tiempo. Para poder eliminar este tipo de redundancia se utilizaran

    tcnicas predictivas para poder deducir la posicin futura de los pxeles. En

    concreto utilizaremos una prediccin Intertrama con la tcnica de compensacin

    de movimiento, basada en obtener la imagen de prediccin a partir de vectores de

    movimiento de imgenes pasadas y/o futuras. Esta eliminacin de redundancia es

    la que nos comprimir ms el video.

    En este apartado slo se expondrn los aspectos generales de los mtodos ms

    utilizados en algoritmos de compresin de vdeo. Normalmente, cualquiera de las

    tcnicas empleadas estn basadas en bloques, que en el caso genrico sern de tamao

    NxM, aunque en la mayora de los casos se toman bloque cuadrados, NxN. En el

    siguiente captulo se detallarn estas tcnicas para el caso de MPEG-2.

    2.2.1 Redundancia espacial

    Como hemos dicho se usan dos mtodos para eliminar este tipo de redundancia, adems

    del ya conocido submuestreo de las componentes de color, que tambin se puede

    considerar como eliminacin de este tipo de redundancia. En este apartado se presentar

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    18

    la transformada coseno discreta. El mtodo de cuantificacin ser explicado para el caso

    particular del codificador MPEG ms adelante.

    Transformada coseno discreta (DCT)

    La codificacin de imagen utilizando algn tipo de transformadas es bastante popular y se

    extiende a otras transformaciones como Fourier, Walsh-Hadamard, Hart, Karhunen-

    Loeve, Wavelet, etc. Estos procedimientos de codificacin se conocen con el nombre

    genrico de mtodos transformados.

    Este mtodo de codificacin se basa en el esquema de la figura 2.2. La imagen a

    comprimir se divide en bloques o subimgenes de tamao reducido sobre las que se

    aplica la transformacin. El resultado de la transformada de cada bloque se cuantifica y

    posteriormente se aplican cdigos eficientes para transmitir o almacenar esta

    informacin. La compresin de imagen se produce principalmente durante el proceso de

    cuantificacin, donde parte de la informacin se descarta o se cuantifica con un nmero

    de niveles muy reducido. Veremos que la informacin de cada subimagen puede quedar

    muy bien empaquetada en unos pocos coeficientes transformados, de modo que resulta

    suficiente con determinar qu coeficientes son los ms representativos y codificar la

    imagen utilizando nicamente estos elementos. Evidentemente, tambin existe alguna

    ganancia de compresin debido a la codificacin de los coeficientes mediante algoritmos

    eficientes, aunque en ningn modo es tan significativa como la debida a la parte de

    cuantificacin.

    Figura 2.2 Proceso general de codificacin y descodificacin de imgenes mediante la transformada coseno

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    19

    La decodificacin de la imagen se realiza aplicando el proceso inverso: los coeficientes

    se descodifican y se aplica la transformada inversa, de manera que se recuperan los

    elementos de imagen en el dominio espacial original. Posteriormente, es necesario

    recomponer la imagen a partir de los bloques en los que se ha divido originalmente. Esta

    recomposicin de la imagen suele ser uno de los principales problemas de los mtodos

    transformados. En efecto, debido a la cuantificacin de los coeficientes transformados, la

    subimagen se recupera con cierto error respecto a la original. Este error es muy crtico si

    se produce en los lmites de las subimgenes, debido a que al fusionar todos los bloques

    aparecern cambios de nivel de gris bruscos que pueden reproducir la descomposicin

    en bloques cuando se observa la imagen descomprimida. El problema es particularmente

    notorio con algunas transformadas como la de Fourier o Walsh-Hadamard. La

    transformada coseno presenta excelentes propiedades en la codificacin de los

    contornos de las subimgenes que, de hecho, ha sido uno de los motivos principales por

    los que se ha elegido esta transformada en casi todos los estndares de codificacin.

    Otro de los aspectos cruciales en la codificacin por mtodos transformados es la

    eleccin del tamao de las subimgenes. En principio es aconsejable elegir los tamaos

    de los bloques para que exista cierto grado de correlacin entre bloques adyacentes. Otra

    restriccin importante es que los tamaos de las subimgenes deberan ser una potencia

    de 2 para facilitar el uso de algoritmos rpidos en la implementacin de la transformacin.

    El factor de compresin que puede obtenerse aumenta a medida que se utilizan bloques

    ms grandes, aunque tambin se incrementa la carga computacional. En la mayora de

    aplicaciones pensadas para una resolucin espacial similar a la de los sistemas de

    televisin, los bloques son de tamao 8x8 o 16x16.

    Antes de introducirnos en los detalles de la transformada coseno analizaremos sus

    caractersticas principales, que justifican su amplio uso en codificacin de imagen y que,

    posteriormente, nos ayudarn a comprender algunas de sus particularidades.

    Capacidad de compactacin de la energa en el dominio transformado. La transformada coseno discreto (DCT- Discrete Cosine Transform) consigue

    concentrar la mayor parte de la informacin en unos pocos coeficientes

    transformados. Esto permite obtener importantes ventajas para una codificacin

    eficiente de la imagen, puesto que basta con codificar de forma precisa estos

    coeficientes principales para obtener una buena representacin de todo el bloque

    de la imagen. Debe tenerse en cuenta que la capacidad de compactacin de la

    energa en unos pocos coeficientes es un parmetro puramente estadstico, lo

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    20

    que significa que siempre es posible encontrar un bloque de imagen en la que la

    energa en el dominio transformado est dispersada entre todos los coeficientes.

    No obstante, esto tiene una probabilidad de ocurrencia muy baja y no suele

    producirse nunca si trabajamos con imgenes naturales. La capacidad de

    compactacin de la energa de la DCT es muy superior a la que se obtiene con las

    transformadas de Walsh- Hadamard, Hart y tambin Fourier. La transformada

    Karhunen-Loeve consigue una compactacin ptima, aunque al precio de un

    elevado coste computacional. La transformada Wavelet tambin consigue

    concentrar la energa en unos pocos coeficientes, aunque en este caso, la

    posicin de los coeficientes con mayor energa depende de la imagen.

    Es una transformada independiente de los datos. Esto significa que el algoritmo es independiente del contenido de la imagen. Prcticamente todas las

    transformadas que hemos venido comentando son independientes de los datos,

    con la excepcin de la Karhunen-Loeve, donde las matrices asociadas a la

    transformacin deben calcularse en funcin de las caractersticas de la propia

    imagen. Por este motivo, la transformada de Karhunen Loeve es ptima en el

    sentido de compactacin de energa.

    Existen algoritmos eficientes para el clculo rpido. Existen algoritmos anlogos al de la FFT (Fast Fourier Transform) para realizar la transformacin.

    Los algoritmos se encuentran disponibles en circuitos integrados especializados

    en realizar esta transformacin. La restriccin para poder utilizar estos algoritmos

    es que los bloques tengan un tamao que sea mltiplo de una potencia de dos. Si

    no es as, debern aadirse ceros a las subimgenes, aunque esto supone que

    aumenta notablemente el riesgo de que aparezca el efecto de bloques al

    decodificar la imagen.

    Errores reducidos en los contornos de los bloques. Probablemente ste es uno de los motivos principales por los que se ha elegido la DCT frente a otras

    transformadas. La presencia de errores de codificacin muy pequeos en los

    lmites de la subimagen es necesaria para evitar la aparicin del efecto de bloques

    en la imagen reconstruida.

    Identificacin e interpretacin frecuencial de los componentes transformados. Para aprovechar al mximo la capacidad de compresin de un mtodo es conveniente que los coeficientes puedan interpretarse desde el punto

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    21

    de vista frecuencial con facilidad. Esto permite introducir conceptos psico-visuales,

    permitiendo dedicar un menor nmero de bits a aquellas componentes que de

    antemano sabemos que no resultan crticas para el sistema visual.

    La ecuacin que se utiliza para la transformada NxN bidimensional (se suponen bloques

    cuadrados) es:

    ( ) ( ) ( ) ( ) ( ) ( )

    +

    += =

    = N2v1y2cos

    N2u1x2cosyx,fvCuC

    N2 vu,F

    1N

    0x

    1N

    0y

    con u, v, x, y =0, 1, 2, N-1

    donde x, y son coordenadas espaciales en el dominio espacial u, v son coordenadas en el dominio transformado

    ( ) ( )2

    1=v,CuC para u,v = 0 ( ) ( ) 1, =vCuC para u, v = 1,2,,N-1

    Ecuacin 2.1 Transformada discreta del coseno 2D

    En general slo trataremos con bloques cuadrados cuyos tamaos son, como hemos

    comentado, una potencia de 2.

    De forma anloga, la ecuacin para la transformada inversa es:

    ( ) ( ) ( ) ( ) ( ) ( )

    +

    += =

    = Nvy

    NuxvuFvCuC

    Nyxf

    N

    u

    N

    v 212cos

    212cos,2,

    1

    0

    1

    0

    Ecuacin 2.2 Transformada inversa discreta del coseno 2D

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    22

    Vemos un ejemplo numrico de esta transformada en la figura 2.3.

    120 108 90 75 69 73 82 89

    127 115 97 81 75 79 88 95

    134 122 105 89 83 87 96 103

    137 125 107 92 86 90 99 106

    131 119 101 86 80 83 93 100

    117 105 87 72 65 69 78 85

    100 88 70 55 49 53 62 69

    89 77 59 44 38 42 51 58

    DCT

    700 90 100 0 0 0 0 0

    90 0 0 0 0 0 0 0

    -90 0 0 0 0 0 0 0

    0 0 0 0 0 0 0 0

    0 -1 0 0 0 0 0 0

    0 -1 0 0 0 0 0 0

    0 0 0 0 0 0 0 0

    0 -1 0 0 0 0 0 0

    Figura 2.3 Ejemplo numrico y grfico de la transformada discreta del coseno

    Tal y como se dijo anteriormente, la DCT consigue concentrar la mayor parte de la

    informacin en unos pocos coeficientes transformados. Adems, podemos ver cmo

    estos coeficientes distintos de cero se encuentran situados en las frecuencias bajas.

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    23

    2.2.2 Redundancia estadstica

    Cdigos de longitud variable (VLC)

    La idea bsica de los cdigos de longitud variable es asignar palabras cdigo de

    longitudes distintas en funcin de la probabilidad de los mensajes. Los mensajes ms

    probables se codificarn con un menor nmero de bits que los mensajes menos

    probables.

    Para que los cdigos de longitud variable resulten eficaces es necesario disponer de

    procedimientos sistemticos para generar estos cdigos directamente a partir de las

    caractersticas de las fuentes. Adems, es fundamental que los cdigos obtenidos

    resulten eficientes, es decir, que permitan obtener una tasa media de bits prxima a la

    entropa de la fuente.

    Entre estos cdigos podemos destacar los cdigos de Huffman y sus variantes.

    Codificacin por longitud de series (RLC)

    Esta codificacin comenz a utilizarse a mediados de la dcada de los 50 para la

    codificacin de documentos digitalizados. Para documentos de texto o grficos binarios,

    que nicamente contienen los niveles blanco y negro, podemos codificar cada lnea

    indicando, de forma alternada, cuantos pxeles toman el nivel blanco y cuantos el nivel

    negro en palabras sucesivas. Para ello, es necesario establecer que siempre empezamos

    por uno de los niveles.

    A este procedimiento bsico, podemos aadir un cdigo de Huffman que tenga en cuenta

    la estadstica con la que se producen los mensajes que indican la longitud de las series

    de blancos y negros. Aquellas longitudes que se producen con mayor frecuencia sern

    codificadas con palabras de menos longitud.

    La idea bsica del RLC puede extenderse a fuentes con varios mensajes o smbolos,

    pero en las que predomine uno de los mensajes con gran probabilidad. En el caso del

    proceso de codificacin de imgenes, muchos de los coeficientes de la transformada

    coseno obtenidos, una vez cuantificados, toman el valor nulo, por lo que resulta ms

    eficiente especificar la cantidad de coeficientes consecutivos que toman este valor.

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    24

    2.2.3 Redundancia temporal

    La redundancia temporal se basa en que dentro de una secuencia de vdeo, los cambios

    producidos entre imgenes son mnimos, ya que gran parte de los objetos y elementos

    permanecen en la misma posicin y con las mismas caractersticas de un fotograma a

    otro. Un rea de la imagen actual proviene por lo general de un rea cercana de la

    imagen anterior, por lo que podemos emplear la informacin anterior y fijarnos en las

    diferencias. Normalmente los mtodos para eliminar la redundancia temporal se realizan

    en secciones rectangulares o bloques.

    En la figura 2.4 se muestran dos fotogramas seguidos, las diferencias entre ellos a simple

    vista son inapreciables, pero si representamos la imagen diferencia podemos ver que

    efectivamente ha habido cambios. En esta imagen un nivel medio de gris representa una

    diferencia nula y los niveles ms claros o ms oscuros de gris sern diferencias positivas

    o negativas, respectivamente. La mayor parte de los elementos no se han modificado

    pero en los contornos si ha habido modificaciones. Esto puede ser debido o bien al

    movimiento de la cmara, o al movimiento de los objetos.

    Figura 2.4 Ejemplo de dos fotogramas seguidos y su diferencia

    Esta tcnica es ampliamente utilizada en los codecs para la produccin de vdeo en

    soporte informtico. El procedimiento general suele conocerse con el nombre de

    codificacin de fotogramas en diferencias. Normalmente, la secuencia de vdeo suele

    descomponerse en fotogramas clave (key frame) y fotogramas diferencia (delta frames).

    Los fotogramas claves debern codificarse de forma independiente del resto de

    fotogramas, teniendo en cuenta nicamente la redundancia espacial de la imagen.

    Peridicamente se insertar un fotograma clave en la secuencia codificada para evitar la

    propagacin de errores de codificacin en las imgenes delta.

    Esta tcnica, aunque se utiliza a menudo, no es ptima cuando se producen

    desplazamientos de los objetos dentro de la imagen o aparecen nuevos motivos debido al

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    25

    movimiento de la cmara u otros aspectos. En la figura 2.5 mostramos un movimiento de

    la cmara en una imagen simplificada.

    Imagen de referencia Imagen a codificar Redundancia temporal

    Figura 2.5 Ejemplo de bloques utilizados para realizar la prediccin en codificacin diferencial

    La figura muestra cul sera la seccin de la imagen utilizada para predecir el bloque de

    inters. En este caso la ganancia del codificador es nula debido a que el error de

    prediccin es precisamente igual a la imagen.

    Tcnicas de compensacin de movimiento

    La compensacin de movimiento es una tcnica de prediccin temporal que intenta

    optimizar los resultados obtenidos por la codificacin diferencial analizando el movimiento

    que realizan los objetos dentro de la imagen y compensndolos.

    Siguiendo con el ejemplo de figura anterior, en el caso de compensacin de movimiento,

    el bloque que utilizaramos para la prediccin es el mostrado en la figura 2.6. Ahora, el

    error de prediccin puede llegar a ser nulo, por lo que no es necesario volver a codificar

    el bloque, simplemente habra que transmitir el vector de desplazamiento que hay que

    utilizar en la imagen de referencia para construir este fragmento de la imagen.

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    26

    Imagen de referencia

    Imagen a codificar Redundancia temporal

    Figura 2.6 Ejemplo del bloque utilizado para la prediccin en una codificacin por compensacin de movimiento

    Como es de esperar, los vdeos reales no son tan simples como el ejemplo que hemos

    puesto. Los objetos pueden sufrir deformaciones, cambios de perspectiva o de tamao o

    trasladarse en el espacio mediante rotaciones. Todos estos efectos no se pueden

    modelar mediante vectores de traslacin.

    Por esta razn, para codificar las secuencias de vdeo de forma ptima, el procesador

    deber ser capaz de identificar las regiones de la imagen con nuevos componentes y

    codificarlos basndose en la redundancia espacial, y los elementos que se parezcan a

    imgenes pasadas o futuras, con la tcnica de compensacin de movimiento.

    Podemos resumir el proceso de codificar un bloque mediante esta tcnica en los

    siguientes pasos:

    1. Buscar un rea o bloque de la imagen de referencia (pasada o futura, la nica condicin es que haya sido codificada y transmitida previamente) que sea ptima

    para realizar la prediccin del bloque actual. Para realizar esto, se compara el

    bloque de la trama actual con alguno o todos de los posibles bloques de la trama

    referencia. Este proceso se conoce como estimacin de movimiento.

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    27

    2. La zona elegida se convierte en el predictor para el bloque actual y lo que se hace es restar al bloque actual el predictor. As, tenemos un bloque residual. Este

    proceso es la compensacin de movimiento.

    3. El bloque residual se codifica y transmite junto con la diferencia de posicin entre los bloques actuales y de referencia. Esta diferencia son los llamados vectores de movimiento (componente de desplazamiento vertical y horizontal).

    Figura 2.7 Clculo del vector de movimiento para la compensacin de movimiento

    Cuando queramos decodificar esta informacin se parte de que el decodificador ya ha

    decodificado la imagen de referencia. Entonces, lo que hay que hacer para recuperar la

    informacin del bloque es desplazar el bloque referencia con el vector de movimiento y

    aadir el bloque diferencial. La seal de error (bloque residual) puede ser transmitida tal

    cual o usando mtodos transformados como se haca para eliminar la redundancia

    espacial. Tambin se podr emplear cdigos de longitud variable para el error y los

    vectores de movimiento.

    Hemos dicho que las imgenes referencia puede ser tanto pasadas como futuras. A esto

    se le conoce como compensacin de movimiento bidireccional. La idea bsica consiste

    en codificar una imagen utilizando no slo las imgenes de referencia del pasado, sino

    tambin las futuras. En principio esto da una solucin no causal, pero lo que se hace es

    modificar el orden de codificacin y transmisin de las imgenes, que no ser el orden en

    que se representen en un display.

    En este caso, el procesador deber calcular dos vectores de movimiento que se

    denominan hacia delante (forward) y hacia atrs (backward). A partir de estos dos

    vectores el codificador elegir entre codificar el error de prediccin forward (imagen

  • Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

    28

    futura), backward (imagen pasada), bidireccional (ambas imgenes) o codificar el bloque

    sin prediccin (error demasiado grande).

  • Conceptos bsicos de MPEG Decodificador vdeo MPEG-2

    29

    3 CONCEPTOS BSICOS DE MPEG (Moving Pictures Experts Group)

    3.1 Introduccin

    El Moving Picture Experts Group (Grupo de Expertos de Imgenes en Movimiento)

    referido comnmente como MPEG, es un grupo de trabajo del ISO/IEC encargado de

    desarrollar estndares de codificacin de audio y video. Desde su primera reunin (ao

    1988 en Ottawa, Canad), el MPEG ha crecido hasta incluir 350 miembros de distintas

    industrias y universidades. La designacin oficial del MPEG es ISO/IEC JTC1/SC29

    WG11.

    MPEG es una de las tcnicas de compresin de audio/vdeo ms populares porque no es

    slo un estndar, si no que es una familia de estndar que se pueden aplicar en

    diferentes aplicaciones pero todos basados en principios similares.

    MPEG ha normalizado los siguientes formatos de compresin y normas auxiliares:

    MPEG-1: estndar inicial de compresin de audio y vdeo. Usado despus como la norma para CD de vdeo, incluye popular formato de compresin de audio Capa

    3 (MP3).

    MPEG-2: normas para audio y vdeo para difusin con calidad de televisin. Utilizado para servicios de TV por satlite como DirecTV (Cadena estadounidense

    de televisin va satlite de difusin directa), seales de televisin digital por cable

    y (con ligeras modificaciones) para los discos de vdeo DVD.

    MPEG-3: diseado originalmente para HDTV (Televisin de Alta Definicin), pero abandonado posteriormente en favor de MPEG-2.

    MPEG-4: expande MPEG-1 para soportar "objetos" audio/vdeo, contenido 3D, codificacin de baja velocidad binaria y soporte para gestin de derechos digitales

    (proteccin de copyright).

    MPEG-7: sistema formal para la descripcin de contenido multimedia MPEG-21: MPEG describe esta norma futura como un "marco multimedia".

  • Conceptos bsicos de MPEG Decodificador vdeo MPEG-2

    30

    3.2 Historia

    Podramos decir que todo empieza en 1987 cuando el italiano Leonardo Chiariglione, que

    haba pertenecido al comit consultivo internacional de radiocomunicaciones (CCIR,

    International Radio Consultative Comittee), era el encargado de la estandarizacin de la

    televisin de alta definicin (HDTV, High Definition Television), pero se encontraba un

    tanto desilusionado por el fracaso en adoptar un nico estndar internacional ya que

    Japn, Europa y Estados Unidos pugnaban por su propio formato. Ese ao asista al

    encuentro del grupo unido de expertos en imgenes (JPEG, Joint Pictures Experts

    Group) que haba sido formado en 1982 por la organizacin de estndares

    internacionales (ISO, International Organization for Standardization) y por la comisin

    electrotcnica internacional (IEC, International Electrotechnical Comittee) y cuyo objetivo

    era establecer un conjunto de formatos que permitieran obtener una codificacin eficiente

    de imgenes estacionarias, de uso pblico, que mitigaran la aparicin de formatos

    propietarios. En este encuentro, Chiariglione qued profundamente impresionado por lo

    que se poda lograr entre un grupo de expertos cuando no se manejaban intereses de

    ninguna industria. As que se aproximo al director del grupo JPEG, el japons Hiroshi

    Yoshuda, y le sugiri la creacin de un grupo semejante al JPEG, que se encargara de

    estandarizar la codificacin digital de las imgenes en movimiento.

    De esta manera, en 1988 y con Yoshuda como representante ante la ISO, la organizacin

    ISO/IEC crea el comit tcnico unido sobre tecnologas de la informacin, subcomit 29,

    grupo de trabajo 11 (ISO/IEC JTC1/SC29/WG11), ms conocido como MPEG, bajo la

    direccin de Chiariglione, encargndole el desarrollo de estndares para la

    representacin codificada de imgenes en movimiento, la informacin del audio asociado

    y su combinacin para la grabacin y lectura en un medio de almacenamiento digital. En

    ese momento el grupo estaba formado por 12 personas pero durante los aos posteriores

    expertos de todo el mundo en video, audio y sistemas fueron unindose llegando a ser

    200 participantes en el ao 1992.

    Una vez creado el grupo MPEG, su primer objetivo fue la posibilidad de almacenar y

    reproducir de seales de video y audio en soporte CD-ROOM para su uso en

    aplicaciones multimedia.

    La inclusin de una seal de vdeo y audio en un soporte como el CD, que originalmente

    haba sido pensado para incluir nicamente la informacin asociada a un canal de audio

    estereofnico, represent un importante problema tecnolgico durante el desarrollo del

  • Conceptos bsicos de MPEG Decodificador vdeo MPEG-2

    31

    estndar MPEG-1, ya que los factores de compresin que deban utilizarse se situaban

    entre 100 y 200. El flujo de datos que admite un CD-ROOM de simple velocidad

    (150Kbytes/s) es de unos 1,2 Mbps mientras que el fuljo de bits implcito en una seal de

    vdeo 4:2:2 es, como hemos dicho, de aproximadamente 260 Mbps (estndar ITU 601,

    formato 4:2:2).

    La solucin al problema se obtuvo reduciendo la calidad de la imagen en un doble

    proceso de reduccin espacial y temporal. Este proceso significa una reduccin inicial de

    los datos basada en el remuestreo temporal y espacial, por lo que no puede considerarse

    como una verdadera compresin de vdeo. Por una parte, la resolucin de las imgenes

    se redujo a la mitad, tanto en la direccin horizontal como en la vertical. Aunque esta

    reduccin suponga una prdida de calidad considerable comparndola con el formato

    estndar de radiodifusin, la resolucin que se obtiene es equivalente a la del formato de

    registro en cinta magntica VHS.

    Otra simplificacin importante en el MPEG-1 es que no admite vdeo entrelazado, por lo

    que slo se requiere codificar uno de los dos campos de la seal original.

    A finales de 1990 ya exista un borrador del proyecto que demostraba que se poda

    generar un flujo de datos con audio de calidad CD (16 bits por muestra y un muestreo a

    44,1 kHz) y video de calidad (LDTV, Low Definition Television) equivalente a la calidad de

    una cinta VHS. Ya para finales de 1992 se conclua el primer estndar definitivo,

    conocido como MPEG-1 (numerado como ISO/IEC 11172) con una tasa de datos de 1,5

    Mbps, 1,15 Mbps para el video y 350 Kbps para el audio en estreo. En relacin al audio

    podemos comentar que la capa 3 (layer 3) de audio de la norma MPEG-1 es la que ha

    dado lugar al polmico MP3.

    Durante el desarrollo del MPEG-1 los participantes del grupo MPEG se dieron cuenta que

    la base de las tcnicas que estaban desarrollando tambin era ptima para aplicaciones

    que requeran mayor resolucin y un bitrate (tasa de bits) de hasta diez veces superior.

    Esto les hizo pensar en avanzar la implementacin de la televisin digital que estaba

    prevista para el siguiente milenio, cuando las redes de banda ancha ya se hubieran

    extendido. Entonces con el objetivo de unificar criterios para la implementacin de la

    televisin digital el grupo desarrollo el siguiente estndar, el MPEG-2 (numerado como

    ISO/IEC 13818) que fue aprobado el 11 de Noviembre de 1994.

    El estndar MPEG-2 mantiene cierto grado de compatibilidad con las secuencias de bits

    producidas por el MPEG-1 y pretende cubrir aplicaciones de mayor ancho de banda,

  • Conceptos bsicos de MPEG Decodificador vdeo MPEG-2

    32

    adems de la principal diferencia de que el estndar MPEG-2 es capaz de tratar seales

    de vdeo entrelazadas. Involucra compresin de datos (flujos de bits) originalmente a 260

    Mbps (sin compresin) hasta lograr una tasa de bits entre 2 y 15 Mbps (despus de la

    compresin). Su diseo es sumamente flexible y cubre una amplio espectro de sistemas

    de vdeos que van desde los formatos digitales ITU 601 4:2:2, ITU 601 4:2:0, HDTV

    (televisin de alta definicin) 4:2:0, EDTV (televisin con definicin mejorada) 4:2:0,

    formatos CIF y SIF, formatos HHR 4:2:0, algunos de ellos en versiones de exploracin

    progresiva, otros con exploracin entrelazada y algunos con ambos tipos de exploracin.

    Para que el MPEG-2 pueda cubrir todo este amplio espectro de aplicaciones ha sido

    necesario definir subconjuntos de la sintaxis y semntica de la secuencia de bits en la

    forma de distintos perfiles y niveles, que luego explicaremos.

    En cuanto al audio el nuevo estndar introdujo un nuevo esquema multicanal de seal de

    audio surround.

    El estndar MPEG-3, cuya intencin era estandarizar la televisin de alta definicin, fue

    posteriormente incluido en MPEG-2, ya que se demostr que si se aumentaba el bitrate

    de la seal de video del MPEG-2 se llegaba a los mismos resultados.

    Los objetivos actuales del grupo son los nuevos estndares MPEG-4 y MPEG-7. El

    MPEG-4 (Coding of Audio-Visual Objects) (numerado como ISO/IEC 14496) fue

    aprobada de manera formal en octubre de 1998, esta fue una primera versin, ms tarde

    se aprob una segunda versin pensada para un nmero mayor de aplicaciones que fue

    aprobada en diciembre de 1999 (no reemplaza la primera versin, slo la ampla). Es

    importante indicar que las ampliaciones y mejoras del MPEG-4 se realizarn hasta finales

    del ao 2002 y sern incluidas en las especificaciones como nuevos perfiles, pero

    compatibles con la primera y la segunda versin.

    Este estndar se orienta a la transmisin de seales de vdeo y audio con velocidades

    muy bajas (64 kbps), fundamentalmente para aplicaciones de vdeo telefona,

    aplicaciones multimedia, intranets e Internet. Las secuencias de bits estn especialmente

    diseadas para hacer frente a las altas variabilidades del canal en este tipo de

    comunicaciones, en donde es fcil que se produzcan reducciones de la velocidad,

    prdidas parciales de datos, etc. Por ello, la trama o stream de vdeo y audio suele estar

    escalada de modo que, en funcin de la tasa de bits recibida, el receptor puede visualizar

    las imgenes con mayor o menor calidad.

  • Conceptos bsicos de MPEG Decodificador vdeo MPEG-2

    33

    Adems, proporciona mayor flexibilidad que el MPEG-2 para el uso de tcnicas de

    compresin basadas en la forma de onda permitiendo el uso de la transformada Wavelet,

    la codificacin vectorial y la realizacin de transformaciones afines para la compensacin

    de movimiento. Por ltimo, permite realizar una codificacin orientada a objetos, pudiendo

    utilizar codificadores fractales o morfolgicos, modelado de objetos y descriptores de

    escenas.

    El estndar MPEG-7 (Multimedia Content Description Interface) (numerado como

    ISO/IEC 15938) intenta abarcar todos los aspectos (diferentes a la compresin de la

    informacin) que involucra la multimedia. Es decir, MPEG-7 describe la manera de

    ofrecer, filtrar, buscar y manejar informacin multimedia digitalizada. La primera versin

    del MPEG-7 se aprob en julio del ao 2001. Se han ido incluyendo varias mejoras

    posteriormente las cuales tal vez sean reunidas en una segunda versin del estndar.

    Este estndar est orientado a aplicaciones de bsqueda en bases de datos de

    contenidos audiovisuales y especifica los procedimientos para insertar los descriptores de

    imagen, vdeo, grficos 2D, etc.

    A finales de 1999, MPEG empez a trabajar en el nuevo estndar MPEG-21 (Multimedia

    Framework) cuyo objetivo primordial es proporcionar estndares que estarn

    fundamentados principalmente en el punto de vista de los usuarios, y no tanto de la

    industria.

    3.3 El estndar MPEG-2

    El estndar MPEG-2 es genrico, esto significa que sus especificaciones no estn