Decodificador de vídeo MPEG-2 en Matlab y análisis del bitstream

ESCUELA SUPERIOR DE INGENIEROS DEPARTAMENTO DE TEORA DE LA SEAL Y COMUNICACIONES

PROYECTO FIN DE CARRERA

Decodificador de vdeo MPEG-2 en Matlab y

anlisis del bitstream

Autor: Elena Aguilar Fernndez

Tutor: Jos Ramn Cerquides Bueno

Sevilla - Junio 2008

PROYECTO FIN DE CARRERA

Decodificador de vdeo MPEG-2 en MATLAB y

anlisis del bitstream

UNIVERSIDAD DE SEVILLA

ESCUELA SUPERIOR DE INGENIEROS

Ingeniero de Telecomunicacin PROYECTO FIN DE CARRERA:

Decodificador de vdeo MPEG-2 en

MATLAB y anlisis del bitstream

Autor: Elena Aguilar Fernndez

Tutor: Jos Ramn Cerquides Bueno

Sevilla Junio 2008

Resumen Decodificador vdeo MPEG-2

PREFACIO

En la actualidad, el vdeo digital es algo cotidiano en nuestras vidas, tanto en su

reproduccin y almacenamiento, como para su transmisin a travs de distintos medios

de comunicacin. Es en esta ltima aplicacin donde surge una clara necesidad de

comprimir la informacin. Por esto, y como ha sucedido para las imgenes estticas y

para la informacin de audio, han surgido varios estndares de codificacin (MJPEG,

MPEG-1, MPEG-2, MPEG-4, etc).

En este proyecto nos centraremos en uno de los estndares ms extendidos como es el

caso de MPEG-2 [1] [2] [3]. Comenzaremos el proceso con un anlisis de las tcnicas de

compresin generales empleadas en compresores de vdeo. En segundo lugar

continuaremos con un estudio detallado de la estructura del vdeo comprimido MPEG-2

[1] y la forma de convertir la informacin en un flujo de bits. Finalmente, se desarrolla una

aplicacin en MATLAB que realiza dos tares principales: el demultiplexado de la

informacin de vdeo, y la decodificacin de sta cumpliendo la recomendacin MPEG-2

[2].

ndice Decodificador vdeo MPEG-2

I

NDICE DE CONTENIDOS .................................................................................... II

NDICE DE FIGURAS ............................................................................................ V

NDICE DE TABLAS............................................................................................ VII

NDICE DE ECUACIONES ................................................................................. VIII

ndice de contenidos Decodificador vdeo MPEG-2

II

NDICE DE CONTENIDOS

1 INTRODUCCIN ............................................................................................ 1 1.1 Introduccin .......................................................................................................1 1.2 Conceptos de vdeo digital ...............................................................................2

1.2.1 Formatos de vdeo digital ............................................................................................. 6 1.2.2 Codificacin de la seal de vdeo digital ...................................................................... 9

1.3 Necesidad de compresin ..............................................................................10 1.4 Motivaciones ....................................................................................................11 1.5 Objetivos...........................................................................................................12 1.6 Organizacin de la memoria ...........................................................................13

2 TCNICAS DE COMPRESIN DE LA SEAL DE VDEO.......................... 15 2.1 Sistemas de compresin.................................................................................15 2.2 Tcnicas de compresin de imgenes ..........................................................17

2.2.1 Redundancia espacial ................................................................................................ 17 2.2.2 Redundancia estadstica ............................................................................................ 23 2.2.3 Redundancia temporal ............................................................................................... 24

3 CONCEPTOS BSICOS DE MPEG (Moving Pictures Experts Group) .... 29 3.1 Introduccin .....................................................................................................29 3.2 Historia..............................................................................................................30 3.3 El estndar MPEG-2.........................................................................................33

3.3.1 Organizacin de la norma ISO/IEC 13818 ................................................................. 34 3.3.2 Perfiles y Nivles .......................................................................................................... 36

3.4 Aspectos generales .........................................................................................37 3.4.1 Jerarqua de un vdeo en MPEG-2............................................................................. 39 3.4.2 Procesamiento temporal............................................................................................. 40 3.4.3 Divisin de una imagen en slices ............................................................................... 42 3.4.4 Formatos de crominancia ........................................................................................... 44 3.4.5 Reduccin de redundancia espacial........................................................................... 45 3.4.6 Representacin del movimiento macrobloques ...................................................... 45 3.4.7 Codificacin de vdeo entrelazado ............................................................................. 46

3.5 Proceso de codificacin..................................................................................46 3.5.1 Descomponer imagen en bloques.............................................................................. 47 3.5.2 DCT ............................................................................................................................ 48 3.5.3 Cuantificador variable................................................................................................. 48 3.5.4 Escaneo en Zig-Zag ................................................................................................... 50 3.5.5 Codificacin entrpica ................................................................................................ 51 3.5.6 Compensacin de movimiento ................................................................................... 52


III

3.6 Resumen codificacin imgenes I .................................................................55 3.7 Resumen codificacin imgenes P................................................................56 3.8 Resumen codificacin imgenes B................................................................56 3.9 Peculiaridades de vdeo entrelazado .............................................................57

3.9.1 Divisin en macrobloques .......................................................................................... 57 3.9.2 Escaneo coeficientes transformados.......................................................................... 58 3.9.3 Compensacin de movimiento ................................................................................... 59

4 CAPA DE SISTEMA ..................................................................................... 62 4.1 Multiplexaje y sintaxis .....................................................................................62 4.2 Program Stream ...............................................................................................65 4.3 Transport Stream .............................................................................................67 4.4 Temporizacin..................................................................................................68

5 CAPA DE AUDIO ......................................................................................... 70 5.1 Conceptos bsicos de seal de audio...........................................................70

5.1.1 Necesidad de compresin .......................................................................................... 70 5.1.2 Tcnicas de compresin de audio.............................................................................. 70

5.2 Proceso de codificacin en MPEG-2..............................................................72 5.2.1 Capa 1 ........................................................................................................................ 74 5.2.2 Capa 2 ........................................................................................................................ 74 5.2.3 Capa 3 ........................................................................................................................ 74

6 CAPA DE VDEO.......................................................................................... 75 6.1 Estructura de datos de vdeo codificados.....................................................75

6.1.1 Jerarqua de la capa bsica ....................................................................................... 75 6.1.2 Cdigos de comienzo ................................................................................................. 76 6.1.3 Reglas semnticas para estructuras sintcticas ms altas........................................ 77

6.2 Sintaxis y semntica del bitstream de vdeo.................................................80 6.2.1 Video Sequence ......................................................................................................... 81 6.2.2 Group of Pictures........................................................................................................ 83 6.2.3 Picture......................................................................................................................... 84 6.2.4 Slice ............................................................................................................................ 86 6.2.5 Macroblock ................................................................................................................. 87 6.2.6 Block ........................................................................................................................... 90

6.3 Extensiones escalables...................................................................................91 6.3.1 Extensin escalable espacial ..................................................................................... 92 6.3.2 Extensin escalable SNR ........................................................................................... 92 6.3.3 Extensin escalable temporal..................................................................................... 93 6.3.4 Extensin de particin de datos ................................................................................. 93

7 DESARROLLO DEL DECODIFICADOR...................................................... 95 7.1 Funcionalidad...................................................................................................95

7.1.1 Demultiplexor.............................................................................................................. 95 7.1.2 Decodificador.............................................................................................................. 96


IV

7.2 Estudio de tiempos........................................................................................116 7.2.1 Compresin frente a velocidad de decodificacin.................................................... 116 7.2.2 Reparto de tiempo en el proceso de decodificacin ................................................ 119

8 CONCLUSIONES ....................................................................................... 120 8.1 Conclusiones .................................................................................................120 8.2 Objetivos cumplidos......................................................................................121 8.3 Lneas futuras de investigacin ...................................................................122

REFERENCIAS.................................................................................................. 123

GLOSARIO ........................................................................................................ 125

ndice de figuras Decodificador vdeo MPEG-2

V

NDICE DE FIGURAS

Figura 1.1 Divisin de la imagen en dos campos entrelazados .............................................................. 3 Figura 1.2 Muestreo espacial y temporal de la secuencia de vdeo ....................................................... 4 Figura 1.3 Retcula de muestreo rectangular para la digitalizacin de las imgenes .......................... 4 Figura 1.4 Versiones de una misma imagen con distintas resoluciones ............................................... 5 Figura 1.5 Distribucin espacial de las muestras de luminancia y croma en el formato 4:2:2 ........... 7 Figura 1.6 Distribucin de las componentes de luminancia y croma en el formato 4:2:0 ................... 7 Figura 1.7 Etapas en la codificacin y transmisin de una seal de vdeo digital................................ 9 Figura 2.1 Proceso general de codificacin y decodificacin de la informacin ................................. 15 Figura 2.2 Proceso general de codificacin y descodificacin de imgenes mediante la transformada coseno ................................................................................................................................... 18 Figura 2.3 Ejemplo numrico y grfico de la transformada discreta del coseno ................................ 22 Figura 2.4 Ejemplo de dos fotogramas seguidos y su diferencia.......................................................... 24 Figura 2.5 Ejemplo de bloques utilizados para realizar la prediccin en codificacin diferencial .... 25 Figura 2.6 Ejemplo del bloque utilizado para la prediccin en una codificacin por compensacin de movimiento ............................................................................................................................................... 26 Figura 2.7 Clculo del vector de movimiento para la compensacin de movimiento......................... 27 Figura 3.1 Modelo de la capa de Sistema de MPEG-2........................................................................... 35 Figura 3.2 Esquema codificador y decodificador MPEG-2..................................................................... 38 Figura 3.3 Estructura jerrquica del vdeo MPEG ................................................................................... 39 Figura 3.4 Ejemplo de estructura de imagen temporal ........................................................................... 41 Figura 3.5 Reordenacin de imgenes (GOP N=9, M=3) ...................................................................... 42 Figura 3.6 Estructura slice general ............................................................................................................ 43 Figura 3.7 Estructura slice restringida ....................................................................................................... 43 Figura 3.8 Bloques en el formato 4:2:0 ..................................................................................................... 44 Figura 3.9 Bloques en el formato 4:2:2 ..................................................................................................... 44 Figura 3.10 Bloques en el formato 4:4:4 ................................................................................................... 45 Figura 3.11 Diagrama del proceso de codificacin en MPEG-2............................................................ 47 Figura 3.12 Entrada y salida descomposicin en bloques NxN ............................................................ 47 Figura 3.13 Bloques en el formato 4:2:0 ................................................................................................... 47 Figura 3.14 Entrada y salida DCT bidimensional .................................................................................... 48 Figura 3.15 Entrada y salida cuantificador variable................................................................................. 48 Figura 3.16 Matriz de cuantificacin para luminancia y crominancia W(v,u)....................................... 49 Figura 3.17 Ejemplo de cuantificacin de un bloque............................................................................... 50 Figura 3.18 Entrada y salida escaneo Zig-Zag ........................................................................................ 50 Figura 3.19 Matriz de escaneo zig-zag ..................................................................................................... 51 Figura 3.20 Entrada y codificacin entrpica ........................................................................................... 51 Figura 3.21 Prediccin de trama en imgenes de trama........................................................................ 54 Figura 3.22 Prediccin de campo en imgenes de trama ...................................................................... 54 Figura 3.23 Prediccin Dual-prime en imgenes de trama .................................................................... 55 Figura 3.24 Esquema de codificacin de las imgenes I ....................................................................... 55 Figura 3.25 Esquema de codificacin de las imgenes P...................................................................... 56 Figura 3.26 Esquema de codificacin de las imgenes B...................................................................... 57 Figura 3.27 Divisin en bloques de un macrobloque para imgenes progresivas y entrelazadas .. 58 Figura 3.28 Matriz de escaneo alternada.................................................................................................. 59 Figura 3.29 Prediccin de campo en imgenes de campo .................................................................... 60 Figura 3.30 Prediccin 16x8 en imgenes de campo ............................................................................. 60 Figura 3.31 Prediccin Dual-prime en imgenes de campo .................................................................. 61 Figura 4.1 Compresin MPEG-2 de la seal de vdeo digital ................................................................ 62 Figura 4.2 Conversin de ES a PES ......................................................................................................... 63 Figura 4.3 Esquema del proceso de generacin y decodificacin del PS y TS.................................. 64

ndice de figuras Decodificador vdeo MPEG-2

VI

Figura 4.4 Estructura del Program Stream ............................................................................................... 65 Figura 4.5 Divisin de un PES en TS packets ......................................................................................... 67 Figura 5.1 Esquema de un codificador de subbanda.............................................................................. 71 Figura 5.2 Esquema de un decodificador de subbanda ......................................................................... 71 Figura 5.3 Esquema de un codificador de audio MPEG......................................................................... 73 Figura 5.4 Esquema de un decodificador de audio MPEG .................................................................... 73 Figura 6.1Estructura jerrquica del tren de bits de vdeo ....................................................................... 76 Figura 6.2 Organizacin del tren de bits de alto nivel ............................................................................. 79 Figura 7.1 Diagrama de flujo del demultiplexor........................................................................................ 96 Figura 7.2 Reparto de tiempos considerando mismo tiempo de decodificacin............................... 117 Figura 7.3 Reparto de tiempos real ......................................................................................................... 118 Figura 7.4 Reparto de memoria ocupada ............................................................................................... 118 Figura 7.5 Reparto de tiempo en el proceso de decodificacin .......................................................... 119

ndice de tablas Decodificador vdeo MPEG-2

VII

NDICE DE TABLAS

Tabla 1.1 Caractersticas bsicas de los sistemas PAL y NTSC ............................................................ 3 Tabla 1.2 Comparacin entre formatos digitales ....................................................................................... 9 Tabla 3.1 Caractersticas de los perfiles de MPEG-2 ............................................................................. 37 Tabla 3.2 Resoluciones mximas de los niveles de MPEG-2 ............................................................... 37 Tabla 3.3 Combinaciones recomendadas Perfil/Nivel y Mximo bitrate (Mbps)................................. 37 Tabla 6.1 Valores de cdigo de comienzo................................................................................................ 77 Tabla 6.2 Cdigos de identificador de cdigo de comienzo de extensin ........................................... 80 Tabla 6.3 Significado de chroma_format .................................................................................................. 82 Tabla 6.4 Nmero de bloques en funcin de chroma_format................................................................ 82 Tabla 6.5 Estructura time_code.................................................................................................................. 83 Tabla 6.6 Tipo de codificacin de imagen ................................................................................................ 84 Tabla 6.7 Precisin coeficientes DC intracodificados ............................................................................. 85 Tabla 6.8 Significado de picture_structure................................................................................................ 85 Tabla 6.9 Significado frame_motion_type................................................................................................. 88 Tabla 6.10 Siginficado field_motion_type ................................................................................................. 89 Tabla 6.11 Relacin entre intra_dc_precision y el valor de reiniciacin del predictor........................ 90 Tabla 6.12 Seleccin de tablas VLC de coeficientes DC ....................................................................... 91 Tabla 7.1 Tiempos y espacio en memoria de decodificacin en un GOP ......................................... 117

ndice de ecuaciones Decodificador vdeo MPEG-2

VIII

NDICE DE ECUACIONES

Ecuacin 2.1 Transformada discreta del coseno 2D............................................................................... 21 Ecuacin 2.2 Transformada inversa discreta del coseno 2D................................................................. 21 Ecuacin 3.1 Obtencin de los coeficientes cuantificados..................................................................... 50

Introduccin Decodificador vdeo MPEG-2

1

1 INTRODUCCIN

1.1 Introduccin

Actualmente nos encontramos en una poca en la que prcticamente todo tratamiento de

informacin que imaginemos se hace mediante un dispositivo con funcionamiento digital.

Podemos ver como a lo largo de la ltima dcada, se han ido sustituyendo los mtodos

de adquisicin, almacenaje y reproduccin de cualquier tipo de informacin. As por

ejemplo, las cmaras fotogrficas, videocmaras, reproductores de msica, grabadoras,

etc, han sido reemplazadas por sus homlogos digitales con las diferencias que esto

conlleva.

La digitalizacin de seales analgicas aporta considerables ventajas entre las que

podemos citar la proteccin frente a ruidos, la facilidad para encriptar las seales, la

posibilidad de procesar digitalmente los datos, el poder enviar las seales digitales a

grandes distancias, as como la gran capacidad de almacenamiento que en medios

digitales encontramos y que aumenta a velocidad vertiginosa. No obstante, por lo

general, la digitalizacin supone un aumento considerable del ancho de banda. A pesar

de esto, el gran desarrollo experimentado por las tecnologas de la informacin en los

ltimos tiempos ha provocado, entre otros avances, un incremento de las comunicaciones

digitales. El procesamiento digital de seales adquiere un inters especial, puesto que es

la base para plataformas tales como Internet, multimedia, televisin digital y sonido

digital. La posibilidad de transmitir vdeo digital se presentaba como algo muy lejano hace

unos aos. Incluso se lleg a pensar que su introduccin no se lograra hasta bien

entrado el siglo XXI [13].

Lo que hizo cambiar esta percepcin fue la aparicin de eficaces algoritmos de

compresin de vdeo, que reducan de manera significativa el flujo necesario para la

transmisin de imgenes.

Para comprender la necesidad de algoritmos compresores necesitaremos primero unas

nociones bsicas sobre el vdeo digital sin comprimir. Por esto, en el siguiente captulo

haremos una introduccin al vdeo digital., hablando de los principales formatos

existentes y de las etapas en el proceso de codificacin. A continuacin, expondremos la

necesidad de compresin de una forma razonada. Por ltimo encontraremos las


2

motivaciones que nos han llevado ha desarrollar este proyecto y los objetivos propuestos

en su comienzo. Adems, se incluye un apartado con la organizacin del resto de la

memoria.

1.2 Conceptos de vdeo digital

El vdeo es una captura, grabacin, almacenamiento, y reconstruccin de una secuencia

de imgenes que representan escenas en movimiento. Tanto el cine, la televisin y el

vdeo domstico estn basados, entre otros, en un fenmeno conocido como

persistencia de la visin. Dicho fenmeno consiste en una imperfeccin del ojo humano,

por el cual toda imagen que visualice se queda almacenada en la retina durante una

fraccin de segundo. De esta forma, si al ojo humano se le muestra una rpida sucesin

de imgenes, tender a unirlas, y si stas son muy similares, con pequeos cambios y se

exponen a una velocidad adecuada, el cerebro las reconoce como imgenes en

movimiento.

El vdeo surge como una tecnologa ntimamente ligada a la televisin, pues naci como

auxiliar de sta para evitar que toda la programacin fuera en directo, facilitando el

trabajo de grabacin, la planificacin de horarios, el almacenaje de programas y la

reproduccin de los mismos. Por esto actualmente, cualquier formato de vdeo tiene

herencias de este sistema.

La innovacin en el registro de imgenes visuales y auditivas en este formato, comienza

a finales de los aos 50 e inicios de los 60. Entre 1965 y 1978 se consolida como un

medio con singularidad y aplicaciones propias y empieza a ser independiente de la

produccin televisiva.

Una fecha importante en la historia de este medio es 1964, durante los Juegos Olmpicos

de Tokio, ao en el que se hace la primera emisin diferida de la transmisin en directo

de este acontecimiento.

En 1965 se efecta el primer vdeo personal con una intencin artstica, cuando el

coreano Nam June Pail film la visita del Papa Pablo VI a Nueva York desde la ventanilla

de un taxi.

Posteriormente, en 1968. la Sony Corporation produce el portpack, primera cmara

porttil comercializada, y en ese mismo ao ocurre que Jean Louis Godard graba la


3

revuelta francesa de estudiantes por la maana (hecho conocido como el Mayo Francs),

y es visto por la noche en una librera francesa [19].

Como hemos dicho, el vdeo y la televisin se relacionan y se pueden considerar medios

complementarios. Por esto, para estudiar la transicin entre vdeo analgico y vdeo

digital tomaremos como ejemplo la seal analgica empleada en televisin.

La seal analgica de televisin est compuesta de imgenes. Como hemos dicho, para

crear la sensacin de movimiento dichas imgenes deben cambiar cada cierto tiempo de

forma que el ojo no lo perciba (25 imgenes por segundo en PAL, y 30 en NTSC). A su

vez, cada imagen est formada por lneas (625 lneas para un televisor PAL, 525 para un

televisor NTSC), pero una imagen digital est compuesta de pxeles. Las principales

caractersticas de estos dos sistemas se detallan en la siguiente tabla.

IMAG/S CAMP/S LINEAS/IMAG TLINEA FLINEA TIMAGEN FIMAGEN TCAMPO FCAMPO

PAL B/G 25 50 625 64 s 15625 Hz 40 ms 25 Hz 20 ms 50 Hz

NTSC 30 60 525 63,56 s 15734 Hz 33,33 ms 29,97 Hz 16,66 ms 60 Hz

Tabla 1.1 Caractersticas bsicas de los sistemas PAL y NTSC

Puesto que ms adelante hablaremos del vdeo entrelazado introducimos aqu algunos

conceptos. Consiste en realizar una doble exploracin entrelazada de las lneas de cada

imagen como se muestra en la figura 1.1. La imagen se divide en dos subimgenes o

campos explorando alternativamente las lneas pares y las impares. La proximidad entre

lneas consecutivas hace que el espectador integre las dos subimgenes y obtenga la

sensacin de que stas se estn renovando a una frecuencia doble de la real. Con ello se

consigue eliminar un fenmeno de parpadeo que apareca con la exploracin normal.

Figura 1.1 Divisin de la imagen en dos campos entrelazados


4

Para la digitalizacin de esta seal de vdeo se hace un muestreo de cada una de las

imgenes (muestreo temporal) en filas y columnas (muestreo espacial) tal y como se

representa en la figura 1.2.

Figura 1.2 Muestreo espacial y temporal de la secuencia de vdeo

Si consideramos una seal analgica en blanco y negro (solo tiene informacin de la

luminancia, es decir, del nivel de gris en cada punto) y tomamos muestras

equiespaciadas en cada una de sus lneas, se obtendr un muestreo de la imagen con

estructura rectangular (cada cuadro de televisin guarda una relacin de aspecto

rectangular 4/3), en la que cada muestra representa los valores de luminancia obtenidos

como se representa en la figura 1.3.

Figura 1.3 Retcula de muestreo rectangular para la digitalizacin de las imgenes


5

De este modo, la imagen digital puede tratarse como una matriz u[n,m]. Cada una de

estas muestras sern los llamados elementos de imagen o pxeles. El nmero de

muestras que se toman en cada lnea de la imagen debe guardar una relacin con el

nmero de lneas de cada imagen con objeto de que la resolucin en ambas direcciones

tenga valores parecidos. As pues, como primera aproximacin, en un sistema como el

europeo (PAL) que utiliza 575 lneas activas, el nmero de muestras tomadas en cada

lnea debera ser de unas (4/3) x 575 = 766 muestras, donde hemos multiplicado por la

relacin de aspecto para tener en cuenta que la imagen no es cuadrada. En la figura 1.4

se muestran distintas versiones de la misma imagen muestreada con distintas

resoluciones (en este caso cuadradas).

Figura 1.4 Versiones de una misma imagen con distintas resoluciones

Cada una de estas muestras de luminancia deber representarse con un nmero de bits

o una profundidad. La experiencia emprica demuestra que el nmero mnimo de niveles

a partir del que no se aprecia ninguna mejora en la calidad de las imgenes se sita entre

los 45 y 60 por lo que bastara con 6 7 bits para codificarlos. Debido a que toda la

estructura de las memorias est basadas en palabras de 8 bits, se decidi cuantificar los

niveles de luminancia con 8 bits (256 niveles posibles).

En el caso en que se trate de imgenes en color, puede optarse por muestrear las 3

componentes de color RGB o bien la luminancia y las seales diferencia de color. En el

primer caso, la resolucin de las tres imgenes debe ser la misma. En el segundo, es

habitual muestrear las seales diferencia de color con una retcula de muestreo que

incluya un menor nmero de muestras espaciales aunque con el mismo nmero de bits.


6

1.2.1 Formatos de vdeo digital

La primera norma que surge para la televisin digital ser la CCIR 601, que se encarga

del muestreo de la seal, sin llevar a cabo ningn tipo de compresin. Puesto que se har

referencia a este formato en el futuro, considero oportuno introducir algunos conceptos.

Recomendacin 601

En 1982, el ITU-R (anteriormente CCIR), en su recomendacin 601, desarroll un

conjunto de especificaciones para seales de televisin digital en estudios de televisin o

de produccin de vdeo.

El objetivo de esta recomendacin era facilitar el intercambio de programas a escala

internacional. Las recomendaciones definen muchos parmetros comunes entre el

formato americano (NTSC) y europeo (PAL) con el objeto de que los fabricantes puedan

incluir varios mdulos comunes en equipos para 525 y 625 lneas. El uso de este formato

permite la interconexin entre distintos equipos digitales.

Existen bsicamente dos variantes bsicas conocidas como 4:2:2 y 4:4:4, donde los

dgitos indican la proporcin entre las muestras dedicadas a la luminancia (Y) y las

dedicadas a las componentes de color (Cr y Cb, componentes diferencia).

Las dimensiones de la componente de luminancia en los formatos 4:4:4 y 4:2:2 son de

720x576 en los sistemas de 625/50 y de 720x480 en los de 525/30.

El sistema ms utilizado es el 4:2:2, en el que estn codificadas la luminancia y las

seales diferencia de color. El formato 4:4:4 puede utilizarse tambin con componentes

RGB.

En la figura 1.5 se muestra la disposicin de las muestras tomadas en el formato 4:2:2.

Como se puede ver, las seales diferencia de color tienen la mitad de muestras en el

sentido horizontal y el mismo que la luminancia en el sentido vertical.


7

Figura 1.5 Distribucin espacial de las muestras de luminancia y croma en el formato 4:2:2

Adems de las dos variantes bsicas 4:2:2 y 4:4:4, destaca tambin el formato 4:2:0 que

es una simplificacin del 4:2:2. Se obtiene reduciendo a la mitad la frecuencia de

muestreo de las componentes de croma en el sentido vertical. Con ello, se iguala la

densidad de muestras de croma en las dos direcciones. Las muestras de croma se

obtienen a partir de las muestras del formato 4:2:2, promediando dos filas consecutivas.

En la figura 1.6 se muestra un ejemplo del muestreo de este formato.

Figura 1.6 Distribucin de las componentes de luminancia y croma en el formato 4:2:0

Formatos reducidos

En algunas aplicaciones donde no resulta necesaria una excesiva calidad de la imagen

de vdeo digital suelen emplearse reducciones sobre el tamao de la imagen. Con ello, se


8

consigue una importante reduccin respecto a la tasa de bits original, que puede hacer

factible la codificacin de la seal en soportes de baja densidad o canales de reducido

ancho de banda.

Uno de los formatos de vdeo reducido ms populares es el SIF (Source Intermediate

Format) que, esencialmente, consiste en un submuestreo de factor dos del formato 4:2:0

que se aplica tanto a las componentes de luminancia como de croma. Los tamaos de las

matrices de luminancia para el formato SIF son de 360x288 para el estndar de 625

lneas y 360x240 para el de 525 lneas. Las matrices de croma tambin se submuestrean

en un factor 2 en cada direccin respecto las matrices de croma del 4:2:0 (180x144 para

625 lneas y 180x120 para 525). Tambin se realiza una reduccin de la frecuencia de

imagen a 25 Hz para el sistema europeo y a 30 Hz para el americano. Con ello, las

imgenes resultantes no son entrelazadas. En estas condiciones, se obtiene una calidad

equivalente al formato de vdeo analgico VHS.

El formato CIF (Common Intermediate Format) es un compromiso entre el formato SIF

para 625 y 525 lneas. Utiliza 360x288 muestras de resolucin de luminancia (europeo) y

una frecuencia de refresco de 30 Hz (americano).

Los formatos QSIF y QCIF (Quater) se obtienen reduciendo de nuevo la resolucin

espacial en un factor 4 (factor 2 en cada direccin) y la resolucin temporal en un factor

de 2 o 4. Estos formatos suelen utilizarse para la transmisin de seales de vdeo

telefona con el estndar de compresin H.261 o para la transmisin de vdeo en directo

por Internet. Los submuestreos espaciales se realizan filtrando las seales SIF (o

directamente la 4:2:0). Las posiciones espaciales de las componentes de luminancia y

croma resultantes son parecidas a las del formato SIF.

Formatos de pxel cuadrado

En aplicaciones informticas es conveniente que los pxeles tengan una relacin de

aspecto cuadrada, ya que las tarjetas de visualizacin y los programas de tratamiento de

imagen asumen esta propiedad. Por ello, es conveniente redefinir unos formatos

alternativos para poder gestionar las seales de vdeo digital mediante ordenador. Los

formatos utilizados en entornos informticos se suelen denominar formatos de pxel

cuadrado y son equivalentes a los formatos que hemos considerado hasta ahora, con la

salvedad de que se modifica el nmero de elementos por fila para forzar que la relacin

de aspecto del pxel sea cuadrada. As, en el estndar de 625 lneas, el tamao de una

imagen 4:2:0 ser de 768x576 pxeles (768 = (4/3) x 576) mientras que en el estndar de


9

525 lneas tendremos un tamao de imagen de 640x480 pxeles (640 = (4/3) x 480). Este

formato es conocido como VGA y, como vemos, proviene del estndar americano. El

resto de formatos SIF, CIF y QCIF de pxel cuadrado se obtienen dividiendo las

resoluciones espaciales por factores de dos. En la tabla 1.2 se comparan los tamaos de

cada formato en las versiones de 625 lneas, 525 lneas y formatos cuadrados.

Europeo TV Americano TV Eur. Cuadrado Amer. Cuadrado

4:2:0 720x576 720x480 768x576 640x480 SIF 360x288 360x240 384x288 320x240 CIF 360x288 360x288 384x288 384x288 QSIF 180x144 180x120 192x144 160x120

Tabla 1.2 Comparacin entre formatos digitales

1.2.2 Codificacin de la seal de vdeo digital

En la figura 1.7 se representan las distintas etapas conceptuales que intervienen en el

proceso de codificacin de la seal de vdeo digital.

Figura 1.7 Etapas en la codificacin y transmisin de una seal de vdeo digital

La codificacin de fuente consiste en extraer toda la redundancia posible en la seal, reduciendo el nmero de bits con el que se representa la informacin sin

que ello suponga una prdida aparente de calidad para el sistema visual humano.

Los mtodos y estrategias empleados para la codificacin de fuente son muy

variados, y resulta difcil establecer un procedimiento de compresin ptimo

puesto que los resultados dependen, en gran medida, de las caractersticas de las

seales. Generalmente los mtodos de compresin avanzados combinan distintas

estrategias simultneamente para codificar la seal.


10

La multiplexacin de distintas seales bsicas es necesaria para formar una nica trama binaria que transporte la informacin y contenidos de todo el canal definido

por la plataforma operadora.

La codificacin de canal se utiliza para adecuar la forma de onda de las seales a las caractersticas del canal. En esta etapa se introducen cdigos de proteccin

frente a errores, cdigos de encriptacin de la informacin y se adecua la forma

de onda de las seales para que puedan ser directamente utilizadas por la etapa

de modulacin o transmisin. Esta ltima etapa se encarga de adaptar los datos a

las caractersticas del medio de transmisin, para garantizar una correcta

recepcin de las seales.

El medio de transmisin condiciona el tipo de modulacin que se utiliza y la codificacin de canal. As, en un medio como el cable, los sistemas de deteccin y

correccin de errores pueden ser ms simples que en el caso de la comunicacin

va satlite, debido a que la relacin seal a ruido es mucho mayor y, por tanto, se

reduce la probabilidad de error.

1.3 Necesidad de compresin

Para tener una idea general del volumen de datos binarios que supone la digitalizacin de

una seal de vdeo, y por ello, la necesidad de compresin, consideremos como ejemplo

el caso del estndar 4:2:2. La luminancia se muestrea a una frecuencia de 13.5 MHz

tomando 8 bits por muestra, lo que da un total de 108 Mbps. Adems, cada una de las

seales de diferencia de color se muestrean a 6.75 MHz, nuevamente con 8 bits por

muestra, lo que produce un nuevo flujo de 108 Mbps. En total tenemos un flujo de 216

Mbps asignados exclusivamente a la seal de vdeo digital, sin tener en cuenta las

componentes de audio o de informacin adicional que pueden desear incluirse en la

seal de televisin [6]. Este flujo de datos, si bien puede ser soportado en la transferencia

de datos entre equipos de un estudio, es excesivo para su transmisin directa al usuario,

ya que requerira utilizar un considerable ancho de banda.

Por ello, en el momento que haya que transmitir o almacenar la seal de vdeo digital es

fundamental aplicar procedimientos y tratamientos especficos de los datos que permitan

comprimir la cantidad de informacin que debe transmitirse al canal.


11

En el caso de seales de vdeo analgicas resultaba suficiente un ancho de banda de 5

MHz para mantener una resolucin espacial y tasa de refresco de imgenes aceptable.

Evidentemente, aunque se usen cdigos y modulaciones digitales de gran eficiencia

espectral, el ancho de banda necesario para transmitir una tasa de bits de 216 Mbps es

muy superior a los 5 MHz que requiere el sistema analgico.

Por esta razn, los formatos digitales derivados del ITU 601 se han mantenido como

estndares digitales para el intercambio de informacin entre equipos terminales en

estudios de grabacin y produccin de vdeo y no se han extendido a sistemas de

transmisin y almacenaje de la seal de vdeo.

Tomando estos formatos digitales como punto de partida, es necesario aplicar un proceso

de reduccin de la tasa de bits que permita la transmisin o almacenaje de las seales

sin una prdida aparente de calidad o sin hacer uso excesivo de los medios de los que se

dispone. Este proceso es conocido como compresin o codificacin y consiste

bsicamente en la reduccin del nmero de parmetros requeridos para representar la

seal, manteniendo una buena calidad de imagen.

1.4 Motivaciones

En un primer momento, el proyecto iba a consistir en un estudio y comparacin de

distintos algoritmos de deteccin de cambios de plano en vdeo comprimido. La idea

consista en programar en MATLAB algunos de los algoritmos ms caractersticos y

comparar su bondad con respecto a distintos parmetros. Se pens en basarse en el

estndar de vdeo comprimido MPEG-2. Para ello, en primer lugar, me centr en la

documentacin de estos algoritmos, seleccionando tres de ellos. Cuando comenc la

parte tcnica y lleg la hora de programar, result que no exista ningn cdigo abierto en

MATLAB que analizara la estructura del vdeo comprimido. Esto era necesario, ya que

cualquier algoritmo de cambio de plano compara determinados parmetros (presentes en

el bitstream de vdeo) en las sucesivas imgenes, de forma que cuando detectan una

diferencia mayor a un umbral, indicarn que se ha producido el cambio.

Ya que no exista en cdigo abierto una aplicacin que hiciera lo que necesitbamos, nos

planteamos desarrollarla en este proyecto. Adems, en aras a servir a futuras

investigaciones y como un aporte ms a la comunidad de la informacin, se ha decidido

publicar la aplicacin desarrollada en el File Exchange de Mathworks.


12

La razn de haber escogido el estndar de vdeo comprimido MPEG-2, y no otra de las

versiones de MPEG, es principalmente el gran nmero de aplicaciones en las que se

emplea este estndar, desde sistemas de almacenamiento digital como el DVD (en una

versin modificada) hasta la televisin de alta definicin.

1.5 Objetivos

Aunque el principal objetivo de este proyecto es el desarrollo de un decodificador de

vdeo MPEG-2 en MATLAB, su consecucin necesariamente se ha tenido que basar en

la realizacin de varias tareas previas.

En primer lugar se deba entender por qu es necesaria la compresin al mismo tiempo

que estudiar las tcnicas empleadas para realizarla. Estas tcnicas, basadas en la

compresin empleada en imgenes estticas, deben conseguir un flujo de bits ptimo

para las aplicaciones en las que se usar la informacin de vdeo. Hasta este punto,

muchos de los distintos estndares de compresin existentes se basan en procesos

equivalentes.

Centrndonos en el estndar elegido, MPEG-2, la primera tarea a realizar fue un estudio

exhaustivo del estndar. Aparte de las tcnicas de compresin empleadas en este caso

particular, debamos comprender las distintas estructuras existentes en su bitstream. Al

ser un estndar abierto, la recomendacin proporciona simplemente una sintaxis que

deben cumplir los vdeos comprimidos con este estndar, lo cual deja gran libertad al

diseador del codificador o decodificador. Las distintas estructuras que forman un

bitstream con formato MPEG-2 y las relaciones entre ellas vienen recogidas en la

recomendacin ISO/IEC 13818-1, denominada Capa de Sistema. Adems, como la

informacin que se iba a descomprimir era la de vdeo, se realiz el estudio pertinente de

la Capa de Vdeo, recogida en la recomendacin ISO/IEC 13818-2.

En la parte de desarrollo tcnico se fijaron dos objetivos. El primero de ellos era realizar

un programa capaz de demultiplexar la informacin de vdeo, para su posterior

descompresin y anlisis. El segundo era el decodificador propiamente dicho. Para la

realizacin de este programa se deba emplear como patrn la sintaxis recogida en la

Capa de Vdeo del estndar, con los mismos algoritmos y, en la medida de lo posible, la

misma informacin. De esta forma se conseguira que cualquier persona ajena al

proyecto, siempre que tenga en cuenta la recomendacin, pudiera comprender e incluso

modificar el cdigo para cualquier otra aplicacin.


13

Aunque no se fij como objetivo minimizar la velocidad de descompresin, se llevar a

cabo un estudio de tiempos empleados en el desarrollo de la aplicacin para detectar

cul seran las partes mejorables del algoritmo.

1.6 Organizacin de la memoria

La memoria est dividida en ocho captulos, a su vez subdivididos en partes y temas

concretos que relacionamos a continuacin.

El primer captulo sirve de introduccin o de prembulo, mostrndose algunos conceptos

de vdeo digital y la necesidad de comprimir este tipo de informacin. Incluyndose

tambin las motivaciones que nos han llevado a realizar este proyecto y los objetivos

fijados.

En el segundo captulo se exponen las tcnicas usadas en los estndares de compresin

de vdeo. Se da por tanto, una visin general, sin particularizar ni definir ningn estndar

en concreto.

El tercer captulo nos detalla la informacin relacionada con el estndar MPEG-2, en cuya

primera parte, se habla de su historia y de la organizacin de la recomendacin ISO/IEC

13818. Posteriormente, y con un nivel ms detallado que en el captulo segundo, se

presentan las tcnicas de compresin empleadas.

En el cuarto captulo hablamos de la Capa de Sistema (ISO/IEC 13818-1), que contiene

la forma de multiplexar la distinta informacin de vdeo, audio y de otros tipos. Adems se

explican las dos formas de agrupar dicha informacin.

En el quinto captulo damos un repaso general a las tcnicas de compresin de audio y

de una forma algo ms superficial que en el caso de vdeo hablamos del proceso de

codificacin empleado en MPEG-2.

En el sexto captulo llegamos a la informacin de vdeo. Presentando la estructura de

datos de vdeo y los principales parmetros que definen este tipo de informacin.

La informacin del desarrollo se recoge en el captulo siete. En primer lugar se explican

las caractersticas fundamentales de las aplicaciones diseadas, haciendo un estudio de

tiempos. Por ltimo, se muestra un ejemplo del bitstream de vdeo y su interpretacin

correspondiente.


14

Finalmente y como colofn, en el octavo captulo se incluyen las conclusiones, los

objetivos cumplidos y las posibles vas futuras de desarrollo a partir de este proyecto.

Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2

15

2 TCNICAS DE COMPRESIN DE LA SEAL DE VDEO

La compresin es el proceso de compactar los datos en un menor nmero de bits. En el

caso de la compresin de vdeo hemos dicho que necesitamos disminuir la tasa

necesaria (unos 216 Mbps) para poder almacenar y transmitir este tipo de informacin.

2.1 Sistemas de compresin

Un sistema de compresin de informacin suele estar formado por dos etapas que se

ilustran en la figura 2.1. La transformacin de los datos es un procedimiento genrico que

se utiliza para representar la informacin en una forma alternativa y en la que, en

principio, resulta ms evidente la redundancia existente en los datos originales. Es

necesario que esta transformacin sea invertible, es decir, que a partir de los datos

transformados podamos recuperar de forma lo ms exacta posible la informacin original.

Figura 2.1 Proceso general de codificacin y decodificacin de la informacin

Consideremos como ejemplo la aplicacin de una transformada de Fourier a las seales

que representan la informacin de un fragmento de audio. Es posible que resulte ms

eficiente codificar los datos resultantes de esta transformacin que los datos originales.

En efecto, en el dominio transformado de Fourier es ms simple identificar las regiones

espectrales que tienen una energa por debajo del umbral de audicin, o analizar las

bandas que resultarn enmascaradas por otras seales y que por lo tanto no seran

audibles. Si este anlisis de la seal es factible, no tendr sentido codificar toda aquella

informacin que el sistema auditivo humano es incapaz de escuchar y resulta ms

rentable dedicar los bits a las zonas audibles. El resultado final es que en este dominio

transformado podemos codificar la informacin de forma ms eficaz. No obstante,


16

debemos recordar que al final de la cadena de codificacin / decodificacin, deben

presentarse los datos en el mismo formato de entrada para que puedan ser

correctamente interpretados por el sistema auditivo. Esto significa que deberemos aplicar

la transformacin inversa sobre los datos codificados para devolverlos a su dominio de

representacin original.

En general, la compresin puede ser con prdidas (lossy) o sin prdidas (lossless) en

funcin de si la informacin que se recupera coincide exactamente con la original o es

slo una aproximacin. Los mtodos de codificacin sin prdidas se utilizan sobre todo

en aplicaciones de codificacin de datos binarios de aplicaciones informticas en los que

es absolutamente necesario recuperar la informacin original. Los formatos ms

populares son el zip y el arj. En tratamiento de imgenes los mtodos de compresin sin

prdidas encuentran su aplicacin en la codificacin de imgenes mdicas o cientficas

en las que puede resultar crtico la prdida de parte de la informacin. El formato JPEG

dispone de una versin de codificacin sin prdidas que suele emplearse en estas

aplicaciones.

La compresin con prdidas es la ms habitual en la codificacin de seales de vdeo y

audio. Evidentemente, las prdidas son tolerables siempre que la calidad de las seales

decodificadas sean aceptables. El principio general sobre el que se sustenta la

codificacin con prdidas es que no resulta necesario codificar aquellas componentes de

la informacin que no son observables por los sistemas de percepcin humana. Por lo

tanto, estos mtodos se fundamentan en las caractersticas psicofisiolgicas de los

sistemas auditivo y visual, que son, en ltima instancia, los que deben evaluar la calidad

del algoritmo de compresin. Por ello, es fundamental comprender las limitaciones y

caractersticas de estos sistemas de percepcin para disear codificadores en los que las

prdidas de informacin resulten poco evidentes o incluso inapreciables. La principal

ventaja de estas estrategias de codificacin es que consiguen unos factores de

compresin muy superiores a los que se obtienen con los mtodos sin prdidas. Adems,

suelen ser mtodos escalables con la aplicacin, es decir, el grado de prdida de calidad

que se tolera depende del mbito al que se destine el codificador. As, la calidad que se

exige en una aplicacin de vdeo en directo para Internet es muy inferior a la que se exige

para la radiodifusin de televisin. Anlogamente, un codificador de vdeo para

aplicaciones multimedia (MPEG-1) deber realizar una compresin mucho mayor que un

codificador para aplicaciones de televisin (MPEG-2), ya que las tasas de transferencia


17

de bits que admite un CDROM son mucho menores que las que admiten los canales de

televisin.

2.2 Tcnicas de compresin de imgenes

La compresin de imgenes y de secuencias de vdeo se basa en la eliminacin de tres

tipos de redundancias:

Redundancia Espacial: Se basa en los pxeles que estn cerca unos de otros, ya que estos tienen un parecido muy grande entre ellos. Para eliminar esta

redundancia se usan mtodos transformados, como por ejemplo la (DCT, Discret

Cosinus Transform) y la cuantificacin. Estas tcnicas sern conocidas como

codificacin Intratrama.

Redundancia Estadstica: Consiste en determinar que valores de bit se repiten ms en una secuencia. Utilizaremos mtodos como el VLC (Variable Length

Code) y el RLC (Run Length Code) para poder eliminar esta redundancia.

Redundancia Temporal: Pretende aprovechar el hecho de que un pxel se repita a lo largo del tiempo. Para poder eliminar este tipo de redundancia se utilizaran

tcnicas predictivas para poder deducir la posicin futura de los pxeles. En

concreto utilizaremos una prediccin Intertrama con la tcnica de compensacin

de movimiento, basada en obtener la imagen de prediccin a partir de vectores de

movimiento de imgenes pasadas y/o futuras. Esta eliminacin de redundancia es

la que nos comprimir ms el video.

En este apartado slo se expondrn los aspectos generales de los mtodos ms

utilizados en algoritmos de compresin de vdeo. Normalmente, cualquiera de las

tcnicas empleadas estn basadas en bloques, que en el caso genrico sern de tamao

NxM, aunque en la mayora de los casos se toman bloque cuadrados, NxN. En el

siguiente captulo se detallarn estas tcnicas para el caso de MPEG-2.

2.2.1 Redundancia espacial

Como hemos dicho se usan dos mtodos para eliminar este tipo de redundancia, adems

del ya conocido submuestreo de las componentes de color, que tambin se puede

considerar como eliminacin de este tipo de redundancia. En este apartado se presentar


18

la transformada coseno discreta. El mtodo de cuantificacin ser explicado para el caso

particular del codificador MPEG ms adelante.

Transformada coseno discreta (DCT)

La codificacin de imagen utilizando algn tipo de transformadas es bastante popular y se

extiende a otras transformaciones como Fourier, Walsh-Hadamard, Hart, Karhunen-

Loeve, Wavelet, etc. Estos procedimientos de codificacin se conocen con el nombre

genrico de mtodos transformados.

Este mtodo de codificacin se basa en el esquema de la figura 2.2. La imagen a

comprimir se divide en bloques o subimgenes de tamao reducido sobre las que se

aplica la transformacin. El resultado de la transformada de cada bloque se cuantifica y

posteriormente se aplican cdigos eficientes para transmitir o almacenar esta

informacin. La compresin de imagen se produce principalmente durante el proceso de

cuantificacin, donde parte de la informacin se descarta o se cuantifica con un nmero

de niveles muy reducido. Veremos que la informacin de cada subimagen puede quedar

muy bien empaquetada en unos pocos coeficientes transformados, de modo que resulta

suficiente con determinar qu coeficientes son los ms representativos y codificar la

imagen utilizando nicamente estos elementos. Evidentemente, tambin existe alguna

ganancia de compresin debido a la codificacin de los coeficientes mediante algoritmos

eficientes, aunque en ningn modo es tan significativa como la debida a la parte de

cuantificacin.

Figura 2.2 Proceso general de codificacin y descodificacin de imgenes mediante la transformada coseno


19

La decodificacin de la imagen se realiza aplicando el proceso inverso: los coeficientes

se descodifican y se aplica la transformada inversa, de manera que se recuperan los

elementos de imagen en el dominio espacial original. Posteriormente, es necesario

recomponer la imagen a partir de los bloques en los que se ha divido originalmente. Esta

recomposicin de la imagen suele ser uno de los principales problemas de los mtodos

transformados. En efecto, debido a la cuantificacin de los coeficientes transformados, la

subimagen se recupera con cierto error respecto a la original. Este error es muy crtico si

se produce en los lmites de las subimgenes, debido a que al fusionar todos los bloques

aparecern cambios de nivel de gris bruscos que pueden reproducir la descomposicin

en bloques cuando se observa la imagen descomprimida. El problema es particularmente

notorio con algunas transformadas como la de Fourier o Walsh-Hadamard. La

transformada coseno presenta excelentes propiedades en la codificacin de los

contornos de las subimgenes que, de hecho, ha sido uno de los motivos principales por

los que se ha elegido esta transformada en casi todos los estndares de codificacin.

Otro de los aspectos cruciales en la codificacin por mtodos transformados es la

eleccin del tamao de las subimgenes. En principio es aconsejable elegir los tamaos

de los bloques para que exista cierto grado de correlacin entre bloques adyacentes. Otra

restriccin importante es que los tamaos de las subimgenes deberan ser una potencia

de 2 para facilitar el uso de algoritmos rpidos en la implementacin de la transformacin.

El factor de compresin que puede obtenerse aumenta a medida que se utilizan bloques

ms grandes, aunque tambin se incrementa la carga computacional. En la mayora de

aplicaciones pensadas para una resolucin espacial similar a la de los sistemas de

televisin, los bloques son de tamao 8x8 o 16x16.

Antes de introducirnos en los detalles de la transformada coseno analizaremos sus

caractersticas principales, que justifican su amplio uso en codificacin de imagen y que,

posteriormente, nos ayudarn a comprender algunas de sus particularidades.

Capacidad de compactacin de la energa en el dominio transformado. La transformada coseno discreto (DCT- Discrete Cosine Transform) consigue

concentrar la mayor parte de la informacin en unos pocos coeficientes

transformados. Esto permite obtener importantes ventajas para una codificacin

eficiente de la imagen, puesto que basta con codificar de forma precisa estos

coeficientes principales para obtener una buena representacin de todo el bloque

de la imagen. Debe tenerse en cuenta que la capacidad de compactacin de la

energa en unos pocos coeficientes es un parmetro puramente estadstico, lo


20

que significa que siempre es posible encontrar un bloque de imagen en la que la

energa en el dominio transformado est dispersada entre todos los coeficientes.

No obstante, esto tiene una probabilidad de ocurrencia muy baja y no suele

producirse nunca si trabajamos con imgenes naturales. La capacidad de

compactacin de la energa de la DCT es muy superior a la que se obtiene con las

transformadas de Walsh- Hadamard, Hart y tambin Fourier. La transformada

Karhunen-Loeve consigue una compactacin ptima, aunque al precio de un

elevado coste computacional. La transformada Wavelet tambin consigue

concentrar la energa en unos pocos coeficientes, aunque en este caso, la

posicin de los coeficientes con mayor energa depende de la imagen.

Es una transformada independiente de los datos. Esto significa que el algoritmo es independiente del contenido de la imagen. Prcticamente todas las

transformadas que hemos venido comentando son independientes de los datos,

con la excepcin de la Karhunen-Loeve, donde las matrices asociadas a la

transformacin deben calcularse en funcin de las caractersticas de la propia

imagen. Por este motivo, la transformada de Karhunen Loeve es ptima en el

sentido de compactacin de energa.

Existen algoritmos eficientes para el clculo rpido. Existen algoritmos anlogos al de la FFT (Fast Fourier Transform) para realizar la transformacin.

Los algoritmos se encuentran disponibles en circuitos integrados especializados

en realizar esta transformacin. La restriccin para poder utilizar estos algoritmos

es que los bloques tengan un tamao que sea mltiplo de una potencia de dos. Si

no es as, debern aadirse ceros a las subimgenes, aunque esto supone que

aumenta notablemente el riesgo de que aparezca el efecto de bloques al

decodificar la imagen.

Errores reducidos en los contornos de los bloques. Probablemente ste es uno de los motivos principales por los que se ha elegido la DCT frente a otras

transformadas. La presencia de errores de codificacin muy pequeos en los

lmites de la subimagen es necesaria para evitar la aparicin del efecto de bloques

en la imagen reconstruida.

Identificacin e interpretacin frecuencial de los componentes transformados. Para aprovechar al mximo la capacidad de compresin de un mtodo es conveniente que los coeficientes puedan interpretarse desde el punto


21

de vista frecuencial con facilidad. Esto permite introducir conceptos psico-visuales,

permitiendo dedicar un menor nmero de bits a aquellas componentes que de

antemano sabemos que no resultan crticas para el sistema visual.

La ecuacin que se utiliza para la transformada NxN bidimensional (se suponen bloques

cuadrados) es:

( ) ( ) ( ) ( ) ( ) ( )

+

+= =

= N2v1y2cos

N2u1x2cosyx,fvCuC

N2 vu,F

1N

0x

1N

0y

con u, v, x, y =0, 1, 2, N-1

donde x, y son coordenadas espaciales en el dominio espacial u, v son coordenadas en el dominio transformado

( ) ( )2

1=v,CuC para u,v = 0 ( ) ( ) 1, =vCuC para u, v = 1,2,,N-1

Ecuacin 2.1 Transformada discreta del coseno 2D

En general slo trataremos con bloques cuadrados cuyos tamaos son, como hemos

comentado, una potencia de 2.

De forma anloga, la ecuacin para la transformada inversa es:

( ) ( ) ( ) ( ) ( ) ( )

+

+= =

= Nvy

NuxvuFvCuC

Nyxf

N

u

N

v 212cos

212cos,2,

1

0

1

0

Ecuacin 2.2 Transformada inversa discreta del coseno 2D


22

Vemos un ejemplo numrico de esta transformada en la figura 2.3.

120 108 90 75 69 73 82 89

127 115 97 81 75 79 88 95

134 122 105 89 83 87 96 103

137 125 107 92 86 90 99 106

131 119 101 86 80 83 93 100

117 105 87 72 65 69 78 85

100 88 70 55 49 53 62 69

89 77 59 44 38 42 51 58

DCT

700 90 100 0 0 0 0 0

90 0 0 0 0 0 0 0

-90 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 -1 0 0 0 0 0 0

0 -1 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 -1 0 0 0 0 0 0

Figura 2.3 Ejemplo numrico y grfico de la transformada discreta del coseno

Tal y como se dijo anteriormente, la DCT consigue concentrar la mayor parte de la

informacin en unos pocos coeficientes transformados. Adems, podemos ver cmo

estos coeficientes distintos de cero se encuentran situados en las frecuencias bajas.


23

2.2.2 Redundancia estadstica

Cdigos de longitud variable (VLC)

La idea bsica de los cdigos de longitud variable es asignar palabras cdigo de

longitudes distintas en funcin de la probabilidad de los mensajes. Los mensajes ms

probables se codificarn con un menor nmero de bits que los mensajes menos

probables.

Para que los cdigos de longitud variable resulten eficaces es necesario disponer de

procedimientos sistemticos para generar estos cdigos directamente a partir de las

caractersticas de las fuentes. Adems, es fundamental que los cdigos obtenidos

resulten eficientes, es decir, que permitan obtener una tasa media de bits prxima a la

entropa de la fuente.

Entre estos cdigos podemos destacar los cdigos de Huffman y sus variantes.

Codificacin por longitud de series (RLC)

Esta codificacin comenz a utilizarse a mediados de la dcada de los 50 para la

codificacin de documentos digitalizados. Para documentos de texto o grficos binarios,

que nicamente contienen los niveles blanco y negro, podemos codificar cada lnea

indicando, de forma alternada, cuantos pxeles toman el nivel blanco y cuantos el nivel

negro en palabras sucesivas. Para ello, es necesario establecer que siempre empezamos

por uno de los niveles.

A este procedimiento bsico, podemos aadir un cdigo de Huffman que tenga en cuenta

la estadstica con la que se producen los mensajes que indican la longitud de las series

de blancos y negros. Aquellas longitudes que se producen con mayor frecuencia sern

codificadas con palabras de menos longitud.

La idea bsica del RLC puede extenderse a fuentes con varios mensajes o smbolos,

pero en las que predomine uno de los mensajes con gran probabilidad. En el caso del

proceso de codificacin de imgenes, muchos de los coeficientes de la transformada

coseno obtenidos, una vez cuantificados, toman el valor nulo, por lo que resulta ms

eficiente especificar la cantidad de coeficientes consecutivos que toman este valor.


24

2.2.3 Redundancia temporal

La redundancia temporal se basa en que dentro de una secuencia de vdeo, los cambios

producidos entre imgenes son mnimos, ya que gran parte de los objetos y elementos

permanecen en la misma posicin y con las mismas caractersticas de un fotograma a

otro. Un rea de la imagen actual proviene por lo general de un rea cercana de la

imagen anterior, por lo que podemos emplear la informacin anterior y fijarnos en las

diferencias. Normalmente los mtodos para eliminar la redundancia temporal se realizan

en secciones rectangulares o bloques.

En la figura 2.4 se muestran dos fotogramas seguidos, las diferencias entre ellos a simple

vista son inapreciables, pero si representamos la imagen diferencia podemos ver que

efectivamente ha habido cambios. En esta imagen un nivel medio de gris representa una

diferencia nula y los niveles ms claros o ms oscuros de gris sern diferencias positivas

o negativas, respectivamente. La mayor parte de los elementos no se han modificado

pero en los contornos si ha habido modificaciones. Esto puede ser debido o bien al

movimiento de la cmara, o al movimiento de los objetos.

Figura 2.4 Ejemplo de dos fotogramas seguidos y su diferencia

Esta tcnica es ampliamente utilizada en los codecs para la produccin de vdeo en

soporte informtico. El procedimiento general suele conocerse con el nombre de

codificacin de fotogramas en diferencias. Normalmente, la secuencia de vdeo suele

descomponerse en fotogramas clave (key frame) y fotogramas diferencia (delta frames).

Los fotogramas claves debern codificarse de forma independiente del resto de

fotogramas, teniendo en cuenta nicamente la redundancia espacial de la imagen.

Peridicamente se insertar un fotograma clave en la secuencia codificada para evitar la

propagacin de errores de codificacin en las imgenes delta.

Esta tcnica, aunque se utiliza a menudo, no es ptima cuando se producen

desplazamientos de los objetos dentro de la imagen o aparecen nuevos motivos debido al


25

movimiento de la cmara u otros aspectos. En la figura 2.5 mostramos un movimiento de

la cmara en una imagen simplificada.

Imagen de referencia Imagen a codificar Redundancia temporal

Figura 2.5 Ejemplo de bloques utilizados para realizar la prediccin en codificacin diferencial

La figura muestra cul sera la seccin de la imagen utilizada para predecir el bloque de

inters. En este caso la ganancia del codificador es nula debido a que el error de

prediccin es precisamente igual a la imagen.

Tcnicas de compensacin de movimiento

La compensacin de movimiento es una tcnica de prediccin temporal que intenta

optimizar los resultados obtenidos por la codificacin diferencial analizando el movimiento

que realizan los objetos dentro de la imagen y compensndolos.

Siguiendo con el ejemplo de figura anterior, en el caso de compensacin de movimiento,

el bloque que utilizaramos para la prediccin es el mostrado en la figura 2.6. Ahora, el

error de prediccin puede llegar a ser nulo, por lo que no es necesario volver a codificar

el bloque, simplemente habra que transmitir el vector de desplazamiento que hay que

utilizar en la imagen de referencia para construir este fragmento de la imagen.


26

Imagen de referencia

Imagen a codificar Redundancia temporal

Figura 2.6 Ejemplo del bloque utilizado para la prediccin en una codificacin por compensacin de movimiento

Como es de esperar, los vdeos reales no son tan simples como el ejemplo que hemos

puesto. Los objetos pueden sufrir deformaciones, cambios de perspectiva o de tamao o

trasladarse en el espacio mediante rotaciones. Todos estos efectos no se pueden

modelar mediante vectores de traslacin.

Por esta razn, para codificar las secuencias de vdeo de forma ptima, el procesador

deber ser capaz de identificar las regiones de la imagen con nuevos componentes y

codificarlos basndose en la redundancia espacial, y los elementos que se parezcan a

imgenes pasadas o futuras, con la tcnica de compensacin de movimiento.

Podemos resumir el proceso de codificar un bloque mediante esta tcnica en los

siguientes pasos:

1. Buscar un rea o bloque de la imagen de referencia (pasada o futura, la nica condicin es que haya sido codificada y transmitida previamente) que sea ptima

para realizar la prediccin del bloque actual. Para realizar esto, se compara el

bloque de la trama actual con alguno o todos de los posibles bloques de la trama

referencia. Este proceso se conoce como estimacin de movimiento.


27

2. La zona elegida se convierte en el predictor para el bloque actual y lo que se hace es restar al bloque actual el predictor. As, tenemos un bloque residual. Este

proceso es la compensacin de movimiento.

3. El bloque residual se codifica y transmite junto con la diferencia de posicin entre los bloques actuales y de referencia. Esta diferencia son los llamados vectores de movimiento (componente de desplazamiento vertical y horizontal).

Figura 2.7 Clculo del vector de movimiento para la compensacin de movimiento

Cuando queramos decodificar esta informacin se parte de que el decodificador ya ha

decodificado la imagen de referencia. Entonces, lo que hay que hacer para recuperar la

informacin del bloque es desplazar el bloque referencia con el vector de movimiento y

aadir el bloque diferencial. La seal de error (bloque residual) puede ser transmitida tal

cual o usando mtodos transformados como se haca para eliminar la redundancia

espacial. Tambin se podr emplear cdigos de longitud variable para el error y los

vectores de movimiento.

Hemos dicho que las imgenes referencia puede ser tanto pasadas como futuras. A esto

se le conoce como compensacin de movimiento bidireccional. La idea bsica consiste

en codificar una imagen utilizando no slo las imgenes de referencia del pasado, sino

tambin las futuras. En principio esto da una solucin no causal, pero lo que se hace es

modificar el orden de codificacin y transmisin de las imgenes, que no ser el orden en

que se representen en un display.

En este caso, el procesador deber calcular dos vectores de movimiento que se

denominan hacia delante (forward) y hacia atrs (backward). A partir de estos dos

vectores el codificador elegir entre codificar el error de prediccin forward (imagen


28

futura), backward (imagen pasada), bidireccional (ambas imgenes) o codificar el bloque

sin prediccin (error demasiado grande).

Conceptos bsicos de MPEG Decodificador vdeo MPEG-2

29

3 CONCEPTOS BSICOS DE MPEG (Moving Pictures Experts Group)

3.1 Introduccin

El Moving Picture Experts Group (Grupo de Expertos de Imgenes en Movimiento)

referido comnmente como MPEG, es un grupo de trabajo del ISO/IEC encargado de

desarrollar estndares de codificacin de audio y video. Desde su primera reunin (ao

1988 en Ottawa, Canad), el MPEG ha crecido hasta incluir 350 miembros de distintas

industrias y universidades. La designacin oficial del MPEG es ISO/IEC JTC1/SC29

WG11.

MPEG es una de las tcnicas de compresin de audio/vdeo ms populares porque no es

slo un estndar, si no que es una familia de estndar que se pueden aplicar en

diferentes aplicaciones pero todos basados en principios similares.

MPEG ha normalizado los siguientes formatos de compresin y normas auxiliares:

MPEG-1: estndar inicial de compresin de audio y vdeo. Usado despus como la norma para CD de vdeo, incluye popular formato de compresin de audio Capa

3 (MP3).

MPEG-2: normas para audio y vdeo para difusin con calidad de televisin. Utilizado para servicios de TV por satlite como DirecTV (Cadena estadounidense

de televisin va satlite de difusin directa), seales de televisin digital por cable

y (con ligeras modificaciones) para los discos de vdeo DVD.

MPEG-3: diseado originalmente para HDTV (Televisin de Alta Definicin), pero abandonado posteriormente en favor de MPEG-2.

MPEG-4: expande MPEG-1 para soportar "objetos" audio/vdeo, contenido 3D, codificacin de baja velocidad binaria y soporte para gestin de derechos digitales

(proteccin de copyright).

MPEG-7: sistema formal para la descripcin de contenido multimedia MPEG-21: MPEG describe esta norma futura como un "marco multimedia".


30

3.2 Historia

Podramos decir que todo empieza en 1987 cuando el italiano Leonardo Chiariglione, que

haba pertenecido al comit consultivo internacional de radiocomunicaciones (CCIR,

International Radio Consultative Comittee), era el encargado de la estandarizacin de la

televisin de alta definicin (HDTV, High Definition Television), pero se encontraba un

tanto desilusionado por el fracaso en adoptar un nico estndar internacional ya que

Japn, Europa y Estados Unidos pugnaban por su propio formato. Ese ao asista al

encuentro del grupo unido de expertos en imgenes (JPEG, Joint Pictures Experts

Group) que haba sido formado en 1982 por la organizacin de estndares

internacionales (ISO, International Organization for Standardization) y por la comisin

electrotcnica internacional (IEC, International Electrotechnical Comittee) y cuyo objetivo

era establecer un conjunto de formatos que permitieran obtener una codificacin eficiente

de imgenes estacionarias, de uso pblico, que mitigaran la aparicin de formatos

propietarios. En este encuentro, Chiariglione qued profundamente impresionado por lo

que se poda lograr entre un grupo de expertos cuando no se manejaban intereses de

ninguna industria. As que se aproximo al director del grupo JPEG, el japons Hiroshi

Yoshuda, y le sugiri la creacin de un grupo semejante al JPEG, que se encargara de

estandarizar la codificacin digital de las imgenes en movimiento.

De esta manera, en 1988 y con Yoshuda como representante ante la ISO, la organizacin

ISO/IEC crea el comit tcnico unido sobre tecnologas de la informacin, subcomit 29,

grupo de trabajo 11 (ISO/IEC JTC1/SC29/WG11), ms conocido como MPEG, bajo la

direccin de Chiariglione, encargndole el desarrollo de estndares para la

representacin codificada de imgenes en movimiento, la informacin del audio asociado

y su combinacin para la grabacin y lectura en un medio de almacenamiento digital. En

ese momento el grupo estaba formado por 12 personas pero durante los aos posteriores

expertos de todo el mundo en video, audio y sistemas fueron unindose llegando a ser

200 participantes en el ao 1992.

Una vez creado el grupo MPEG, su primer objetivo fue la posibilidad de almacenar y

reproducir de seales de video y audio en soporte CD-ROOM para su uso en

aplicaciones multimedia.

La inclusin de una seal de vdeo y audio en un soporte como el CD, que originalmente

haba sido pensado para incluir nicamente la informacin asociada a un canal de audio

estereofnico, represent un importante problema tecnolgico durante el desarrollo del


31

estndar MPEG-1, ya que los factores de compresin que deban utilizarse se situaban

entre 100 y 200. El flujo de datos que admite un CD-ROOM de simple velocidad

(150Kbytes/s) es de unos 1,2 Mbps mientras que el fuljo de bits implcito en una seal de

vdeo 4:2:2 es, como hemos dicho, de aproximadamente 260 Mbps (estndar ITU 601,

formato 4:2:2).

La solucin al problema se obtuvo reduciendo la calidad de la imagen en un doble

proceso de reduccin espacial y temporal. Este proceso significa una reduccin inicial de

los datos basada en el remuestreo temporal y espacial, por lo que no puede considerarse

como una verdadera compresin de vdeo. Por una parte, la resolucin de las imgenes

se redujo a la mitad, tanto en la direccin horizontal como en la vertical. Aunque esta

reduccin suponga una prdida de calidad considerable comparndola con el formato

estndar de radiodifusin, la resolucin que se obtiene es equivalente a la del formato de

registro en cinta magntica VHS.

Otra simplificacin importante en el MPEG-1 es que no admite vdeo entrelazado, por lo

que slo se requiere codificar uno de los dos campos de la seal original.

A finales de 1990 ya exista un borrador del proyecto que demostraba que se poda

generar un flujo de datos con audio de calidad CD (16 bits por muestra y un muestreo a

44,1 kHz) y video de calidad (LDTV, Low Definition Television) equivalente a la calidad de

una cinta VHS. Ya para finales de 1992 se conclua el primer estndar definitivo,

conocido como MPEG-1 (numerado como ISO/IEC 11172) con una tasa de datos de 1,5

Mbps, 1,15 Mbps para el video y 350 Kbps para el audio en estreo. En relacin al audio

podemos comentar que la capa 3 (layer 3) de audio de la norma MPEG-1 es la que ha

dado lugar al polmico MP3.

Durante el desarrollo del MPEG-1 los participantes del grupo MPEG se dieron cuenta que

la base de las tcnicas que estaban desarrollando tambin era ptima para aplicaciones

que requeran mayor resolucin y un bitrate (tasa de bits) de hasta diez veces superior.

Esto les hizo pensar en avanzar la implementacin de la televisin digital que estaba

prevista para el siguiente milenio, cuando las redes de banda ancha ya se hubieran

extendido. Entonces con el objetivo de unificar criterios para la implementacin de la

televisin digital el grupo desarrollo el siguiente estndar, el MPEG-2 (numerado como

ISO/IEC 13818) que fue aprobado el 11 de Noviembre de 1994.

El estndar MPEG-2 mantiene cierto grado de compatibilidad con las secuencias de bits

producidas por el MPEG-1 y pretende cubrir aplicaciones de mayor ancho de banda,


32

adems de la principal diferencia de que el estndar MPEG-2 es capaz de tratar seales

de vdeo entrelazadas. Involucra compresin de datos (flujos de bits) originalmente a 260

Mbps (sin compresin) hasta lograr una tasa de bits entre 2 y 15 Mbps (despus de la

compresin). Su diseo es sumamente flexible y cubre una amplio espectro de sistemas

de vdeos que van desde los formatos digitales ITU 601 4:2:2, ITU 601 4:2:0, HDTV

(televisin de alta definicin) 4:2:0, EDTV (televisin con definicin mejorada) 4:2:0,

formatos CIF y SIF, formatos HHR 4:2:0, algunos de ellos en versiones de exploracin

progresiva, otros con exploracin entrelazada y algunos con ambos tipos de exploracin.

Para que el MPEG-2 pueda cubrir todo este amplio espectro de aplicaciones ha sido

necesario definir subconjuntos de la sintaxis y semntica de la secuencia de bits en la

forma de distintos perfiles y niveles, que luego explicaremos.

En cuanto al audio el nuevo estndar introdujo un nuevo esquema multicanal de seal de

audio surround.

El estndar MPEG-3, cuya intencin era estandarizar la televisin de alta definicin, fue

posteriormente incluido en MPEG-2, ya que se demostr que si se aumentaba el bitrate

de la seal de video del MPEG-2 se llegaba a los mismos resultados.

Los objetivos actuales del grupo son los nuevos estndares MPEG-4 y MPEG-7. El

MPEG-4 (Coding of Audio-Visual Objects) (numerado como ISO/IEC 14496) fue

aprobada de manera formal en octubre de 1998, esta fue una primera versin, ms tarde

se aprob una segunda versin pensada para un nmero mayor de aplicaciones que fue

aprobada en diciembre de 1999 (no reemplaza la primera versin, slo la ampla). Es

importante indicar que las ampliaciones y mejoras del MPEG-4 se realizarn hasta finales

del ao 2002 y sern incluidas en las especificaciones como nuevos perfiles, pero

compatibles con la primera y la segunda versin.

Este estndar se orienta a la transmisin de seales de vdeo y audio con velocidades

muy bajas (64 kbps), fundamentalmente para aplicaciones de vdeo telefona,

aplicaciones multimedia, intranets e Internet. Las secuencias de bits estn especialmente

diseadas para hacer frente a las altas variabilidades del canal en este tipo de

comunicaciones, en donde es fcil que se produzcan reducciones de la velocidad,

prdidas parciales de datos, etc. Por ello, la trama o stream de vdeo y audio suele estar

escalada de modo que, en funcin de la tasa de bits recibida, el receptor puede visualizar

las imgenes con mayor o menor calidad.


33

Adems, proporciona mayor flexibilidad que el MPEG-2 para el uso de tcnicas de

compresin basadas en la forma de onda permitiendo el uso de la transformada Wavelet,

la codificacin vectorial y la realizacin de transformaciones afines para la compensacin

de movimiento. Por ltimo, permite realizar una codificacin orientada a objetos, pudiendo

utilizar codificadores fractales o morfolgicos, modelado de objetos y descriptores de

escenas.

El estndar MPEG-7 (Multimedia Content Description Interface) (numerado como

ISO/IEC 15938) intenta abarcar todos los aspectos (diferentes a la compresin de la

informacin) que involucra la multimedia. Es decir, MPEG-7 describe la manera de

ofrecer, filtrar, buscar y manejar informacin multimedia digitalizada. La primera versin

del MPEG-7 se aprob en julio del ao 2001. Se han ido incluyendo varias mejoras

posteriormente las cuales tal vez sean reunidas en una segunda versin del estndar.

Este estndar est orientado a aplicaciones de bsqueda en bases de datos de

contenidos audiovisuales y especifica los procedimientos para insertar los descriptores de

imagen, vdeo, grficos 2D, etc.

A finales de 1999, MPEG empez a trabajar en el nuevo estndar MPEG-21 (Multimedia

Framework) cuyo objetivo primordial es proporcionar estndares que estarn

fundamentados principalmente en el punto de vista de los usuarios, y no tanto de la

industria.

3.3 El estndar MPEG-2

El estndar MPEG-2 es genrico, esto significa que sus especificaciones no estn

Decodificador de vídeo MPEG-2 en Matlab y análisis del bitstream

Documents

Transcript of Decodificador de vídeo MPEG-2 en Matlab y análisis del bitstream