Post on 29-Oct-2015
ESCUELA SUPERIOR DE INGENIEROS DEPARTAMENTO DE TEORA DE LA SEAL Y COMUNICACIONES
PROYECTO FIN DE CARRERA
Decodificador de vdeo MPEG-2 en Matlab y
anlisis del bitstream
Autor: Elena Aguilar Fernndez
Tutor: Jos Ramn Cerquides Bueno
Sevilla - Junio 2008
PROYECTO FIN DE CARRERA
Decodificador de vdeo MPEG-2 en MATLAB y
anlisis del bitstream
UNIVERSIDAD DE SEVILLA
ESCUELA SUPERIOR DE INGENIEROS
Ingeniero de Telecomunicacin PROYECTO FIN DE CARRERA:
Decodificador de vdeo MPEG-2 en
MATLAB y anlisis del bitstream
Autor: Elena Aguilar Fernndez
Tutor: Jos Ramn Cerquides Bueno
Sevilla Junio 2008
Resumen Decodificador vdeo MPEG-2
PREFACIO
En la actualidad, el vdeo digital es algo cotidiano en nuestras vidas, tanto en su
reproduccin y almacenamiento, como para su transmisin a travs de distintos medios
de comunicacin. Es en esta ltima aplicacin donde surge una clara necesidad de
comprimir la informacin. Por esto, y como ha sucedido para las imgenes estticas y
para la informacin de audio, han surgido varios estndares de codificacin (MJPEG,
MPEG-1, MPEG-2, MPEG-4, etc).
En este proyecto nos centraremos en uno de los estndares ms extendidos como es el
caso de MPEG-2 [1] [2] [3]. Comenzaremos el proceso con un anlisis de las tcnicas de
compresin generales empleadas en compresores de vdeo. En segundo lugar
continuaremos con un estudio detallado de la estructura del vdeo comprimido MPEG-2
[1] y la forma de convertir la informacin en un flujo de bits. Finalmente, se desarrolla una
aplicacin en MATLAB que realiza dos tares principales: el demultiplexado de la
informacin de vdeo, y la decodificacin de sta cumpliendo la recomendacin MPEG-2
[2].
ndice Decodificador vdeo MPEG-2
I
NDICE DE CONTENIDOS .................................................................................... II
NDICE DE FIGURAS ............................................................................................ V
NDICE DE TABLAS............................................................................................ VII
NDICE DE ECUACIONES ................................................................................. VIII
ndice de contenidos Decodificador vdeo MPEG-2
II
NDICE DE CONTENIDOS
1 INTRODUCCIN ............................................................................................ 1 1.1 Introduccin .......................................................................................................1 1.2 Conceptos de vdeo digital ...............................................................................2
1.2.1 Formatos de vdeo digital ............................................................................................. 6 1.2.2 Codificacin de la seal de vdeo digital ...................................................................... 9
1.3 Necesidad de compresin ..............................................................................10 1.4 Motivaciones ....................................................................................................11 1.5 Objetivos...........................................................................................................12 1.6 Organizacin de la memoria ...........................................................................13
2 TCNICAS DE COMPRESIN DE LA SEAL DE VDEO.......................... 15 2.1 Sistemas de compresin.................................................................................15 2.2 Tcnicas de compresin de imgenes ..........................................................17
2.2.1 Redundancia espacial ................................................................................................ 17 2.2.2 Redundancia estadstica ............................................................................................ 23 2.2.3 Redundancia temporal ............................................................................................... 24
3 CONCEPTOS BSICOS DE MPEG (Moving Pictures Experts Group) .... 29 3.1 Introduccin .....................................................................................................29 3.2 Historia..............................................................................................................30 3.3 El estndar MPEG-2.........................................................................................33
3.3.1 Organizacin de la norma ISO/IEC 13818 ................................................................. 34 3.3.2 Perfiles y Nivles .......................................................................................................... 36
3.4 Aspectos generales .........................................................................................37 3.4.1 Jerarqua de un vdeo en MPEG-2............................................................................. 39 3.4.2 Procesamiento temporal............................................................................................. 40 3.4.3 Divisin de una imagen en slices ............................................................................... 42 3.4.4 Formatos de crominancia ........................................................................................... 44 3.4.5 Reduccin de redundancia espacial........................................................................... 45 3.4.6 Representacin del movimiento macrobloques ...................................................... 45 3.4.7 Codificacin de vdeo entrelazado ............................................................................. 46
3.5 Proceso de codificacin..................................................................................46 3.5.1 Descomponer imagen en bloques.............................................................................. 47 3.5.2 DCT ............................................................................................................................ 48 3.5.3 Cuantificador variable................................................................................................. 48 3.5.4 Escaneo en Zig-Zag ................................................................................................... 50 3.5.5 Codificacin entrpica ................................................................................................ 51 3.5.6 Compensacin de movimiento ................................................................................... 52
ndice de contenidos Decodificador vdeo MPEG-2
III
3.6 Resumen codificacin imgenes I .................................................................55 3.7 Resumen codificacin imgenes P................................................................56 3.8 Resumen codificacin imgenes B................................................................56 3.9 Peculiaridades de vdeo entrelazado .............................................................57
3.9.1 Divisin en macrobloques .......................................................................................... 57 3.9.2 Escaneo coeficientes transformados.......................................................................... 58 3.9.3 Compensacin de movimiento ................................................................................... 59
4 CAPA DE SISTEMA ..................................................................................... 62 4.1 Multiplexaje y sintaxis .....................................................................................62 4.2 Program Stream ...............................................................................................65 4.3 Transport Stream .............................................................................................67 4.4 Temporizacin..................................................................................................68
5 CAPA DE AUDIO ......................................................................................... 70 5.1 Conceptos bsicos de seal de audio...........................................................70
5.1.1 Necesidad de compresin .......................................................................................... 70 5.1.2 Tcnicas de compresin de audio.............................................................................. 70
5.2 Proceso de codificacin en MPEG-2..............................................................72 5.2.1 Capa 1 ........................................................................................................................ 74 5.2.2 Capa 2 ........................................................................................................................ 74 5.2.3 Capa 3 ........................................................................................................................ 74
6 CAPA DE VDEO.......................................................................................... 75 6.1 Estructura de datos de vdeo codificados.....................................................75
6.1.1 Jerarqua de la capa bsica ....................................................................................... 75 6.1.2 Cdigos de comienzo ................................................................................................. 76 6.1.3 Reglas semnticas para estructuras sintcticas ms altas........................................ 77
6.2 Sintaxis y semntica del bitstream de vdeo.................................................80 6.2.1 Video Sequence ......................................................................................................... 81 6.2.2 Group of Pictures........................................................................................................ 83 6.2.3 Picture......................................................................................................................... 84 6.2.4 Slice ............................................................................................................................ 86 6.2.5 Macroblock ................................................................................................................. 87 6.2.6 Block ........................................................................................................................... 90
6.3 Extensiones escalables...................................................................................91 6.3.1 Extensin escalable espacial ..................................................................................... 92 6.3.2 Extensin escalable SNR ........................................................................................... 92 6.3.3 Extensin escalable temporal..................................................................................... 93 6.3.4 Extensin de particin de datos ................................................................................. 93
7 DESARROLLO DEL DECODIFICADOR...................................................... 95 7.1 Funcionalidad...................................................................................................95
7.1.1 Demultiplexor.............................................................................................................. 95 7.1.2 Decodificador.............................................................................................................. 96
ndice de contenidos Decodificador vdeo MPEG-2
IV
7.2 Estudio de tiempos........................................................................................116 7.2.1 Compresin frente a velocidad de decodificacin.................................................... 116 7.2.2 Reparto de tiempo en el proceso de decodificacin ................................................ 119
8 CONCLUSIONES ....................................................................................... 120 8.1 Conclusiones .................................................................................................120 8.2 Objetivos cumplidos......................................................................................121 8.3 Lneas futuras de investigacin ...................................................................122
REFERENCIAS.................................................................................................. 123
GLOSARIO ........................................................................................................ 125
ndice de figuras Decodificador vdeo MPEG-2
V
NDICE DE FIGURAS
Figura 1.1 Divisin de la imagen en dos campos entrelazados .............................................................. 3 Figura 1.2 Muestreo espacial y temporal de la secuencia de vdeo ....................................................... 4 Figura 1.3 Retcula de muestreo rectangular para la digitalizacin de las imgenes .......................... 4 Figura 1.4 Versiones de una misma imagen con distintas resoluciones ............................................... 5 Figura 1.5 Distribucin espacial de las muestras de luminancia y croma en el formato 4:2:2 ........... 7 Figura 1.6 Distribucin de las componentes de luminancia y croma en el formato 4:2:0 ................... 7 Figura 1.7 Etapas en la codificacin y transmisin de una seal de vdeo digital................................ 9 Figura 2.1 Proceso general de codificacin y decodificacin de la informacin ................................. 15 Figura 2.2 Proceso general de codificacin y descodificacin de imgenes mediante la transformada coseno ................................................................................................................................... 18 Figura 2.3 Ejemplo numrico y grfico de la transformada discreta del coseno ................................ 22 Figura 2.4 Ejemplo de dos fotogramas seguidos y su diferencia.......................................................... 24 Figura 2.5 Ejemplo de bloques utilizados para realizar la prediccin en codificacin diferencial .... 25 Figura 2.6 Ejemplo del bloque utilizado para la prediccin en una codificacin por compensacin de movimiento ............................................................................................................................................... 26 Figura 2.7 Clculo del vector de movimiento para la compensacin de movimiento......................... 27 Figura 3.1 Modelo de la capa de Sistema de MPEG-2........................................................................... 35 Figura 3.2 Esquema codificador y decodificador MPEG-2..................................................................... 38 Figura 3.3 Estructura jerrquica del vdeo MPEG ................................................................................... 39 Figura 3.4 Ejemplo de estructura de imagen temporal ........................................................................... 41 Figura 3.5 Reordenacin de imgenes (GOP N=9, M=3) ...................................................................... 42 Figura 3.6 Estructura slice general ............................................................................................................ 43 Figura 3.7 Estructura slice restringida ....................................................................................................... 43 Figura 3.8 Bloques en el formato 4:2:0 ..................................................................................................... 44 Figura 3.9 Bloques en el formato 4:2:2 ..................................................................................................... 44 Figura 3.10 Bloques en el formato 4:4:4 ................................................................................................... 45 Figura 3.11 Diagrama del proceso de codificacin en MPEG-2............................................................ 47 Figura 3.12 Entrada y salida descomposicin en bloques NxN ............................................................ 47 Figura 3.13 Bloques en el formato 4:2:0 ................................................................................................... 47 Figura 3.14 Entrada y salida DCT bidimensional .................................................................................... 48 Figura 3.15 Entrada y salida cuantificador variable................................................................................. 48 Figura 3.16 Matriz de cuantificacin para luminancia y crominancia W(v,u)....................................... 49 Figura 3.17 Ejemplo de cuantificacin de un bloque............................................................................... 50 Figura 3.18 Entrada y salida escaneo Zig-Zag ........................................................................................ 50 Figura 3.19 Matriz de escaneo zig-zag ..................................................................................................... 51 Figura 3.20 Entrada y codificacin entrpica ........................................................................................... 51 Figura 3.21 Prediccin de trama en imgenes de trama........................................................................ 54 Figura 3.22 Prediccin de campo en imgenes de trama ...................................................................... 54 Figura 3.23 Prediccin Dual-prime en imgenes de trama .................................................................... 55 Figura 3.24 Esquema de codificacin de las imgenes I ....................................................................... 55 Figura 3.25 Esquema de codificacin de las imgenes P...................................................................... 56 Figura 3.26 Esquema de codificacin de las imgenes B...................................................................... 57 Figura 3.27 Divisin en bloques de un macrobloque para imgenes progresivas y entrelazadas .. 58 Figura 3.28 Matriz de escaneo alternada.................................................................................................. 59 Figura 3.29 Prediccin de campo en imgenes de campo .................................................................... 60 Figura 3.30 Prediccin 16x8 en imgenes de campo ............................................................................. 60 Figura 3.31 Prediccin Dual-prime en imgenes de campo .................................................................. 61 Figura 4.1 Compresin MPEG-2 de la seal de vdeo digital ................................................................ 62 Figura 4.2 Conversin de ES a PES ......................................................................................................... 63 Figura 4.3 Esquema del proceso de generacin y decodificacin del PS y TS.................................. 64
ndice de figuras Decodificador vdeo MPEG-2
VI
Figura 4.4 Estructura del Program Stream ............................................................................................... 65 Figura 4.5 Divisin de un PES en TS packets ......................................................................................... 67 Figura 5.1 Esquema de un codificador de subbanda.............................................................................. 71 Figura 5.2 Esquema de un decodificador de subbanda ......................................................................... 71 Figura 5.3 Esquema de un codificador de audio MPEG......................................................................... 73 Figura 5.4 Esquema de un decodificador de audio MPEG .................................................................... 73 Figura 6.1Estructura jerrquica del tren de bits de vdeo ....................................................................... 76 Figura 6.2 Organizacin del tren de bits de alto nivel ............................................................................. 79 Figura 7.1 Diagrama de flujo del demultiplexor........................................................................................ 96 Figura 7.2 Reparto de tiempos considerando mismo tiempo de decodificacin............................... 117 Figura 7.3 Reparto de tiempos real ......................................................................................................... 118 Figura 7.4 Reparto de memoria ocupada ............................................................................................... 118 Figura 7.5 Reparto de tiempo en el proceso de decodificacin .......................................................... 119
ndice de tablas Decodificador vdeo MPEG-2
VII
NDICE DE TABLAS
Tabla 1.1 Caractersticas bsicas de los sistemas PAL y NTSC ............................................................ 3 Tabla 1.2 Comparacin entre formatos digitales ....................................................................................... 9 Tabla 3.1 Caractersticas de los perfiles de MPEG-2 ............................................................................. 37 Tabla 3.2 Resoluciones mximas de los niveles de MPEG-2 ............................................................... 37 Tabla 3.3 Combinaciones recomendadas Perfil/Nivel y Mximo bitrate (Mbps)................................. 37 Tabla 6.1 Valores de cdigo de comienzo................................................................................................ 77 Tabla 6.2 Cdigos de identificador de cdigo de comienzo de extensin ........................................... 80 Tabla 6.3 Significado de chroma_format .................................................................................................. 82 Tabla 6.4 Nmero de bloques en funcin de chroma_format................................................................ 82 Tabla 6.5 Estructura time_code.................................................................................................................. 83 Tabla 6.6 Tipo de codificacin de imagen ................................................................................................ 84 Tabla 6.7 Precisin coeficientes DC intracodificados ............................................................................. 85 Tabla 6.8 Significado de picture_structure................................................................................................ 85 Tabla 6.9 Significado frame_motion_type................................................................................................. 88 Tabla 6.10 Siginficado field_motion_type ................................................................................................. 89 Tabla 6.11 Relacin entre intra_dc_precision y el valor de reiniciacin del predictor........................ 90 Tabla 6.12 Seleccin de tablas VLC de coeficientes DC ....................................................................... 91 Tabla 7.1 Tiempos y espacio en memoria de decodificacin en un GOP ......................................... 117
ndice de ecuaciones Decodificador vdeo MPEG-2
VIII
NDICE DE ECUACIONES
Ecuacin 2.1 Transformada discreta del coseno 2D............................................................................... 21 Ecuacin 2.2 Transformada inversa discreta del coseno 2D................................................................. 21 Ecuacin 3.1 Obtencin de los coeficientes cuantificados..................................................................... 50
Introduccin Decodificador vdeo MPEG-2
1
1 INTRODUCCIN
1.1 Introduccin
Actualmente nos encontramos en una poca en la que prcticamente todo tratamiento de
informacin que imaginemos se hace mediante un dispositivo con funcionamiento digital.
Podemos ver como a lo largo de la ltima dcada, se han ido sustituyendo los mtodos
de adquisicin, almacenaje y reproduccin de cualquier tipo de informacin. As por
ejemplo, las cmaras fotogrficas, videocmaras, reproductores de msica, grabadoras,
etc, han sido reemplazadas por sus homlogos digitales con las diferencias que esto
conlleva.
La digitalizacin de seales analgicas aporta considerables ventajas entre las que
podemos citar la proteccin frente a ruidos, la facilidad para encriptar las seales, la
posibilidad de procesar digitalmente los datos, el poder enviar las seales digitales a
grandes distancias, as como la gran capacidad de almacenamiento que en medios
digitales encontramos y que aumenta a velocidad vertiginosa. No obstante, por lo
general, la digitalizacin supone un aumento considerable del ancho de banda. A pesar
de esto, el gran desarrollo experimentado por las tecnologas de la informacin en los
ltimos tiempos ha provocado, entre otros avances, un incremento de las comunicaciones
digitales. El procesamiento digital de seales adquiere un inters especial, puesto que es
la base para plataformas tales como Internet, multimedia, televisin digital y sonido
digital. La posibilidad de transmitir vdeo digital se presentaba como algo muy lejano hace
unos aos. Incluso se lleg a pensar que su introduccin no se lograra hasta bien
entrado el siglo XXI [13].
Lo que hizo cambiar esta percepcin fue la aparicin de eficaces algoritmos de
compresin de vdeo, que reducan de manera significativa el flujo necesario para la
transmisin de imgenes.
Para comprender la necesidad de algoritmos compresores necesitaremos primero unas
nociones bsicas sobre el vdeo digital sin comprimir. Por esto, en el siguiente captulo
haremos una introduccin al vdeo digital., hablando de los principales formatos
existentes y de las etapas en el proceso de codificacin. A continuacin, expondremos la
necesidad de compresin de una forma razonada. Por ltimo encontraremos las
Introduccin Decodificador vdeo MPEG-2
2
motivaciones que nos han llevado ha desarrollar este proyecto y los objetivos propuestos
en su comienzo. Adems, se incluye un apartado con la organizacin del resto de la
memoria.
1.2 Conceptos de vdeo digital
El vdeo es una captura, grabacin, almacenamiento, y reconstruccin de una secuencia
de imgenes que representan escenas en movimiento. Tanto el cine, la televisin y el
vdeo domstico estn basados, entre otros, en un fenmeno conocido como
persistencia de la visin. Dicho fenmeno consiste en una imperfeccin del ojo humano,
por el cual toda imagen que visualice se queda almacenada en la retina durante una
fraccin de segundo. De esta forma, si al ojo humano se le muestra una rpida sucesin
de imgenes, tender a unirlas, y si stas son muy similares, con pequeos cambios y se
exponen a una velocidad adecuada, el cerebro las reconoce como imgenes en
movimiento.
El vdeo surge como una tecnologa ntimamente ligada a la televisin, pues naci como
auxiliar de sta para evitar que toda la programacin fuera en directo, facilitando el
trabajo de grabacin, la planificacin de horarios, el almacenaje de programas y la
reproduccin de los mismos. Por esto actualmente, cualquier formato de vdeo tiene
herencias de este sistema.
La innovacin en el registro de imgenes visuales y auditivas en este formato, comienza
a finales de los aos 50 e inicios de los 60. Entre 1965 y 1978 se consolida como un
medio con singularidad y aplicaciones propias y empieza a ser independiente de la
produccin televisiva.
Una fecha importante en la historia de este medio es 1964, durante los Juegos Olmpicos
de Tokio, ao en el que se hace la primera emisin diferida de la transmisin en directo
de este acontecimiento.
En 1965 se efecta el primer vdeo personal con una intencin artstica, cuando el
coreano Nam June Pail film la visita del Papa Pablo VI a Nueva York desde la ventanilla
de un taxi.
Posteriormente, en 1968. la Sony Corporation produce el portpack, primera cmara
porttil comercializada, y en ese mismo ao ocurre que Jean Louis Godard graba la
Introduccin Decodificador vdeo MPEG-2
3
revuelta francesa de estudiantes por la maana (hecho conocido como el Mayo Francs),
y es visto por la noche en una librera francesa [19].
Como hemos dicho, el vdeo y la televisin se relacionan y se pueden considerar medios
complementarios. Por esto, para estudiar la transicin entre vdeo analgico y vdeo
digital tomaremos como ejemplo la seal analgica empleada en televisin.
La seal analgica de televisin est compuesta de imgenes. Como hemos dicho, para
crear la sensacin de movimiento dichas imgenes deben cambiar cada cierto tiempo de
forma que el ojo no lo perciba (25 imgenes por segundo en PAL, y 30 en NTSC). A su
vez, cada imagen est formada por lneas (625 lneas para un televisor PAL, 525 para un
televisor NTSC), pero una imagen digital est compuesta de pxeles. Las principales
caractersticas de estos dos sistemas se detallan en la siguiente tabla.
IMAG/S CAMP/S LINEAS/IMAG TLINEA FLINEA TIMAGEN FIMAGEN TCAMPO FCAMPO
PAL B/G 25 50 625 64 s 15625 Hz 40 ms 25 Hz 20 ms 50 Hz
NTSC 30 60 525 63,56 s 15734 Hz 33,33 ms 29,97 Hz 16,66 ms 60 Hz
Tabla 1.1 Caractersticas bsicas de los sistemas PAL y NTSC
Puesto que ms adelante hablaremos del vdeo entrelazado introducimos aqu algunos
conceptos. Consiste en realizar una doble exploracin entrelazada de las lneas de cada
imagen como se muestra en la figura 1.1. La imagen se divide en dos subimgenes o
campos explorando alternativamente las lneas pares y las impares. La proximidad entre
lneas consecutivas hace que el espectador integre las dos subimgenes y obtenga la
sensacin de que stas se estn renovando a una frecuencia doble de la real. Con ello se
consigue eliminar un fenmeno de parpadeo que apareca con la exploracin normal.
Figura 1.1 Divisin de la imagen en dos campos entrelazados
Introduccin Decodificador vdeo MPEG-2
4
Para la digitalizacin de esta seal de vdeo se hace un muestreo de cada una de las
imgenes (muestreo temporal) en filas y columnas (muestreo espacial) tal y como se
representa en la figura 1.2.
Figura 1.2 Muestreo espacial y temporal de la secuencia de vdeo
Si consideramos una seal analgica en blanco y negro (solo tiene informacin de la
luminancia, es decir, del nivel de gris en cada punto) y tomamos muestras
equiespaciadas en cada una de sus lneas, se obtendr un muestreo de la imagen con
estructura rectangular (cada cuadro de televisin guarda una relacin de aspecto
rectangular 4/3), en la que cada muestra representa los valores de luminancia obtenidos
como se representa en la figura 1.3.
Figura 1.3 Retcula de muestreo rectangular para la digitalizacin de las imgenes
Introduccin Decodificador vdeo MPEG-2
5
De este modo, la imagen digital puede tratarse como una matriz u[n,m]. Cada una de
estas muestras sern los llamados elementos de imagen o pxeles. El nmero de
muestras que se toman en cada lnea de la imagen debe guardar una relacin con el
nmero de lneas de cada imagen con objeto de que la resolucin en ambas direcciones
tenga valores parecidos. As pues, como primera aproximacin, en un sistema como el
europeo (PAL) que utiliza 575 lneas activas, el nmero de muestras tomadas en cada
lnea debera ser de unas (4/3) x 575 = 766 muestras, donde hemos multiplicado por la
relacin de aspecto para tener en cuenta que la imagen no es cuadrada. En la figura 1.4
se muestran distintas versiones de la misma imagen muestreada con distintas
resoluciones (en este caso cuadradas).
Figura 1.4 Versiones de una misma imagen con distintas resoluciones
Cada una de estas muestras de luminancia deber representarse con un nmero de bits
o una profundidad. La experiencia emprica demuestra que el nmero mnimo de niveles
a partir del que no se aprecia ninguna mejora en la calidad de las imgenes se sita entre
los 45 y 60 por lo que bastara con 6 7 bits para codificarlos. Debido a que toda la
estructura de las memorias est basadas en palabras de 8 bits, se decidi cuantificar los
niveles de luminancia con 8 bits (256 niveles posibles).
En el caso en que se trate de imgenes en color, puede optarse por muestrear las 3
componentes de color RGB o bien la luminancia y las seales diferencia de color. En el
primer caso, la resolucin de las tres imgenes debe ser la misma. En el segundo, es
habitual muestrear las seales diferencia de color con una retcula de muestreo que
incluya un menor nmero de muestras espaciales aunque con el mismo nmero de bits.
Introduccin Decodificador vdeo MPEG-2
6
1.2.1 Formatos de vdeo digital
La primera norma que surge para la televisin digital ser la CCIR 601, que se encarga
del muestreo de la seal, sin llevar a cabo ningn tipo de compresin. Puesto que se har
referencia a este formato en el futuro, considero oportuno introducir algunos conceptos.
Recomendacin 601
En 1982, el ITU-R (anteriormente CCIR), en su recomendacin 601, desarroll un
conjunto de especificaciones para seales de televisin digital en estudios de televisin o
de produccin de vdeo.
El objetivo de esta recomendacin era facilitar el intercambio de programas a escala
internacional. Las recomendaciones definen muchos parmetros comunes entre el
formato americano (NTSC) y europeo (PAL) con el objeto de que los fabricantes puedan
incluir varios mdulos comunes en equipos para 525 y 625 lneas. El uso de este formato
permite la interconexin entre distintos equipos digitales.
Existen bsicamente dos variantes bsicas conocidas como 4:2:2 y 4:4:4, donde los
dgitos indican la proporcin entre las muestras dedicadas a la luminancia (Y) y las
dedicadas a las componentes de color (Cr y Cb, componentes diferencia).
Las dimensiones de la componente de luminancia en los formatos 4:4:4 y 4:2:2 son de
720x576 en los sistemas de 625/50 y de 720x480 en los de 525/30.
El sistema ms utilizado es el 4:2:2, en el que estn codificadas la luminancia y las
seales diferencia de color. El formato 4:4:4 puede utilizarse tambin con componentes
RGB.
En la figura 1.5 se muestra la disposicin de las muestras tomadas en el formato 4:2:2.
Como se puede ver, las seales diferencia de color tienen la mitad de muestras en el
sentido horizontal y el mismo que la luminancia en el sentido vertical.
Introduccin Decodificador vdeo MPEG-2
7
Figura 1.5 Distribucin espacial de las muestras de luminancia y croma en el formato 4:2:2
Adems de las dos variantes bsicas 4:2:2 y 4:4:4, destaca tambin el formato 4:2:0 que
es una simplificacin del 4:2:2. Se obtiene reduciendo a la mitad la frecuencia de
muestreo de las componentes de croma en el sentido vertical. Con ello, se iguala la
densidad de muestras de croma en las dos direcciones. Las muestras de croma se
obtienen a partir de las muestras del formato 4:2:2, promediando dos filas consecutivas.
En la figura 1.6 se muestra un ejemplo del muestreo de este formato.
Figura 1.6 Distribucin de las componentes de luminancia y croma en el formato 4:2:0
Formatos reducidos
En algunas aplicaciones donde no resulta necesaria una excesiva calidad de la imagen
de vdeo digital suelen emplearse reducciones sobre el tamao de la imagen. Con ello, se
Introduccin Decodificador vdeo MPEG-2
8
consigue una importante reduccin respecto a la tasa de bits original, que puede hacer
factible la codificacin de la seal en soportes de baja densidad o canales de reducido
ancho de banda.
Uno de los formatos de vdeo reducido ms populares es el SIF (Source Intermediate
Format) que, esencialmente, consiste en un submuestreo de factor dos del formato 4:2:0
que se aplica tanto a las componentes de luminancia como de croma. Los tamaos de las
matrices de luminancia para el formato SIF son de 360x288 para el estndar de 625
lneas y 360x240 para el de 525 lneas. Las matrices de croma tambin se submuestrean
en un factor 2 en cada direccin respecto las matrices de croma del 4:2:0 (180x144 para
625 lneas y 180x120 para 525). Tambin se realiza una reduccin de la frecuencia de
imagen a 25 Hz para el sistema europeo y a 30 Hz para el americano. Con ello, las
imgenes resultantes no son entrelazadas. En estas condiciones, se obtiene una calidad
equivalente al formato de vdeo analgico VHS.
El formato CIF (Common Intermediate Format) es un compromiso entre el formato SIF
para 625 y 525 lneas. Utiliza 360x288 muestras de resolucin de luminancia (europeo) y
una frecuencia de refresco de 30 Hz (americano).
Los formatos QSIF y QCIF (Quater) se obtienen reduciendo de nuevo la resolucin
espacial en un factor 4 (factor 2 en cada direccin) y la resolucin temporal en un factor
de 2 o 4. Estos formatos suelen utilizarse para la transmisin de seales de vdeo
telefona con el estndar de compresin H.261 o para la transmisin de vdeo en directo
por Internet. Los submuestreos espaciales se realizan filtrando las seales SIF (o
directamente la 4:2:0). Las posiciones espaciales de las componentes de luminancia y
croma resultantes son parecidas a las del formato SIF.
Formatos de pxel cuadrado
En aplicaciones informticas es conveniente que los pxeles tengan una relacin de
aspecto cuadrada, ya que las tarjetas de visualizacin y los programas de tratamiento de
imagen asumen esta propiedad. Por ello, es conveniente redefinir unos formatos
alternativos para poder gestionar las seales de vdeo digital mediante ordenador. Los
formatos utilizados en entornos informticos se suelen denominar formatos de pxel
cuadrado y son equivalentes a los formatos que hemos considerado hasta ahora, con la
salvedad de que se modifica el nmero de elementos por fila para forzar que la relacin
de aspecto del pxel sea cuadrada. As, en el estndar de 625 lneas, el tamao de una
imagen 4:2:0 ser de 768x576 pxeles (768 = (4/3) x 576) mientras que en el estndar de
Introduccin Decodificador vdeo MPEG-2
9
525 lneas tendremos un tamao de imagen de 640x480 pxeles (640 = (4/3) x 480). Este
formato es conocido como VGA y, como vemos, proviene del estndar americano. El
resto de formatos SIF, CIF y QCIF de pxel cuadrado se obtienen dividiendo las
resoluciones espaciales por factores de dos. En la tabla 1.2 se comparan los tamaos de
cada formato en las versiones de 625 lneas, 525 lneas y formatos cuadrados.
Europeo TV Americano TV Eur. Cuadrado Amer. Cuadrado
4:2:0 720x576 720x480 768x576 640x480 SIF 360x288 360x240 384x288 320x240 CIF 360x288 360x288 384x288 384x288 QSIF 180x144 180x120 192x144 160x120
Tabla 1.2 Comparacin entre formatos digitales
1.2.2 Codificacin de la seal de vdeo digital
En la figura 1.7 se representan las distintas etapas conceptuales que intervienen en el
proceso de codificacin de la seal de vdeo digital.
Figura 1.7 Etapas en la codificacin y transmisin de una seal de vdeo digital
La codificacin de fuente consiste en extraer toda la redundancia posible en la seal, reduciendo el nmero de bits con el que se representa la informacin sin
que ello suponga una prdida aparente de calidad para el sistema visual humano.
Los mtodos y estrategias empleados para la codificacin de fuente son muy
variados, y resulta difcil establecer un procedimiento de compresin ptimo
puesto que los resultados dependen, en gran medida, de las caractersticas de las
seales. Generalmente los mtodos de compresin avanzados combinan distintas
estrategias simultneamente para codificar la seal.
Introduccin Decodificador vdeo MPEG-2
10
La multiplexacin de distintas seales bsicas es necesaria para formar una nica trama binaria que transporte la informacin y contenidos de todo el canal definido
por la plataforma operadora.
La codificacin de canal se utiliza para adecuar la forma de onda de las seales a las caractersticas del canal. En esta etapa se introducen cdigos de proteccin
frente a errores, cdigos de encriptacin de la informacin y se adecua la forma
de onda de las seales para que puedan ser directamente utilizadas por la etapa
de modulacin o transmisin. Esta ltima etapa se encarga de adaptar los datos a
las caractersticas del medio de transmisin, para garantizar una correcta
recepcin de las seales.
El medio de transmisin condiciona el tipo de modulacin que se utiliza y la codificacin de canal. As, en un medio como el cable, los sistemas de deteccin y
correccin de errores pueden ser ms simples que en el caso de la comunicacin
va satlite, debido a que la relacin seal a ruido es mucho mayor y, por tanto, se
reduce la probabilidad de error.
1.3 Necesidad de compresin
Para tener una idea general del volumen de datos binarios que supone la digitalizacin de
una seal de vdeo, y por ello, la necesidad de compresin, consideremos como ejemplo
el caso del estndar 4:2:2. La luminancia se muestrea a una frecuencia de 13.5 MHz
tomando 8 bits por muestra, lo que da un total de 108 Mbps. Adems, cada una de las
seales de diferencia de color se muestrean a 6.75 MHz, nuevamente con 8 bits por
muestra, lo que produce un nuevo flujo de 108 Mbps. En total tenemos un flujo de 216
Mbps asignados exclusivamente a la seal de vdeo digital, sin tener en cuenta las
componentes de audio o de informacin adicional que pueden desear incluirse en la
seal de televisin [6]. Este flujo de datos, si bien puede ser soportado en la transferencia
de datos entre equipos de un estudio, es excesivo para su transmisin directa al usuario,
ya que requerira utilizar un considerable ancho de banda.
Por ello, en el momento que haya que transmitir o almacenar la seal de vdeo digital es
fundamental aplicar procedimientos y tratamientos especficos de los datos que permitan
comprimir la cantidad de informacin que debe transmitirse al canal.
Introduccin Decodificador vdeo MPEG-2
11
En el caso de seales de vdeo analgicas resultaba suficiente un ancho de banda de 5
MHz para mantener una resolucin espacial y tasa de refresco de imgenes aceptable.
Evidentemente, aunque se usen cdigos y modulaciones digitales de gran eficiencia
espectral, el ancho de banda necesario para transmitir una tasa de bits de 216 Mbps es
muy superior a los 5 MHz que requiere el sistema analgico.
Por esta razn, los formatos digitales derivados del ITU 601 se han mantenido como
estndares digitales para el intercambio de informacin entre equipos terminales en
estudios de grabacin y produccin de vdeo y no se han extendido a sistemas de
transmisin y almacenaje de la seal de vdeo.
Tomando estos formatos digitales como punto de partida, es necesario aplicar un proceso
de reduccin de la tasa de bits que permita la transmisin o almacenaje de las seales
sin una prdida aparente de calidad o sin hacer uso excesivo de los medios de los que se
dispone. Este proceso es conocido como compresin o codificacin y consiste
bsicamente en la reduccin del nmero de parmetros requeridos para representar la
seal, manteniendo una buena calidad de imagen.
1.4 Motivaciones
En un primer momento, el proyecto iba a consistir en un estudio y comparacin de
distintos algoritmos de deteccin de cambios de plano en vdeo comprimido. La idea
consista en programar en MATLAB algunos de los algoritmos ms caractersticos y
comparar su bondad con respecto a distintos parmetros. Se pens en basarse en el
estndar de vdeo comprimido MPEG-2. Para ello, en primer lugar, me centr en la
documentacin de estos algoritmos, seleccionando tres de ellos. Cuando comenc la
parte tcnica y lleg la hora de programar, result que no exista ningn cdigo abierto en
MATLAB que analizara la estructura del vdeo comprimido. Esto era necesario, ya que
cualquier algoritmo de cambio de plano compara determinados parmetros (presentes en
el bitstream de vdeo) en las sucesivas imgenes, de forma que cuando detectan una
diferencia mayor a un umbral, indicarn que se ha producido el cambio.
Ya que no exista en cdigo abierto una aplicacin que hiciera lo que necesitbamos, nos
planteamos desarrollarla en este proyecto. Adems, en aras a servir a futuras
investigaciones y como un aporte ms a la comunidad de la informacin, se ha decidido
publicar la aplicacin desarrollada en el File Exchange de Mathworks.
Introduccin Decodificador vdeo MPEG-2
12
La razn de haber escogido el estndar de vdeo comprimido MPEG-2, y no otra de las
versiones de MPEG, es principalmente el gran nmero de aplicaciones en las que se
emplea este estndar, desde sistemas de almacenamiento digital como el DVD (en una
versin modificada) hasta la televisin de alta definicin.
1.5 Objetivos
Aunque el principal objetivo de este proyecto es el desarrollo de un decodificador de
vdeo MPEG-2 en MATLAB, su consecucin necesariamente se ha tenido que basar en
la realizacin de varias tareas previas.
En primer lugar se deba entender por qu es necesaria la compresin al mismo tiempo
que estudiar las tcnicas empleadas para realizarla. Estas tcnicas, basadas en la
compresin empleada en imgenes estticas, deben conseguir un flujo de bits ptimo
para las aplicaciones en las que se usar la informacin de vdeo. Hasta este punto,
muchos de los distintos estndares de compresin existentes se basan en procesos
equivalentes.
Centrndonos en el estndar elegido, MPEG-2, la primera tarea a realizar fue un estudio
exhaustivo del estndar. Aparte de las tcnicas de compresin empleadas en este caso
particular, debamos comprender las distintas estructuras existentes en su bitstream. Al
ser un estndar abierto, la recomendacin proporciona simplemente una sintaxis que
deben cumplir los vdeos comprimidos con este estndar, lo cual deja gran libertad al
diseador del codificador o decodificador. Las distintas estructuras que forman un
bitstream con formato MPEG-2 y las relaciones entre ellas vienen recogidas en la
recomendacin ISO/IEC 13818-1, denominada Capa de Sistema. Adems, como la
informacin que se iba a descomprimir era la de vdeo, se realiz el estudio pertinente de
la Capa de Vdeo, recogida en la recomendacin ISO/IEC 13818-2.
En la parte de desarrollo tcnico se fijaron dos objetivos. El primero de ellos era realizar
un programa capaz de demultiplexar la informacin de vdeo, para su posterior
descompresin y anlisis. El segundo era el decodificador propiamente dicho. Para la
realizacin de este programa se deba emplear como patrn la sintaxis recogida en la
Capa de Vdeo del estndar, con los mismos algoritmos y, en la medida de lo posible, la
misma informacin. De esta forma se conseguira que cualquier persona ajena al
proyecto, siempre que tenga en cuenta la recomendacin, pudiera comprender e incluso
modificar el cdigo para cualquier otra aplicacin.
Introduccin Decodificador vdeo MPEG-2
13
Aunque no se fij como objetivo minimizar la velocidad de descompresin, se llevar a
cabo un estudio de tiempos empleados en el desarrollo de la aplicacin para detectar
cul seran las partes mejorables del algoritmo.
1.6 Organizacin de la memoria
La memoria est dividida en ocho captulos, a su vez subdivididos en partes y temas
concretos que relacionamos a continuacin.
El primer captulo sirve de introduccin o de prembulo, mostrndose algunos conceptos
de vdeo digital y la necesidad de comprimir este tipo de informacin. Incluyndose
tambin las motivaciones que nos han llevado a realizar este proyecto y los objetivos
fijados.
En el segundo captulo se exponen las tcnicas usadas en los estndares de compresin
de vdeo. Se da por tanto, una visin general, sin particularizar ni definir ningn estndar
en concreto.
El tercer captulo nos detalla la informacin relacionada con el estndar MPEG-2, en cuya
primera parte, se habla de su historia y de la organizacin de la recomendacin ISO/IEC
13818. Posteriormente, y con un nivel ms detallado que en el captulo segundo, se
presentan las tcnicas de compresin empleadas.
En el cuarto captulo hablamos de la Capa de Sistema (ISO/IEC 13818-1), que contiene
la forma de multiplexar la distinta informacin de vdeo, audio y de otros tipos. Adems se
explican las dos formas de agrupar dicha informacin.
En el quinto captulo damos un repaso general a las tcnicas de compresin de audio y
de una forma algo ms superficial que en el caso de vdeo hablamos del proceso de
codificacin empleado en MPEG-2.
En el sexto captulo llegamos a la informacin de vdeo. Presentando la estructura de
datos de vdeo y los principales parmetros que definen este tipo de informacin.
La informacin del desarrollo se recoge en el captulo siete. En primer lugar se explican
las caractersticas fundamentales de las aplicaciones diseadas, haciendo un estudio de
tiempos. Por ltimo, se muestra un ejemplo del bitstream de vdeo y su interpretacin
correspondiente.
Introduccin Decodificador vdeo MPEG-2
14
Finalmente y como colofn, en el octavo captulo se incluyen las conclusiones, los
objetivos cumplidos y las posibles vas futuras de desarrollo a partir de este proyecto.
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
15
2 TCNICAS DE COMPRESIN DE LA SEAL DE VDEO
La compresin es el proceso de compactar los datos en un menor nmero de bits. En el
caso de la compresin de vdeo hemos dicho que necesitamos disminuir la tasa
necesaria (unos 216 Mbps) para poder almacenar y transmitir este tipo de informacin.
2.1 Sistemas de compresin
Un sistema de compresin de informacin suele estar formado por dos etapas que se
ilustran en la figura 2.1. La transformacin de los datos es un procedimiento genrico que
se utiliza para representar la informacin en una forma alternativa y en la que, en
principio, resulta ms evidente la redundancia existente en los datos originales. Es
necesario que esta transformacin sea invertible, es decir, que a partir de los datos
transformados podamos recuperar de forma lo ms exacta posible la informacin original.
Figura 2.1 Proceso general de codificacin y decodificacin de la informacin
Consideremos como ejemplo la aplicacin de una transformada de Fourier a las seales
que representan la informacin de un fragmento de audio. Es posible que resulte ms
eficiente codificar los datos resultantes de esta transformacin que los datos originales.
En efecto, en el dominio transformado de Fourier es ms simple identificar las regiones
espectrales que tienen una energa por debajo del umbral de audicin, o analizar las
bandas que resultarn enmascaradas por otras seales y que por lo tanto no seran
audibles. Si este anlisis de la seal es factible, no tendr sentido codificar toda aquella
informacin que el sistema auditivo humano es incapaz de escuchar y resulta ms
rentable dedicar los bits a las zonas audibles. El resultado final es que en este dominio
transformado podemos codificar la informacin de forma ms eficaz. No obstante,
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
16
debemos recordar que al final de la cadena de codificacin / decodificacin, deben
presentarse los datos en el mismo formato de entrada para que puedan ser
correctamente interpretados por el sistema auditivo. Esto significa que deberemos aplicar
la transformacin inversa sobre los datos codificados para devolverlos a su dominio de
representacin original.
En general, la compresin puede ser con prdidas (lossy) o sin prdidas (lossless) en
funcin de si la informacin que se recupera coincide exactamente con la original o es
slo una aproximacin. Los mtodos de codificacin sin prdidas se utilizan sobre todo
en aplicaciones de codificacin de datos binarios de aplicaciones informticas en los que
es absolutamente necesario recuperar la informacin original. Los formatos ms
populares son el zip y el arj. En tratamiento de imgenes los mtodos de compresin sin
prdidas encuentran su aplicacin en la codificacin de imgenes mdicas o cientficas
en las que puede resultar crtico la prdida de parte de la informacin. El formato JPEG
dispone de una versin de codificacin sin prdidas que suele emplearse en estas
aplicaciones.
La compresin con prdidas es la ms habitual en la codificacin de seales de vdeo y
audio. Evidentemente, las prdidas son tolerables siempre que la calidad de las seales
decodificadas sean aceptables. El principio general sobre el que se sustenta la
codificacin con prdidas es que no resulta necesario codificar aquellas componentes de
la informacin que no son observables por los sistemas de percepcin humana. Por lo
tanto, estos mtodos se fundamentan en las caractersticas psicofisiolgicas de los
sistemas auditivo y visual, que son, en ltima instancia, los que deben evaluar la calidad
del algoritmo de compresin. Por ello, es fundamental comprender las limitaciones y
caractersticas de estos sistemas de percepcin para disear codificadores en los que las
prdidas de informacin resulten poco evidentes o incluso inapreciables. La principal
ventaja de estas estrategias de codificacin es que consiguen unos factores de
compresin muy superiores a los que se obtienen con los mtodos sin prdidas. Adems,
suelen ser mtodos escalables con la aplicacin, es decir, el grado de prdida de calidad
que se tolera depende del mbito al que se destine el codificador. As, la calidad que se
exige en una aplicacin de vdeo en directo para Internet es muy inferior a la que se exige
para la radiodifusin de televisin. Anlogamente, un codificador de vdeo para
aplicaciones multimedia (MPEG-1) deber realizar una compresin mucho mayor que un
codificador para aplicaciones de televisin (MPEG-2), ya que las tasas de transferencia
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
17
de bits que admite un CDROM son mucho menores que las que admiten los canales de
televisin.
2.2 Tcnicas de compresin de imgenes
La compresin de imgenes y de secuencias de vdeo se basa en la eliminacin de tres
tipos de redundancias:
Redundancia Espacial: Se basa en los pxeles que estn cerca unos de otros, ya que estos tienen un parecido muy grande entre ellos. Para eliminar esta
redundancia se usan mtodos transformados, como por ejemplo la (DCT, Discret
Cosinus Transform) y la cuantificacin. Estas tcnicas sern conocidas como
codificacin Intratrama.
Redundancia Estadstica: Consiste en determinar que valores de bit se repiten ms en una secuencia. Utilizaremos mtodos como el VLC (Variable Length
Code) y el RLC (Run Length Code) para poder eliminar esta redundancia.
Redundancia Temporal: Pretende aprovechar el hecho de que un pxel se repita a lo largo del tiempo. Para poder eliminar este tipo de redundancia se utilizaran
tcnicas predictivas para poder deducir la posicin futura de los pxeles. En
concreto utilizaremos una prediccin Intertrama con la tcnica de compensacin
de movimiento, basada en obtener la imagen de prediccin a partir de vectores de
movimiento de imgenes pasadas y/o futuras. Esta eliminacin de redundancia es
la que nos comprimir ms el video.
En este apartado slo se expondrn los aspectos generales de los mtodos ms
utilizados en algoritmos de compresin de vdeo. Normalmente, cualquiera de las
tcnicas empleadas estn basadas en bloques, que en el caso genrico sern de tamao
NxM, aunque en la mayora de los casos se toman bloque cuadrados, NxN. En el
siguiente captulo se detallarn estas tcnicas para el caso de MPEG-2.
2.2.1 Redundancia espacial
Como hemos dicho se usan dos mtodos para eliminar este tipo de redundancia, adems
del ya conocido submuestreo de las componentes de color, que tambin se puede
considerar como eliminacin de este tipo de redundancia. En este apartado se presentar
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
18
la transformada coseno discreta. El mtodo de cuantificacin ser explicado para el caso
particular del codificador MPEG ms adelante.
Transformada coseno discreta (DCT)
La codificacin de imagen utilizando algn tipo de transformadas es bastante popular y se
extiende a otras transformaciones como Fourier, Walsh-Hadamard, Hart, Karhunen-
Loeve, Wavelet, etc. Estos procedimientos de codificacin se conocen con el nombre
genrico de mtodos transformados.
Este mtodo de codificacin se basa en el esquema de la figura 2.2. La imagen a
comprimir se divide en bloques o subimgenes de tamao reducido sobre las que se
aplica la transformacin. El resultado de la transformada de cada bloque se cuantifica y
posteriormente se aplican cdigos eficientes para transmitir o almacenar esta
informacin. La compresin de imagen se produce principalmente durante el proceso de
cuantificacin, donde parte de la informacin se descarta o se cuantifica con un nmero
de niveles muy reducido. Veremos que la informacin de cada subimagen puede quedar
muy bien empaquetada en unos pocos coeficientes transformados, de modo que resulta
suficiente con determinar qu coeficientes son los ms representativos y codificar la
imagen utilizando nicamente estos elementos. Evidentemente, tambin existe alguna
ganancia de compresin debido a la codificacin de los coeficientes mediante algoritmos
eficientes, aunque en ningn modo es tan significativa como la debida a la parte de
cuantificacin.
Figura 2.2 Proceso general de codificacin y descodificacin de imgenes mediante la transformada coseno
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
19
La decodificacin de la imagen se realiza aplicando el proceso inverso: los coeficientes
se descodifican y se aplica la transformada inversa, de manera que se recuperan los
elementos de imagen en el dominio espacial original. Posteriormente, es necesario
recomponer la imagen a partir de los bloques en los que se ha divido originalmente. Esta
recomposicin de la imagen suele ser uno de los principales problemas de los mtodos
transformados. En efecto, debido a la cuantificacin de los coeficientes transformados, la
subimagen se recupera con cierto error respecto a la original. Este error es muy crtico si
se produce en los lmites de las subimgenes, debido a que al fusionar todos los bloques
aparecern cambios de nivel de gris bruscos que pueden reproducir la descomposicin
en bloques cuando se observa la imagen descomprimida. El problema es particularmente
notorio con algunas transformadas como la de Fourier o Walsh-Hadamard. La
transformada coseno presenta excelentes propiedades en la codificacin de los
contornos de las subimgenes que, de hecho, ha sido uno de los motivos principales por
los que se ha elegido esta transformada en casi todos los estndares de codificacin.
Otro de los aspectos cruciales en la codificacin por mtodos transformados es la
eleccin del tamao de las subimgenes. En principio es aconsejable elegir los tamaos
de los bloques para que exista cierto grado de correlacin entre bloques adyacentes. Otra
restriccin importante es que los tamaos de las subimgenes deberan ser una potencia
de 2 para facilitar el uso de algoritmos rpidos en la implementacin de la transformacin.
El factor de compresin que puede obtenerse aumenta a medida que se utilizan bloques
ms grandes, aunque tambin se incrementa la carga computacional. En la mayora de
aplicaciones pensadas para una resolucin espacial similar a la de los sistemas de
televisin, los bloques son de tamao 8x8 o 16x16.
Antes de introducirnos en los detalles de la transformada coseno analizaremos sus
caractersticas principales, que justifican su amplio uso en codificacin de imagen y que,
posteriormente, nos ayudarn a comprender algunas de sus particularidades.
Capacidad de compactacin de la energa en el dominio transformado. La transformada coseno discreto (DCT- Discrete Cosine Transform) consigue
concentrar la mayor parte de la informacin en unos pocos coeficientes
transformados. Esto permite obtener importantes ventajas para una codificacin
eficiente de la imagen, puesto que basta con codificar de forma precisa estos
coeficientes principales para obtener una buena representacin de todo el bloque
de la imagen. Debe tenerse en cuenta que la capacidad de compactacin de la
energa en unos pocos coeficientes es un parmetro puramente estadstico, lo
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
20
que significa que siempre es posible encontrar un bloque de imagen en la que la
energa en el dominio transformado est dispersada entre todos los coeficientes.
No obstante, esto tiene una probabilidad de ocurrencia muy baja y no suele
producirse nunca si trabajamos con imgenes naturales. La capacidad de
compactacin de la energa de la DCT es muy superior a la que se obtiene con las
transformadas de Walsh- Hadamard, Hart y tambin Fourier. La transformada
Karhunen-Loeve consigue una compactacin ptima, aunque al precio de un
elevado coste computacional. La transformada Wavelet tambin consigue
concentrar la energa en unos pocos coeficientes, aunque en este caso, la
posicin de los coeficientes con mayor energa depende de la imagen.
Es una transformada independiente de los datos. Esto significa que el algoritmo es independiente del contenido de la imagen. Prcticamente todas las
transformadas que hemos venido comentando son independientes de los datos,
con la excepcin de la Karhunen-Loeve, donde las matrices asociadas a la
transformacin deben calcularse en funcin de las caractersticas de la propia
imagen. Por este motivo, la transformada de Karhunen Loeve es ptima en el
sentido de compactacin de energa.
Existen algoritmos eficientes para el clculo rpido. Existen algoritmos anlogos al de la FFT (Fast Fourier Transform) para realizar la transformacin.
Los algoritmos se encuentran disponibles en circuitos integrados especializados
en realizar esta transformacin. La restriccin para poder utilizar estos algoritmos
es que los bloques tengan un tamao que sea mltiplo de una potencia de dos. Si
no es as, debern aadirse ceros a las subimgenes, aunque esto supone que
aumenta notablemente el riesgo de que aparezca el efecto de bloques al
decodificar la imagen.
Errores reducidos en los contornos de los bloques. Probablemente ste es uno de los motivos principales por los que se ha elegido la DCT frente a otras
transformadas. La presencia de errores de codificacin muy pequeos en los
lmites de la subimagen es necesaria para evitar la aparicin del efecto de bloques
en la imagen reconstruida.
Identificacin e interpretacin frecuencial de los componentes transformados. Para aprovechar al mximo la capacidad de compresin de un mtodo es conveniente que los coeficientes puedan interpretarse desde el punto
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
21
de vista frecuencial con facilidad. Esto permite introducir conceptos psico-visuales,
permitiendo dedicar un menor nmero de bits a aquellas componentes que de
antemano sabemos que no resultan crticas para el sistema visual.
La ecuacin que se utiliza para la transformada NxN bidimensional (se suponen bloques
cuadrados) es:
( ) ( ) ( ) ( ) ( ) ( )
+
+= =
= N2v1y2cos
N2u1x2cosyx,fvCuC
N2 vu,F
1N
0x
1N
0y
con u, v, x, y =0, 1, 2, N-1
donde x, y son coordenadas espaciales en el dominio espacial u, v son coordenadas en el dominio transformado
( ) ( )2
1=v,CuC para u,v = 0 ( ) ( ) 1, =vCuC para u, v = 1,2,,N-1
Ecuacin 2.1 Transformada discreta del coseno 2D
En general slo trataremos con bloques cuadrados cuyos tamaos son, como hemos
comentado, una potencia de 2.
De forma anloga, la ecuacin para la transformada inversa es:
( ) ( ) ( ) ( ) ( ) ( )
+
+= =
= Nvy
NuxvuFvCuC
Nyxf
N
u
N
v 212cos
212cos,2,
1
0
1
0
Ecuacin 2.2 Transformada inversa discreta del coseno 2D
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
22
Vemos un ejemplo numrico de esta transformada en la figura 2.3.
120 108 90 75 69 73 82 89
127 115 97 81 75 79 88 95
134 122 105 89 83 87 96 103
137 125 107 92 86 90 99 106
131 119 101 86 80 83 93 100
117 105 87 72 65 69 78 85
100 88 70 55 49 53 62 69
89 77 59 44 38 42 51 58
DCT
700 90 100 0 0 0 0 0
90 0 0 0 0 0 0 0
-90 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 -1 0 0 0 0 0 0
0 -1 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 -1 0 0 0 0 0 0
Figura 2.3 Ejemplo numrico y grfico de la transformada discreta del coseno
Tal y como se dijo anteriormente, la DCT consigue concentrar la mayor parte de la
informacin en unos pocos coeficientes transformados. Adems, podemos ver cmo
estos coeficientes distintos de cero se encuentran situados en las frecuencias bajas.
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
23
2.2.2 Redundancia estadstica
Cdigos de longitud variable (VLC)
La idea bsica de los cdigos de longitud variable es asignar palabras cdigo de
longitudes distintas en funcin de la probabilidad de los mensajes. Los mensajes ms
probables se codificarn con un menor nmero de bits que los mensajes menos
probables.
Para que los cdigos de longitud variable resulten eficaces es necesario disponer de
procedimientos sistemticos para generar estos cdigos directamente a partir de las
caractersticas de las fuentes. Adems, es fundamental que los cdigos obtenidos
resulten eficientes, es decir, que permitan obtener una tasa media de bits prxima a la
entropa de la fuente.
Entre estos cdigos podemos destacar los cdigos de Huffman y sus variantes.
Codificacin por longitud de series (RLC)
Esta codificacin comenz a utilizarse a mediados de la dcada de los 50 para la
codificacin de documentos digitalizados. Para documentos de texto o grficos binarios,
que nicamente contienen los niveles blanco y negro, podemos codificar cada lnea
indicando, de forma alternada, cuantos pxeles toman el nivel blanco y cuantos el nivel
negro en palabras sucesivas. Para ello, es necesario establecer que siempre empezamos
por uno de los niveles.
A este procedimiento bsico, podemos aadir un cdigo de Huffman que tenga en cuenta
la estadstica con la que se producen los mensajes que indican la longitud de las series
de blancos y negros. Aquellas longitudes que se producen con mayor frecuencia sern
codificadas con palabras de menos longitud.
La idea bsica del RLC puede extenderse a fuentes con varios mensajes o smbolos,
pero en las que predomine uno de los mensajes con gran probabilidad. En el caso del
proceso de codificacin de imgenes, muchos de los coeficientes de la transformada
coseno obtenidos, una vez cuantificados, toman el valor nulo, por lo que resulta ms
eficiente especificar la cantidad de coeficientes consecutivos que toman este valor.
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
24
2.2.3 Redundancia temporal
La redundancia temporal se basa en que dentro de una secuencia de vdeo, los cambios
producidos entre imgenes son mnimos, ya que gran parte de los objetos y elementos
permanecen en la misma posicin y con las mismas caractersticas de un fotograma a
otro. Un rea de la imagen actual proviene por lo general de un rea cercana de la
imagen anterior, por lo que podemos emplear la informacin anterior y fijarnos en las
diferencias. Normalmente los mtodos para eliminar la redundancia temporal se realizan
en secciones rectangulares o bloques.
En la figura 2.4 se muestran dos fotogramas seguidos, las diferencias entre ellos a simple
vista son inapreciables, pero si representamos la imagen diferencia podemos ver que
efectivamente ha habido cambios. En esta imagen un nivel medio de gris representa una
diferencia nula y los niveles ms claros o ms oscuros de gris sern diferencias positivas
o negativas, respectivamente. La mayor parte de los elementos no se han modificado
pero en los contornos si ha habido modificaciones. Esto puede ser debido o bien al
movimiento de la cmara, o al movimiento de los objetos.
Figura 2.4 Ejemplo de dos fotogramas seguidos y su diferencia
Esta tcnica es ampliamente utilizada en los codecs para la produccin de vdeo en
soporte informtico. El procedimiento general suele conocerse con el nombre de
codificacin de fotogramas en diferencias. Normalmente, la secuencia de vdeo suele
descomponerse en fotogramas clave (key frame) y fotogramas diferencia (delta frames).
Los fotogramas claves debern codificarse de forma independiente del resto de
fotogramas, teniendo en cuenta nicamente la redundancia espacial de la imagen.
Peridicamente se insertar un fotograma clave en la secuencia codificada para evitar la
propagacin de errores de codificacin en las imgenes delta.
Esta tcnica, aunque se utiliza a menudo, no es ptima cuando se producen
desplazamientos de los objetos dentro de la imagen o aparecen nuevos motivos debido al
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
25
movimiento de la cmara u otros aspectos. En la figura 2.5 mostramos un movimiento de
la cmara en una imagen simplificada.
Imagen de referencia Imagen a codificar Redundancia temporal
Figura 2.5 Ejemplo de bloques utilizados para realizar la prediccin en codificacin diferencial
La figura muestra cul sera la seccin de la imagen utilizada para predecir el bloque de
inters. En este caso la ganancia del codificador es nula debido a que el error de
prediccin es precisamente igual a la imagen.
Tcnicas de compensacin de movimiento
La compensacin de movimiento es una tcnica de prediccin temporal que intenta
optimizar los resultados obtenidos por la codificacin diferencial analizando el movimiento
que realizan los objetos dentro de la imagen y compensndolos.
Siguiendo con el ejemplo de figura anterior, en el caso de compensacin de movimiento,
el bloque que utilizaramos para la prediccin es el mostrado en la figura 2.6. Ahora, el
error de prediccin puede llegar a ser nulo, por lo que no es necesario volver a codificar
el bloque, simplemente habra que transmitir el vector de desplazamiento que hay que
utilizar en la imagen de referencia para construir este fragmento de la imagen.
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
26
Imagen de referencia
Imagen a codificar Redundancia temporal
Figura 2.6 Ejemplo del bloque utilizado para la prediccin en una codificacin por compensacin de movimiento
Como es de esperar, los vdeos reales no son tan simples como el ejemplo que hemos
puesto. Los objetos pueden sufrir deformaciones, cambios de perspectiva o de tamao o
trasladarse en el espacio mediante rotaciones. Todos estos efectos no se pueden
modelar mediante vectores de traslacin.
Por esta razn, para codificar las secuencias de vdeo de forma ptima, el procesador
deber ser capaz de identificar las regiones de la imagen con nuevos componentes y
codificarlos basndose en la redundancia espacial, y los elementos que se parezcan a
imgenes pasadas o futuras, con la tcnica de compensacin de movimiento.
Podemos resumir el proceso de codificar un bloque mediante esta tcnica en los
siguientes pasos:
1. Buscar un rea o bloque de la imagen de referencia (pasada o futura, la nica condicin es que haya sido codificada y transmitida previamente) que sea ptima
para realizar la prediccin del bloque actual. Para realizar esto, se compara el
bloque de la trama actual con alguno o todos de los posibles bloques de la trama
referencia. Este proceso se conoce como estimacin de movimiento.
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
27
2. La zona elegida se convierte en el predictor para el bloque actual y lo que se hace es restar al bloque actual el predictor. As, tenemos un bloque residual. Este
proceso es la compensacin de movimiento.
3. El bloque residual se codifica y transmite junto con la diferencia de posicin entre los bloques actuales y de referencia. Esta diferencia son los llamados vectores de movimiento (componente de desplazamiento vertical y horizontal).
Figura 2.7 Clculo del vector de movimiento para la compensacin de movimiento
Cuando queramos decodificar esta informacin se parte de que el decodificador ya ha
decodificado la imagen de referencia. Entonces, lo que hay que hacer para recuperar la
informacin del bloque es desplazar el bloque referencia con el vector de movimiento y
aadir el bloque diferencial. La seal de error (bloque residual) puede ser transmitida tal
cual o usando mtodos transformados como se haca para eliminar la redundancia
espacial. Tambin se podr emplear cdigos de longitud variable para el error y los
vectores de movimiento.
Hemos dicho que las imgenes referencia puede ser tanto pasadas como futuras. A esto
se le conoce como compensacin de movimiento bidireccional. La idea bsica consiste
en codificar una imagen utilizando no slo las imgenes de referencia del pasado, sino
tambin las futuras. En principio esto da una solucin no causal, pero lo que se hace es
modificar el orden de codificacin y transmisin de las imgenes, que no ser el orden en
que se representen en un display.
En este caso, el procesador deber calcular dos vectores de movimiento que se
denominan hacia delante (forward) y hacia atrs (backward). A partir de estos dos
vectores el codificador elegir entre codificar el error de prediccin forward (imagen
Tcnicas generales de compresin de la seal de vdeo Decodificador vdeo MPEG-2
28
futura), backward (imagen pasada), bidireccional (ambas imgenes) o codificar el bloque
sin prediccin (error demasiado grande).
Conceptos bsicos de MPEG Decodificador vdeo MPEG-2
29
3 CONCEPTOS BSICOS DE MPEG (Moving Pictures Experts Group)
3.1 Introduccin
El Moving Picture Experts Group (Grupo de Expertos de Imgenes en Movimiento)
referido comnmente como MPEG, es un grupo de trabajo del ISO/IEC encargado de
desarrollar estndares de codificacin de audio y video. Desde su primera reunin (ao
1988 en Ottawa, Canad), el MPEG ha crecido hasta incluir 350 miembros de distintas
industrias y universidades. La designacin oficial del MPEG es ISO/IEC JTC1/SC29
WG11.
MPEG es una de las tcnicas de compresin de audio/vdeo ms populares porque no es
slo un estndar, si no que es una familia de estndar que se pueden aplicar en
diferentes aplicaciones pero todos basados en principios similares.
MPEG ha normalizado los siguientes formatos de compresin y normas auxiliares:
MPEG-1: estndar inicial de compresin de audio y vdeo. Usado despus como la norma para CD de vdeo, incluye popular formato de compresin de audio Capa
3 (MP3).
MPEG-2: normas para audio y vdeo para difusin con calidad de televisin. Utilizado para servicios de TV por satlite como DirecTV (Cadena estadounidense
de televisin va satlite de difusin directa), seales de televisin digital por cable
y (con ligeras modificaciones) para los discos de vdeo DVD.
MPEG-3: diseado originalmente para HDTV (Televisin de Alta Definicin), pero abandonado posteriormente en favor de MPEG-2.
MPEG-4: expande MPEG-1 para soportar "objetos" audio/vdeo, contenido 3D, codificacin de baja velocidad binaria y soporte para gestin de derechos digitales
(proteccin de copyright).
MPEG-7: sistema formal para la descripcin de contenido multimedia MPEG-21: MPEG describe esta norma futura como un "marco multimedia".
Conceptos bsicos de MPEG Decodificador vdeo MPEG-2
30
3.2 Historia
Podramos decir que todo empieza en 1987 cuando el italiano Leonardo Chiariglione, que
haba pertenecido al comit consultivo internacional de radiocomunicaciones (CCIR,
International Radio Consultative Comittee), era el encargado de la estandarizacin de la
televisin de alta definicin (HDTV, High Definition Television), pero se encontraba un
tanto desilusionado por el fracaso en adoptar un nico estndar internacional ya que
Japn, Europa y Estados Unidos pugnaban por su propio formato. Ese ao asista al
encuentro del grupo unido de expertos en imgenes (JPEG, Joint Pictures Experts
Group) que haba sido formado en 1982 por la organizacin de estndares
internacionales (ISO, International Organization for Standardization) y por la comisin
electrotcnica internacional (IEC, International Electrotechnical Comittee) y cuyo objetivo
era establecer un conjunto de formatos que permitieran obtener una codificacin eficiente
de imgenes estacionarias, de uso pblico, que mitigaran la aparicin de formatos
propietarios. En este encuentro, Chiariglione qued profundamente impresionado por lo
que se poda lograr entre un grupo de expertos cuando no se manejaban intereses de
ninguna industria. As que se aproximo al director del grupo JPEG, el japons Hiroshi
Yoshuda, y le sugiri la creacin de un grupo semejante al JPEG, que se encargara de
estandarizar la codificacin digital de las imgenes en movimiento.
De esta manera, en 1988 y con Yoshuda como representante ante la ISO, la organizacin
ISO/IEC crea el comit tcnico unido sobre tecnologas de la informacin, subcomit 29,
grupo de trabajo 11 (ISO/IEC JTC1/SC29/WG11), ms conocido como MPEG, bajo la
direccin de Chiariglione, encargndole el desarrollo de estndares para la
representacin codificada de imgenes en movimiento, la informacin del audio asociado
y su combinacin para la grabacin y lectura en un medio de almacenamiento digital. En
ese momento el grupo estaba formado por 12 personas pero durante los aos posteriores
expertos de todo el mundo en video, audio y sistemas fueron unindose llegando a ser
200 participantes en el ao 1992.
Una vez creado el grupo MPEG, su primer objetivo fue la posibilidad de almacenar y
reproducir de seales de video y audio en soporte CD-ROOM para su uso en
aplicaciones multimedia.
La inclusin de una seal de vdeo y audio en un soporte como el CD, que originalmente
haba sido pensado para incluir nicamente la informacin asociada a un canal de audio
estereofnico, represent un importante problema tecnolgico durante el desarrollo del
Conceptos bsicos de MPEG Decodificador vdeo MPEG-2
31
estndar MPEG-1, ya que los factores de compresin que deban utilizarse se situaban
entre 100 y 200. El flujo de datos que admite un CD-ROOM de simple velocidad
(150Kbytes/s) es de unos 1,2 Mbps mientras que el fuljo de bits implcito en una seal de
vdeo 4:2:2 es, como hemos dicho, de aproximadamente 260 Mbps (estndar ITU 601,
formato 4:2:2).
La solucin al problema se obtuvo reduciendo la calidad de la imagen en un doble
proceso de reduccin espacial y temporal. Este proceso significa una reduccin inicial de
los datos basada en el remuestreo temporal y espacial, por lo que no puede considerarse
como una verdadera compresin de vdeo. Por una parte, la resolucin de las imgenes
se redujo a la mitad, tanto en la direccin horizontal como en la vertical. Aunque esta
reduccin suponga una prdida de calidad considerable comparndola con el formato
estndar de radiodifusin, la resolucin que se obtiene es equivalente a la del formato de
registro en cinta magntica VHS.
Otra simplificacin importante en el MPEG-1 es que no admite vdeo entrelazado, por lo
que slo se requiere codificar uno de los dos campos de la seal original.
A finales de 1990 ya exista un borrador del proyecto que demostraba que se poda
generar un flujo de datos con audio de calidad CD (16 bits por muestra y un muestreo a
44,1 kHz) y video de calidad (LDTV, Low Definition Television) equivalente a la calidad de
una cinta VHS. Ya para finales de 1992 se conclua el primer estndar definitivo,
conocido como MPEG-1 (numerado como ISO/IEC 11172) con una tasa de datos de 1,5
Mbps, 1,15 Mbps para el video y 350 Kbps para el audio en estreo. En relacin al audio
podemos comentar que la capa 3 (layer 3) de audio de la norma MPEG-1 es la que ha
dado lugar al polmico MP3.
Durante el desarrollo del MPEG-1 los participantes del grupo MPEG se dieron cuenta que
la base de las tcnicas que estaban desarrollando tambin era ptima para aplicaciones
que requeran mayor resolucin y un bitrate (tasa de bits) de hasta diez veces superior.
Esto les hizo pensar en avanzar la implementacin de la televisin digital que estaba
prevista para el siguiente milenio, cuando las redes de banda ancha ya se hubieran
extendido. Entonces con el objetivo de unificar criterios para la implementacin de la
televisin digital el grupo desarrollo el siguiente estndar, el MPEG-2 (numerado como
ISO/IEC 13818) que fue aprobado el 11 de Noviembre de 1994.
El estndar MPEG-2 mantiene cierto grado de compatibilidad con las secuencias de bits
producidas por el MPEG-1 y pretende cubrir aplicaciones de mayor ancho de banda,
Conceptos bsicos de MPEG Decodificador vdeo MPEG-2
32
adems de la principal diferencia de que el estndar MPEG-2 es capaz de tratar seales
de vdeo entrelazadas. Involucra compresin de datos (flujos de bits) originalmente a 260
Mbps (sin compresin) hasta lograr una tasa de bits entre 2 y 15 Mbps (despus de la
compresin). Su diseo es sumamente flexible y cubre una amplio espectro de sistemas
de vdeos que van desde los formatos digitales ITU 601 4:2:2, ITU 601 4:2:0, HDTV
(televisin de alta definicin) 4:2:0, EDTV (televisin con definicin mejorada) 4:2:0,
formatos CIF y SIF, formatos HHR 4:2:0, algunos de ellos en versiones de exploracin
progresiva, otros con exploracin entrelazada y algunos con ambos tipos de exploracin.
Para que el MPEG-2 pueda cubrir todo este amplio espectro de aplicaciones ha sido
necesario definir subconjuntos de la sintaxis y semntica de la secuencia de bits en la
forma de distintos perfiles y niveles, que luego explicaremos.
En cuanto al audio el nuevo estndar introdujo un nuevo esquema multicanal de seal de
audio surround.
El estndar MPEG-3, cuya intencin era estandarizar la televisin de alta definicin, fue
posteriormente incluido en MPEG-2, ya que se demostr que si se aumentaba el bitrate
de la seal de video del MPEG-2 se llegaba a los mismos resultados.
Los objetivos actuales del grupo son los nuevos estndares MPEG-4 y MPEG-7. El
MPEG-4 (Coding of Audio-Visual Objects) (numerado como ISO/IEC 14496) fue
aprobada de manera formal en octubre de 1998, esta fue una primera versin, ms tarde
se aprob una segunda versin pensada para un nmero mayor de aplicaciones que fue
aprobada en diciembre de 1999 (no reemplaza la primera versin, slo la ampla). Es
importante indicar que las ampliaciones y mejoras del MPEG-4 se realizarn hasta finales
del ao 2002 y sern incluidas en las especificaciones como nuevos perfiles, pero
compatibles con la primera y la segunda versin.
Este estndar se orienta a la transmisin de seales de vdeo y audio con velocidades
muy bajas (64 kbps), fundamentalmente para aplicaciones de vdeo telefona,
aplicaciones multimedia, intranets e Internet. Las secuencias de bits estn especialmente
diseadas para hacer frente a las altas variabilidades del canal en este tipo de
comunicaciones, en donde es fcil que se produzcan reducciones de la velocidad,
prdidas parciales de datos, etc. Por ello, la trama o stream de vdeo y audio suele estar
escalada de modo que, en funcin de la tasa de bits recibida, el receptor puede visualizar
las imgenes con mayor o menor calidad.
Conceptos bsicos de MPEG Decodificador vdeo MPEG-2
33
Adems, proporciona mayor flexibilidad que el MPEG-2 para el uso de tcnicas de
compresin basadas en la forma de onda permitiendo el uso de la transformada Wavelet,
la codificacin vectorial y la realizacin de transformaciones afines para la compensacin
de movimiento. Por ltimo, permite realizar una codificacin orientada a objetos, pudiendo
utilizar codificadores fractales o morfolgicos, modelado de objetos y descriptores de
escenas.
El estndar MPEG-7 (Multimedia Content Description Interface) (numerado como
ISO/IEC 15938) intenta abarcar todos los aspectos (diferentes a la compresin de la
informacin) que involucra la multimedia. Es decir, MPEG-7 describe la manera de
ofrecer, filtrar, buscar y manejar informacin multimedia digitalizada. La primera versin
del MPEG-7 se aprob en julio del ao 2001. Se han ido incluyendo varias mejoras
posteriormente las cuales tal vez sean reunidas en una segunda versin del estndar.
Este estndar est orientado a aplicaciones de bsqueda en bases de datos de
contenidos audiovisuales y especifica los procedimientos para insertar los descriptores de
imagen, vdeo, grficos 2D, etc.
A finales de 1999, MPEG empez a trabajar en el nuevo estndar MPEG-21 (Multimedia
Framework) cuyo objetivo primordial es proporcionar estndares que estarn
fundamentados principalmente en el punto de vista de los usuarios, y no tanto de la
industria.
3.3 El estndar MPEG-2
El estndar MPEG-2 es genrico, esto significa que sus especificaciones no estn