Funcionamiento Del MPEG

7/22/2019 Funcionamiento Del MPEG

http://slidepdf.com/reader/full/funcionamiento-del-mpeg 1/62

3.3.2 Funcionamiento del MPEG

MPEG.

MPEG son las siglas de Moving Picture Experts Group (Grupo de expertos en

imágenes en movimiento), es un grupo de la ISO y la familia de estándares de

compresión y de formatos de archivo de video digital.

A finales de los 80 se empezó a notar cierta necesidad en la industria

multimedia de conseguir un formato que permitiera grabar pistas de audio y video en

formato digital y con una compresión equiparable al formato, ya por entoncesutilizado, JPEG para la grabación y compresión de imágenes.

En respuesta a esta necesidad, en Mayo de 1988 se realizo la primera reunión

del MPEG en Ottawa Canadá, bajo la dirección de ISO (International Estandards

Organization) e IEC (international Electrotechnical Communication) con el fin de

unificar criterios y desarrollar estándares internacionales de compresión,

descompresión, procesamiento y codificación de imágenes animadas y datos de

audio.

Mediante la fijación de una serie de estándares, el grupo MPEG admitió

distintos formatos de compresión por parte de empresas e individuos particulares para

ser revisados. El modelo de verificación utilizado explicaba, sencillamente, el

funcionamiento del codificador y el decodificador.

Tras algunas pruebas, se llegó a los estándares MPEG-1 y MPEG-2 que hoyen día se han convertido en los utilizados genéricamente para audio y video. MPEG-1

fue aprobado en 1992 y facilitaba la codificación de audio en tres capas distintas.

MPEG-2, fue anunciado en 1994 como el nuevo estándar de codificación y video que

permitía señales de videos entrelazados, audio en multicanal, Dolby 5.1, codificación



de audio en frecuencias más bajas (lo que suponía aún más compresión que su

predecesor MPEG-1).

El formato MPEG es dependiente de la zona geográfica en la que seautilizado. Por lo tanto, el formato PAL es utilizado en Europa, mientas que

el NTSC es el formato americano. Sin embargo, existen dispositivos multizona que

son compatibles con ambos PAL y NTSC. Si el video MPEG que utilizarás está en 25

FPS, debes convertirlo al formato PAL, y si está en 23.976 o 29.976FPS, deberás

utilizar el formato NTSC. La conversión al formato equivocado puede causar

desincronización audio/video u otro tipo de inconvenientes. El video MPEG

convertido puede ser grabado como un CD de datos normales, pero para poder verlo

en un DVD de mesa o dispositivo portátil, debe ser grabado con uno de los estándares

de VCD. La estructura de un VCD es muy distinta a la de un CD de datos común, por

lo que se deben utilizar programas especiales para grabar VCD, tales como el Nero.

La metodología de compresión MPEG se considera asimétrica ya que el

codificador es más complejo que el decodificador. El codificador tiene que ser

algorítmico o adaptativo, mientras que el decodificador es sencillo y lleva acciones

fijas. Esto se considera una ventaja en aplicaciones tales como la radiodifusión, donde

el número de codificadores costosos y complejos es pequeño, pero el número de

descodificadores simples y de bajo costo es grande. El enfoque de la estandarización

de MPEG es novedoso, porque no es el codificador el que está estandarizado, pero si

la forma que un decodificador interpreta la cadena de bits. La ventaja de estandarizar

el decodificador es que a través del tiempo los algoritmos de codificación pueden ser

mejorados, y los decodificadores compatibles pueden seguir funcionando.

El MPEG utiliza Códec (codificadores-decodificadores) de compresión con

bajas pérdidas de sonido usando códecs de transformación.

http://www.ecured.cu/index.php/NTSC

http://www.ecured.cu/index.php/PAL

http://www.ecured.cu/index.php/PAL

http://www.ecured.cu/index.php/NTSC



En los códecs de transformación con bajas pérdidas, las muestras tomadas de

imagen y sonido son troceadas en pequeños fragmentos y solamente las diferencias

con estas imágenes reconstruidas y algún extra necesario para llevar a cabo la

predicción es almacenado. MPEG solamente normaliza el formato del flujo binario yel descodificador. El codificador no está normalizado en ningún sentido, pero hay

implementaciones de referencia, para los miembros que producen flujos binarios

válidos.

MPEG-1: VCD, MPEG-2: DVD; MPEG-3: HDTV, MPEG-4: DIVX, XVID.

MPEG – 1

Es el nombre de un grupo de estándares de codificación de audio y vídeo

normalizados por el grupo MPEG (Moving Pictures Experts Group). MPEG-1

vídeo se utiliza en el formato Video CD. La calidad de salida con la tasa de

compresión usual usada en VCD es similar a la de un cassette vídeo VHS doméstico.

Para el audio, el grupo MPEG definió el MPEG-1 audio layer 3 más conocido

como MP3.

MPEG-1 está conformado por diferentes partes:

1. Sincronización y transmisión simultánea de vídeo y audio.

2. Códec de compresión para señales de vídeo no entrelazadas (progresivas).

3. Códec de compresión para señales de audio con control sobre la tasa de

compresión. El estándar define tres capas (layers en inglés), o niveles decomplejidad de la codificación de audio MPEG.

MP1 o MPEG-1 Parte 3 Capa 1 (MPEG-1 Audio Layer 1).


http://es.wikipedia.org/wiki/MPEG

http://es.wikipedia.org/wiki/Video_CD

http://es.wikipedia.org/wiki/VHS

http://es.wikipedia.org/wiki/MP3

http://es.wikipedia.org/wiki/C%C3%B3dec

http://es.wikipedia.org/wiki/Entrelazado





http://es.wikipedia.org/wiki/Entrelazado



http://es.wikipedia.org/wiki/VHS

http://es.wikipedia.org/wiki/Video_CD





4. Procedimientos para verificar la conformidad.

5. Software de referencia.

Está diseñado para comprimir VHS de vídeo y CD de audio digital de calidad

de hasta 1.5 Mbit/s (26:1 y 6:1 relaciones de compresión respectivamente), sin

pérdida de calidad excesiva.

MPEG-2

El estándar MPEG-2 es una extensión del estándar MPEG-1. Para una

imagen de televisión estándar (704 x 576 pixels) y un frame rate (velocidad a la cual

las imágenes salen en la decodificación) típico de 25Hz, MPEG-2 esta diseñado para

proporcionar televisión de alta calidad con un bit rate entre 4-9Mb/s. MPEG-2 fue

diseñado para proporcionar codificación de vídeo de alta calidad apropiado para

transmisión sobre redes de computadores. De hecho MPEG-2 es el principal

protocolo de compresión utilizado sobre conexiones DBS. Este estándar de

compresión de vídeo y audio es capaz de explotar redundancias espaciales y

temporales, consiguiendo ratios de compresión de hasta 200:1 y además siendo capaz

de codificar una fuente de vídeo y/o audio con casi cualquier nivel de calidad.

Principios de codificación

Una secuencia de vídeo tiene tres tipos de redundancia que un esquema de

codificación necesita explotar en orden de conseguir una muy buena compresión:

Espacial

Temporal

Psicovisual





Las redundancias espaciales y temporales ocurren porque los valores de los

pixels no son completamente independientes si no que están correlados con los

valores de los pixels vecinos, tanto en espacio como en tiempo (es decir, dentro de

una misma trama o con las tramas anterior y/o posterior). Por ello diremos que susvalores pueden ser predichos en cierta medida. Por otra parte, la redundancia

psicovisual tiene que ver con las limitaciones físicas del ojo humano, que tiene una

limitada respuesta para fijarse en los detalles espaciales y es menos sensitivo al

distinguir detalles en las esquinas o los cambios rápidos. Por tanto, el proceso de

codificación puede ser capaz de minimizar el bit-rate mientras se mantiene constante

la calidad a la que le ojo humano ve la imagen decodificada.

El sistema de compresión MPEG-2 (al igual que MPEG-1) utiliza la

Transformada Discreta del Coseno (DCT) y codificación entrópica para transformar

un bloque de pixels en códigos de longitud variable (VLC). Los bloques son la

mínima unidad de codificación en el algoritmo MPEG.

Están compuestos de pixels de 8x8 y pueden ser de tres tipos: luminancia (Y),

componente rojo de la crominancia Cr y el componente azul de la crominancia Cb.

Mediante la DCT los bloques adquieren la forma de VLC, que no son más que la

representación de de los coeficientes cuantificados de la DCT.

Los codificadores MPEG-2 producen tres tipos de de imágenes: intra-frame (o

imágenes I), imágenes interframe causales (o imágenes P) e

imágenes interframbidireccionales (o imágenes B). La relación entre estos tres tipos

de tramas se puede ver en la siguiente figura:



Las imágenes I: Se codifican como si fuesen imágenes fijas utilizando la

norma JPEG, por tanto, para decodificar una imagen de este tipo no hacen falta otras

imágenes de la secuencia, sino sólo ella misma. No se considera la redundancia

temporal (compresión intraframe). Se consigue una moderada compresión explotando

únicamente la redundancia espacial. Una imagen I siempre es un punto de acceso en

el flujo de bits de vídeo. Son las imágenes más grandes.

Las imágenes P: Están codificadas como predicción de de la imagen I ó P

anterior usando un mecanismo de compensación de movimiento. Para decodificar una

imagen de este tipo se necesita, además de ella misma, la I ó P anterior. El proceso de

codificación aquí explota tanto la redundancia espacial como la temporal.

Las imágenes B: Se codifican utilizando la I ó P anterior y la I ó P siguiente

como referencia para la compensación y estimación de movimiento. Para

decodificarlas hacen falta, además de ellas mismas, la I ó P anterior y la I ó P

siguiente. Estas imágenes consiguen los niveles de compresión más elevados y por

tanto son las más pequeñas.

Existen otro tipo de imágenes llamadas imágenes intraframe de baja

resolución (o imágenes D) que son de las mismas características que las I pero con

menos resolución. Se usan en aplicaciones que no necesitan gran calidad, como el

avance rápido.



Las imágenes desde una imagen I hasta la siguiente forman un grupo

de imágenes (GOP). Los componentes de un GOP están dibujados en la siguiente

figura:

Las imágenes son generadas por el codificador MPEG-2 generando en primer

lugar los bloques 8x8, de luminancia o crominancia. Los bloques de luminancia secombinan en grupos de cuatro, los cuales, cuando se combinan con la información

asociada de crominancia para la correspondiente región de la imagen forman

macrobloques, que son de 16x16 pixels.

Los macrobloques adyacentes son agrupados en un slice. Una imagen está

compuesta por un número de slices precedidos por una cabecera de imagen. De igual

forma, un slice está compuesto de un número de macrobloques precedidos de una

cabecera de slice. Cada macrobloque también comienza con una cabecera, que

contiene información de la ubicación del macrobloque MB adress, y vectores de

movimiento utilizados en predicción con compensación de movimiento. En el primer

macrobloque de cada slice, el MB adress y el vector de movimiento son codificados



absolutamente. En cada uno de los restantes macrobloques del slice, estos pares

metros son codificados diferencialmente con respecto a los correspondientes valores

del macrobloque inmediatamente anterior.

El nivel de sistema de MPEG-2 (Systems Layer) describe un método estándar

para multiplexar y demultiplexar secuencias de media (audio, vídeo y secuencias de

datos) y un mecanismo, que utilizando sellos temporales consigue mantener una

sincronización entre varias secuencias dentro de la red.

El nivel de sistema de MPEG-2 permite que varias secuencias de audio y

vídeo se combinen para formar una única secuencia de salida. El MPEG Systems

Layer puede adquirir dos formas:

Secuencia de Programa (PS: Program stream): Esta basado en la estructura de

multiplexación establecida por el MPEG-1 y pretende que se utilice para un canal de

vídeo, y audio y datos asociados. Está optimizado para su uso en aplicaciones de

multimedia y es compatible con MPEG-1.

Secuencia de Transporte (TS: Transport Stream): Este tipo de multiplexación

es nuevo del MPEG-2. Consiste en pequeños paquetes de transporte de longitud fija,

cada uno de exactamente 188 bytes de tamaño con 4 bytes de información de

cabecera. El TS está pensado para el transporte de media donde los errores o

pérdidas de bits son más frecuentes. Puede soportar multiples programas ejecutados

simultáneamente.

Con el fin de generar cualquiera de las dos multiplexaciones, una secuencia devídeo se fragmenta en una cadena de imágenes codificadas, denominadas unidades de

acceso. Una unidad de acceso de MPEG representa una imagen I, P ó B codificada y

es variable en tamaño, dependiendo del nivel de compresión conseguido para la

imagen. Una sucesión de unidades de acceso de vídeo de longitud variable se



denomina secuencia elemental de vídeo. La secuencia elemental de vídeo se convierte

en una secuencia elemental de paquetes (PES: Packetized Elementary Stream)

agrupando datos sucesivos de un número de secuencias elementales formando la

carga útil de una cadena de paquetes. Se añade además una cabecera a cada paquete.Los PES pueden ser de cualquier tamaño hasta 64 KB. Las secuencias de PES pueden

almacenarse o transmitirse tal como son, aunque habitualmente son convertidas en

secuencias de transporte o secuencias de programa.

En redes híbridas se utiliza por norma general la secuencia de transporte. Los

paquetes de PES se cargan en los paquetes de transporte de forma que el primer byte

de un paquete PES es el primer byte de carga útil del paquete de transporte y que un

único paquete de transporte puede llevar datos de un PES.

La secuencia de transporte proporciona las siguientes funciones:

Multiplex orientado a paquetes: Proporciona la capacidad de multiplexar

varias secuencias de entrada (p.ej. audio, vídeo, o datos privados) en un único canal

de salida.

Silenciador de errores: Proporciona ciertas características que asisten al

decodificador que recibe datos erróneos que habían sido introducidos en la

transmisión o en el almacenamiento.

Sincronización: Se consigue utilizando sellos temporales que pueden ser

utilizados para la gestión del buffer y para la sincronización entre secuencias.

Sincronización entre secuencias elementales

En el receptor, un demultiplexador separa los paquetes de una secuencia de

transporte o de una secuencia de programa en las secuencias elementales. Las



unidades de acceso de cada secuencia elemental son almacenadas en unos buffers

FIFO esperando a ser decodificadas. Se usan sellos temporales cuando un

decodificador debe decodificar una unidad de acceso en particular.

Existe un reloj muy preciso tanto en el multiplexador como en el receptor. Los

sellos temporales son insertados en las unidades de acceso en el multiplexador y

especifican el tiempo exacto en el cual la unidad de acceso ser decodificada en el

receptor. Por lo tanto, el multiplexador crear sellos temporales basados en el tiempo

actual más un pequeño offset que permitaun determinado retardo en la transmisión.

Dos sellos temporales, el sello presentation video-conferencingtime

stamp (PTS) y el decoder time stamp (DTS), están incluidos en la cabecera del

paquete de PES. Éstos indican al decodificador cuando mostrar la información

decodificada al usuario y cuando decodificar la información de los buffers de

decodificación, respectivamente. Los relojes entre el codificador y el decodificador

deben estar también sincronizados. Esta tarea se lleva a cabo a través de la utilización

de referencias del reloj de programa (PCR: Program Clock References). Un PCR

puede ser insertado en un paquete de TS (de transporte) en un campo justo después de

su cabecera. Los PCRs son insertados en intervalos regulares para mantener la

sincronización entre el codificador y el decodificador.



3.4 Aplicaciones MPEG-2

3.4.1 Diferencia entre MPEG-1/ MPEG-2/ MPEG-3

DIFERENCIAS SEMEJANZAS CARACTERISTICAS

MPEG1 -MPEG2 MAYOR

CALIDAD, CON

MAYOR ANCHO

DE BANDA

-MPEG2 Y

MPGE4 SON

APROPIADOS

PARA VIDEOS Y

MPGE1 Y

MPEG3 PARAAUDIO

-COMPRESORES

DE IMAGENES

-SINTONIZACION

AUTOMATICA

DIGITAL

MPEG2 -MPEG3

PROPUESTA

ESTANDAR

PARA LA TV DE

ALTA

RESOLUCION

MPEG3 -MPEG4 MUY

BAJO ANCHO DE

BANDA Y

RESOLUCION

MPEG4 -MPEG1

INTRODUCIR

VIDEO EN UN

CD-ROM



3.4.2 Estimación y compensación de movimiento.

Estimación De Movimiento

Estimación de movimiento es el proceso a partir del cual se obtienen

los vectores de movimiento (VM) de cada macro bloque (MB) de la imagen a

codificar respeto una (o más) imágenes de referencia. La estimación de movimiento

es una parte muy importante del proceso de codificación de vídeo y se utiliza en

estándares y códecs tan populares como la familia de MPEG‟s (MPEG-1, MPEG-

2, MPEG-4), el último H.264/MPEG-4 AVC.

La codificación de vídeo trata de representar secuencias de imágenes con el

menor número de bits posible. Por eso, los métodos de codificación de vídeo aplican

tanto codificación Intraimagen como Interimagen. Con el primer tipo se intenta

eliminar la redundancia espacial dentro de cada cuadro (frame), mientras que con la

codificación Inter explotamos la redundancia temporal de la secuencia a codificar. La

estimación y compensación de movimiento son los métodos que permiten este tipo de

codificación.

La imagen se divide en bloques (a menudo cuadrados de unos cuántos píxeles,

por ejemplo 4x4) y estos se agrupan formando MB (macro bloque). Cómo hemos

dicho la estimación de movimiento nos permite obtener los VM (vectores de

movimiento) de cada MB. La aplicación de estos vectores por crear la nueva imagen

(imagen compensada) se denomina compensación de movimiento que, junto con el

cálculo de la imagen error entre la imagen compensada y la imagen original que

queremos codificar, es el que, en la gran mayoría de códecs, se envía aldecodificador.

La estimación de movimiento es un proceso con una alta complejidad de

cálculo y a menudo representa 2/3 del coste computacional en la codificación de



http://es.wikipedia.org/wiki/MPEG-1





http://es.wikipedia.org/wiki/H.264/MPEG-4_AVC

http://es.wikipedia.org/wiki/Compensaci%C3%B3n_de_movimiento


http://es.wikipedia.org/wiki/H.264/MPEG-4_AVC








vídeo. Como siempre, nos encontraremos con un compromiso de “Rate-distorsion”,

es decir tiempo de procesado y medida fichero respecto calidad del vídeo

comprimido. Esto hace que, actualmente, muchas de las investigaciones dentro el

campo de la codificación de vídeo se centre en buscar algoritmos que puedan realizarmás eficientemente la estimación de movimiento.

Compensación De Movimiento

La compensación de movimiento es una técnica manejada en

la codificación de vídeo, su principal objetivo consiste en eliminar la redundancia

temporal existente entre las imágenes que componen una secuencia, con el fin de

aumentar la compresión.

El proceso se basa en un algoritmo que examina la sucesión de fotogramas

consecutivos, generalmente muy similares entre sí, para analizar y estimar el

movimiento entre los dos. Si el sistema detecta que una región de la imagen ya ha

aparecido anteriormente, codifica la posición que ocupa en el fotograma actual en

lugar de volver a codificar toda la región. De este modo, la predicción de la imagen

actual vendrá dada por la compensación de movimiento basándose en las imágenes

anteriores.

Codificador basado en detección de movimiento

Hay varias técnicas para eliminar la redundancia temporal en una secuencia de

imágenes, pero la mayoría actúa bajo el siguiente esquema:

Cada imagen se divide en bloques, generalmente de 8 x 8 o de 16 x 16 píxeles.

Por cada bloque de la imagen, se genera una predicción, buscando donde se

encontraban estos bloques en la imagen anterior (compensación de

movimiento).

http://es.wikipedia.org/w/index.php?title=Rate-distorsion&action=edit&redlink=1

http://es.wikipedia.org/wiki/Codificaci%C3%B3n_digital

http://es.wikipedia.org/wiki/Compresi%C3%B3n_de_datos

http://es.wikipedia.org/wiki/Algoritmo




http://es.wikipedia.org/w/index.php?title=Rate-distorsion&action=edit&redlink=1



Se resta la predicción al bloque de la imagen actual.

Se aplica una DCT a la diferencia entre la predicción y el bloque actual.

Se cuantifican los coeficientes DCT, eliminando las componentes de altas

frecuencias y se codifican en un código, generalmente no-uniforme.

En caso de que no hubiera fotograma previo o hubiera mucha diferencia, se

codifica el bloque de nuevo en lugar de la diferencia de la predicción.

Normalmente los bloques se agrupan en macrobloques MB para reducir el

coste computacional: bloques más grandes significa que hay menos bloques a prever.

Realmente la predicción (compensación de movimiento) se realiza sobre losmacrobloques: se calcula el vector de movimiento de cada elemento dentro del

macrobloque. Así, para cada fotograma se guardan:

El resultado de aplicar la DCT y la cuantificación a cada bloque diferencia.

Los vectores de movimiento de los elementos de dentro los macrobloques.

Se aplica un filtro a la DCT para eliminar las componentes de alta frecuencia

y aumentar la compresión.

Tratamiento de los fotogramas

La compresión anterior se puede aplicar a los fotogramas de dos maneras:

Compresión intrafotograma: La DCT se aplica a bloques de la imagen

original pero no se hace ninguna predicción sobre el movimiento (la

compresión es similar a las imágenes JPEG). Se denominan fotogramas I.

Esta compresión es útil si la compensación de movimiento no proporciona

una buena predicción.

http://es.wikipedia.org/wiki/DCT

http://es.wikipedia.org/wiki/JPEG





Compresión no-intrafotograma: La DCT se aplica a los bloques de la

imagen diferencia y se calcula la predicción de movimiento. Se generarán dos

tipos de fotogramas: los P y los B.

Acceso a una secuencia de imágenes

Si sólo se codificaran las predicciones, no se podría tener un acceso aleatorio

puesto que para acceder a una determinada imagen haría falta calcular las

predicciones de todas las anteriores. Por otro lado un error en un fotograma se

propagaría a todos los posteriores. Por eso se combinan tres tipos de fotogramas en la

secuencia:

Fotogramas I (intra): Se codifican aisladamente, sin referencia a otros

fotogramas, como si fueran imágenes estáticas. Sirven por permitir un acceso

aleatorio e impedir la propagación de errores.

Fotogramas P (predictivos): Se codifican aplicando compensación de movimiento

al último fotograma I o P (el que sea más reciente). Los fotogramas I y P se

denominan fotogramas de anclaje.

Fotogramas B (bidireccionalmente predictivos): Se codifican aplicando

compensación de movimiento a los dos fotogramas de anclaje más recientes en el

pasado y en el futuro. Con la predicción bidireccional se suele conseguir una mejor

relación de compresión que con predicciones basadas sólo en el pasado: es posible

que un bloque del fotograma actual no aparezca en un fotograma pasado pero sí en

uno de futuro. Sólo se pueden crear después de que se hayan creado los fotogramas I

y P. También toleran más error porque no se usan para hacer otras predicciones.



Agrupación de fotogramas: GOP

Generalmente los fotogramas se agrupan en un Grupo de Fotogramas o GOP

(Group Of Pictures). Se trata de la unidad de acceso aleatorio más pequeña. Un GOPestá formado por:

Un fotograma I (el primero).

Uno o varios fotogramas P.

Varios fotogramas B intercalados.

Usualmente en un GOP encontramos 12 fotogramas, pero el codificador puede cambiarlo dinámicamente. En el caso de detectar un cambio de escena, forzará

un fotograma I que dará inicio a un nuevo *GOP.

Teniendo en cuenta que para formar un fotograma P necesitamos un I y que

para formar los B necesitamos tener los I y los P, podemos ordenar la secuencia de

fotogramas desde dos puntos de vista diferentes:

Orden de visualización, como lo ve el usuario.

Orden de bitstream, como se generan los fotogramas.

En la siguiente tabla se ve el orden en que el usuario verá los fotogramas,

junto con el orden en el que son creados y enviados:

Orden de visualización

I B B P B B P B B P B B I

1 2 3 4 5 6 7 8 9 10 11 12 13

Orden de bitstream

I P B B P B B P B B I B B

1 4 2 3 7 5 6 10 8 9 13 11 12



Backward vs. Forward

Es importante diferenciar entre estimación / compensación

Backward y estimación / compensación Forward, así como entender porque losmétodos de compresión de vídeo usan el primer caso. Esta clasificación diferencia en

cuál de las dos imágenes (referencia y a codificar) se definen los MB de los cuales

queremos buscar los vectores de movimiento que les corresponden.

Hablaremos de estimación Forward sí definimos los MB en la imagen

referencia. Calculamos los VM a partir de la imagen referencia. Para cada MB de la

imagen referencia buscamos dónde ha ido a parar en la imagen actual (a codificar) y,

a partir de la nueva posición, extraemos los VM. Puede que algunos MB, o píxeles,

de la imagen referencia no aparezcan en la original y que por lo tanto identificamos

una misma zona de la imagen a codificar como la más parecida a más de un MB de la

imagen referencia (1). Por generar la imagen compensada cogeremos cada MB de la

de referencia y lo colocaremos en la nueva posición que le corresponde según los VM

que hemos calculado. Si nos encontramos con (1) algunos píxeles de la imagen

compensada se sobrescribirán y otros quedarán sin definir generando “agujeros”. Este

problema no pasa si aplicamos estimación Backward, que define los MB en la imagen

a codificar y busca dónde se encontraban (o se encontrarán) en la de referencia.

Calculamos los VM a partir imagen actual. De esta manera, para llenar cada MB de la

imagen compensada iremos a buscar dónde se encontraba en la imagen de referencia

y copiaremos todos los píxeles. Aquí lo único que hacemos es llenar MB según los

VM que hemos encontrado y por lo tanto no habrá ningún píxel sin definir. Es por

esta razón que los estándares de codificación de vídeo utilizan la estimación

Backward en lugar de la Forward.



Esquema representativo estimación/compensación fordward.

Esquema representativo estimación/compensación backward.

3.4.3 Transformada PCT

Codificación por transformada: Las técnicas de codificación por

transformada, transforman la información a otro dominio donde los datos están

mucho más descorrelados que en el dominio espacial, y la información se acumula en

un pequeño número de muestras. E un método que se utiliza para reducir la

redundancia espacial de las imágenes. Para ello se transforma la imagen a otrodominio, en el cual, sólo unos pocos de los coeficientes contengan la mayor parte de

la información, y los otros coeficientes tengan valores despreciables. En el nuevo

dominio, la imagen tendrá u a representación mucho más compacta, y podrá ser

representada básicamente por unos pocos coeficientes de la transformada. Las



transformadas rápidas más comunes que son utilizadas para realizar esta

transformación y que representa un buen comportamiento de compactación son, la

transformación de Karhunen loeve (KLT), transformada de Fourier Discreta (DFT),

transformada discreta de coseno (DCT), y transformada de Walsh Hadamard, entreotras.

Transformada DCT: Elegida por la mayoría de los estándar establecidos ya

que contiene coeficientes reales solamente, es una transformada rápida, y tiene una

excelente compactación de la energía y des-correlación de los datos entre otras

propiedades.

Es una transformada basada en la Transformada de Fourier discreta, pero

utilizando únicamente números reales.

La Transformada de coseno discreto expresa una secuencia finita de varios

puntos como resultado de la suma de distintas señales sinusoidales (con distintas

frecuencias y amplitudes). Como la [Transformada Discreta de Fourier] (DFT) la

DCT trabaja con una serie de números finitos, pero mientras la DCT solo trabaja con

cosenos la DFT lo hace con exponenciales complejas.

http://es.wikipedia.org/wiki/Transformada_de_Fourier_discreta




Concentración de energía de una DCT-II bidimensional comparada con una

DFT.

Formalmente la transformada de coseno discreta es una función lineal e

invertible del dominio real R N al dominio real R N, que también se puede entender de

forma equivalente a una matriz de NxN posiciones.También existe la DCT multidimensional, que se puede considerar como la

multiplicación separable de varias DCT. Por ejemplo la DCT de dos dimensiones es

una transformada normal calculada por cada fila y columna.

Características útiles para la compresión de imágenes.

La DCT tiene una buena capacidad de compactación de la energía al dominio

transformado, es decir, que la transformada de coseno discreta consigue

concentrar la mayor parte de la información en pocos coeficientes

transformados tal y como muestra la imagen.

http://es.wikipedia.org/wiki/Funci%C3%B3n_matem%C3%A1tica

http://es.wikipedia.org/wiki/Forma_lineal

http://es.wikipedia.org/wiki/Numeros_reales

http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1tica)

http://commons.wikimedia.org/wiki/File:Dandelion_clock_quarter_dft_dct.png


http://es.wikipedia.org/wiki/Numeros_reales

http://es.wikipedia.org/wiki/Forma_lineal

http://es.wikipedia.org/wiki/Funci%C3%B3n_matem%C3%A1tica



La transformación es independiente de los datos. El algoritmo aplicado no

varía con los datos que recibe, como si sucede en otros algoritmos de

compresión.

Hay fórmulas para el cálculo rápido del algoritmo, como podría ser

la FFT para la DFT.

Produce pocos errores en los límites de los bloques imagen. La minimización

de los errores a los bloques imagen permite reducir el efecto de bloque en la

imágenes reconstruidas.

Tiene una interpretación frecuencial de los componentes transformados. La

capacidad de interpretar los coeficientes en el punto de vista frecuencial

permite aprovechar al máximo la capacidad de compresión.

Definición Formal

Formalmente, la transformada de coseno discreta es una función lineal

invertible de R N en R N o equivalente una NxN matriz cuadrada. Las variantes más

usadas son la DCT-I y la DCT-II. La DCT-III se conoce popularmente como la IDCT

(transformada inversa). Cada una de estas posibles variaciones es debida a la

periodicidad y el tipo de simetría aplicada a las muestras originales.

DCT-I

DCT-II


http://es.wikipedia.org/wiki/Transformada_r%C3%A1pida_de_Fourier



http://es.wikipedia.org/wiki/Transformada_r%C3%A1pida_de_Fourier




DCT-III

DCT-IV

Un codificador basado en DCT, realizará un cambio de dominios, realizando

una transformación bidimensional DCT a un bloque de imagen 8 x 8 pixels. Una

DCT bidimensional se obtiene haciendo una DCT unidimensional tanto en las filas

como en las columnas de la matriz.

Una DCT bidimensional, se multiplica cada pixel del bloque de entrada por

términos que representan ondas coseno muestreadas de varias frecuencias espaciales.

Se obtiene un determinado coeficiente de la DCT cuando se suma el resultado de

multiplicar cada pixel de entra del bloque. La DCT es separable, en el sentido de que

la DCT bidimensional puede obtenerse efectuando separadamente la computación en

cada dimensión. Un problema que surge con esta transformada es que está basada en

el coseno, que es una función trascendente. Para calcular la transformada con

absoluta precisión se necesita un número finito de operaciones. Se hace entonces

necesario truncar la serie, y se debe indicar un método que asegure la precisión de la

transformada al calcularla. Por esta razón, se puede introducir errores (de valor



despreciable) en la aplicación de la DCT e ICDT, que haga que el resultado de la

IDCT sea ligeramente diferente al valor original antes de aplicar la DCT.

La matriz resultante de la DCT está formada por valores que dividen loscolores de la imagen en frecuencias que van desde la más baja, que representan los

elementos más sensitivos para el ojo humano (cambios lentos), en la esquina superior

izquierda, a la más alta, que representan áreas menos sensitivas para el ojo (cambios

rápidos), en la esquina inferior derecha. Puesto que las frecuencias más comunes de

una imagen son las componentes de baja frecuencia, el valor de la esquina superior

izquierda indica el valor del color dominante, que corresponde a la componente de

continua (DC) del bloque, que en el caso de la luminancia, tendrá un valor unipolar

(solamente positivo), siendo por definición el doble de la media de os 64 pixels.



3.4.4 Cuantificación

MPEG-1 utiliza sólo dos matrices de cuantificación para los coeficientes

DCT, una para bloques intra y otra para bloques inter. En MPEG-1, las matrices de

cuantificación sólo pueden ser cambiadas en el nivel de cuadro. Para los formatos

4:2:2 y 4:4:4, el Mpeg-2 permite una codificación más eficiente debido al uso de

diferentes matices de cuantificación para las componentes de luminancia y

crominancia. De este modo se pueden utilizar dos matrices para la componente de

luminancia (una para bloques intra y otra para bloques inter) y otras dos para las

componentes de crominancia. La cuantificación de los coeficientes AC es igual a

como lo hace el MPEG-1. Tanto en MPEG-1 como en MPEG-2, el factor de escala Q



(o MQUANT) puede ser cambiado a nivel de macrobloque, para obtener un caudal

constante de bits a la salida del codificador.

3.4.5 Codificación RLE y FUMAN

Run Length Encoding (RLE)

La compresión RLE o Run-length encoding es una forma muy simple

de compresión de datos en la que secuencias de datos con el mismo valor

consecutivas son almacenadas como un único valor más su recuento. Esto es más útil

en datos que contienen muchas de estas "secuencias"; por ejemplo, gráficos sencillos

con áreas de color plano, como iconos y logotipos.

Por ejemplo, considera una pantalla que contiene texto en negro sobre un

fondo blanco. Habría muchas secuencias de este tipo con píxeles blancos en los

márgenes vacíos, y otras secuencias de píxeles negros en la zona del texto.

Supongamos una única línea (o scanline), con N representando las zonas en negro y B

las de blanco:

Si aplicamos la codificación run-length a esta línea, obtendríamos lo

siguiente:

Interpretado esto como 12 letras B, 1 letra N, 12 letras B, 3 letras N, etc. El

código run-length representa el original de 67 caracteres en tan sólo 16. Esto quiere

decir que la línea original pesa 67 bytes y la cadena codificada pesa sólo 16 bytes.

Esta codificación traducida a binario, cuyo principio es el mismo, se utiliza para el

BBBBBBBBBBBBNBBBBBBBBBBBBNNNBBBBBBBBBBBBBBBBBBBBBBBBNBBBBBBBBBBBBBB

12B1N12B3N24B1N14B


http://es.wikipedia.org/wiki/Icono

http://es.wikipedia.org/wiki/Logotipo

http://es.wikipedia.org/w/index.php?title=Scanline&action=edit&redlink=1

http://es.wikipedia.org/wiki/Byte

http://es.wikipedia.org/wiki/Binario

http://es.wikipedia.org/wiki/Binario

http://es.wikipedia.org/wiki/Byte

http://es.wikipedia.org/w/index.php?title=Scanline&action=edit&redlink=1

http://es.wikipedia.org/wiki/Logotipo

http://es.wikipedia.org/wiki/Icono




almacenamiento de imágenes. Incluso ficheros de datos binarios pueden ser

comprimidos utilizando este método. El primer byte contiene un número que

representa el número de veces que el carácter está repetido. El segundo byte contiene

al propio carácter. En otros casos se codifican en un solo byte: 1 bit (0 o 1) y 7 bits para especificar el número de caracteres consecutivos.

La codificación run-length realiza una compresión de datos sin pérdidas y es

muy utilizado en imágenes de 8 bits indexadas (en un principio fue utilizado para

imágenes en blanco y negro). No funciona tan bien en imágenes donde varía

constantemente el color de los pixels como fotografías, aunque JPEG lo utiliza de

forma efectiva en los coeficientes que quedan después de transformar y cuantificar

bloques de imágenes. Posteriormente ha formado la base de otros sistemas de

compresión como por ejemplo el CCITT grupo 3 – 1D.

En realidad, la compresión RLE está regida por reglas particulares que

permiten que se ejecute la compresión cuando sea necesario y que se deje la cadena

como está cuando la compresión genere pérdida. Las reglas son las siguientes:

Si se repiten tres o más elementos consecutivamente, se utiliza el método de

compresión RLE.

De lo contrario, se inserta un carácter de control (00) seguido del número de

elementos de la cadena no comprimida y después la última.

Si el número de elementos de la cadena es extraño, se agrega el carácter de

control (00) al final.

Finalmente, se definen los caracteres de control específicos según el código:

Un final de línea (00 01)

El final de la imagen (00 00)

Un desplazamiento de puntero sobre la imagen de XX columnas e YY

filas en la dirección de lectura (00 02 XX YY ).

http://es.wikipedia.org/wiki/Algoritmo_de_compresi%C3%B3n_sin_p%C3%A9rdida


http://es.wikipedia.org/w/index.php?title=CCITT_grupo_3_%E2%80%93_1D&action=edit&redlink=1





http://es.wikipedia.org/wiki/Algoritmo_de_compresi%C3%B3n_sin_p%C3%A9rdida



Por lo tanto, no tiene sentido utilizar la compresión RLE excepto para datos

con diversos elementos repetidos de forma consecutiva, en imágenes particulares con

áreas grandes y uniformes. Sin embargo, la ventaja de este método es que es de fácil

implementación. Existen alternativas en las que la imagen está codificada en bloquesde píxeles, en filas o incluso en zigzag.

Codificación Huffman

El algoritmo de Huffman es un algoritmo para la construcción de códigos de

Huffmann, desarrollado por David A. Huffmann en 1952 y descrito en “A Method for

the Construction of Minimum-Redundancy Codes”.

Este algoritmo toma un alfabeto de n símbolos, junto con sus frecuencias de

aparición asociadas, y produce un código de Huffman para ese alfabeto y esas

frecuencias.

Descripción:

El algoritmo consiste en la creación de un árbol binario que tiene cada uno de

los símbolos por hoja, y construido de tal forma que siguiéndolo desde la raíz a cada

una de sus hojas se obtiene el código Huffman asociado.



Se crean varios árboles, uno por cada uno de los símbolos del alfabeto,

consistiendo cada uno de los árboles en un nodo sin hijos, y etiquetado cada

uno con su símbolo asociado y su frecuencia de aparición.

Se toman los dos árboles de menor frecuencia, y se unen creando un nuevo

árbol. La etiqueta de la raíz será la suma de las frecuencias de las raíces de los

dos árboles que se unen, y cada uno de estos árboles será un hijo del nuevo

árbol. También se etiquetan las dos ramas del nuevo árbol: con un 0 la de la

izquierda, y con un 1 la de la derecha.

Se repite el paso 2 hasta que sólo quede un árbol.

Con este árbol se puede conocer el código asociado a un símbolo, así como

obtener el símbolo asociado a un determinado código.

Para obtener el código asociado a un símbolo se debe proceder del siguiente

modo:

1. Comenzar con un código vacío.

2. Iniciar el recorrido del árbol en la hoja asociada al símbolo.

3. Comenzar un recorrido del árbol hacia arriba.

4. Cada vez que se suba un nivel, añadir al código la etiqueta de la rama que se

ha recorrido.

5. Tras llegar a la raíz, invertir el código.

6. El resultado es el código Huffman deseado.

Para obtener un símbolo a partir de un código se debe hacer así:

1. Comenzar el recorrido del árbol en la raíz de éste.

2. Extraer el primer símbolo del código a descodificar.



3. Descender por la rama etiquetada con ese símbolo4. Volver al paso 2 hasta

que se llegue a una hoja, que será el símbolo asociado al código.

En la práctica, casi siempre se utiliza el árbol para obtener todos los códigosde una sola vez; luego se guardan en tablas y se descarta el árbol.

Ejemplo de uso:

La tabla describe el alfabeto a codificar, junto con las frecuencias de sus

símbolos. En el gráfico se muestra el árbol construido a partir de este alfabeto

siguiendo el algoritmo descrito.

Árbol para construir el código Huffman del ejemplo

Símbolo Frecuencia A0, 15 B0, 30 C0, 20 D0, 05 E0, 15 F0, 05 G0, 10.



Se puede ver con facilidad cuál es el código del símbolo E: subiendo por el

árbol se recorren ramas etiquetadas con 1, 1 y 0; por lo tanto, el código es 011. Para

obtener el

Código de D se recorren las ramas 0, 1, 1 y 1, por lo que el código es 1110.

La operación inversa también es fácil de realizar: dado el código 10 se

recorren desde la Raíz las ramas 1 y 0, obteniéndose el símbolo C. Para descodificar

010 se recorren las ramas 0, 1 y 0, obteniéndose el símbolo A.

Limitaciones

Para poder utilizar el algoritmo de Huffman es necesario conocer de antemano

las frecuencias de aparición de cada símbolo, y su eficiencia depende de lo próximas

a las frecuencias reales que sean las estimadas. Algunas implementaciones del

algoritmo de Huffman son adaptativas, actualizando las frecuencias de cada símbolo

conforme recorre el texto.

La eficiencia de la codificación de Huffman también depende del balance que

exista entre los hijos de cada nodo del árbol, siendo más eficiente conforme menor

sea la diferencia de frecuencias entre los dos hijos de cada nodo. Ejemplos:

• La codificación binaria es un caso particular de la codificación de Huffman

que ocurre cuando todos los símbolos del alfabeto tienen la misma frecuencia. Se

tiene pues que la codificación binaria es la más eficiente para cualquier número de

símbolos equiprobables.

• El algoritmo de Huffman aplicado sobre un alf abeto de dos símbolos

asignará siempre un 1 al primero y un 0 al segundo, independientemente de la

frecuencia de aparición de dichos símbolos.



En este caso nunca se realiza compresión de los datos, mientras que otros

algoritmos sí podrían conseguirlo.

Una manera de resolver este problema consiste en agrupar los símbolos en palabras antes de ejecutar el algoritmo. Por ejemplo, si se tiene la cadena de longitud

64

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AA

AAAAAAAAAAAAAAB

El algoritmo de Huffman aplicado únicamente a los símbolos devuelve el

código:

1111111111111111111111111111111111111111111111111111111111111110

También de longitud 64. Sin embargo, si antes de utilizar el algoritmo, se

agrupan los símbolos en las palabras "AA", "AB" y "B" (que se codifican como 1, 01

y 00), el algoritmo devuelve la siguiente cadena:

111111111111111111111111111111101

Que tiene longitud 32, la mitad que si no se hubiera agrupado. Si observa el

árbol de Huffman, se puede comprobar que la diferencia de frecuencias entre las

ramas del árbol es menor que en el caso anterior.



3.4.6 Codificación CBR

CBR (Constant Bit Rate)

Cuando hablamos de códecs, la codificación con tasa de bits constante implica

que la tasa de salida del codificador de los datos es constante. CBR es muy útil para

flujo de datos multimedia con canales de capacidad limitada. Sin embargo, CBR no

es la mejor opción para almacenaje ya que no asignará suficientes bits para las

secciones “complicadas” (resultantes de la degradación de la calidad) y por el

contrario gastará bits innecesarios en secciones “simples”.

Muchos esquemas de codificación, como por ejemplo, la codificación

Huffman producen códigos de longitud variable lo que dificulta el uso de un CBR.

Esto se arregla parcialmente variando la cuantificación y por tanto la calidad y se

consigue solucionar el problema por completo usando bits de relleno (padding). Otra

estrategia consiste en almacenar la tasa de bits en un buffer y liberar la información

con una tasa de bits constante. Método conocido como leacky bucket.

El proceso opuesto es el bitrate variable: VBR. El VBR aplica una

cuantificación no uniforme a diferencia del CBR, por lo que tiene en cuenta si en la

señal hay zonas con mayor o menor densidad de información y por tanto no

cuantifica toda la señal por igual.

La mayoría de codificadores de video, incluido el MPEG-2, son controlados

de acuerdo al esquema de codificación CBR (Constant Bit Rate), donde el caudal

generado por la señal de video codificada se mantiene constante a un valor prefijadocon anterioridad, mediante el ajuste dinámico del de factor de cuantificación Q. La

codificación CBR ha sido motivada hasta la fecha, debido a que las tecnologías de

comunicación, tales como la RDSI, y también las tecnologías de almacenamiento,

como los CD-ROM, sólo son capaces de trabajar a un caudal constante. Un


http://es.wikipedia.org/wiki/Codificador

http://es.wikipedia.org/wiki/Codificaci%C3%B3n_Huffman


http://es.wikipedia.org/wiki/Cuantificaci%C3%B3n

http://es.wikipedia.org/wiki/VBR

http://es.wikipedia.org/wiki/VBR








codificador CBR trabaja de la siguiente manera: los bits producidos por el codificador

son almacenados en un buffer, el cual es drenado al caudal constante deseado. El

estado de ocupación del buffer es controlado a través del factor de cuantificación Q,

el cual se selecciona en cada instante conforme al contenido o actividad de la escena,al objetivo de caudal deseado, y a aquél que minimice el retardo sufrido por el video

en dicho buffer (es decir, minimice el estado de ocupación del buffer). En

codificación CBR, la calidad de vídeo varía de acuerdo con el contenido de la

secuencia, ya que el factor de cuantificación se varía para alcanzar un caudal de salida

constante independientemente de la complejidad de la escena. El buffer introduce un

retardo en la señal de vídeo, que interesa que sea lo más mínimo posible. De este

modo, el caudal constante debe ser seleccionado acorde al tipo de contenido se la

secuencia, de forma que puedan reunirse los requisitos de la aplicación.

El esquema de codificación CBR donde el caudal generado por la señal de

vídeo codificada se mantiene constante a un nivel predeterminado, mediante el ajuste

dinámico del factor de cuantificación.

En codificación CBR, la calidad de vídeo varía de acuerdo con el contenido de

la secuencia, ya que el factor de cuantificación se varía para alcanzar el caudal de

salida constante independientemente de la complejidad de la escena.



La figura muestra el diagrama de bloques de un codificador CBR MPEG-2.Para generar un caudal constante, el flujo de bits generado por el codificador es

introducido en un buffer, el cual es drenado al caudal constante deseado en la

aplicación. Para mantener este drenaje del buffer a un caudal constante, se debe

realizar un control sobre la cuantificación, con el objetivo de tener en cuenta las

diferentes complejidades que tendrán las escenas de una secuencia de vídeo. El

algoritmo para dicho control, es el estándar MPEG-2, recomendado por el ISO.

Básicamente, este algoritmo de control asigna una cantidad fija de bits a cada GOP

(Group Of Pictures o grupo de imágenes) en función del caudal constante deseado.

Este retardo se hace posteriormente a nivel de imagen y de macrobloque.

Posteriormente, en función de la diferencia entre los bits realmente generado y los

previamente estimados (diferencia entre el estado de ocupación del buffer estimado y

real) y de la complejidad del macrobloque, el algoritmo genera un nuevo valor de Q,

que será utilizado para el siguiente macrobloque que se codifique. El algoritmo

intenta minimizar el estado de ocupación del buffer, para minimizar el retardo

introducido en la señal de vídeo. En el estándar MPEG el valor máximo para Q es

112, cuando la cuantificación no es lineal y 62 para el caso en el que sí lo es.

Típicamente las imágenes tipo I utilizan una cuantificación lineal, y las imágenes P y

B una cuantificación no lineal.



El retardo introducido por el buffer está en función de ocupación del mismo y

del caudal al que es drenado, es decir:

3.4.7 Codificación VBR

VBR (Variable Bit Rate)

VBR son las siglas de variable bitrate („tasa de bits variable‟). Es un término

usado en telecomunicación que se refiere a la tasa de bits utilizados en la codificación

de audio o vídeo.

La tasa de bits es la relación de bits por segundo que consume un fichero de

audio o de vídeo. Este método de compresión consigue una mayor calidad de sonido

o video para un tamaño de archivo determinado, en contraste con CBR.

Su objetivo es obtener un nivel más consistente en la calidad de videocomparado al de la codificación CBR. En la codificación VBR se deben ajustar los

parámetros de codificación para obtener un nivel de calidad deseado. El esquema de

codificación VBR más utilizado en la literatura hoy en día, es la codificación VBR en

lazo abierto (OL-VBR), en la cual el factor de cuantificación Q se mantiene constante

para toda la duración de la secuencia. Con codificación OL-VBR, una escena

compleja es codificada utilizando un mayor número de bits, de este modo, la calidad

es cuasi-constante y menos variable en el tiempo que la obtenida con la codificación

CBR.

La siguiente figura muestra el diagrama de bloques de un codificador OL-

VBR MPEG-2. En dicho esquema, el factor de cuantificación es prefijado con

https://es.wikipedia.org/wiki/Tasa_de_bits


https://es.wikipedia.org/wiki/Telecomunicaci%C3%B3n

https://es.wikipedia.org/wiki/Audio

https://es.wikipedia.org/wiki/V%C3%ADdeo

https://es.wikipedia.org/wiki/Bits

https://es.wikipedia.org/wiki/Fichero

https://es.wikipedia.org/wiki/Tasa_de_bits_constante

https://es.wikipedia.org/wiki/Tasa_de_bits_constante





https://es.wikipedia.org/wiki/Telecomunicaci%C3%B3n




anterioridad (parámetro de codificación) y se mantiene constante para la secuencia de

vídeo. No existe lazo de realimentación entre la salida producida y la cuantificación.

Con codificación OL-VBR, una escena compleja se codifica utilizando un

mayor número de bits; de este modo, la calidad es más consistente que para el caso

CBR. La salida de caudal es variable y dependerá del contenido y complejidad de la

secuencia, así como del patrón de codificación del estándar MPEG-2, se debeseleccionar apropiadamente el factor Q.

A la salida del codificador, en la mayoría de las aplicaciones con OL-VBR

MPEG-2, se sitúa un buffer para absorber las variaciones del caudal producidas en la

codificación, dentro de una imagen. De esta manera, el caudal permanece constante

dentro del período de una imagen (es decir, 33 ms para 30 fps y 41.6 ms para 24 fps),

y varía de imagen a imagen.



Tasa de bits variable en sonido

Por ejemplo, si en una canción hay un fragmento en el que hay silencio, de

poco sirve otorgar una cantidad grande de bits; lo que se estaría haciendo es aumentarinnecesariamente el tamaño del archivo final. Por otra parte, en fragmentos de una

canción donde la complejidad del sonido sea elevada, se otorga una tasa de bits

mayores, porque de lo contrario puede que la tasa de bits no llegue a ser suficiente

para que se produzca una audición correcta.

Así pues, y resumiendo, lo que hace el VBR es otorgar la tasa de

bits necesaria a cada parte del fichero, ya sea de audio o de vídeo, consiguiendo una

calidad mayor en ficheros de un tamaño reducido.

Si los archivos son codificados en VBR, el codificador asigna densidades de

bits (tasa de bits) que varían según la complejidad de la onda de audio a lo largo del

archivo. Para las partes con pocos instrumentos o sin sonido alguno asigna

densidades de bits menores, y para las partes con muchos tipos de sonidos asigna

densidades mayores. Por ende, para un mismo criterio de compresión en VBR, dos

archivos de igual duración pueden resultar ser de tamaños muy dispares, ya que la

compresión en ambos difiere.

Tasa de bits variable en video

Lo mismo se puede aplicar a los vídeos. Hay escenas en las que la cámara está

fija, hay poca luz y poco movimiento. Y hay otras escenas donde la cámara se mueve,

hay disparos, explosiones, etc. Lo que haría el VBR en este caso es ahorrar tasa de bits de la escena lenta para aplicarlo después a la escena rápida y conseguir así que

esta última se vea lo mejor posible.


https://es.wikipedia.org/wiki/Sonido







https://es.wikipedia.org/wiki/Escena

https://es.wikipedia.org/wiki/Escena







https://es.wikipedia.org/wiki/Sonido




3.4.7 Imagen I, P y B

Las imágenes I, P y B son las que resultan de la compresión de la señal

de vídeo en los estándares ITU-T o MPEG. Estas imágenes atienden a los siguientestipos:

Las imágenes I: Son las que se codifican por sí mismas.

Las imágenes P: Son las predichas por extrapolación.

Las imágenes B: Son las predichas por interpolación.

En los estándares de compresión de video, como ITU-T o MPEG, se utilizan

estos tipos de imágenes para comprimir los datos. De hecho, en lugar de codificar

cada imagen que compone el video, uno puede codificar una imagen totalmente y

después las diferencias entre esta imagen y las imágenes * siguientes, explotando así

la redundancia en las imágenes que siguen.

Por ejemplo, en una secuencia de video con un segundo plano fijo, podemos

representar solo las partes que se mueven, para no codificar cada vez el segundo

plano que no cambia y ganar así mucho en capacidades de compresión.

En estos tipos de algoritmos, se codifican algunas imágenes por sí mismas y

se predicen las otras. Las imágenes son divididas en macrobloques (en general de 16

X 16 píxeles) y siguen el concepto de compensación de movimientos para la

predicción: por cada macrobloque de una imagen que queremos codificar a partir deuna imagen de referencia (que puede ser una anterior o una posterior), se busca donde

está en la imagen de referencia, y se define un vector de movimiento que va a dar el

movimiento relativo entre los dos macrobloques que se corresponden.

http://es.wikipedia.org/wiki/V%C3%ADdeo



http://es.wikipedia.org/wiki/Macrobloques






http://es.wikipedia.org/wiki/V%C3%ADdeo



Por supuesto, entre dos imágenes, no se pueden encontrar siempre

macrobloques todos completamente idénticos y se utiliza una técnica de comparación

entre los macrobloques para buscar los que son los más correlacionados entre ellos.

Se puede predecir una imagen a partir de la imagen de referencia y los

vectores de movimiento, así obtenemos la diferencia entre ésta imagen predicha y la

imagen original que queremos codificar.

Entonces, solo se puede enviar las imágenes codificadas por sí mismas, las

matrices de vectores de movimiento, y las diferencias entre las imágenes de

referencia y las otras para codificar todo el vídeo.

Las imágenes I (INTRA): Pueden ser codificadas por el formato JPEG además de

otros, se utilizan para decodificar las otras imágenes que componen el vídeo y pueden

ser utilizadas como puntos de acceso aleatorio para empezar a decodificar los videos

a partir de cualquier momento. En general, la codificación de estas imágenes ocupa

más espacio que las otras.

Es una imagen codificada sin referencia a ninguna imagen anterior, sino

referida exclusivamente a ella misma.

Puede ser generada por el codificador para crear un punto de acceso aleatorio,

es decir, un punto que permita al decodificador empezar la decodificación

adecuadamente en referencia a esa marca (localización de imagen).

Típicamente, requieren mayor número de bits para su codificación que el otrotipo de imágenes (B, P).

Estas imágenes son frecuentemente utilizadas como punto de referencia para

la descodificación de otras imágenes. Períodos de refresco de

http://es.wikipedia.org/wiki/Block_matching




http://es.wikipedia.org/wiki/Aleatorio

http://es.wikipedia.org/wiki/Decodificador

http://es.wikipedia.org/wiki/Bits


http://es.wikipedia.org/wiki/Decodificador

http://es.wikipedia.org/wiki/Aleatorio







aproximadamente medio segundo se usan típicamente en aplicaciones de

'broadcast' de televisión digital y en almacenamiento en DVD. Por otra parte,

períodos de refresco superiores al anterior pueden ser utilizados en medios

como sistemas de videoconferencia, donde es muy habitual el envío de lasimágenes I (intra).

La codificación de las imágenes I es muy parecida a la que se utiliza en JPEG.

La diferencia radica en las tablas de cuantificación y en los procedimientos

que se utilizan para realizar cambios sobre las escalas de cuantificación.

Las imágenes P (Predicted): Son las imágenes predichas con referencia a unaimagen que puede ser de tipo I o P anterior en el tiempo, así que necesitan la

decodificación de la imagen de referencia antes de poder ser decodificadas.

La codificación de las imágenes P es algo más compleja que las imágenes

intra-trama, pues debe realizarse la estimación de movimiento y decidir cuál es la

forma más eficiente de codificar un macrobloque en función de los resultados

obtenidos. En este apartado definiremos los distintos tipos de macrobloques que

puede producirse en la codificación de las imágenes P. Una de las primeras

peculiaridades de las imágenes P es que puede saltarse la codificación de

algunos macrobloques (skipped macroblock). Esto ocurre cuando

el procesador considera que no es necesario codificar un macrobloque, puesto que la

información que contiene puede aproximarse con suficiente precisión.

Además de los macrobloques skipped es posible tener 7 tipos adicionales que

se denotan como predmc, pred-c, pred-m, intra-d, pred-mcq, pred-cq e intra-q. Lasabreviaturas que se utilizan para identificar los posibles tipos de macrobloque

corresponden a:

http://es.wikipedia.org/wiki/Radiocomunicaci%C3%B3n

http://es.wikipedia.org/wiki/DVD

http://es.wikipedia.org/wiki/Videoconferencia





http://es.wikipedia.org/w/index.php?title=Macrobloque&action=edit&redlink=1



http://es.wikipedia.org/wiki/Unidad_central_de_procesamiento

http://es.wikipedia.org/wiki/Unidad_central_de_procesamiento



http://es.wikipedia.org/w/index.php?title=Macrobloque&action=edit&redlink=1





http://es.wikipedia.org/wiki/Videoconferencia

http://es.wikipedia.org/wiki/DVD

http://es.wikipedia.org/wiki/Radiocomunicaci%C3%B3n



Pred: Macrobloque codificado utilizando predicción. La codificación no es intra-

trama.

m: Macrobloque codificado utilizando compensación de movimiento forward.Se transmite el vector de movimiento asociado.

c: Como mínimo se transmite la información de error asociada a uno de los

bloques que forman el macrobloque.

d: Se utiliza el cuantificador por defecto.

q: Se realiza un cambio en la escala del cuantificador.

skipped: Macrobloques que no son transmitidos.

La misión del codificador es elegir entre las distintas posibilidades de

codificar un macrobloque, aquella que proporcione la mejor opción. Generalmente,

las decisiones no son evidentes y deben probarse varias posibilidades antes de llegar a

una decisión. Las matrices de cuantificación utilizadas en el caso de realizar

codificación mediante predicción tienen un paso de cuantificación uniforme para

todos los coeficientes. Esto es debido a que el contenido frecuencial de las señales de

error no muestra ninguna preferencia para concentrar su energía en

unas frecuencias particulares y en principio todos los coeficientes tienen la misma

importancia en la reconstrucción de las imágenes.

Las imágenes B (Bi-predicted / Bi-directional): Son las imágenes predichas con

referencia a dos imágenes que pueden ser de tipo I o P, una anterior y una posterior,

así que necesitan la decodificación de las dos imágenes de referencia así como

la reordenación de las imágenes para poder ser descodificadas.

Las imágenes B requieren decodificación previa de otras imágenes de la

secuencia para ser descodificadas correctamente.



http://es.wikipedia.org/wiki/Frecuencia


http://es.wikipedia.org/wiki/Decodificaci%C3%B3n

http://es.wikipedia.org/wiki/Decodificaci%C3%B3n







Pueden contener datos de imagen cómo vectores de desplazamiento, o

también combinaciones de los dos elementos.

Incluyen algunos modos de predicción que obtienen la predicción de una

región en movimiento (por ejemplo, un macroblock o una región de área

menor) llevando a cabo un promediado de las predicciones obtenidas usando

dos regiones de referencia previamente descodificadas.

En estándares de codificación más antiguos (cómo MPEG-2), las imágenes B

no se utilizan nunca cómo referencias para la predicción de otras imágenes.

Como resultado, una codificación con menos calidad (resultado de lautilización de menos bits) puede ser utilizada en las imágenes B, ya que la

pérdida de detalle no perjudicará la calidad de la predicción de las imágenes

subsiguientes.

En H.264, hay la opción de utilizarlas o no cómo referencias para la

decodificación de otras imágenes (a discreción del codificador).

En estándares de codificación más antiguos (cómo MPEG-2), se utilizan

exactamente dos imágenes previamente codificadas cómo referencias durante

la codificación, y solo se requiere una de esas dos imágenes para preceder la

imagen B en el monitor y la otra para seguirla.

En H.264, se puede utilizar una, dos o más imágenes previamente

descodificadas cómo referencias durante la codificación, y pueden tener

cualquier orden de reproducción arbitrario, relativo a la imagen/es utilizadas

para su predicción. Típicamente, se requieren menos bits para codificar una

imagen B que con las I o P.

http://es.wikipedia.org/w/index.php?title=Vectores_de_desplazamiento&action=edit&redlink=1

http://es.wikipedia.org/wiki/Predicci%C3%B3n




http://es.wikipedia.org/wiki/H.264





http://es.wikipedia.org/wiki/H.264




http://es.wikipedia.org/wiki/Predicci%C3%B3n

http://es.wikipedia.org/w/index.php?title=Vectores_de_desplazamiento&action=edit&redlink=1



Algunos macrobloques de las imágenes P o B pueden ser codificados por sí

mismos para refrescarlos y para evitar errores demasiado importantes que se pueden

producir si hay muchas imágenes predichas entre la imagen I anterior y la imagen

actual.

Secuencia de imágenes: Los vectores inferiores indican las referencias

predictivas que hay entre ellas. El ejemplo muestra una ordenación IBBPBBPBBI, ya

que permite establecer lazos de predicción bastante usuales.

3.4.8 Video entrelazado

3.4.9 Niveles y Perfiles de MPEG-2

La norma MPEG-2, con sus diferentes técnicas de compresión y codificación

suele considerarse como un conjunto de instrumentos o herramientas. De este

conjunto puede extraerse los instrumentos necesarios para casa aplicacióndeterminada. De la gama completa de instrumentos se ha definido cinco subconjuntos

a los que se denomina Perfiles. Éstos tiene una complejidad progresiva, y cada uno de

ellos añade instrumentos adicionales al Perfil precedente. Quiere esto decir que cada

perfil adicional puede ejercer más funciones que el anterior, pero también necesitará



más área de silicio y por consiguiente su precio será más elevado para el usuario. La

entrada de todos los sistemas es vídeo en componentes, pero de los cinco perfiles, los

cuatro primeros codifican la señal de diferencia de color en líneas secuenciales, como

el SECAM, es decir, R-Y en una línea, B-Y en la siguiente y así sucesivamente.

El perfil simple es el que tiene menos instrumentos. Utiliza compensación de

movimiento y transformada de coseno discreta.

El Perfil Principal tiene todos los instrumentos del Perfil Simple y además la

predicción bidireccional. Para la misma velocidad binaria dará una calidad de imagen

mejor que el Perfil simple. Un decodificador de perfil principal decodificará

imágenes codificadas de acuerdo a los perfiles principal y simple. Este tipo de

compatibilidad con perfiles de menos complejidad se aplica a todos los sucesivos

perfiles.

El perfil jerárquico o de capas también conocido como SNR Scalability

Profile, en donde SNR representa las iniciales de Signal-to-Noise Radio (relación

señal/ruido). Le llamaremos perfiles de jerarquía n RSR. Tiene todos los instrumentos

del perfil principal y además la capacidad de separar los datos en dos partes, que

pueden considerarse como una señal de base y una señal de realce o mejora. La

primera es una versión de la imagen con un relación señal/ruido reducida, pero que

solo necesita una fracción de la velocidad binaria de la señal completa. Cuando se

codifican conjuntamente las señales de base y de realce, aumenta la relación

señal/ruido de la imagen hasta el máximo posible y se obtiene la misma calidad que

con el Perfil Principal (para la misma velocidad binaria). Cada una de las señales

utiliza una parte de la velocidad binaria total, y ambas tienen la misma resoluciónespacial. Esta posibilidad de dividir los datos no exige una mayor velocidad binaria, y

tiene interesantes aplicaciones. La señal de base puede hacerse más resistente a

errores que la señal de realce, de forma que cuando exista la posibilidad de perder

información, esta se produzca en la señal de realce y no en la señal de base. Esto se



pude conseguir, por ejemplo, en la transmisión de vídeo sobre redes ATM, donde la

información puede enviarse con dos niveles diferentes de prioridad. Además, ene le

sado de que no se pueda transmitir el flujo con la velocidad binaria, podría

transmitirse una versión de menor velocidad.

El Perfil de Jerarquía Espacial (spatial Scalable Profile, en la terminología del

MPEG-2), tiene todos los instrumentos del anterior más un segundo método para

dividir los datos. En este perfil, la imagen codificada puede dividirse de acuerdo con

la resolución (número de elementos por línea que pueden distinguirse). Una parte de

la señal dividida puede ser decodificada para dar una imagen con menor resolución

que la correspondiente a la imagen original. Cuando se decodifican conjuntamente las

partes en que se ha dividido la señal se obtiene una imagen que tiene la misma

resolución que la original. Aquí también tenemos una señal de base y una señal de

realce, cada una de la cuales utiliza una parte de la velocidad binaria total. Este perfil,

a diferencia del anterior, tiene el inconveniente de que para dar la misma calidad que

el perfil Principal, necesita una velocidad binaria superior en un 10 a 15%. Como en

el Perfil anterior, la capa de base puede hacerse más resistente y difundir una señal de

menor resolución que cubra mayor superficie, en condiciones de recepción más

deficientes.

El Perfil Alto consta de todos los instrumentos del Perfil anterior más la

capacidad para codificar señales de diferencia de color en líneas simultáneas. Aunque

a velocidades binarias bajas la calidad se resiente, a velocidades altas, normales en

aplicaciones de este Perfil, la posibilidad de codificación de diferencias de color en

líneas simultáneas supone una mejora de calidad. Este perfil es el sistema de más

complejidad y mejores prestaciones, diseñado para las aplicaciones más exigentes enlas que la velocidad binaria no constituye un problema.

Conjuntamente con los cinco perfiles, se han definido cuatro Niveles que

corresponden al formato de imagen utilizado a la entrada. Para el nivel bajo el



formato de entrada es igual a 352 muestras por 288 líneas. Al nivel principal

corresponde el formato de imagen de la recomendación 601 (720 muestras por 576

líneas). El Nivel Alto - 1440 al que corresponde una entrada de televisión de alta

definición con 1440 muestras por 1152 líneas. El cuarto nivel es el Nivel Alto al quecorresponde una entrada de alta definición con 1920 muestras por 1152 líneas.

Los decodificadores para cualquier determinado nivel, pueden también

utilizarse para los niveles inferiores. Sin embargo, no podrán decodificar los niveles

superiores a menos que, como parte de estos, exista una capa de resolución más baja.

No todas las combinaciones de niveles y perfiles resultan útiles o necesarias y hasta la

fecha sólo se ha demostrado interés por once de las 20 posibles combinaciones. Se les

llama puntos de conformidad del MPEG-2 y cada uno puede operarse una gama de

velocidades binarias.

En la siguiente figura se han representado los perfiles y niveles del MPEG-2

con indicación de sus características más sobresalientes. Los once cuadros en los que

se ha señalado la velocidad binaria son los puntos de conformidad. Los valores

de pixels (o muestras) y líneas se refieren al área activa de la imagen. Los valores de

las líneas corresponden a los sistemas de 25 Hz de frecuencia de trama. Para el caso

de 30 Hz, el número de líneas sería 240 para el Nivel Bajo, 480 para el Principal y

1080 para los niveles Alto-1440 y Alto. Los sistemas MPEG-2 permiten exploración

progresiva o entrelazada a frecuencias de 50 ó 60 Hz. En cada punto de conformidad

existe un límite máximo de muestras de luminancia.



Dentro de los perfiles, una larga variación de desempeños es posible. Por otra

parte los niveles son un conjunto de derivaciones impuestas para los perfiles. La

combinación de un perfil y un nivel produce una arquitectura muy bien definida para

una cadena particular de bit. Los perfile limitan la sintaxis (por ejemplo los

algoritmos), mientras los niveles limitan los parámetros (velocidad de muestreo,

dimensiones de las tramas, velocidad binaria codificada, etc.).

Niveles: proveen un rango de cualidades potenciales, definen los máximos y

mínimos para la resolución de la imagen, muestras Y por segundo (luminancia), el

número de capas de audio y vídeo soportados por los perfiles escalados, y la máxima

velocidad binaria por perfil. A continuación una explicación resumida de cada uno de

ellos:

Nivel Bajo: tiene un formato de entrada el cual es un cuarto de la imagen

definida en el registro ITU-R 601.

Nivel Principal: Tiene una trama de entrada completa definida en el registro

ITU-R 601.



Nivel Alto 1440: Tiene un formato de alta definición con 1440 muestras por

línea.

Nivel Alto: Tiene un formato de alta definición con 1920 muestras por línea(para aplicaciones sin cualquier limitación en velocidades de datos).

Máximas velocidades de datos para MPEG 2 y combinaciones recomendadas

para perfiles y niveles.

MPEG- 2 se puede utilizar en un vasto rango de aplicaciones, requiriendo

diferentes grados de complejidad y desempeño.



3.4.10 Modos escalables

Actualmente hay cuatro modos escalables en MPEG 2. Estos modos rompen

el vídeo MPEG 2 en diferentes capas (base, media, y alta) para propósitos de

proritización de datos de vídeo.

Otro propósito de la escalabilidad es para divisiones complejas. Por ejemplo,

en HDTV, la alta prioridad de las cadenas binarias (720x480) puede ser descodificada

bajo condiciones de ruido donde la baja prioridad (1440x960) no pueda.

A continuación una breve explicación de los modos escalables:

Escalabilidad espacial: Este método de dominio espacial codifica la capa

base a una dimensión de muestro bajo (por ejemplo: resolución) que las capassuperiores. Las capas bajas (base) reconstruidas del muestro son usadas como

predicción de las capas superiores.



Particionamiento de datos: es un método de dominio de frecuencia que

rompe los bloques de 64 coeficientes cuantizados de la transformada dentro de

dos cadenas binarias. La primera, cadena de alta prioridad contiene los

coeficientes más críticos de las frecuencias bajas e información (tales comovalores DC, vectores, etc.), la segunda, cadena binaria de baja prioridad lleva

datos AC de las altas frecuencias.

Escalabilidad SNR: es un método de dominio espacial donde los canales son

codificados a velocidades de muestreo idénticas, pero con diferentes calidades

de imágenes. La cadena binaria de alta prioridad contiene datos de la capa

base que pueden ser añadidos a la capa de refinamiento de baja prioridad paraconstruir una imagen de alta calidad.

Escalabilidad temporal: Un método de dominio temporal usado por ejemplo

en vídeo estereoscópico. La primera, la cadena binaria de alta prioridad

codifica el vídeo a una baja velocidad de tramas, y las tramas intermedias

pueden ser codificadas en una segunda cadena binaria usando la

reconstrucción de la primera cadena binaria como predicción.

Por ejemplo en una visión estereoscópica, el canal de vídeo izquierdo puede

ser predicho del canal derecho.

Los perfiles escalables (código jerárquico) están previstos para operaciones

posteriores y permitirán transmitir una imagen básica (base layer) en términos de

resolución espacial (spatially scalable profile) o de cuantificación (SNR scalable

profile), así como información suplementaria independiente (enhanced layer) que permite mejorar sus características, por ejemplo para transmitir la misma emisión en

definición estándar y HD (High Definition), o permitir una recepción con calidad

aceptable en caso de recepción difícil y de calidad óptima en buenas condiciones (por

ejemplo, para la televisión digital terrestre).



La figura siguiente muestra un codificador MPEG convencional, con

coeficientes de cuantificación de elevado peso; que al codificar una imagen la genera

con una moderada razón señal a ruido. Después esta imagen al ser decodificada ysustraída de la imagen original pixel a pixel da como resultado una imagen de "ruido

de cuantificación". Esta imagen puede ser comprimida y transmitida como una

imagen de ayuda. Un simple decodificador solo decodifica la imagen principal, con

un flujo de bit con ruido de cuantificación, pero un decodificador más complejo

puede decodificar ambas imágenes con diferentes flujos de bits y combinarlos para

producir una imagen con bajo ruido. Este es el principio del perfil SNR escalable.

Como otra alternativa, la figura inferior muestra que por solo codificar las

frecuencias espaciales bajas en imágenes HDTV, parte del flujo de bits puede ser

reconstruido por un receptor con codificador para SDTV (Standard Definition

TeleVision). Si una imagen de baja definición es localmente decodificada y sustraída

de la imagen original, se produce entonces una imagen de "realce de definición", esta

imagen puede ser codificada en una señal de ayuda.

Un decodificador de forma conveniente podría combinar las señales

principales y de ayuda para recrear la imagen HDTV. Este es el principio del perfil de

escalabilidad espacial.



El perfil high (alto) soporta tanto el SNR y la escalabilidad espacial como

también la opción de muestreado 4:2:2. El perfil 4:2:2 se ha desarrollado para proveer

compatibilidad con los equipos de producción digital de televisión existentes. Este

perfil admite trabajar con 4:2:2 sin requerir una complejidad adicional si se usa en el

perfil high. Por ejemplo, un decodificador HP@ML debe soportar escalabilidad SNR

que no es requerida en la producción de televisión digital. El perfil 4:2:2 tiene la

misma libertad de escoger su estructura de GOP como en otros perfiles, pero en la

práctica este usa comúnmente GOPs cortos de edición sencilla. La operación 4:2:2

requiere una mayor velocidad en la transmisión del bit que una operación 4:2:0, y el

uso de pequeños GOPs requiere también de mayores velocidades de transferencia de

bits para proporcionar calidad en sus imágenes.

El nivel low (bajo) corresponde a la resolución SIF utilizada en el MPEG-1.

El nivel main (principal) corresponde a la resolución 4:2:0 "normal" (de hasta

720 pixeles x 576 líneas).

El nivel high-1440 (alto-1440) está destinado a la HDTV (de hasta 1440

pixeles x 1152 líneas).

El nivel high (alto) está optimizado para la HDTV (de hasta 1920 pixeles x1152 líneas).

Según el compromiso de calidad/flujo de bits perseguido y la naturaleza de las

imágenes, el flujo de bits estará comprendido entre los 4 Mbits/s (calidad equivalente



a la de una imagen codificada en PAL o SECAM) y los 9 Mbits/s (calidad próxima a

la de una imagen de estudio CC1R-601).

Todo el proceso de codificación de las imágenes animadas descrito en elcapítulo anterior para MPEG-1 se aplica a MPEG-2 (MP@ML), especialmente la

jerarquía de capas (desde el bloque hasta la secuencia de la Figura siguiente).



La principal novedad con respecto a MEPG-1, además de los perfiles y

niveles, provienen del tratamiento de las imágenes entrelazadas.

3.5 Descripción del proceso de codificación MPEG-2 / MPEG-3

Codificación MPEG-2

MPEG-2 es para la codificación genérica de imágenes en movimiento y el

audio asociado que crea un flujo de vídeo mediante tres tipos de datos de marco

(cuadros intra, cuadros posteriores predecibles y cuadros predecibles bi-direccionales)

arreglados en un orden específico llamado “La estructura GOP”(GOP = Group Of

Pictures o grupo de imágenes).

Generalmente el material originado es una secuencia de vídeo a una

resolución de píxeles pre-fijada a 25 o 29,97 cuadros por segundo con sonido.

MPEG-2 admite flujos de vídeo escaneado de manera tanto progresiva como

entrelazada. En flujos de escaneo progresivo, la unidad básica de codificación es un

campo. En la discusión de abajo, los términos genéricos “cuadro” e “imagen” se

refieren tanto a los campos o cuadros, dependiendo del tipo de flujo.

El flujo MPEG-2 está hecho de una serie de cuadros de imágenes codificadas.

Las tres maneras de codificar una imagen son: intra-codificado (I cuadro), predecible

posterior (P cuadro) y predecible bi-direccional (B cuadro).

La imagen del vídeo es separada en dos partes: luminancia (Y) y croma(también llamada señales de diferencia de color U y V) a su vez, son divididos en

“Macro- bloques” los cuales son la unidad básica dentro de una imagen. Cada macro-

bloque es dividido en cuatro 8x8 bloques de luminancia. El número de bloques de

croma 8x8's depende del formato de color de la fuente. Por ejemplo en el formato



común 4:2:0 hay un bloque de croma por macro-bloque por cada canal haciendo un

total de seis bloques por macro-bloque.

En el caso de los cuadros I, la verdadera información de imagen pasada através del proceso codificador descrito abajo, los cuadros P y B primero son sujetos a

un proceso de “compensación de movimiento”, en el cual son co-relacionados con la

imagen previa (y en el caso del cuadro B, la siguiente). Cada macro-bloque en la

imagen P o B es entonces asociada con un área en la imagen previa o siguiente que

este bien correlacionada con alguna de éstas. El "vector de movimiento" que mapea el

macro-bloque con su área correlacionada es codificado, y entonces la diferencia entre

las dos áreas es pasada a través del proceso de codificación descrito abajo.

Cada bloque es procesado con una transformada coseno discreta (DCT) 8x8 .

El coeficiente DCT resultante es entonces cuantificado de acuerdo a un esquema

predefinido, reordenado a una máxima probabilidad de una larga hilera de ceros, y

codificado. Finalmente, se aplica un algoritmo de codificación Huffman de tabla fija.

Los cuadros I codifican redundancia espacial, mientras que los cuadros B y P

codifican redundancia temporal. Debido a que los marcos adyacentes son a menudo

bien co-relacionados, los cuadros P pueden ser del 10% del tamaño de un cuadro I, y

el cuadro B al 2% de su tamaño.

La secuencia de diferentes tipos de marcos es llamada, “estructura de grupos

de imágenes” (GOP). Hay muchas estructuras posibles pero una común es la de 15

marcos de largo, y tiene la secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. Una

secuencia similar de 12 marcos es también común. La relación de cuadros I, P y B en“la estructura GOP es determinado por la naturaleza del flujo de vídeo y el ancho de

banda que constriñe el flujo, además el tiempo de codificación puede ser un asunto

importante. Esto es particularmente cierto en las transmisiones en vivo y en

ambientes de tiempo real con Fuentes de cómputo limitados, un flujo que contenga







varios cuadros B puede tomar tres veces más tiempo para codificar que un archivo

que sólo contenga cuadros I.

La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR)o variable (VBR), con un máximo determinado por el reproductor – por ejemplo el

máximo posible en un DVD de película es de 10.4 Mbit/s. Para lograr una tasa de bits

constante el grado de cuantificación es alterado para lograr la tasa de bits requerida.

Incrementar la cuantificación hace visible un defecto cuando el vídeo es

descodificado, Generalmente en la forma de “amosaicamiento”, donde las

discontinuidades en los filos de los macro-bloques se hace más visible como

reducción de la tasa de bits.

3.6 Multiplexación

En telecomunicación, la multiplexación es la combinación de dos o

más canales de información en un solo medio de transmisión usando un dispositivo

llamado multiplexor. El proceso inverso se conoce como demultiplexación. Un

concepto muy similar es el de control de acceso al medio.

Existen muchas estrategias de multiplexación según el protocolo de

comunicación empleado, que puede combinarlas para alcanzar el uso más eficiente;

los más utilizados son:

TDM – Multiplexación por división de tiempo:

La multiplexación por división de tiempo (Time Division MultipleAccess o TDMA) es una técnica que permite la transmisión de señales digitales y

cuya idea consiste en ocupar un canal (normalmente de gran capacidad) de

transmisión a partir de distintas fuentes, de esta manera se logra un mejor

http://es.wikipedia.org/wiki/Telecomunicaci%C3%B3n

http://es.wikipedia.org/wiki/Canal_de_comunicaciones

http://es.wikipedia.org/wiki/Medio_de_transmisi%C3%B3n

http://es.wikipedia.org/wiki/Multiplexor

http://es.wikipedia.org/wiki/Demultiplexaci%C3%B3n

http://es.wikipedia.org/wiki/Control_de_acceso_al_medio

http://es.wikipedia.org/wiki/Se%C3%B1al_digital



http://es.wikipedia.org/wiki/Demultiplexaci%C3%B3n


http://es.wikipedia.org/wiki/Medio_de_transmisi%C3%B3n


http://es.wikipedia.org/wiki/Telecomunicaci%C3%B3n



aprovechamiento del medio de transmisión. El Acceso múltiple por división de

tiempo (TDMA) es una de las técnicas de TDM más difundidas.

La multiplexación por división de tiempo (MDT) o (TDM), del inglés TimeDivision Multiplexing, es el tipo de multiplexación más utilizado en la actualidad,

especialmente en los sistemas de transmisión digitales. En ella, el ancho de banda

total del medio de transmisión es asignado a cada canal durante una fracción del

tiempo total (intervalo de tiempo).

En la figura siguiente se representa, esquematizada de forma muy simple, un

conjunto multiplexor-demultiplexor para ilustrar como se realiza la multiplexación-

desmultiplexación por división de tiempo.

En este circuito, las entradas de seis canales llegan a los denominados

interruptores de canal, los cuales se cierran de forma secuencial, controlados por una

señal de reloj, de manera que cada canal es conectado al medio de transmisión

durante un tiempo determinado por la duración de los impulsos de reloj.

http://es.wikipedia.org/wiki/Multiplexaci%C3%B3n




http://es.wikipedia.org/wiki/Demultiplexor








En el extremo distante, el desmultiplexor realiza la función inversa, esto es,

conecta el medio de transmisión, secuencialmente, con la salida de cada uno de los

seis canales mediante interruptores controlados por el reloj del demultiplexor. Este

reloj del extremo receptor funciona de forma sincronizada con el del multiplexor delextremo emisor mediante señales de temporización que son transmitidas a través del

propio medio de transmisión o por un camino.

FDM – Multiplexación por división de frecuencia:

La multiplexación por división de frecuencia (MDF) o (FDM), del

inglés Frequency Division Multiplexing, es un tipo de multiplexación utilizadageneralmente en sistemas de transmisión analógicos. La forma de funcionamiento es

la siguiente: se convierte cada fuente de varias que originalmente ocupaban el mismo

espectro de frecuencias, a una banda distinta de frecuencias, y se transmite en forma

simultánea por un solo medio de transmisión. Así se pueden transmitir muchos

canales de banda relativamente angosta por un solo sistema de transmisión de banda

ancha.

El FDM es un esquema análogo de multiplexado; la información que entra a

un sistema FDM es analógica y permanece analógica durante toda su transmisión. Un

ejemplo de FDM es la banda comercial de AM, que ocupa un espectro de frecuencias

de 535 a 1605 kHz. Si se transmitiera el audio de cada estación con el espectro

original de frecuencias, sería imposible separar una estación de las demás. En lugar

de ello, cada estación modula por amplitud una frecuencia distinta de portadora, y

produce una señal de doble banda lateral de 10KHz.

Hay muchas aplicaciones de FDM, por ejemplo, la FM comercial y las

emisoras de televisión, así como los sistemas de telecomunicaciones de alto volumen.

Dentro de cualquiera de las bandas de transmisión comercial, las transmisiones de

cada estación son independientes de las demás.


http://es.wikipedia.org/wiki/Circuito_anal%C3%B3gico

http://es.wikipedia.org/wiki/Circuito_anal%C3%B3gico




Una variante de MDF es la utilizada en fibra óptica, donde se multiplexan

señales, que pueden ser analógicas o digitales, y se transmiten mediante portadoras

ópticas de diferente longitud de onda, dando lugar a la denominada multiplexación por división de longitud de onda, o WDM del inglés Wavelength Division

Multiplexing.

En la Figura siguiente se representa, de forma muy esquematizada, un

conjunto multiplexor -demultiplexor por división de frecuencia para tres canales, cada

uno de ellos con el ancho de banda típico del canal telefónico analógico (0,3 a

3,4 kHz).

El acceso múltiple por división de frecuencia (Frequency Division Multiple

Access o FDMA, del inglés) es una técnica de multiplexación usada en múltiples

http://es.wikipedia.org/wiki/Fibra_%C3%B3ptica


http://es.wikipedia.org/wiki/Multiplexaci%C3%B3n_por_divisi%C3%B3n_de_longitud_de_onda




http://es.wikipedia.org/wiki/Hz



http://es.wikipedia.org/wiki/Hz









protocolos de comunicaciones, tanto digitales como analógicos, principalmente de

radiofrecuencia, y entre ellos en los teléfonos móviles de redesGSM.

En FDMA, el acceso al medio se realiza dividiendo el espectro disponible encanales, que corresponden a distintos rangos de frecuencia, asignando estos canales a

los distintos usuarios y comunicaciones a realizar, sin interferirse entre sí. Los

usuarios pueden compartir el acceso a estos distintos canales por diferentes métodos

como TDMA, CDMA o SDMA, siendo estos protocolos usados indistintamente en

los diferentes niveles del modelo OSI.

En algunos sistemas, como GSM, el FDMA se complementa con un

mecanismo de cambio de canal según las necesidades de la red lo precisen, conocido

en inglés como frequency hopping o "saltos en frecuencia".

Características:

Tecnología muy experimentada y fácil de implementar.

Gestión de recursos rígida y poco apta para flujos de tránsito

variable.

Requiere duplexor de antena para transmisión dúplex.

Se asignan canales individuales a cada usuario.

Los canales son asignados de acuerdo a la demanda.

Normalmente FDMA se combina con multiplexing FDD.

DCM – Multiplexación por división código:

La multiplexación por división de código, acceso múltiple por división de

código o CDMA (del inglés Code Division Multiple Access) es un término genérico

para varios métodos de multiplexación o control de acceso al medio basados en la

tecnología de espectro expandido.


http://es.wikipedia.org/wiki/Se%C3%B1al_anal%C3%B3gica

http://es.wikipedia.org/wiki/GSM

http://es.wikipedia.org/wiki/Acceso_al_medio

http://es.wikipedia.org/wiki/TDMA

http://es.wikipedia.org/wiki/CDMA

http://es.wikipedia.org/wiki/SDMA

http://es.wikipedia.org/wiki/Modelo_OSI


http://es.wikipedia.org/wiki/D%C3%BAplex_(telecomunicaciones)



http://es.wikipedia.org/wiki/Espectro_expandido

http://es.wikipedia.org/wiki/Espectro_expandido



http://es.wikipedia.org/wiki/D%C3%BAplex_(telecomunicaciones)


http://es.wikipedia.org/wiki/Modelo_OSI

http://es.wikipedia.org/wiki/SDMA

http://es.wikipedia.org/wiki/CDMA

http://es.wikipedia.org/wiki/TDMA

http://es.wikipedia.org/wiki/Acceso_al_medio


http://es.wikipedia.org/wiki/Se%C3%B1al_anal%C3%B3gica




La traducción del inglés spread spectrum se hace con distintos adjetivos según

las fuentes; pueden emplearse indistintamente espectro ensanchado, expandido,

difuso o disperso para referirse en todos los casos al mismo concepto.

Habitualmente se emplea en comunicaciones

inalámbricas (por radiofrecuencia), aunque también puede usarse en sistemas de fibra

óptica o de cable.

http://es.wikipedia.org/wiki/Comunicaci%C3%B3n_inal%C3%A1mbrica


http://es.wikipedia.org/wiki/Radiofrecuencia





http://es.wikipedia.org/wiki/Radiofrecuencia



Funcionamiento Del MPEG

Documents

Transcript of Funcionamiento Del MPEG