Codificacion de Voz y Video (Presentacion)

64
© Ing. José Joskowicz, 2011 Codificación de Voz y Video Ing. José Joskowicz [email protected]

Transcript of Codificacion de Voz y Video (Presentacion)

Page 1: Codificacion de Voz y Video (Presentacion)

© Ing. José Joskowicz, 2011

Codificación de Voz y Video

Ing. José [email protected]

Page 2: Codificacion de Voz y Video (Presentacion)

© Ing. José Joskowicz, 2011

Introducción

Codificación de Voz y Video

Page 3: Codificacion de Voz y Video (Presentacion)

3© Ing. José Joskowicz, 2011

Introducción

En algún punto del sistema de telecomunicaciones la señal de audio analógica debe ser digitalizada, es decir, convertida en una secuencia de número discretos Este proceso puede realizarse en los propios

teléfonos (cómo es el caso en los “teléfonos digitales”o en los “teléfonos IP”), en “Gateways” (o conversores de medios y señalización) o las “placas de abonados” entre otros

CODECS: Codificadores / Decodificadores

Page 4: Codificacion de Voz y Video (Presentacion)

4© Ing. José Joskowicz, 2011

Codificación de “forma de onda”

Inicialmente, los codecs se basaron en codificar de la manera más eficiente posible la “forma de onda” de la señal.

Posteriormente, para bajar la tasa de bits necesaria para la transmisión, se comenzaron a utilizar técnicas “predictivas” Basadas en predecir los valores de las muestras en

base a la extrapolación de las muestras anteriores

Page 5: Codificacion de Voz y Video (Presentacion)

5© Ing. José Joskowicz, 2011

Síntesis de voz

Sobre la década de 1980, se introduce la idea de generar “voz sintética”, simulando la manera en que se produce la voz humana en el conducto vocal.

Page 6: Codificacion de Voz y Video (Presentacion)

6© Ing. José Joskowicz, 2011

Modelo del Conducto VocalEPIGLOTIS

CAVIDADNASAL

CAVIDADORAL

CAVIDADFARINGEA

LARINGECUERDASVOCALES

TRAQUEA

PULMONES

FUERZA MUSCULAR

BOCA

NARIZ

Page 7: Codificacion de Voz y Video (Presentacion)

7© Ing. José Joskowicz, 2011

Modelo del Conducto Vocal

Generado de impulsos variable

con el tiempo

Filtro lineal variable con el

tiempo

u(n) s(n)

G

p

k

kk za

zH

1

1

1)(

p es el orden del filtro, y ak representan los coeficientes del filtro.

Page 8: Codificacion de Voz y Video (Presentacion)

8© Ing. José Joskowicz, 2011

Estimación de los parámetros del modelo

Page 9: Codificacion de Voz y Video (Presentacion)

9© Ing. José Joskowicz, 2011

Espectro típico de la voz

Page 10: Codificacion de Voz y Video (Presentacion)

© Ing. José Joskowicz, 2011

Digitalización y Codificación de Voz

Codificación de Voz y Video

Page 11: Codificacion de Voz y Video (Presentacion)

11© Ing. José Joskowicz, 2011

1. Muestreo Se toman “muestras” de la señal a intervalos

regulares. Estos intervalos deben ser tales que cumplan con el teorema de muestreo: La mínima frecuencia a la que puede ser

muestrada una señal y luego reconstruida es el doble de la frecuencia máxima de dicha señal

Tiempo

Amplitud

T

Digitalización de la vozProceso de digitalización

Page 12: Codificacion de Voz y Video (Presentacion)

12© Ing. José Joskowicz, 2011

2. Cuantificación Los valores de las muestras se “cuantifican” en

cantidades discretas. La cantidad total de valores discretos debe introducir la menor cantidad posible de “ruido de cuantificación”

Tiempo

Amplitud

T

Error

Digitalización de la vozProceso de digitalización

Page 13: Codificacion de Voz y Video (Presentacion)

13© Ing. José Joskowicz, 2011

3. Codificación Los valores “cuantificados” se “codifican” en

números que pueden ser luego transmitidos y procesados digitalmente.

Tiempo

Amplitud

T

1100101

1100110

1100111

Digitalización de la vozProceso de digitalización

Page 14: Codificacion de Voz y Video (Presentacion)

14© Ing. José Joskowicz, 2011

T

Digitalización de la vozEn Telefonía

1. Muestreo Si bien el oido humano puede llegar a escuchar sonidos de

hasta 18 - 20 kHz, la mayor parte de la energía de la voz humana se encuentra por debajo de los 4 kHz.

El sonido resultante de filtrar la voz humana a 3.4 kHz es perfectamente inteligible, además puede distinguirse al locutor.

De acuerdo al teorema del muestreo, para poder reconstruir una señal de 3.4 kHz debe muestrarse a más de 6.8 kHz.

Originialmente se seleccionó como frecuencia de muestreo para telefonía 8 kHz (una muestra cada 125 microseg).

Page 15: Codificacion de Voz y Video (Presentacion)

15© Ing. José Joskowicz, 2011

Digitalización de la vozEn Telefonía

2. Cuantificación (1/3) Una cuantificación lineal genera un “error de cuantificación”

constante, independiente del nivel de la señal. Los errores de cuantificación se traducen en “ruido” al

reconstruir la señal. Para lograr niveles de ruido aceptables en señales de voz

con cuantificadores lineales, se requieren 4096 niveles. El oído es mas sensible a los “ruidos” en señales bajas que

en señales altas.

Page 16: Codificacion de Voz y Video (Presentacion)

16© Ing. José Joskowicz, 2011Tiempo

Amplitud

Digitalización de la vozEn Telefonía

2. Cuantificación (2/3) Cuantificación no lineal: Permite tener errores de

cuantificación pequeños para señales pequeñas y grandes para señales grandes

Con menos cantidad de niveles se logra buena calidad en la señal reconstruida

Page 17: Codificacion de Voz y Video (Presentacion)

17© Ing. José Joskowicz, 2011

Digitalización de la vozEn Telefonía

2. Cuantificación (3/3): Leyes de Cuantificación Ley A (de 13 segmentos):

y=(1+log(Ax) / (1 + log(A)) si 1/A < x <1y= Ax/(1 + log(A)) si 0 < x < 1/AA = 87.6

Ley (de 15 segmentos):y=log(1+x)/log(1+) = 255

Ambas leyes forman parte de las recomendaciones de ITU-T

Page 18: Codificacion de Voz y Video (Presentacion)

18© Ing. José Joskowicz, 2011

Digitalización de la vozLey A en Telefonía

1/128

1/64

1/321/16 1/8

1/4

Nivel 1

Nivel 2

16 subniveles

Page 19: Codificacion de Voz y Video (Presentacion)

19© Ing. José Joskowicz, 2011

Cuantificación no lineal (ley A)

00,10,20,30,40,50,60,70,80,9

1

0 10 20 30 40 50 60 70 80 90 100

Amplitud

Niv

el

Digitalización de la vozLey A en Telefonía

Page 20: Codificacion de Voz y Video (Presentacion)

20© Ing. José Joskowicz, 2011

Signo7 6 5 4 3 2 1 0

Segmento (0 - 7) Intervalo (0 - 15)Bit

Digitalización de la vozLey A en Telefonía

3. Codificación: Ley A o ley de los 13 segmentos

El bit mas significativo (bit 7) indica el signo. Los bits 4-6 indican el numero de segmento. Los bits menos significativos (bits 0-3) indican el intervalo

dentro del segmento.

Page 21: Codificacion de Voz y Video (Presentacion)

21© Ing. José Joskowicz, 2011

Proceso de digitalización

Híbrida

ConversorA/D

Ley A

Paralelo/

Serie

ConversorD/A

Ley A

Serie/

Paralelo

Pasabajos3.4 kHz

Reloj

8 kHz

64 kb/s

64 kb/s

Reloj8 kHz

Page 22: Codificacion de Voz y Video (Presentacion)

22© Ing. José Joskowicz, 2011

CODEC Comercial

Page 23: Codificacion de Voz y Video (Presentacion)

23© Ing. José Joskowicz, 2011

CODEC Comercial

Page 24: Codificacion de Voz y Video (Presentacion)

© Ing. José Joskowicz, 2011

CODECs de Audio

Codificación de Voz y Video

Page 25: Codificacion de Voz y Video (Presentacion)

25© Ing. José Joskowicz, 2011

CODECs

Pueden ser caracterizados por su tecnología (de “forma de onda”, de “síntesis de voz”) su tasa de bits (bit rates) la calidad resultante del audio codificado su complejidad el retardo que introducen

Según el ancho de banda de la señal de entrada Banda angosta (narrowband) 300 a 3400 Hz Banda ancha (wideband) 50 a 7000 Hz Banda super ancha (superwideband) 50 a 14000 Hz Banda completa (fullband) 50 a 20000 Hz

Page 26: Codificacion de Voz y Video (Presentacion)

26© Ing. José Joskowicz, 2011

CODECs de banda angosta

Utilizado en redes celulares GSM 2012..2 a 4.75Adaptive Multi RateAMR

Ampliamente utilizado en aplicaciones de VoIP, a 8 kb/s1511.8, 8,

6.4

CS-ACELP: Conjugate Structure Algebraic Codebook Excited Linear Prediction

G.729

Creado para aplicaciones DCME (Digital Circuit Multiplex Encoding)1.25

40, 16, 12.8, 9.6

LD-CELP: Low-Delay code excited linear prediction

G.728

Desarrollado originalmente para video conferencias en la PSTN, es actualmente utilizado en sistemas de VoIP

37.56.3, 5.3Hybrid MPC-MLQ and ACELPG.723.1

Codec “base”, utiliza dos posibles leyes de compresión: µ-law y A-law0.12564, 56PCM: Pulse Code

ModulationG.711

ComentariosRetardo (ms)

Bit rate(kb/s)NombreCodec

Page 27: Codificacion de Voz y Video (Presentacion)

27© Ing. José Joskowicz, 2011

CODECs de banda ancha

Codec propietario de Microsoft, utilizado en aplicaciones de comunicaciones unificadas (OCS)

408.8, 18Real Time AudioRtAudio

Amplía el ancho de banda del codecG.729, y es “compatible hacia atrás”con este codec. Optimizado su uso para VoIP con audio de alta calidad

<49 ms8 a 32 kb/sWideband G.729G.729.1

Amplía el ancho de banda del codecG.711, optimizando su uso para VoIP11.87564, 80,

96Wideband G.711G.711.1

Estandar en común con 3GPP (3GPPTS 26.171). gran inmunidad a los ruidos de fondo en ambientes adversos (por ejemplo celulares)

25.93756.6 a 23.85AMR-WBG.722.2

Usado en audio y videoconferencias4024,32Transform CoderG.722.1

Inicialmente diseñado para audio y videconferencias, actualmente utilizado para de telefonía de calidad en VoIP

348,56,64Sub-band ADPCMG.722

ComentariosRetardo (ms)

Bit rate(kb/s)NombreCodec

Page 28: Codificacion de Voz y Video (Presentacion)

28© Ing. José Joskowicz, 2011

CODECs de banda superancha

Utilizado por Skype258 a 24 SILKSILK

ComentariosRetardo (ms)

Bit rate(kb/s)NombreCodec

Page 29: Codificacion de Voz y Video (Presentacion)

29© Ing. José Joskowicz, 2011

CODECs de banda completa

Es el primer codec “fullband”estandarizado por ITU4032 a 128Low-complexity,

full-bandG.719

ComentariosRetardo (ms)

Bit rate(kb/s)NombreCodec

Page 30: Codificacion de Voz y Video (Presentacion)

30© Ing. José Joskowicz, 2011

Estandarización de “Ley A” y “Ley Mu” Conserva la forma de onda, codifica muestra a

muestra Tiene características “no lineales” para

minimizar la cantidad de bits por muestra Resulta en una velocidad de 64 kbit/s

G.711

Page 31: Codificacion de Voz y Video (Presentacion)

31© Ing. José Joskowicz, 2011

G.711.1

Aprobado en Marzo de 2008, como una extensión de G.711 para banda ancha (7 kHz)

Trabaja en 64, 80 y 96 kb/s Las muestras codificadas pueden ser

convertidas en G.711 por medio de un simple truncado

Las muestras de entrada son tomadas cada 16 kHz, pero tambien está soportada la frecuencia de muestreo de 8 kHz (compatibilidad con G.711)

Page 32: Codificacion de Voz y Video (Presentacion)

32© Ing. José Joskowicz, 2011

Codificador G.711.1

Pre-processing filter

Analysis QMF

MDCT

( )( 0,..., 79)

WBs nn

Pre-processing filter

Higher-band MDCT encoder

Lower-band embedded

PCM encoders

Widebandinput signal

Narrowbandinput signal

( )( 0,...,39)

NBs nn

( )( 0,...,39)

NBs nn ( )

( 0,..., 79)WBs n

n

Lower-band signal

Higher-bandsignal

( )( 0,...,39)

HBs nn

( ),( 0,...,39)

HBm HBS kk

Higher-bandbitstream

Core bitstream

Lower-band enhancement

bitstreamMUX

( )( 0,...,39)

LBs nn 0LI

Higher-bandMDCT

coefficients

1LI

2LI

Multiplexed bitstream

Page 33: Codificacion de Voz y Video (Presentacion)

33© Ing. José Joskowicz, 2011

Decodificador G.711.1

Synthesis QMF

iMDCT

( ) or ( )NB WBs n s n

Lower-band signal

Higher-bandsignalˆ ( )

( 0,...,39)HBs n

n

ˆ ( ),( 0,...,39)

HBm HBS kk

Higher-bandbitstream

Core bitstream

Lower-band enhancement

bitstreamDe-MUX

ˆ ( )( 0,...,39)

LBs nn

0LI

Higher-bandMDCT

coefficients

1LI

2LI

Lower-band embedded

PCM decoders

Higher-band FERC

Lower-band FERC

Higher-band MDCT decoder

Noise gate

Synthesizedoutput signal

Multiplexed bitstream

Lower-band pitch lag LBT

ˆ ( )( 0,...,79)

QMFs nn

ˆ ( )( 0,..., 39)

LBs nn

Page 34: Codificacion de Voz y Video (Presentacion)

34© Ing. José Joskowicz, 2011

Modos de operación G.711.1

Page 35: Codificacion de Voz y Video (Presentacion)

35© Ing. José Joskowicz, 2011

Tramas G.711.1

Son de 5 ms y tienen un total de 480 bits por trama 320 bits de la capa 0 (G.711), correspondientes a 8 bits x 40

muestras 80 bits de la capa 1 80 bits de la capa 2

La demora total del algoritmo lleva un total de 11.875 ms 5 ms para la información de la trama 5 ms extras necesarios para el análisis MCDT (“lookahead”) 1.875 ms para la implementación del filtro QMF

Page 36: Codificacion de Voz y Video (Presentacion)

36© Ing. José Joskowicz, 2011

No conserva la forma de onda, sino que utiliza técnicas de “síntesis de voz”

El modelado de la boca y la garganta se hace por medio de filtros lineales y la voz se genera a partir de una vibración periódica de aire que los excita

Utiliza “ventanas” de 10 ms para obtener los parámetros y se usan 80 bits (10 bytes) para representarlos Resulta en una velocidad de 8 kbit/s

G.729

Page 37: Codificacion de Voz y Video (Presentacion)

37© Ing. José Joskowicz, 2011

Tiene 5 ms de “look ahead”, resultando en unademora total de 15 ms

Utiliza técnicas CS-ACELP (Conjugate-Structure Algebraic-Code-Excited Linear Prediction)

G.729

Page 38: Codificacion de Voz y Video (Presentacion)

38© Ing. José Joskowicz, 2011

Codificador G.729

Page 39: Codificacion de Voz y Video (Presentacion)

39© Ing. José Joskowicz, 2011

Decodificador G.729

Page 40: Codificacion de Voz y Video (Presentacion)

40© Ing. José Joskowicz, 2011

G.729 A Variante del codec para lograr menor complejidad Es interoperable con G.729

G.729 B Detección de actividad de voz y silencios Modelado y regeneración del “ruido de fondo” (CNG =

Confort Noise Generation)Menor ancho de banda en la LAN

G.729

Page 41: Codificacion de Voz y Video (Presentacion)

41© Ing. José Joskowicz, 2011

G.729 B VAD (Voice Activity Detection)

Page 42: Codificacion de Voz y Video (Presentacion)

42© Ing. José Joskowicz, 2011

G.729.1

Aprobado en mayo de 2006 Diseñado para proveer una transición sencilla

en el mundo de la telefonía entre sistemas que utilizan banda angosta (300 a 3400 Hz) y nuevos sistemas que soporten banda ancha (50 a 7000 Hz)

Inter operable con la recomendación G.729 y sus anexos A y B, los que tienen amplia difusión en el mundo de VoIP

Page 43: Codificacion de Voz y Video (Presentacion)

43© Ing. José Joskowicz, 2011

Trama G.729.1

Capa 1: Codificación basada en CELP, de 8kb/s y compatible con G.729

Capa 2: Mejoras en las frecuencias de la banda baja (50 a 4000 Hz), de 4 kb/s

Capas siguientes: Agregan progresivas mejoras en la banda alta, 2 kb/s adicionales cada una

Page 44: Codificacion de Voz y Video (Presentacion)

44© Ing. José Joskowicz, 2011

6.4 kb/s Utiliza un algoritmo MPC-MLQ (Multi-Pulse Maximum

Likelihood Quantization), generando 24 bytes por cada ventana de 30 ms.

5.3 kb/s Utiliza ACELP (Algebraic Code Excited Linear

Prediction), generando 20 bytes por cada ventana de 30 ms

El retardo total (latencia) es de 37.5 ms El algoritmo requiere de 7.5 msegundos de muestras

adicionales (“look ahead”).

G.723.1

Page 45: Codificacion de Voz y Video (Presentacion)

45© Ing. José Joskowicz, 2011

RTAudio (Real-time Audio)

Utiliza técnicas de codificación VBR (Variable BitRate) No todas las ventanas o cuadros de voz se

codifiquen con la misma cantidad de bytes. El retardo total (latencia) del algoritmo es menor

a 40 ms Nuevo “default” de Microsoft

“RTAudio is the preferred Microsoft® Real-Time audio codec and is the default codec for Microsoft’s Unified Communications platforms” (1)

(1) http://en.wikipedia.org/wiki/RTAudio

Page 46: Codificacion de Voz y Video (Presentacion)

46© Ing. José Joskowicz, 2011

SILK

Utilizado por Skype. Ancho de banda variable, entre 6 a 40 kb/s,

trabajando entre las bandas angostas (8 kHz) y las bandas super anchas (superwideband) (24 kHz)

Utiliza tramas de 20 ms y tiene un retardo de 25 ms.

Desde marzo de 2009 las licencias de uso de SILK son gratuitas. En marzo de 2010 el codecfue enviado como borrador de RFC al IETF.

Page 47: Codificacion de Voz y Video (Presentacion)

47© Ing. José Joskowicz, 2011

AMR (Adaptive Multi Rate)

Utilizado típicamente en redes celulares GSM Hace uso de tecnologías DTX (Discontinous

Transmition), VAD (Voice Activity Detection) para detección de actividad vocal y CNG (Confort NoiseGeneration).

De forma similar a G.729, se basa en el modelo ACELP Ventanas de audio de 20 ms (160 muestras) Cada ventana de 20 ms es a su vez dividida en 4 sub-ventanas,

de 5 ms (40 muestras) cada una. Pora cada ventana se extraen los parámetros LP del modelo

CELP (los coeficientes de los filtros LP) Por cada sub-ventana se obtienen los índices de los

“codebooks” fijos y adaptivos y las ganancias.

Page 48: Codificacion de Voz y Video (Presentacion)

48© Ing. José Joskowicz, 2011

AMR (Adaptive Multi Rate)

Según la forma en que se cuanticen los parámetros (de acuerdo a cuantos bits se utilicen para cada parámetro) se obtienen tramas de 95, 103, 118, 134, 148, 159, 204 o 244 bits, las que corresponden a velocidades de transmisión que varían entre 4.75 y 12.2 kb/s.

AMR es licenciado

Page 49: Codificacion de Voz y Video (Presentacion)

49© Ing. José Joskowicz, 2011

AMR-WB (G.722.2)

Codec de Banda Ancha (16 kHz), y basado en un muestreo inicial de 14 bits por muestra

9 posibles velocidades entre 6.6 y 23.85 kb/s Basado en CELP, utilizando un filtro de orden 16

Page 50: Codificacion de Voz y Video (Presentacion)

50© Ing. José Joskowicz, 2011

AMR-WB (G.722.2)

Page 51: Codificacion de Voz y Video (Presentacion)

© Ing. José Joskowicz, 2011

Digitalización y Codificación de Video

Codificación de Voz y Video

Page 52: Codificacion de Voz y Video (Presentacion)

52© Ing. José Joskowicz, 2011

Técnicas utilizadas para la digitalización del video

Predicción “Predecir” el valor de ciertas muestras en función de

otras, de manera de poder enviar únicamente como información la diferencia

Transformación Los valores relacionados a las muestras pueden ser

transformados en otro conjunto de valores equivalentes, que representan la misma información de manera diferente

En video se utiliza típicamente la “Transformada Discreta del Coseno” o DCT por sus siglas en inglés

Page 53: Codificacion de Voz y Video (Presentacion)

53© Ing. José Joskowicz, 2011

Técnicas utilizadas para la digitalización del video

Cuantización Se asigna un valor “entero” a un número “real”. En función de la cantidad de enteros utilizados el

proceso de cuantificación puede introducir más o menos distorsión respecto al valor original

Codificación entrópica (Entropy Coding) Representa los valores cuantizados tomando ventaja

de las frecuencias relativas con las que aparece cada símbolo

Códigos de largo variable (o “VLC” por sus siglas en inglés)

Page 54: Codificacion de Voz y Video (Presentacion)

54© Ing. José Joskowicz, 2011

Estandarizaciones

Pre-procesamiento Codificación

Transmisión

DecodificaciónPost-procesamiento y recuperación de errores

Fuente (Señal original)

Destino(Señal recibida)

Page 55: Codificacion de Voz y Video (Presentacion)

55© Ing. José Joskowicz, 2011

JPEG (Joint Photographic Experts Group) Diseñado para comprimir imágenes fijas, tanto en color

como en blanco y negro Divide a la imagen en bloques de 8 x 8 píxeles, los que son

procesados en forma independiente Dentro de cada uno de estos bloques, se aplica la

transformada discreta de coseno (DCT) bidimensional, generando para cada bloque, una matriz de 8 x 8 coeficientes

Codificación de Imágenes

Page 56: Codificacion de Voz y Video (Presentacion)

56© Ing. José Joskowicz, 2011

MPEG-1 Originalmente diseñado por el “Moving Picture

Experts Group” (MPEG) de la ISO Pensado para el almacenamiento y reproducción

digital de aplicaciones multimedia desde dispositivos CD-ROM

MPEG-2 Pensado para proveer calidad de video desde la

obtenida con NTSC/PAL y hasta HDTV, con velocidades de hasta 19 Mbps

Codificación de Video

Page 57: Codificacion de Voz y Video (Presentacion)

57© Ing. José Joskowicz, 2011

Codificación en MPEG

Page 58: Codificacion de Voz y Video (Presentacion)

58© Ing. José Joskowicz, 2011

Codificación en MPEG

Page 59: Codificacion de Voz y Video (Presentacion)

59© Ing. José Joskowicz, 2011

MPEG-4 y H.264/AVC

MPEG-4 Es la evolución de MPEG-1 y 2, y provee la tecnología base

para la codificación en base a contenidos, y su almacenamiento, transmisión y manipulación

Puede codificar múltiples “Objetos de video” (MVO – MultipleVideo Objects)

H.264/MPEG-4 Part 10 JVT/H.26L/AVC (Advanced Video Coding) o H.264/AVC Con AVC, para una misma calidad de video, se logran mejoras

en el ancho de banda requerido de aproximadamente un 50% respecto estándares anteriores

Page 60: Codificacion de Voz y Video (Presentacion)

60© Ing. José Joskowicz, 2011

H.264/SVC y MVC

SVC: “Scalable Video Coding” (Anexo G, 2007) Permite la construcción de sub-flujos de datos dentro

de un flujo principal. El flujo principal o “capa base” (base layer) puede ser

decodificado por cualquier equipo que soporte H.264/AVC, aunque no soporte SVC.

Los flujos adicionales pueden contener información adicional del flujo, brindando mayor definición.

MVC: “Multiview Video Coding” (Anexo H,2009) Diferentes flujos representan diferentes visiones de la

misma escena (por ejemplo, para 3D)

Page 61: Codificacion de Voz y Video (Presentacion)

61© Ing. José Joskowicz, 2011

Perfiles y niveles

En H.264 se establecen “Perfiles” y “Niveles” Baseline Profile (BP)Main Profile (MP) High Profile (HiP) Otros (en total hay 17 perfiles!)

Page 62: Codificacion de Voz y Video (Presentacion)

62© Ing. José Joskowicz, 2011

Codificador H.264

Tomada de: “Video Compression – From Concepts to the H.264/AVC Standard”Gary J. Sullivan, Thomas WiegandProceedings of the IEEEIssue 1, pp. 18 - 31, Jan 2005

Page 63: Codificacion de Voz y Video (Presentacion)

63© Ing. José Joskowicz, 2011

Comparación de codecs de video

NoSiSiSiCompatibilidad con estándares previos

AltaMediaMediaBajaComplejidad del codificador

64 kbps a 150 Mbps64 kbps a 2 Mbps2 a 15 Mbps< 1.5 MbpsAncho de banda

I,P,B,SI,SPI,P,BI,P,BI,P,B,DTipo de cuadros

385NoPerfiles

Si, con hasta 16 MVSiSiSiEstimación y compensación de movimiento

VLC, CAVLC, CABAC

VLCVLCVLCCodificación

4x48x88x88x8Tamaño de la muestra para aplicar la transformada

4x4 Integer transforDCT/DWTDCTDCTTransformada

8x8, 16x8, 8x16, 16x16, 4x8, 8x4,

4x4

16x168x8, 16x8

8x 88x8Tamaño del bloque

16x1616x1616x16, 16x816x16Tamaño del macro-bloque

H.264/MPEG-4 Part 10/AVC

MPEG-4MPEG-2MPEG-1Característica

Page 64: Codificacion de Voz y Video (Presentacion)

© Ing. José Joskowicz, 2011

Muchas Gracias!

Codificación de Voz y Video

Ing. José [email protected]