o Comunicación encubierta de mensajes de voz dentro de audio

23
Comunicación encubierta de mensajes de voz dentro de audio Autor: Carlos Steven Vargas Hernández Tutor: PhD. Dora María Ballesteros Ingeniería en Telecomunicaciones Facultad de Ingeniería Universidad Militar Nueva Granada 2016 + =

Transcript of o Comunicación encubierta de mensajes de voz dentro de audio

Page 1: o Comunicación encubierta de mensajes de voz dentro de audio

Comunicación encubierta de

mensajes de voz dentro de audio

Autor: Carlos Steven Vargas Hernández

Tutor: PhD. Dora María Ballesteros

Ingeniería en Telecomunicaciones

Facultad de Ingeniería

Universidad Militar Nueva Granada

2016

0 1 2 3 4

-0.5

0

0.5

mensaje secreto

0 2 4 6

-0.5

0

0.5

señal host

0 2 4 6

-0.5

0

0.5

stego

0 1 2 3 4

-0.5

0

0.5

recuperado

0 1 2 3 4

-0.5

0

0.5

mensaje secreto

0 2 4 6

-0.5

0

0.5

señal host

0 2 4 6

-0.5

0

0.5

stego

0 1 2 3 4

-0.5

0

0.5

recuperado

+ 0 1 2 3 4

-0.5

0

0.5

mensaje secreto

0 2 4 6

-0.5

0

0.5

señal host

0 2 4 6

-0.5

0

0.5

stego

0 1 2 3 4

-0.5

0

0.5

recuperado

=

Page 2: o Comunicación encubierta de mensajes de voz dentro de audio

Índice

Prefacio………………………………………………………………………………………………………………..2

1. Introducción a la esteganografía de audio…………………………………………………………...3

2. Método QIM tradicional…………………………………………………………………………………..4

3. Ampliación de la capacidad de ocultamiento del método QIM………………………………...…8

3.1 Mejora realizada al método QIM………………………………………………………………….....8

3.2 Descripción del esquema implementado………………………………………………………….10

3.3 Validación del método QIM de 4 bits………………………………………………………………12

3.3.1 Señales en el dominio del tiempo………………………………………………………...…12

3.3.2 Correlación………………………………………………………………………………...…..15

3.3.3 Grado de aleatorización………………………………………………………………………16

3.3.4 Desviación estándar…………………………………………………………………………..17

3.3.5 Curtosis……………………………………………………………………………………...…17

3.3.6 Skewness………………………………………………………………………………………18

3.3.7 Histogramas……………………………………………………………………………………18

3.3.8 Conclusiones y recomendaciones….…………………………………………………...…..20

Bibliografía…………………………………………………………………………………………………………..22

Page 3: o Comunicación encubierta de mensajes de voz dentro de audio

2

Prefacio

La esteganografía es una práctica que ha sido utilizada para ocultar información desde hace

siglos. Dicha información originalmente se ocultaba en objetos físicos como pudieron haber

sido marcos de cuadros, en medio de la portada de un libro, dentro de alguna herramienta,

etc. Por medio de diferentes métodos se ha logrado transportar información confidencial en

forma de mensajes inocentes de tal manera que no se levante ninguna sospecha. El tiempo ha

transcurrido desde la primera vez que se utilizó por primera un método esteganográfico, y en

estos tiempos donde el uso de las computadoras es masivo, se puede ocultar información

intangible en archivos como audio, un block de notas, una imagen, etc.

Este texto ha sido realizado como uno de los entregables del trabajo de grado para optar por el

título de Ingeniero en Telecomunicaciones de la Universidad Militar Nueva Granada. Se

escribió en base a la investigación realizada durante el trabajo de grado y las diferentes

pruebas que se utilizaron para validar la modificación realizada al método QIM (Quantization

Index Modulation) para ampliar su capacidad de ocultamiento. En este trabajo se implementó

el método QIM como una técnica esteganográfica para ocultar señales de voz en audio,

aunque puede utilizarse para ocultar información en otro tipo de archivos, e incluso ser

implementado para watermarking.

En el capítulo 1 se hará una introducción a la esteganografía de audio donde se explica

brevemente en que consiste y cuáles son sus elementos básicos.

En el capítulo 2 se describe el método QIM original. Adicionalmente, se presentan algunos

resultados de pruebas realizadas implementado dicho método.

En el capítulo 3 se presenta la modificación realizada al método QIM para así poder

incrementar la capacidad de ocultamiento. También se presentan resultados de múltiples

pruebas realizadas para validar dicha modificación. Se analizan sus principales ventajas y

desventajas.

Page 4: o Comunicación encubierta de mensajes de voz dentro de audio

3

1. Introducción a la esteganografía de audio

La esteganografía de audio básicamente es una técnica que permite ocultar información

confidencial en un archivo de audio de manera que no pueda ser detectada. Las técnicas

esteganográficas tienen varios elementos básicos que se mencionan a continuación:

I. Secreto: es la información confidencial que se desea ocultar.

II. Host: es el archivo en donde se oculta la información confidencial. En el caso de la

esteganografía de audio lo más recomendable es un archivo de audio.

III. Stego: corresponde a la señal obtenida después del proceso de ocultamiento.

IV. Clave: es el elemento que permite extraer el secreto que se encuentra oculto en la

señal stego. Dicha clave puede corresponder por ejemplo a un orden específico en el

que se encuentra oculto cada dato del mensaje secreto.

Un método esteganográfico debe poder ocultar y extraer el mensaje secreto; es por esto que

consta de dos partes que pueden ser vistas en forma de bloques. Uno de los bloques oculta el

mensaje y el otro lo extrae. En la figura 1 se puede apreciar que el bloque que oculta el

mensaje tiene dos entradas que son el Secreto y la señal Host, y dos salidas que son la señal

Stego y la Clave.

Figura 1. Bloque básico del ocultamiento de información

Este bloque extrae la información que se encuentra oculta en la señal Stego siempre y cuando

la clave sea la correcta, en caso contrario la salida de este bloque no sería el mensaje secreto

sino un archivo con otro contenido.

Page 5: o Comunicación encubierta de mensajes de voz dentro de audio

4

Figura 2. Bloque básico de extracción de información

Para finalizar, es importante aclarar que no debe haber una diferencia significativa entre la

señal host y la señal stego, ya que esto podría llamar la atención y levantar la sospecha de la

existencia de información oculta. En la figura 3 se puede ver una señal host que se utilizó para

ocultar un audio y la señal stego resultante. A simple vista no se aprecia una diferencia entre

ellas, por lo cual se puede decir que el Secreto es imperceptible.

Figura 3. Ejemplo de señal stego producto de la correcta implementación de un método esteganográfico

2. Método QIM tradicional

El método QIM es un método que es ampliamente utilizado en watermarking y en menor

medida en esteganografía. La principal razón de que no se implemente con tanta frecuencia en

esteganografía es porque tiene una baja capacidad de ocultamiento. Dicha capacidad permite

ocultar solamente 1 bit por cada muestra de la señal host. La ecuación (1) se utiliza en el

método QIM tradicional para ocultar información binaria y tiene dos opciones las cuales son

seleccionadas dependiendo de si se va a ocultar un “0” o un “1”.

Page 6: o Comunicación encubierta de mensajes de voz dentro de audio

5

𝑆 = {𝛥 ⌊

𝛥⌋ 𝑊 = 0

𝛥 ⌊ℎ

𝛥⌋ +

𝛥

2 𝑊 = 1

(1)

En la ecuación (1) y (2) aparecen las siguientes variables:

S: señal stego

𝛥: Paso de cuantización

W: bit del dato que se quiere ocultar

H: señal host

Wr: bit recuperado

Cuando se desee extraer la información se aplica la ecuación (2). En esta ecuación se realiza un

cálculo matemático y se determina en qué rango de valores está el resultado de dicho cálculo

para así determinar si el bit que se recupera es un “1” o un “0”.

𝑊𝑟 = {1 𝛥

4< | 𝑠 − 𝛥 ⌊

𝑠

𝛥⌋ | ≤

3𝛥

4

0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 (2)

En el capítulo 1 se mencionó que los métodos esteganográficos necesitaban una clave para

poder recuperar el mensaje secreto, entonces uno de los parámetros obligatorios de dicha

clave en el método QIM siempre tiene que ser 𝛥.

Ahora las tablas I y II muestran la similitud entre la señal host y la stego, y la similitud entre el

mensaje que se oculta y el que se recupera, respectivamente. Dichas tablas son producto de

múltiples pruebas realizadas para determinar el comportamiento del método QIM cuando se

varía el valor de 𝛥 y se cambia la señal host. Las señales host utilizadas tenían una resolución

de 16 bits/muestra.

La similitud que se muestra en las tablas I y II fue determinada por medio del Coeficiente de

Correlación Cuadrático de Pearson (SPCC, por sus siglas en ingles). Entonces, cuando el valor

sea cercano a 1 indicará que las señales son muy parecidas, en caso contrario dicho valor se irá

acercando a 0.

Page 7: o Comunicación encubierta de mensajes de voz dentro de audio

6

Tabla I. SPCC entre señal host y stego

𝛥 host1 host2 host3 host4

2 1 1 1 1

4 1 1 1 1

9 1 1 1 1

20 1 1 1 1

40 1 1 1 1

300 0,9998 1 0,9999 1

30000 0,4600 0,7884 0,6068 0,7365

65535 0,4220 0,5193 0,4527 0,4690

Tabla II. SPCC entre el Secreto y el mensaje recuperado

𝛥 host1 host2 host3 host4

2 0,0013 2,18E-04 2,94E-04 5,71E-07

4 0,0133 0,0295 3,47E-04 0,0938

9 1 0,5332 0,3294 0,7033

20 0,9906 0,9885 0,8542 1

40 1 1 0,3905 0,9842

300 1 1 0,5697 0,9835

30000 0,035 0,9249 0,0199 0,7253

65535 1 1 1 0,9659

Sabiendo que lo ideal es que los valores de las tablas I y II sean cercanos a 1, se puede deducir

que:

I. A medida que el valor de 𝛥 se incrementa, el método tiende a ser cada vez menos

efectivo ocasionando que la señal stego sea cada vez menos parecida a la señal host, lo

cual puede levantar sospechas sobre la existencia de la información oculta.

II. Cuando 𝛥 va disminuyendo su valor, el método es cada vez más transparente, es decir

que el mensaje que se oculta se vuelve menos perceptible. Sin embargo, 𝛥 no puede

ser muy pequeño porque el mensaje secreto no se podrá recuperar.

III. Teniendo en cuenta las pruebas realizadas lo ideal cuando se utiliza el método QIM

para esteganografía de audio con señales host de 16 bits/muestra es que 𝛥 tome

valores que estén en el rango de 20-300 en una escala hasta 65535.

Ahora, para corroborar lo anteriormente expuesto, se presentan en las figuras 4, 5 y 6 las

siguientes señales: mensaje Secreto, recuperado, señal host y stego; para 𝛥 de 9 y 30000 y 40,

respectivamente. Cabe aclarar que la señal host es una canción instrumental de rock

alternativo por lo que puede que se asemeje a una señal de ruido, pero realmente no es así.

Page 8: o Comunicación encubierta de mensajes de voz dentro de audio

7

Figura 4. Método QIM cuando 𝛥 = 9.

Figura 5. Método QIM cuando 𝛥 = 30000.

0 0.5 1-1

-0.5

0

0.5

1mensaje secreto

0 0.5 1-1

-0.5

0

0.5

1mensaje recuperado

0 1 2 3-1

-0.5

0

0.5

1señal host

0 1 2 3-1

-0.5

0

0.5

1señal stego

0 0.5 1-1

-0.5

0

0.5

1mensaje secreto

0 0.5 1-1

-0.5

0

0.5

1mensaje recuperado

0 1 2 3-1

-0.5

0

0.5

1señal host

0 1 2 3-1

-0.5

0

0.5

1señal stego

Page 9: o Comunicación encubierta de mensajes de voz dentro de audio

8

Figura 6. Método QIM cuando 𝛥 = 40.

Al observar las figuras 4, 5 y 6 se reafirma que cuando 𝛥 es muy pequeño, el mensaje

recuperado se ve afectado; cuando es muy grande, la señal stego es la que más se ve afectada;

pero si 𝛥 está en el rango sugerido, la señal stego es imperceptible y el mensaje recuperado es

de muy buena calidad.

3. Ampliación de la capacidad de ocultamiento del Método QIM

El principal aporte del trabajo de grado, por el cual se elaboró este texto es la mejora de la

capacidad de ocultamiento del método QIM convencional. En este capítulo se valida la mejora

realizada por medio de diferentes pruebas.

3.1 mejora realizada al método QIM

Como se mencionó anteriormente, el método tradicional tiene una capacidad de ocultamiento

de 1 bit/muestra. Con la mejora realizada la capacidad fue cuadruplicada, es decir que la nueva

capacidad de ocultamiento es ahora es de 4 bits/muestra.

Lo primero a tener en cuenta para poder implementar el método QIM de 4 bits es que la señal

host debe tener una resolución de por lo menos 16 bits/muestra. Ahora, si se quiere saber cuál

es la duración mínima que debe tener un archivo de audio que será utilizado como señal host

para poder ocultar un archivo de audio secreto, se puede utilizar la ecuación (3).

0 0.5 1-1

-0.5

0

0.5

1mensaje secreto

0 0.5 1-1

-0.5

0

0.5

1mensaje recuperado

0 1 2 3-1

-0.5

0

0.5

1señal host

0 1 2 3-1

-0.5

0

0.5

1señal stego

Page 10: o Comunicación encubierta de mensajes de voz dentro de audio

9

𝑇ℎ =𝑇𝑠∗𝐹𝑠∗𝐵𝑠

𝐹ℎ∗(4𝑏𝑖𝑡𝑠

𝑚𝑢𝑒𝑠𝑡𝑟𝑎) (3)

Donde:

𝑇ℎ = tiempo de duración del audio host

𝑇𝑠= tiempo de duración del audio secreto

𝐹𝑠 = frecuencia de muestreo del audio secreto

𝐵𝑠= resolución del secreto

𝐹ℎ = frecuencia de muestreo del audio host

Por ejemplo si se quiere ocultar un audio que tiene una duración de 4 segundos, una

resolución de 16 bits/muestra y una frecuencia de muestreo de 16KHz, dentro de una señal

host con frecuencia de muestreo de 44,1KHz, es necesario que el audio host tenga una

duración de por lo menos 5,805 segundos, tal y como se aprecia a continuación:

𝑇ℎ =4𝑠𝑒𝑔∗16𝐾𝐻𝑧∗16

𝑏𝑖𝑡𝑠

𝑚𝑢𝑒𝑠𝑡𝑟𝑎

44,1𝐾𝐻𝑧∗4𝑏𝑖𝑡𝑠

𝑚𝑢𝑒𝑠𝑡𝑟𝑎

= 5,80498 ≈ 5,805 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠

Si se quisiera ocultar la misma señal dentro de la misma host aplicando el método QIM

tradicional sería necesario que la señal host tuviese una duración de por lo menos 23,22

segundos, lo cual podría causar una comunicación más lenta debido a que la información que

viaja por el canal es mayor.

Para poder mejorar la capacidad de ocultamiento del método QIM fue necesario hacer unos

pequeños ajustes a las ecuaciones (1) y (2), ya que si para ocultar o extraer 1 bit hay dos

posibilidades, para ocultar o extraer 4 bits se necesitan 16 posibilidades. En la tabla III se

presenta la ecuación para el ocultamiento de 4 bits y en la tabla IV para la extracción de 4 bits.

Tabla III. Ecuación (4)

𝑆 𝑊 𝑆 𝑊

𝛥 ⌊ℎ

𝛥⌋

0000 𝛥 ⌊

𝛥⌋ +

𝛥

2

1000

𝛥 ⌊ℎ

𝛥⌋ +

𝛥

16

0001 𝛥 ⌊

𝛥⌋ +

9𝛥

16

1001

𝛥 ⌊ℎ

𝛥⌋ +

𝛥

8

0010 𝛥 ⌊

𝛥⌋ +

5𝛥

8

1010

𝛥 ⌊ℎ

𝛥⌋ +

3𝛥

16

0011 𝛥 ⌊

𝛥⌋ +

11𝛥

16

1011

𝛥 ⌊ℎ

𝛥⌋ +

𝛥

4

0100 𝛥 ⌊

𝛥⌋ +

3𝛥

4

1100

𝛥 ⌊ℎ

𝛥⌋ +

5𝛥

16

0101 𝛥 ⌊

𝛥⌋ +

13𝛥

16

1101

𝛥 ⌊ℎ

𝛥⌋ +

3𝛥

8

0110 𝛥 ⌊

𝛥⌋ +

7𝛥

8

1110

𝛥 ⌊ℎ

𝛥⌋ +

7𝛥

16

0111 𝛥 ⌊

𝛥⌋ +

15𝛥

16

1111

Ahora, para ser prácticos se va a denominar como “𝑌” a la siguiente operación:

Page 11: o Comunicación encubierta de mensajes de voz dentro de audio

10

𝑌 = | 𝑠 − 𝛥 ⌊𝑠

𝛥⌋ |

Tabla IV. Ecuación (5)

𝑊𝑟 𝐶𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 𝑊𝑟 𝐶𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 0000 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 1000 15𝛥

32< 𝑌 ≤

17𝛥

32

0001 𝛥

32< 𝑌 ≤

3𝛥

32

1001 17𝛥

32< 𝑌 ≤

19𝛥

32

0010 3𝛥

32< 𝑌 ≤

5𝛥

32

1010 19𝛥

32< 𝑌 ≤

21𝛥

32

0011 5𝛥

32< 𝑌 ≤

7𝛥

32

1011 21𝛥

32< 𝑌 ≤

23𝛥

32

0100 7𝛥

32< 𝑌 ≤

9𝛥

32

1100 23𝛥

32< 𝑌 ≤

25𝛥

32

0101 9𝛥

32< 𝑌 ≤

11𝛥

32 1101 25𝛥

32< 𝑌 ≤

27𝛥

32

0110 11𝛥

32< 𝑌 ≤

13𝛥

32 1110 27𝛥

32< 𝑌 ≤

29𝛥

32

0111 13𝛥

32< 𝑌 ≤

15𝛥

32 1111 29𝛥

32< 𝑌 ≤

31𝛥

32

En la ecuación (5), la opción “en otro caso” que es utilizada para extraer los bits “0000” tiene

que ser implementada al final, o en su defecto ser sustituida por:

𝑌 ≤𝛥

32 ó 𝑌 >

31𝛥

32

De no ser así, el algoritmo podría extraer datos erróneos.

3.2 Descripción del esquema implementado

Ya que en esteganografía siempre tiene que haber alguien que oculta la información y alguien

que la extrae, son necesarios dos esquemas. El primer esquema se puede ver en la figura 7 y

sirve para ocultar información implementando el método QIM de 4 bits. Este esquema se

explicara a continuación:

I. Se elige un valor de 𝛥, se lee el audio secreto y la señal host.

II. Se agrega un nivel DC al secreto para eliminar sus valores negativos.

III. Se adaptan los valores del mensaje secreto para que queden en el rango de 0-65535

(esto por ser una señal de audio con resolución de 16 bits/muestra).

IV. Se convierte el secreto a binario.

V. Luego se procede a implementar el método QIM de 4 bits.

VI. Una vez que se termina de ocultar la información se genera la señal host y la clave.

Es de suponerse que si la señal host nunca cambia su rango de amplitud original, 𝛥 no puede

ser un valor entero, pero si se hace una pequeña operación matemática se puede trabajar con

un “valor entero”. Entonces con la ecuación (6) se puede encontrar el valor de 𝛥 tan solo con

Page 12: o Comunicación encubierta de mensajes de voz dentro de audio

11

“A” que es el la amplitud pico a pico de la señal host, y con “B” que es el valor entero que se

desea para la variable 𝛥. Así que a lo largo del texto se hará de cuenta que B es en realidad 𝛥,

esto con el fin de simplificar la información que se presenta más adelante.

𝛥 = (𝐴

65535)𝐵 (6)

Figura 7. Esquema para ocultar información

El esquema anterior genera una clave que tiene 4 parámetros: Δ (que se obtiene con la

ecuación (6)), el nivel DC que se le agrega al Secreto, la frecuencia de muestreo del secreto, y

el valor máximo del mensaje secreto después de haber agregado el nivel DC.

En la figura 8 se observa el esquema utilizado para extraer la información que se encuentra

oculta en la señal stego. Este esquema representa lo siguiente:

I. Se lee la señal stego y la clave.

II. Se extrae la información binaria utilizando la ecuación (5) y el primer parámetro de la

clave, el cual es 𝛥 .

III. Se convierte la información binaria a decimal.

IV. Se adaptan los valores del secreto para que vuelva al rango de amplitud original. Esto

se hace con otros dos parámetros de la clave que son: el nivel DC y el valor máximo del

secreto.

V. Finalmente con el último parámetro de la clave, el cual es la frecuencia de muestreo

del secreto, se recupera el audio.

Page 13: o Comunicación encubierta de mensajes de voz dentro de audio

12

Figura 8. Esquema para extraer información

3.3 Validación del método QIM de 4 bits

La mejora en la capacidad de ocultamiento del método QIM se ha validado por medio de

diferentes medidas estadísticas y el análisis de las señales en el dominio del tiempo. Esto con

el fin de comprobar que el método tiene una alta transparencia estadística y que por lo tanto

la señal stego pasara inadvertida. En total se han realizado 250 pruebas en donde se han

utilizado 5 Secretos, 5 hosts y 10 valores de Δ diferentes. Hay que tener en cuenta que en la

sección 3.2 se mencionó que la variable “B” de la ecuación (6) se consideraría como Δ para

simplificar la representación de los datos, así que cada vez que se encuentre la variable Δ será

en realidad “B”.

3.3.1 Señales en el dominio del tiempo

Para las pruebas se utilizaron los siguientes valores de Δ : 64, 128, 192, 256, 320, 384, 512,

704, 832 y 960. Ahora en las figuras 9, 10, 11, 12 y 13 se podrán apreciar las señales Secreto,

Recuperado, Host y Stego, en el domino del tiempo cuando se oculta uno de los mensajes

secretos en diferentes señales Host.

Page 14: o Comunicación encubierta de mensajes de voz dentro de audio

13

Figura 9. Secreto, Mensaje recuperado, Host1 y Stego en el dominio del tiempo para cualquier 𝛥

En la figura 9 se puede ver que la primera señal host pudo ocultar bien el secreto con cualquier

valor de 𝛥. Esto, según las pruebas realizadas, se debe a que tiene una amplitud pico a pico lo

suficientemente grande, lo cual no pasa con la host2.

Figura 10. Secreto, Mensaje recuperado, Host2 y Stego en el dominio del tiempo para 𝛥=64

En la figura 10 se observa que cuando el valor de 𝛥 es muy grande y además la amplitud pico a

pico de la host es muy baja, el método tiende a tener errores. Estos errores fueron

evidenciados especialmente a la hora de recuperar el mensaje, ya que este se escuchaba

ruidoso. En la figura 11 a pesar de que también se utilizó la host2 para ocultar el mismo

secreto, el valor de 𝛥 era mayor, por lo cual el método funciono bastante bien. Hay que tener

en cuenta que un valor alto de 𝛥 no va a garantizar que el método no falle si la amplitud de la

host es muy baja.

0 0.5 1 1.5 2

-0.5

0

0.5

mensaje secreto

0 1 2 3

-0.5

0

0.5

señal host

0 1 2 3

-0.5

0

0.5

stego

0 0.5 1 1.5 2

-0.5

0

0.5

recuperado

0 0.5 1 1.5 2

-0.5

0

0.5

mensaje secreto

0 1 2 3

-0.05

0

0.05

señal host

0 1 2 3

-0.05

0

0.05

stego

0 0.5 1 1.5 2

-0.5

0

0.5

recuperado

Page 15: o Comunicación encubierta de mensajes de voz dentro de audio

14

Figura 11. Secreto, Mensaje recuperado, Host2 y Stego en el dominio del tiempo para 𝛥 entre 256 y 960

Figura 12. Secreto, Mensaje recuperado, Host3 y Stego en el dominio del tiempo para 𝛥 entre 64 y 832

0 0.5 1 1.5 2

-0.5

0

0.5

mensaje secreto

0 1 2 3

-0.05

0

0.05

señal host

0 1 2 3

-0.05

0

0.05

stego

0 0.5 1 1.5 2

-0.5

0

0.5

recuperado

0 0.5 1 1.5 2

-0.5

0

0.5

mensaje secreto

0 1 2 3

-0.5

0

0.5

señal host

0 1 2 3

-0.5

0

0.5

stego

0 0.5 1 1.5 2

-0.5

0

0.5

recuperado

Page 16: o Comunicación encubierta de mensajes de voz dentro de audio

15

Figura 13. Secreto, Mensaje recuperado, Host3 y Stego en el dominio del tiempo para 𝛥=960

Al observar las figuras 12 y 13 se puede concluir que una señal host con una buena amplitud

no siempre funcionara perfectamente, ya que a pesar de que se comportó bastante bien en la

mayoría de los casos, cuando 𝛥 fue igual a 960 se observó un pequeño cambio del secreto

respecto al mensaje que se recuperó.

3.3.2 Correlación

Otra de las pruebas realizadas es la correlación, la cual fue calculada por medio del Coeficiente

de Correlación Cuadrático de Pearson (SPCC, por sus siglas en ingles). Básicamente el SPCC

permite saber que tan parecidas son dos señales; así que si las señales son muy parecidas el

valor del SPCC tendera a ‘1’, de lo contrario se acercara a ‘0’.

Figura 14. SPCC entre Host y Stego

0 0.5 1 1.5 2

-0.5

0

0.5

mensaje secreto

0 1 2 3

-0.5

0

0.5

señal host

0 1 2 3

-0.5

0

0.5

stego

0 0.5 1 1.5 2

-0.5

0

0.5

recuperado

0,993

0,994

0,995

0,996

0,997

0,998

0,999

1,000

1,001

64 128 192 256 320 384 512 704 832 960

SPC

C

𝞓

Page 17: o Comunicación encubierta de mensajes de voz dentro de audio

16

En la figura 14 se refleja el valor promedio del SPCC entre las señales Host y Stego obtenido en

las 250 pruebas realizadas; Dicha figura muestra el SPCC que se espera en el 95% de los casos.

Figura 15. SPCC entre Secreto y Mensaje Recuperado

La figura 15 muestra el SPCC promedio entre el Secreto y el Mensaje Recuperado que se

obtuvo en el 95% de los casos de las 250 pruebas realizadas.

Cuando se analizan un poco las figuras 14 y 15 se puede ver que en el 95% de los casos el

método funciono muy bien ya que no hubo un cambio considerable entre la Host y la Stego, y

tampoco entre el Secreto y el Mensaje Recuperado. Pero lo más relevante que se observa en

las figuras 14 y 15, es que cuando 𝛥 va aumentado, las señales Host y Stego se van

pareciendo cada vez menos; y que cuando 𝛥 disminuye, el Secreto y el Mensaje

Recuperado son cada vez más diferentes.

3.3.3 Grado de aleatorización (SD)

El SD se calculó entre las señales Host y Stego, y básicamente refleja que tanto cambia cada

dato de las señales respecto a sus datos vecinos, y después compara el resultado obtenido de

cada una de las señales. Entonces un SD que tiende a ‘0’ indica que las señales son parecidas, y

si tiende a ‘1’ quiere decir que son muy diferentes. En la figura 16 se puede apreciar el valor

promedio obtenido del SD calculado entre la Host y la Stego en el 95% de los casos.

Figura 16. SD entre Host y Stego

0,95

0,96

0,97

0,98

0,99

1,00

1,01

64 128 192 256 320 384 512 704 832 960

SPC

C

𝞓

0,00

0,01

0,02

0,03

0,04

0,05

0,06

64 128 192 256 320 384 512 704 832 960

SD

𝞓

Page 18: o Comunicación encubierta de mensajes de voz dentro de audio

17

Los datos de la figura 16 reflejan la misma tendencia de la figura 14; que cuando 𝛥 aumenta

la señal Stego se diferencia cada vez más de la señal Host.

3.3.4 Desviación Estándar

La desviación estándar se calculó para las señales Host y las Stego. La figura 17 muestra el

error porcentual promedio entre la desviación estándar de la señal Host y de la Stego que se

obtuvo después de haber realizado las 250 pruebas. En dicha figura cada curva representa 50

de las pruebas realizadas, las cuales corresponden a ocultar 5 Secretos diferentes en una Host

con 10 valores de 𝛥 diferentes.

Figura 17. Error porcentual entre la desviación estándar de la Host y la de la Stego.

La figura 17 demuestra que la transparencia estadística se ve afectada cuando 𝛥 aumenta su

valor, aunque con los 10 valores utilizados no se evidencio un cambio drástico, por lo que no

es algo preocupante.

3.3.5 Curtosis

Otra medida estadística utilizada para analizar la transparencia del método fue la Curtosis. Este

parámetro fue calculado tanto para las señales Host como para las Stego. La figura 18 muestra

el error porcentual promedio entre las Curtosis de las Host y las Stego.

Cada una de las curvas representa 50 de las pruebas realizadas que corresponden a: ocultar 5

Secretos diferentes en una Host con 10 valores de 𝛥 diferentes. La figura 18 al igual que la

figura 17, muestra que la transparencia estadística disminuye a medida que 𝛥 aumenta su

valor, pero el máximo error porcentual no llega a ser lo suficientemente significativo como

para considerarlo un problema.

0,00%

0,10%

0,20%

0,30%

0,40%

0,50%

64 128 192 256 320 384 512 704 832 960

Erro

r P

orc

entu

al

𝞓

Host-Stego1 Host-Stego2 Host-Stego3

Host-Stego4 Host-Stego5

Page 19: o Comunicación encubierta de mensajes de voz dentro de audio

18

Figura 18. Error porcentual entre la Curtosis de la Host y la de la Stego.

3.3.6 Skewness (oblicuidad)

El ultimo parámetro que se calculó para determinar que el método fuese transparente

estadísticamente, fue la oblicuidad. La diferencia entre la oblicuidad de las señales Stego y las

Host fue siempre similar cada vez que se cambió el Secreto, es por esto que la figura 19 solo

muestra el resultado obtenido al ocultar uno de los secretos.

Figura 19. Diferencia entre la oblicuidad de la Host y la de la Stego.

La figura 19 siguió reafirmando como se ve afectada la transparencia estadística a medida que

𝛥 aumenta, pero también se puede ver que la oblicuidad de tres de las Stego no cambio

prácticamente nada respecto a la Host, así que este parámetro se pudo haber visto afectado

principalmente por el Secreto o por la duración de este.

3.3.7 Histogramas

Los histogramas obtenidos de las Stego se alteraron a medida que 𝛥 incrementaba su valor,

mientras que los demás histogramas (Secreto, Host y Mensaje Recuperado) no sufrieron un

0,0%

0,2%

0,4%

0,6%

0,8%

1,0%

1,2%

1,4%

1,6%

64 128 192 256 320 384 512 704 832 960

Erro

r P

orc

entu

al

𝞓

Host-Stego1 Host-Stego2 Host-Stego3 Host-Stego4 Host-Stego5

-0,005

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,035

0,040

64 128 192 256 320 384 512 704 832 960

Dif

eren

cia

Skew

nes

s

𝞓

Host-Stego1 Host-Stego2 Host-Stego3 Host-Stego4 Host-Stego5

Page 20: o Comunicación encubierta de mensajes de voz dentro de audio

19

cambio significativo. En las figuras 20, 21 y 22 se aprecian los histogramas para valores de 𝛥 de

64, 256 y 960 respectivamente, cuando se oculta uno de los Secretos en una de las señales

Host.

Figura 20. Histogramas cuando 𝛥 = 64

Figura 21. Histogramas cuando 𝛥 = 256

-1 -0.5 0 0.5 10

1000

2000

3000secreto

-1 -0.5 0 0.5 10

1000

2000

3000recuperada

-0.5 0 0.50

2000

4000

6000host

-0.5 0 0.50

2000

4000

6000stego

-1 -0.5 0 0.5 10

1000

2000

3000secreto

-1 -0.5 0 0.5 10

1000

2000

3000recuperada

-0.5 0 0.50

2000

4000

6000host

-0.5 0 0.50

2000

4000

6000stego

Page 21: o Comunicación encubierta de mensajes de voz dentro de audio

20

Figura 22. Histogramas cuando 𝛥 = 960

Es claro que las figuras 20, 21 y 22 evidencian el principal problema ocasionado por aumentar

el valor de 𝛥, tanto en el método QIM de 4 bits como del QIM original. Dicho problema es que

el histograma de la Stego se va alterando poco a poco hasta que se distorsiona lo suficiente

como para hacer evidente que no se trata de un audio normal. Por otra parte, el histograma

del mensaje que se recupera en casi todas las pruebas realizadas, fue idéntico al del Secreto.

3.3.8 Conclusiones y recomendaciones

Las diferentes pruebas evidenciaron que el paso de cuantización es el principal factor a

considerar cuando se quiere implementar el método QIM de 4 bits, ya que si llegase a

ser demasiado grande, podría afectar la transparencia estadística del método, pero si

fuese demasiado pequeño, ocasionaría que el Secreto no se oculte correctamente y

por tanto cuando se quiera extraer, el mensaje recuperado será parcial o totalmente

diferente.

Una señal Host con una amplitud muy baja podría ocasionar imprecisión cuando se

oculta el Secreto, ya que si la señal tiene inicialmente 16 bits, esto quiere decir que

tiene 65536 valores diferentes que van desde el valor mínimo hasta el valor máximo

de la señal, así que como dichos valores son equidistantes, el espacio entre cada valor

es menor si la amplitud pico a pico de la señal es baja, por lo cual sería difícil manipular

dichos valores y cuando se genere el archivo Stego, un error de redondeo de valores

haría que cuando se quiera recuperar el mensaje, este no esté en los rangos

-1 -0.5 0 0.5 10

1000

2000

3000secreto

-1 -0.5 0 0.5 10

1000

2000

3000recuperada

-0.5 0 0.50

2000

4000

6000host

-0.5 0 0.50

2000

4000

6000stego

Page 22: o Comunicación encubierta de mensajes de voz dentro de audio

21

esperados. Esto no sucede cuando la amplitud de la señal es alta, ya que el espacio

que existe entre cada valor de la señal seria mayor.

Se recomienda implementar el método QIM de 4 bits, con señales Host con una

resolución igual o mayor a 16 bits/muestra. Esto con el fin de disminuir los errores de

redondeo cuando se genera el audio Stego.

El rango de valores de 𝛥 recomendado cuando se utiliza el método QIM de 4 bits es

128-512. Aunque si se quiere una transparencia más alta, en especial con lo

evidenciado en los histogramas, sería recomendable el rango de 128-256.

Page 23: o Comunicación encubierta de mensajes de voz dentro de audio

22

Bibliografía

Bilal, I., Roj, M. S., Kumar, R., & Mishra, P. K. (2014, 11-13 Dec. 2014). Recent advancement in audio

steganography. Paper presented at the Parallel, Distributed and Grid Computing (PDGC), 2014 International

Conference on.

Chen, B., & Wornell, Gregory W. (2001). Quantization index modulation: a class of provably good methods

for digital watermarking and information embedding. Information Theory, IEEE Transactions on, 47(4), 1423-

1443. doi: 10.1109/18.923725

Izadinia, H., Sadeghi, F., & Rahmati, M. (2009, 8-10 March 2009). A New Steganographic Method Using

Quantization Index Modulation. Paper presented at the Computer and Automation Engineering, 2009.

ICCAE '09. International Conference on.

Phadikar, Amit. (2013). Multibit quantization index modulation: A high-rate robust data-hiding method.

Journal of King Saud University - Computer and Information Sciences, 25(2), 163-171. doi:

http://dx.doi.org/10.1016/j.jksuci.2012.11.005

Noda, Hideki, Niimi, Michiharu, & Kawaguchi, Eiji. (2006). High-performance JPEG steganography using

quantization index modulation in DCT domain. Pattern Recognition Letters, 27(5), 455-461. doi:

http://dx.doi.org/10.1016/j.patrec.2005.09.008

J. Vimal and A. M. Alex, "Audio steganography using dual randomness LSB method," in Control,

Instrumentation, Communication and Computational Technologies (ICCICCT), 2014 International

Conference on, 2014, pp. 941-944.

Jayaram, Ranganatha, & Anupama,. (2011). Information Hiding Using Audio Steganography - A Survey.

IJMA, 3(3), 86-96. http://dx.doi.org/10.5121/ijma.2011.3308

Mahajan, M., & Kaur, N. (2012). Adaptive Steganography: A survey of Recent Statistical Aware

Steganography Techniques. International Journal of Computer Network and Information Security, 4(10), 76-

92. http://dx.doi.org/10.5815/ijcnis.2012.10.08

Sakthisudhan, K., Prabhu, P., Thangaraj, P., & Marimuthu, C. M. (2012). Dual Steganography Approach for

Secure Data Communication. Procedia Engineering, 38, 412-417. doi:

http://dx.doi.org/10.1016/j.proeng.2012.06.051

Hemalatha, S., Acharya, U. Dinesh, & Renuka, A. (2015). Wavelet Transform Based Steganography

Technique to Hide Audio Signals in Image. Procedia Computer Science, 47, 272-281. doi:

http://dx.doi.org/10.1016/j.procs.2015.03.207