Curso de visión artificial

22
Dpto. Electrónica, Automática e Informática Industrial 11 1 Introducción a la Visión Artificial Uno de los sentidos más importantes de los seres humanos es la visión. Ésta es empleada para obtener la información visual del entorno físico. Según Aristóteles, Visión es saber que hay y donde mediante la vista”. De hecho, se calcula que más de 70% de las tareas del cerebro son empleadas en el análisis de la información visual. El refrán popular de “Una imagen vale más que mil palabras” tiene mucho que ver con los aspectos cognitivos de la especie humana. Casi todas las disciplinas científicas emplean utillajes gráficos para transmitir conocimiento. Por ejemplo, en Ingeniería Electrónica se emplean esquemas de circuitos, a modo gráfico, para describirlos. Se podría hacerlo mediante texto, pero para la especie humana resulta mucho más eficiente procesar imágenes que procesar texto. La visión humana es el sentido más desarrollado y el que menos se conoce debido a su gran complejidad. Es una actividad inconsciente y difícil de saber cómo se produce. De hecho, hoy en día, se carece de una teoría que explique cómo los humanos perciben el exterior a través de la vista. En el año 1826 el químico francés Niepce (1765-1833) llevó a cabo la primera fotografía, colocando una superficie fotosensible dentro de una cámara oscura para fijar la imagen. Posteriormente, en 1838 el químico francés Daguerre (1787-1851) hizo el primer proceso fotográfico práctico. Daguerre utilizó una placa fotográfica que era revelada con vapor de mercurio y fijada con trisulfato de sodio.

description

cap1_IntroVA_v1.9

Transcript of Curso de visión artificial

  • Dpto. Electrnica, Automtica e Informtica Industrial 11

    1 Introduccin a la Visin Artificial

    Uno de los sentidos ms importantes de los seres humanos es la visin. sta es

    empleada para obtener la informacin visual del entorno fsico. Segn Aristteles,

    Visin es saber que hay y donde mediante la vista. De hecho, se calcula que ms de

    70% de las tareas del cerebro son empleadas en el anlisis de la informacin visual. El

    refrn popular de Una imagen vale ms que mil palabras tiene mucho que ver con

    los aspectos cognitivos de la especie humana. Casi todas las disciplinas cientficas

    emplean utillajes grficos para transmitir conocimiento. Por ejemplo, en Ingeniera

    Electrnica se emplean esquemas de circuitos, a modo grfico, para describirlos. Se

    podra hacerlo mediante texto, pero para la especie humana resulta mucho ms eficiente

    procesar imgenes que procesar texto. La visin humana es el sentido ms desarrollado

    y el que menos se conoce debido a su gran complejidad. Es una actividad inconsciente y

    difcil de saber cmo se produce. De hecho, hoy en da, se carece de una teora que

    explique cmo los humanos perciben el exterior a travs de la vista.

    En el ao 1826 el qumico francs Niepce (1765-1833) llev a cabo la primera

    fotografa, colocando una superficie fotosensible dentro de una cmara oscura para fijar

    la imagen. Posteriormente, en 1838 el qumico francs Daguerre (1787-1851) hizo el

    primer proceso fotogrfico prctico. Daguerre utiliz una placa fotogrfica que era

    revelada con vapor de mercurio y fijada con trisulfato de sodio.

  • Carlos Platero Apuntes de Visin Artificial

    12 Dpto. Electrnica, Automtica e Informtica Industrial

    Figura 1. 1 Primeras fotografas

    Desde que se invent la fotografa se ha intentado extraer caractersticas fsicas

    de las imgenes. La Fotogrametra dio sus primeros pasos desde imgenes capturadas en

    globos. La Astronoma avanz enormemente con el anlisis de imgenes recibidas por

    los telescopios. El anlisis de radiografas transform la Medicina. Se podran citar

    muchos ms ejemplos que durante dcadas han transformado la percepcin de la

    Ciencia con el procesamiento de las imgenes, alguna veces por separado y otras de

    forma multidisiciplinar.

    Figura 1. 2 Aplicaciones del procesamiento de imgenes a) Astronoma, b) Fotogrametra, c) Medicina, d) Industria

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 13

    Sin embargo, el momento histrico que hace que estas tcnicas confluyan y den

    un cuerpo de conocimiento propio, surge en la dcada de los 80 del siglo XX. La

    revolucin de la Electrnica, con las cmaras de vdeo CCD y los microprocesadores,

    junto con la evolucin de las Ciencias de la Computacin hace que sea factible la Visin

    Artificial.

    Por tanto, la Visin Artificial o tambin llamada Visin por Computador,

    pretende capturar la informacin visual del entorno fsico para extraer caractersticas

    relevantes visuales, utilizando procedimientos automticos. Segn Marr, Visin es un

    proceso que produce a partir de imgenes del mundo exterior una descripcin til para

    el observador y no tiene informacin irrelevante.

    Para algunos autores, como Gonzlez y Woods, los primeros atisbos de este

    proceder se remontan a la dcada de los aos 20 del siglo XX, cuando se transmitan

    imgenes transocenicas, a travs de cable submarino. Las fotografas periodsticas

    entre Europa y Amrica tardaban una semana en llegar a travs de los barcos. Al

    emplear las primeras tcnicas de procesamiento de las imgenes se pas slo a tres

    horas. Las imgenes se codificaban a cinco niveles de grises y se transmitan por

    telfono. No obstante, ste podra ser el principio de las tcnicas de procesamiento de

    las imgenes, pero no el de la Visin Artificial, tal cual se ha definido. El concepto de

    Visin Artificial es ms amplio y recupera para s, todos los conocimientos de anlisis

    de las imgenes desempeado por otras disciplinas desde los albores de la fotografa.

    Parece claro que para tratar sobre la Visin, lo primero a estudiar ser la

    naturaleza de la luz, para luego pasar a entender cmo funciona la visin humana y

    acabar con las partes de la Visin Artificial.

    1.1 La naturaleza de la Luz

    La luz fue considerara, hasta el siglo XVIII, como una corriente de corpsculos.

    stos eran emitidos por los focos luminosos y disminua su densidad a medida de que se

    alejaban del foco. Podan penetrar en las sustancias transparentes y se reflejaban en las

    superficies de los cuerpos opacos. Cuando los corpsculos penetraban en el ojo,

    excitaban el sentido de la vista. Esta teora corpuscular fue desarrollada por Newton en

    el siglo XVII y mejorada posteriormente, con el modelo cuntico, por Plank a principios

    del siglo XX.

    En el siglo XIX, los trabajos de Young, Fresnel y Foucault salvaron la mayora

    de las objeciones de la teora ondulatoria. El impulso definitivo lo dio Maxwell, al

    explicar la luz como una radiacin ondulatoria. Sin embargo, el efecto fotoelctrico

    proporcion evidencias experimentales de que la luz tena carcter corpuscular en la

    interaccin con la materia. Hoy se admite que en la emisin de la luz intervienen

    electrones con cantidades de energa determinadas o discretas. Cuando un electrn pasa

    de un nivel de energa a otro inferior emite una partcula discreta de energa, llamada

    cuanto o fotn. El problema ahora consiste en hacer concordar el cuanto o caracterstica

    corpuscular de la luz con la idea de onda continua. Para la Mecnica Cuntica, cuando

    se trata del comportamiento de gran nmero de cuantos, la teora ondulatoria explica

    satisfactoriamente los fenmenos, pero al considerar el comportamiento de unos pocos

  • Carlos Platero Apuntes de Visin Artificial

    14 Dpto. Electrnica, Automtica e Informtica Industrial

    cuantos prevalece la teora corpuscular. As, los fenmenos de propagacin de la luz

    encuentran su mejor explicacin dentro de la teora ondulatoria, mientras que la accin

    mutua entre luz y materia, en los procesos de absorcin y emisin, es un fenmeno

    corpuscular. An hoy se mantiene la teora dual de la luz.

    La mayor parte del temario versar sobre la propagacin de la luz y la formacin

    de las imgenes. Todos estos fenmenos pueden interpretarse a partir de la teora

    ondulatoria. Por tanto, se puede considerar que las fuentes luminosas emanan de un

    frente de ondas, las cuales pueden ser representadas, imaginariamente, por lneas rectas

    en la direccin de la propagacin del tren de ondas, a las que se llamar rayo.

    1.1.1 La luz como onda electromagntica

    Algunos tipos de energa requieren de un medio conductor para propagarse.

    Como as sucede con la energa elctrica o mecnica. Pero hay otros tipos de fuentes

    energticas que no necesitan de un soporte conductor, ste es el caso de la luz. Las

    radiaciones electromagnticas se propagan en forma de dos ondas vectoriales

    mutuamente acopladas y perpendiculares entre s; una onda para el campo elctrico y

    otra para el campo magntico. Segn la teora ondulatoria, la luz se propaga en forma de

    onda que viaja en el espacio libre con una velocidad constante c = 3108 m/s. El espectro

    visible es una porcin muy pequea del conjunto de ondas electromagneticas que tiene

    la peculiaridad de ser captada por los ojos y procesada en el cerebro. El ojo humano es

    capaz de distinguir radiaciones de longitudes de onda comprendidas entre los 380 nm a

    los 780 nm, cuyas frecuencias oscilan entre los 3.21014

    Hz y los 7.71014

    Hz1. El sentido

    de la vista transforma las diferentes amplitudes y frecuencias del espectro visible en

    sensaciones conocidas como brillo y color respectivamente.

    Figura 1. 3 a) Campo electromagntico b) Espectro de la luz

    Fue Newton quien observ cmo la luz blanca, la procedente de la luz solar, se

    poda descomponer en unas serie de haces luminosos de colores cuando atravesaba un

    prisma ptico. Newton, con este experimento, hall el espectro de la luz diurna

    mediante el fenmeno conocido como dispersin de la luz o dispersin cromtica, cuya

    explicacin fsica escapaba de su teora corpuscular. Mediante la teora ondulatoria se

    sabe que cada color es en realidad una onda electromagntica de frecuencia determinada

    y que, al penetrar en el prisma ptico, se desva en una direccin diferente debido a que

    1 La frecuencia de la onda es la velocidad de la luz, partido su longitud:

    cf

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 15

    el ndice de refraccin de este material varia con la frecuencia de la onda penetrante,

    con lo que el haz se expande de forma que las radiaciones monocromticas puedan ser

    distinguidas y observadas por el ojo humano.

    Figura 1. 4 Dispersin cromtica

    1.1.2 Fuentes de luz

    La distribucin espectral de la energa radiada, f , es una funcin que

    representa la cantidad de potencia asociada a cada longitud de onda, . Si la distribucin presenta un pico sobre una determinada longitud de onda y es despreciable el resto de

    componentes, se dice que es una radiacin monocromtica. ste es el caso de la luz

    lser. La luz blanca se caracteriza por tener una distribucin uniforme en su espectro.

    Figura 1. 5 Diversos espectros de fuentes de luz

    Cada onda luminosa monocromtica lleva asociada una energa, cuyo valor es

    igual a2:

    2 La longitud de onda del lser de un DVD est entre los 630 nm y los 650 nm, en un CD es de

    780 nm. La potencia del laser de un DVD es de 5.4 W y el de un CD es de 1.85 W.

  • Carlos Platero Apuntes de Visin Artificial

    16 Dpto. Electrnica, Automtica e Informtica Industrial

    chfhQ

    Donde h es la constante de Planck, igual a 6.6310-34

    Js, f es la frecuencia, c la

    velocidad de la luz y la longitud de la onda. As, la luz de menor frecuencia tiene menor contenido energtico, mientras que la luz de menor longitud de onda posee

    mayor energa.

    Ejemplo 1.1

    Cul es el flujo de fotones por segundo, , de un laser de DVD con una

    potencia de 5W emitiendo con una longitud de onda de 650 nm?

    Jch

    Q19

    9

    834

    10310650

    1031063.6

    fotones/s1067.1103

    105 1319

    6

    Q

    P

    La energa radiante emitida por una fuente luminosa, por unidad de tiempo y por

    unidad de rea, depende de la naturaleza de la superficie y de su temperatura. Esta

    radiacin es una mezcla de diferentes longitudes de onda. La temperatura de color es la

    temperatura a la que hay que calentar un radiador de energa o fuente de radiaciones

    para que emita radiaciones en determinadas longitudes de onda. A temperaturas bajas,

    este manatial radiar energa que se hace visible con longitudes de ondas largas (rojas

    anaranjados), mientras que a altas temperaturas llegar a emitir radiaciones de

    frecuencia elevadas (azules). Por ejemplo, a la temperatura de 600 K, la ms intensa de

    estas ondas tiene una longitud de 500nm, que se encuentra en la regin del infrarrojo,

    mientras a 1000 K, un cuerpo emite bastante energa radiante visible para ser luminosos

    por si mismo y parece incandescente; no obstante, la mayor parte de la energa emitida

    es transportada, con mucho, por ondas infrarrojas. A 3000 K, que es aproximadamente

    la temperatura del filamento de una lmpara de incandescencia, la energa radiante

    contiene bastantes longitudes de onda visibles, de las comprendidas entre 400nm y

    700nm, de modo que el cuerpo parece casi rojo blanco.

    Figura 1. 6 Temperatura de color

    La relacin entre la radiacin radiada y la temperatura del foco viene

    determinada por la ley de Stefan-Boltzmann:

    (1. 1)

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 17

    4TKE

    SB

    Donde KSB es la constante de Stefan-Boltzmann (5.710-8

    W/m2K

    4), T es la

    temperatura del emisor y E es la potencia radiada por metro cuadrado, llamada

    iluminacin.

    Ejemplo 1.2

    La iluminacin medida por un pirmetro ptico en un pequeo agujero de un

    horno es de 22.8 W/cm2. Cul es la temperatura interna del horno?

    KKmW

    mWTTKE

    SB1414

    /107.5

    /108.22 41

    428

    24

    4

    El flujo luminoso se calcula a partir de la distribucin espectral, f :

    0

    df

    La magnitud fsica del flujo luminoso, en el sistema internacional, es el vatio.

    El flujo luminoso emitido por un manantial luminoso

    depende de la abertura y del tamao del cono de radiacin,

    esto es, del ngulo slido3. Se considera el manantial

    luminoso puntual S de la figura 1.7. Y sea d el flujo

    luminoso que atraviesa una seccin cualquiera de un

    estrecho cono de ngulo slido d estereorradianes, cuyo

    vrtice coincida con el manantial. La intensidad luminosa

    del manantial, en la direccin del cono, se define como la

    razn del flujo, d, al ngulo slido, d, o sea, como el

    flujo luminoso emitido por unidad de ngulo slido. La

    intensidad luminosa se representa por I:

    Id

    d

    3 El ngulo slido se define como el rea de una superficie esfrica, dA, dividida por el cuadrado

    del radio de la esfera, R. Su unidad es el estereorradian, [sr], una cantidad adimensional. Una esfera tiene

    4 esterorradianes de ngulo slido.

    (1. 2)

    (1. 3)

    Figura 1. 7 Flujo luminoso

    ( 1.4 )

  • Carlos Platero Apuntes de Visin Artificial

    18 Dpto. Electrnica, Automtica e Informtica Industrial

    La unidad de intensidad es vatio por estereorradin. La mayor parte de los

    manantiales no emiten cantidades iguales de flujo por unidad de ngulo slido en todas

    las direcciones.

    1.1.3 Interaccin entre la luz y la materia

    Cuando un cuerpo recibe radiacin luminosa, una parte es absorbida, otra es

    reflejada y hay otra parte que es transmitida. Por el principio de conservacin de la

    energa, el flujo luminoso incidente ser igualado a los tres mecanismos mencionados:

    REFLEJADAABSORBIDAATRANSMITIDINCIDENTE

    Segn sea la longitud de onda que reflejen, transmitan o absorban as ser el

    color con el que se percibe el objeto. Un objeto que absorba todas las frecuencias se

    captar como negro, mientras que un cuerpo que refleje todas las longitudes de onda

    visibles aparecer blanco. En los objetos opacos la transmitancia es insignificante,

    siendo las frecuencias que refleja el cuerpo las que determinan con que color se percibe.

    En los transparentes, por el contrario, son la reflectancia y la absortancia las que valen

    prcticamente cero. En consecuencia, una especificacin puramente objetiva del color

    de una superficie opaca puede expresarse en trminos de reflectancia espectral. En el

    caso de materiales transparentes vendrn dada

    por la transmitancia espectral.

    La radiacin reflejada, la captada por

    el observador, depende de la naturaleza de la

    superficie en la que se refleja el haz luminoso,

    as como de las condiciones de iluminacin y

    de posicin del punto de vista. Sea dA, en la

    figura 1.8, un elemento de superficie cuya

    normal n forma un ngulo respecto a un

    manantial puntual S. Asumiendo que la fuente

    lumninosa S ilumina por igual en todas las

    direcciones. La relacin entre el flujo incidente en la superficie respecto al rea, define

    la iluminacin como:

    22

    2 coscos

    r

    lnI

    r

    I

    dA

    r

    AdI

    dA

    dI

    dA

    dE

    De otro lado, a la fraccin del flujo incidente que

    sea reflejada en la direccin del observador, esto es, desde

    la superficie al sensor se la llama radiacin reflejada o

    luminancia. La radiacin reflejada de la superficie es

    definida como el flujo emitido por unidad de rea reflejada

    y por unidad de ngulo slido en la direccin vista por el

    sensor. Se define la radiacin radiada, L, como:

    (1. 5)

    Figura 1. 8 Iluminacin en dA

    ( 1.6 )

    S

    n

    d A

    l

    S

    n

    d A

    l

    V

    n

    dA

    v

    V

    n

    dA

    v

    Figura 1. 9 Radiacin vista por v

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 19

    2

    c o s c o sr r r a p a ren te

    d d I d I IL

    d A d d A d A n v S

    donde dr es el ngulo slido del sensor visto desde la superficie reflejada.

    Considerando que la superficie es iluminada desde una direccin i, se define la funcin

    de distribucin reflejada bidireccional ( bi-directional reflectance distribution function,

    BRDF), Fr de una superficie, como el nivel de radiacin reflejada de una luz incidente

    vista desde (r r) por unidad de iluminacin incidente:

    ii

    rr

    rir

    E

    LF

    ,

    En la tabla 1.1 aparecen las magnitudes radiomtricas en el Sistema

    Internacional y en unidades derivadas del Sistema Internacional4:

    Ejemplo 1.3

    Un rel es controlado por una clula fotoelctrica. sta tiene una abertura de 15

    mm x 40 mm y requiere al menos un flujo mnimo de 0.3 mW. A que distancia

    mxima se pondr un emisor puntual que tiene como intensidad 1 W/sr?

    mE

    Id

    mWE

    41.1

    /5.010401015

    103.0

    max

    2

    33

    3

    4 La candela es la intensidad luminosa, en una direccin dada, de una fuente que emite una

    radiacin monocromtica de frecuencia 5.4 1014

    Hz y cuya intensidad energtica en esa direccin es

    1/683 vatios por estereorradin (W/sr)

    ( 1.7 )

    ( 1.8 )

    Magnitud fsica Smbolo Unidad en S.I. Unidades derivadas del S.I.

    Flujo luminoso W Lumen(Cd sr)

    Intensidad luminosa I W sr-1 Candela (Cd)

    Iluminacin E W m-2 Lux(Lumen/m2)

    Radiacin o luminancia

    L W m-2 sr-1 Cd/m2

    Tabla 1.1 Unidades del S.I. de las magnitudes de Radiometra

  • Carlos Platero Apuntes de Visin Artificial

    20 Dpto. Electrnica, Automtica e Informtica Industrial

    Ejemplo 1.4

    Cul es la potencia del Sol, si se sabe que la luz tarda 8 minutos en llegar a la

    Tierra y la radiacin incidente en la Tierra es de 1kW/m2?. Y la temperatura del Sol, si

    el radio es de 6.96108 m?

    WI

    srWdEI

    26

    1252

    832

    106.24

    1007.210360810

    KKmW

    mWTTKEmW

    RE

    SB5232

    /107.5

    /1027.4/1027.4

    4

    4

    1

    428

    27

    427

    2

    1.2 Visin humana y visin artificial

    La visin es el sentido ms importante que tiene el ser humano. As, mientras

    que para el odo se tiene alrededor de treinta mil terminaciones nerviosas, en la vista hay

    ms de dos millones. La radiacin exterior recibida por el ojo debe ser transformada en

    seales que sean procesadas por el cerebro. El ojo es el elemento transductor mientras

    que el cerebro es el que procesa dicha informacin.

    El ojo tiene una forma, aproximadamente, esfrica de unos 2.5 cm de dimetro.

    El ojo est formado por una ptica y una zona sensorial. La ptica est constituida por

    la crnea, el iris o pupila y el cristalino. La cornea es un material transparente y

    funciona como lente fija. La pupila regula la cantidad de luz que entra en el interior y el

    cristalino hace las veces de lente variable, permitiendo el enfoque dependiendo de la

    distancia de los objetos. Los msculos que sujetan al cristalino provocan su

    deformacin, cuya consecuencia es el enfoque del campo visual. La misin de la ptica

    del ojo es conducir la radiacin electromagntica, del espectro visible, hacia la retina.

    Figura 1. 10 Secciones del ojo

    La retina se encuentra en la parte posterior del glbulo ocular y es donde se

    ubican las clulas fotosensibles: los conos y los bastones.

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 21

    Figura 1. 11 Clulas fotosensibles

    En la retina se puede distinguir dos partes: la fvea y la mcula. La fvea es la

    parte central de la retina, de menor tamao y donde se encuentran los conos. Es en esta

    zona donde se tiene mayor sensibilidad a la longitud de la onda electromagntica, con

    un ngulo visual de dos grados. La abertura corresponde, aproximadamente, con el

    ancho del pulgar extendido el brazo. La fvea es tan pequea que es necesario mover el

    ojo para enfocar dos puntos tan prximos como los del signo de puntuacin (:). Esta

    informacin visual transmitida al cerebro se llama visin fvea. La mcula es de mayor

    extensin, la agudeza visual es menor y est definida por los bastones. Esta zona se

    encarga de la visin perifrica.

    La percepcin del color de una imagen la realiza los conos. Son unos seis

    millones y cada cono tiene conexin a varias neuronas. Basndose en la informacin

    aportada por los conos, el cerebro construye la sensacin de color. Por el contrario, los

    bastones son ms de 100 millones y son capaces de detectar la intensidad lumnica.

    Varios bastones estn asociados a una nica neurona.

    Figura 1. 12 Distribuciones de conos y bastones en la retina

    Mientras la visin fvea tiene mayor agudeza, ms resolucin y percibe los

    colores, la visin perifrica le da al cerebro ms informacin espacial que la fvea y

    realza los contrastes. De este hecho se destaca que en la oscuridad, la visin perifrica

    es ms adecuada que intentar centrar la visin sobre el objeto.

  • Carlos Platero Apuntes de Visin Artificial

    22 Dpto. Electrnica, Automtica e Informtica Industrial

    Figura 1. 13 Sensibilidad del ojo en luz diurna y en visin nocturna

    La sensibilidad a la intensidad en el ser humano es alta siempre que los

    elementos que se comparen sean pocos. Cuando el nmero de intensidades involucradas

    simultneamente es superior a unos 24 tonos se pierde la mayor parte de esta

    sensibilidad. Esto explica que, en la mayora de los casos prcticos, sea suficiente el uso

    de 32 64 niveles de intensidad para representar una imagen.

    El color es una caracterstica del sistema de percepcin humana y est

    relacionado con las sensaciones recibidas por el ojo en el espectro visible. El color es la

    respuesta del sistema visual humano ante las variaciones de las longitudes de onda del

    espectro electromagntico visible. Estudios fisiolgicos han revelado que existen tres

    tipos de conos, denominados tipos S, M y L. Los S son ms sensibles a las ondas cortas

    (azules 450nm), los M a las medias (verde 540 nm) y los L a las de longitudes largas

    (rojo - 650 nm). Este hecho ha dado base a la teora del triestimulo, de manera que el

    color se puede representar en una base de tres componentes fundamentales: rojo-verde-

    azul (RGB Red, Green, Blue).

    La sensibilidad de cada cono no es exactamente igual a cada parte del espectro

    fijado. Concretamente, los conos azules son los menos sensibles, mientras que los conos

    verdes son los ms sensibles. Otra consideracin a tener en cuenta es la refraccin de los

    rayos luminosos que penetran en la retina. No todos afectan por igual. La luz de alta

    frecuencia (azul) focaliza en un punto anterior a la retina, mientras que las bajas

    frecuencias (rojos) lo hacen en puntos posteriores. Esto tiene como consecuencia que

    los detalles rojos o azules no puedan distinguirse netamente en una escena. Justo lo

    contrario de lo que ocurre con los verdes, cuyo punto de convergencia o focalizacin se

    sita exactamente en la retina, lo que induce a una mayor resolucin del ojo para estas

    tonalidades.

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 23

    Figura 1. 14 a) Distorsin cromtica b) Sensibilidad del ojo a la longitud de onda

    Una vez que la seal luminosa ha sido transformada en pulsos elctricos por los

    conos y bastones, stos son transportados al cerebro por los nervios pticos. Los pulsos

    son llevados al lbulo occipital, donde se encuentra el crtex visual. Es una zona de 24

    cm2 con 1.510

    8 neuronas. Al hemisferio derecho llega la informacin del ojo izquierdo

    y viceversa. En el cerebro se realiza una labor de extraccin de las caractersticas de la

    imagen. Para ello existen zonas especializadas que responden mejor a un tipo de

    caracterstica que a otras.

    Figura 1. 15 Crtex visual

    El hombre ha imitado muchas veces, en la construccin de sus artefactos, a la

    Naturaleza. En este caso tambin se cumple. Las cmaras de vdeo con sus pticas

    hacen las veces del globo ocular, mientras el computador realizar las tareas de

    procesamiento, emulando el comportamiento del cerebro. Cuando se establecieron en la

    dcada de los 50 del siglo XX, los objetivos de la Inteligencia Artificial, se supona que

    con la llegada del siglo XXI habra mquinas que seran capaces de describir, con

    informacin de alto nivel, las escenas capturadas. Con el paso del tiempo se vio que

    aquel anhelo se iba desvaneciendo. Hoy en da, todava no hay una teora de la visin.

    No se conoce los mecanismos que el cerebro utiliza para obtener la informacin de la

    percepcin. El cerebro es capaz, de manera inconsciente, de determinar la distancia a los

    objetos, de reconocerlos en diferentes posiciones, aunque se encuentren rotados y con

  • Carlos Platero Apuntes de Visin Artificial

    24 Dpto. Electrnica, Automtica e Informtica Industrial

    informacin parcialmente oculta. En definitiva, el cerebro presenta una sofisticacin en

    la percepcin que ni ahora ni en mucho tiempo habr posibilidad de implementar

    artificialmente.

    Figura 1. 16 Imitacin artificial del ojo

    Lo que si hace la Visin Artificial es construir nuevos y ms sofisticados

    algoritmos que sean capaces de obtener informacin de bajo nivel visual. Y aunque

    todava se est aos luz de la percepcin visual de los seres vivos, la Visin Artificial es

    muy eficaz en tareas visuales repetitivas y alienantes para el hombre. Por ejemplo, en el

    campo de la inspeccin de productos en la industria o en contar clulas en una imagen

    de microscopa o en determinar la trayectoria de un vehculo en una autopista.

    Resumiendo, las principales ventajas de la visin humana respecto a la artificial

    y viceversa, son:

    Sistema humano:

    Mejor reconocimiento de objetos.

    Mejor adaptacin a situaciones imprevistas.

    Utilizacin de conocimiento previo.

    Mejor en tareas de alto nivel de proceso.

    Sistema artificial:

    Mejor midiendo magnitudes fsicas.

    Mejor para la realizacin de tareas rutinarias.

    Mejor en tareas de bajo nivel de proceso.

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 25

    1.3 Configuracin bsica de un sistema de Visin Artificial

    Los dos pilares del sistema fsico de la visin artificial son: el sistema de

    formacin de las imgenes y el sistema de procesamiento de stas. En el primer

    apartado estara constituido por el subsistema de iluminacin, de captacin de la imagen

    y de adquisicin de la seal en el computador. Una vez introducida la seal en el

    computador, sta es procesada mediante los algoritmos para transformarla en

    informacin de alto nivel. La cual puede ser utilizada para su representacin visual, para

    actuar en el planificador de un robot o ser fuente de datos para un autmata

    programable. En definitiva, mltiples perifricos pueden ser receptores de esta

    informacin y vincularse con el sistema de procesamiento de las imgenes.

    Desgranado las peculiaridades de cada subsistema, stas tienen las siguientes

    reflexiones introductorias:

    Subsistema de iluminacin: conjunto de artefactos que producen radiacin electromagntica para que incidan sobre los objetos a

    visualizar. Se puede citar algunos elementos como lmparas, pantallas

    fotogrficas, filtros de luz, lseres,

    Subsistema de captacin: son los transductores que convierten la radiacin reflejada luminosa en seales elctricas. Fundamentalmente se

    habla de las cmaras CCD, no slo en el espectro visible, sino que van

    desde la radiacin gamma hasta la radiofrecuencia o microondas, dando

    paso a sensores de ultrasonidos, sonar, radar, telescopa,

    Subsistema de adquisicin: la seal elctrica procedente de las cmaras forman la seal de vdeo. Hay una tendencia creciente a que su

    naturaleza sea de tipo digital, pero todava existen muchas seales de

    vdeo de carcter analgico (CCIR, PAL, RS170, NTSC,). Para ser

    tratadas hay que muestrearlas y cuantificarlas. Ambas tareas son

    realizadas por las tarjetas de adquisicin. Tambin se las llama frame

    grabbers. Se depositan en el bus de expansin del computador. Existen

    tarjetas para buses desde PCI hasta VMP. Aunque actualmente se est

    imponiendo las tecnologas de USB o FireWire.

    Subsistema de procesamiento: Suele ser un computador o un grupo de computadores, dependiendo de las necesidades de los algoritmos de

    Visin Artificial. Parten de una representacin digital de las imgenes y

    procesan esta informacin hasta alcanzar otro tipo de informacin de ms

    alto nivel. La transformacin depender de la algoritmia.

    Subsistemas de perifricos: conjunto de elementos receptores de la informacin de alto nivel. Puede ser un monitor de altas prestaciones

    grficas, un automatismo, una impresora sacando las caractersticas,

  • Carlos Platero Apuntes de Visin Artificial

    26 Dpto. Electrnica, Automtica e Informtica Industrial

    Figura 1. 17 Subsistemas fsicos de un equipo de visin artificial

    1.3.1 Representacin de las imgenes en los computadores digitales

    Aunque el sistema de visin humano tiene mayor resolucin en la fvea y menos

    en la periferia, se ha observado que a pesar de que la distribucin de los fotorreceptores

    no es uniforme, la percepcin visual si lo es. Los humanos percibimos con una nica

    resolucin. Esta circunstancia ha conducido a la utilizacin de sensores con matrices de

    resolucin uniforme. Por tanto, la organizacin corresponde a una matriz 2D uniforme.

    Las imgenes para ser procesadas en el computador han sido adquiridas a travs

    de la cmara de vdeo y puestas en su memoria empleando las tarjetas de adquisicin de

    vdeo. Esta seal es de carcter bidimensional y emplea variables discretas. Los

    elementos de la matriz se llaman pxeles. El acceso a esta elemental informacin se hace

    indicando la fila y la columna que ocupa. El origen de coordenadas de la imagen se

    encuentra en la esquina superior izquierda. El eje horizontal corresponde con las

    columnas y el eje vertical con las filas. Se emplearn ndices enteros para posicionar el

    pxel. Se denotar el valor del pxel a travs de una funcin, del tipo f(x,y), siendo x el

    ndice de la fila e y de la columna.

    Si la imagen es acromtica, slo se presenta la luminancia, esto es, los niveles de

    grises. La funcin f(x,y) retornar el nivel de gris del pxel mencionado. En caso de que

    la imagen sea en color, f(x,y) devolver un vector. Normalmente suele expresarse como

    una proyeccin del color sobre el sistema RGB (Red-Green-Blue).

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 27

    Figura 1. 18 Organizacin matricial uniforme de una imagen digital

    La imagen puede ser de tipo 3D, por ejemplo, en resonancia magntica, luz

    estructurada, etc. stas se presentan como una pila de imgenes 2D. Se les aade otro

    ndice, denominado k o z, que indica el orden de la rodaja de imagen 2D dentro de la

    pila.

    La secuencia temporal de imgenes estticas da lugar al vdeo. En el cine se

    emplea 25 fotogramas por segundo, gracias a la inercia visual del ojo humano, da

    sensacin de continuidad en la escena.

    1.3.2 Etapas bsicas de una aplicacin en Visin Artificial

    Aunque cada aplicacin de Visin Artificial tiene sus especificidades, se puede

    decir que existe un tronco comn de etapas entre ellas. No necesariamente debe cubrirse

    todas en una implementacin concreta. Hay algunas veces que slo se tiene un

    subconjunto de las fases que se van a citar. Por otro lado, aunque la exposicin muestra

    un encadenamiento temporal de una etapa sobre otra, no es real esta simplificacin; se

    hace para facilitar la comprensin. En la puesta en prctica siempre hay

    realimentaciones entre las distintas fases.

    La primera etapa es la construccin del sistema de formacin de las imgenes.

    Su objetivo es realzar, mediante tcnicas fotogrficas (iluminacin, ptica, cmaras,

    filtros, pantallas,...), las caractersticas visuales de los objetos (formas, texturas, colores,

    sombras,...). El xito de muchas aplicaciones depende de un buen diseo en esta primera

    etapa. El segundo captulo se dedicar a estas tcnicas.

    Una vez adquirida la imagen se pasar a la etapa de preprocesado. El objetivo es

    mejorar la calidad informativa de la imagen adquirida. Se incluyen operaciones de

  • Carlos Platero Apuntes de Visin Artificial

    28 Dpto. Electrnica, Automtica e Informtica Industrial

    mejora de la relacin seal-ruido (denoising), SNR5, de atenuar las imperfecciones de la

    adquisicin debido a la funcin de transferencia del sistema de captacin de imgenes

    (deconvolution), de regularizar la imagen, de mejorar el contraste o de optimizar la

    distribucin de la intensidad (enhancement) o de realzar algunas caractersticas de la

    imagen, como bordes o reas. Algunas de estas prcticas sern desarrolladas en el tercer

    y cuarto captulo.

    Figura 1. 19 Etapas de una aplicacin de visin artificial

    Segmentacin es la fase donde se particiona la imagen en regiones con

    significado. Por ejemplo, en una imagen de satlite se determina las zonas de agua, de

    cultivo, urbanas, carreteras,... Existen varias tcnicas: umbralizaciones,

    discontinuidades, crecimiento de regiones, uso del color o de movimiento, etc. Estas

    estrategias sern analizadas en el captulo quinto.

    Una vez dividida la imagen en zonas con caractersticas de ms alto nivel se

    pasar a su extraccin de las caractersticas. Bsicamente son de tipo morfolgico, tales

    como rea, permetro, excentricidad, momentos de inercia, esqueletos, pero tambin se

    puede emplear caractersticas basadas en la textura o en el color.

    Fjese que se ha pasado de una informacin visual primaria a algo ms

    elaborado. Con las caractersticas analizadas de cada regin se debe de clasificar e

    interpretar. Por tanto, se disearn clasificadores que le d a cada regin segmentada

    una etiqueta de alto nivel, como por ejemplo, en una imagen area qu zonas son tierras

    de cultivo, reas urbanas, etc. Existe un elenco de tcnicas de clasificacin, como redes

    5 SNR=10 log(Pseal/Pruido), indicando P la potencia

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 29

    neuronales, sistemas expertos, lgica borrosa, clasificadores estadsticos, etc. stas se

    vern muy someramente en el captulo sptimo.

    Otras presentaciones sobre las distintas etapas de la Visin Artificial son

    expuestas por otros autores. La ms clsica es la dada por Gonzalez y Woods

    mencionando tres tipos de nivel de informacin: bajo, medio y alto. La informacin de

    bajo nivel est dada por las etapas de adquisicin y procesado, las de medio nivel son

    las de segmentacin y extraccin de las caractersticas y las de alto nivel con las etapas

    de reconocimiento e interpretacin.

    El valor aadido de esta presentacin es la ubicacin del conocimiento en el

    centro de todas estas etapas. Los desafos del anlisis de imgenes son

    extraordinariamente complejos y exigen de un conocimiento a priori sobre su

    problemtica. La mayora de las escenas que aborda la Visin Artificial son

    estructuradas, i.e. todos los elementos de iluminacin estn determinados y los objetos a

    capturar son previsibles. Por el contrario, una escena es no estructurada, cuando los

    objetos a visualizar son imprevisibles y la iluminacin puede variar con el tiempo.

    Desde luego, la complejidad de los escenarios no estructurados se suele salir de la

    disciplina de la Visin Artificial.

    Figura 1. 20 Niveles de procesamiento: bajo, medio, alto

    Por ltimo, indicar que la evolucin de las etapas, en forma de flujograma, es

    una simplificacin. En la puesta en prctica exige constantes realimentaciones entre los

    distintos niveles de informacin, interactuando, adems, con el conocimiento. Como se

    ha comentado, el objetivo de la Visin Artificial es hacer algoritmos ms sofisticados.

    En un futuro, que parece muy lejano, se deseara que ante un escenario cualquiera, la

    mquina pudiera describir con sentencias de alto nivel, las imgenes que est captando.

    El mundo del cine se ha hecho eco de estas cualidades de percepcin, mostrndolo

    como algo cercano en el tiempo y este autor piensa que ni en muchos aos estar.

  • Carlos Platero Apuntes de Visin Artificial

    30 Dpto. Electrnica, Automtica e Informtica Industrial

    1.4 Disciplinas relacionadas con la Visin Artificial

    Un proyecto de Visin Artificial suele ser de tipo multidisciplinar. La ejecucin

    de las distintas etapas, mencionadas en el apartado anterior, requiere del manejo de las

    siguientes tcnicas:

    Fotografa y ptica: crear el ambiente de iluminacin adecuada en la adquisicin de las imgenes, muchas veces requiere del uso de tcnicas

    profesionales de fotografa y vdeo. La seleccin de la ptica y de la

    cmara, el uso de filtros y polarizadores, las tcnicas de iluminacin con

    pantallas y la eleccin de los tipos de focos son algunas habilidades que

    se pueden mencionar.

    Procesamiento Digital de las Imgenes (Image Processing): hace referencia a los algoritmos de computacin que convierte la imagen

    digital adquirida en otra de mayor relevancia. Es muy difuso la

    separacin entre el procesamiento de imgenes y la Visin Artificial.

    Reconocimiento de Patrones (Pattern Recognition): disciplina, dentro de la Inteligencia Artificial, dedicada a la clasificacin de las seales y a la

    bsqueda de patrones existentes dentro de stas. Se encuentran incluidas

    las tcnicas de clasificadores estadsticos, Redes Neuronales, Sistemas

    Expertos, Lgica Borrosa, ...

    Computacin Grfica (Computer Graphics): presenta el problema inverso de la Visin Artificial. Si en Visin se desea extraer las

    caractersticas fsicas de las imgenes, la Computacin Grfica se dedica

    a la presentacin visual de los modelos geomtricos. Cada vez ms, la

    Visin Artificial emplea la Computacin Grfica para representar las

    conclusiones extradas del anlisis de las imgenes adquiridas.

    La naturaleza del proyecto hace que se incida en una disciplina ms que en otra.

    Por ejemplo, en un problema de inspeccin visual de piezas, la parte de la formacin de

    las imgenes suele ser fundamental, mientras que un anlisis de imgenes de una

    tomografa tiene ms importancia el procesamiento y la computacin grfica.

    1.5 Aplicaciones

    El nmero de aplicaciones relacionadas con la Visin Artificial aumenta cada

    da. En la tabla adjunta se citan algunos de los campos donde es empleada esta

    disciplina.

  • Apuntes de Visin Artificial Captulo 1: Introduccin a la Visin Artificial

    Dpto. Electrnica, Automtica e Informtica Industrial 31

    rea de produccin Aplicacin

    Control de calidad

    Inspeccin de productos

    (papel, aluminio,

    acero,...)

    Astronoma

    Exploracin del Espacio

    Identificacin de piezas Reconocimiento de

    caracteres

    Control de cheques,

    inspeccin de textos, ...

    Etiquetados (fechas de

    caducidad,...) Control de trfico

    Matrculas de coches

    Inspeccin de circuitos

    impresos

    Trfico viario

    Control de calidad de los

    alimentos (naranjas,...) Meteorologa

    Prediccin del tiempo

    Robtica

    Control de soldaduras

    Agricultura

    Interpretacin de

    fotografas areas

    Guiado de robots

    (vehculos no tripulador)

    Control de plantaciones

    Biomdicas

    Anlisis de imgenes de

    microscopa ( virus,

    clulas, proteinas ) Militares

    Seguimiento de objetivos

    Resonancias magnticas,

    tomografas, genoma

    humano

    Vigilancia por satlites

    Tabla 1.2 Aplicaciones de la visin artificial

  • Carlos Platero Apuntes de Visin Artificial

    32 Dpto. Electrnica, Automtica e Informtica Industrial

    1.6 Problemas

    1. Teora dual de la luz.

    2. Flujo luminoso, intensidad lumnica, iluminacin y radiacin.

    3. Temperatura de color.

    4. Visin fvea y visin perifrica.

    5. Comparacin entre la visin humana y la artificial.

    6. Arquitectura fsica de un sistema de Visin Artificial.

    7. Etapas que se aplican en un proyecto de Visin Artificial.

    8. Disciplinas relacionadas con la Visin Artificial.

    9. Aplicaciones y reas en las que trabaja la Visin Artificial.

    Derecho de Autor 2013 Carlos Platero Dueas.

    Permiso para copiar, distribuir y/o modificar este documento bajo los trminos

    de la Licencia de Documentacin Libre GNU, Versin 1.1 o cualquier otra

    versin posterior publicada por la Free Software Foundation; sin secciones

    invariantes, sin texto de la Cubierta Frontal, as como el texto de la Cubierta

    Posterior. Una copia de la licencia es incluida en la seccin titulada "Licencia de

    Documentacin Libre GNU".

    La Licencia de documentacin libre GNU (GNU Free Documentation License)

    es una licencia con copyleft para contenidos abiertos. Todos los contenidos de estos

    apuntes estn cubiertos por esta licencia. La version 1.1 se encuentra en

    http://www.gnu.org/copyleft/fdl.html. La traduccin (no oficial) al castellano de la

    versin 1.1 se encuentra en http://www.es.gnu.org/Licencias/fdles.html

    http://es.wikipedia.org/wiki/Copylefthttp://es.wikipedia.org/w/wiki.phtml?title=Contenidos_abiertos&action=edithttp://www.gnu.org/copyleft/fdl.htmlhttp://www.es.gnu.org/Licencias/fdles.html