Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de...

20
1 Busqueda Busqueda por por Contenido Contenido Visual: TREC Visual: TREC 2003 y la Web 2003 y la Web Chilena Chilena Alejandro Jaimes, Javier Ruiz-del-Solar, R. Verschae, Dinko Yaksic, Ricardo Baeza- Yates, Emilio Davis, Carlos Castillo CIW, DIE UNIVERSIDAD DE CHILE Contenido Contenido Introduccion TREC 2003 La Web Chilena Conclusiones y Trabajo Futuro

Transcript of Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de...

Page 1: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

1

BusquedaBusqueda porpor ContenidoContenido Visual: TREC Visual: TREC2003 y la Web 2003 y la Web ChilenaChilena

Alejandro Jaimes, Javier Ruiz-del-Solar, R.Verschae, Dinko Yaksic, Ricardo Baeza-

Yates, Emilio Davis, Carlos Castillo

CIW, DIEUNIVERSIDAD DE CHILE

ContenidoContenido

� Introduccion

� TREC 2003

� La Web Chilena

� Conclusiones y Trabajo Futuro

Page 2: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

2

IntroduccionIntroduccion

� Grandes cantidades diarias de video e imagenes

� Limitaciones de tiempo y otros recursos

� Objetivo es permitir busqueda eficiente, porcontenido visual, en grandes archivos de imagenesy video

BusquedaBusqueda porpor ContenidoContenido

Lo que aparece en la imagen…

Page 3: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

3

BusquedaBusqueda porpor ContenidoContenido

Lo que aparece en la imagen…

TrabajoTrabajo Anterior Anterior

� Deteccion de objetos– Caras, cielo, edificios, vegetacion, etc.

� Clasificacion de escenas– Recinto cerrado (indoor), aire libre (outdoor), cuidad, paisaje,

etc.

� Video– Deteccion de escenas (scene cut detection)

� Muldimodal– Audio, texto, etc.

Page 4: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

4

CambioCambio de de EscenaEscena

BusquedaBusqueda porpor ContenidoContenido U. Chile U. Chile

� TREC 2003

� Web de Chile

Page 5: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

5

TREC 2003: TREC 2003: ObjetivosObjetivos

� Desarrollar proyecto de busqueda multimedia en launiversidad

� Formar alianzas de trabajo con lideres en el area

� Crear librerias de software para continuar este yotros proyectos relacionados

� Avanzar en investigacion

TREC 2003 TREC 2003 (National Institute for Standards & Technology)(National Institute for Standards & Technology)

� Objetivos generales– Promover progreso en busqueda por contenido mediante un

foro de participacion abierta

� Participantes– U. Chile, Columbia U., IBM Watson, IBM Almaden, CMU,

EUROCOM, NUS, etc,

� Tareas– Deteccion, busqueda, cambio de escena, segmentacion por

temas

� Datos– Aprox. 130 horas de video (noticas de CNN, ABC y C-SPAN)

Page 6: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

6

TREC 2003TREC 2003

� Deteccion– Outdoors, Building, Road, Vegetation, Animal, Female

speech, Car/truck/bus, Aircraft, Non-studio setting,Sporting event, Weather news, Zoom in, Physical violence

– News subject face, News subject monologue, PeoplePerson x (Madeline Albright)

� Busqueda de “temas”– Interactiva (varias iteraciones)

– Automatica (un solo “query”)

TREC 2003: TREC 2003: BusquedaBusqueda de de TemasTemas

Page 7: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

7

TREC 2003TREC 2003

TREC 2003: TREC 2003: FasesFases

� I. Anotacion

� II. Deteccion

� II. Busqueda

Page 8: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

8

TREC 2003: TREC 2003: EjemploEjemplo AnotacionAnotacion

– Verwww.alphaworks.ibm.com(VideoAnnex)

TREC 2003- TREC 2003- AnotacionAnotacion

� Objetivos– Colaborar con mas de 20 grupos internacionales de

investigacion para dividir la tarea

� Tareas– Anotar manualmente 9 videos

� Resultados (anotacion preliminar)– 18,450 anotaciones (20 videos)– Mas frecuentes: texto, persona, cara, texto escena, cielo,

vegetacion, edificio, auto, arbol, etc.

Page 9: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

9

TREC 2003- TREC 2003- DeteccionDeteccion

� Objetivos– Construir una libreria de detectores genericos (texto,

persona, cara, texto escena, cielo, vegetacion, edificio, auto,arbol, etc.)

– Construir detectores especificos (deteccion y reconocimientode caras)

– Clasificadores de escenas (presentador, close-up, etc.)

� Tareas– Extraer rasgos (color, textura, forma)– Entrenar clasificadores– Combinar detectores

TREC 2003- TREC 2003- DeteccionDeteccion GenericaGenerica

� Rasgos

– Area (1)– Radio de aspecto (alto/ancho) (1)– Centro de imagen (c/r a imagen original si es subimagen) (2)– Promedio de colores de pixeles en HSV (3)– Color dominante de pixeles cuantizados en HSV (3)– Cantidad de colores de percentil de presencia mayor a 2% (1)– Histogramas de bordes (4)– Textura

� Usar bloques

Page 10: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

10

TREC 2003- TREC 2003- DeteccionDeteccion de de CarasCaras

� Arquitectura general

H(x)Clasificador

Pre -Procesamiento

Extractor deVentanas

……AnálisisMulti-Resolución

Imagen de Entrada Ventanas a ProcesarImágenes a MúltiplesEscalas

Procesamientode DeteccionesSobrepuestas

No-Cara

Cara

TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras

� Detector Cascada

Filtro 2Filtro 1

Ventana deNo-Cara

Extractorde Ventanas

Filtro 21

Ventana deNo-CaraVentana de

No-Cara

……AnalisisMultiresolution

Imagen de Entrada Ventanas a ProcesarImagenes a MultiplesEscalas

Procesamientode DeteccionesSobrepuestas

Page 11: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

11

TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras

� Detector Hibrido

Filtro 3Filtro 2

Ventana deNo-Cara

Extractor deVentanas

Filtro 4 Filtro 21

Ventana deNo-Cara

Ventana deNo-Cara

Ventana deNo-Cara

Pre-Procesamiento

Detector deCaras

Wavelet

……AnalisisMultiresolution

Filtro 1

Ventana deNo-Cara

Imagen de Entrada Ventanas a ProcesarImagenes a MultiplesEscalas

…Procesamientode DeteccionesSobrepuestas

TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras

� Filtro piel

Page 12: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

12

TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras

� Arquitectura Final

Filtro 3Filtro 1

Ventana deNo-Cara

Extractorde

Ventanas

Filtro 4 Filtro 21

Ventana deNo-Cara

Ventana deNo-Cara

Ventana deNo-Cara

Pre-Procesamiento

Detector deCaras

Wavelet

……AnalisisMultiresolution

Filtro Piel

Ventana deNo-Cara

Imagen de Entrada Ventanas a ProcesarImagenes a MultiplesEscalas

…Procesamientode DeteccionesSobrepuestas

TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras

� Resultados (Sin piel)Híbrido (2 Seg.)Wavelet (30 Seg.)Cascada (0.5 Seg.)

Page 13: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

13

TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras

� Resultados (Con y sin piel)

TREC 2003- TREC 2003- NivelesNiveles AdicionalesAdicionales

Page 14: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

14

ArquitecturaArquitectura de de InterfazInterfaz

Categorías:Forma de organizarlas imágenes

Elementos:Subdirectorios oimágenes asociadasa la categoría(keyframes)

ArquitecturaArquitectura de de InterfazInterfaz

� Lógico

� Físico

Categorías

Subdirectorios...Imágenes similares

según rasgo

Imágenes...

Video/Grupo/

...

DirectoriosPrincipales

...

Video1/Video2/Video3/

...

Subdirectorios

Enlaces aImágenes

...Base deDatos

Enlaces aImágenes

= Selección= Búsqueda

Page 15: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

15

ArquitecturaArquitectura de de InterfazInterfaz

� Características– Facil de usar (tipo “browser”)

– Facil crear nueveas categorias (nuevosdirectorios � nuevas categorías)

– Escalable en cantidad de imágenes

– Escalable en cantidad de rasgos por imagen

BBúúsquedasqueda de de RasgosRasgos SimilaresSimilares

� Se busca las imágenes con mínima distancia euclidianapara el rasgo de la imagen seleccionada

Rasgo(s) seleccionado(s)en imagen

Rasgo(s)*

Imagen*

Base de Datos

Tabla de Rasgos

UbicaciónImágenesSimilares

Sistema deArchivos

Servidor Web

123

ImágenesSimilares

Imagen ... Rasgo

Se retorna las primeras N imágenes x, que satisfacen:Min[ (Rasgo1(x)-Rasgo1*)2 + (Rasgo2(x)-Rasgo2*)2 +...) ], tal que x � Imagen*

Page 16: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

16

Web de ChileWeb de Chile

� Objetivos– Hacer un estudio, usando erramientas de busqueda por

contenido, sobre las imagenes en el web de Chile

� Tareas– Obtener un gran numero de imagenes de la web chilena

– Obtener estadisticas sobre las imagenes obtenidas

– Detectar caras automaticamente

– Extraer rasgos visuales y agrupar las imagenes

Web de Chile: Web de Chile: obtencionobtencion de de imagenesimagenes

� Dominios– Solo dominios .cl (exluyen https)

� Paginas– 15 niveles para paginas estaticas– 6 niveles para paginas dinamicas– Exluidas paginas marcadas “no-indexables”

� Seleccion– Todas las imagenes (.jpg, .bmp, .gif., etc.)– Excluidas .gif

Page 17: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

17

Web de ChileWeb de Chile

� Ejemplos (IR VIEW)

Web de ChileWeb de Chile

� Resultados Caras

Page 18: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

18

Web de Chile (WEKA)Web de Chile (WEKA)

� Resultados rasgos(mostrar weka)

Web de ChileWeb de Chile

� Estadisticas Web (aprox., 2002)

– No. Paginas 2 millones– Sitios: 38,307– Dominios: 34,867

� Estadisticas 2003– No. paginas bajadas: 800,000– No. links: 1´700,000

Page 19: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

19

Web de Chile: Web de Chile: estadisticasestadisticas preliminarespreliminares

� Diponible incialmente: 8.1 millones de links a imagenes� 76 % gif� 20 % jpg� 0,69 % png� 0,12 % jpe� 0.04 % bmp� 3% no disponibles/malos

� Se seleccioaron jpg, pgn, bmg, jpeg– 1.7 millones de links a imagenes

� Se eliminaron linkeadas con php– 1.4 millones

� Se eliminaron repetidas (Obvias)– 600.000

� Aleatoreamente– 100,000 quedearon 72,000

� Caras detectadas: 16,306 (sin piel); 15,000 (con piel)

ConclusionesConclusiones

� Inicio de una libreria para la extraccion derasgos visuales en imagenes

� Interfaz flexible para visualizar coleccionesde imagenes

� Mejoramiento de detector de caras

� Inicio primer estudio sobre imagenes en laweb chilena

Page 20: Busqueda por Contenido Visual: TREC 2003 y la Web Chilena · Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos

20

TrabajoTrabajo FuturoFuturo: TREC 2003: TREC 2003

� Deteccion

– News subject face, News subject monologue, People Person x(Madeline Albright)

– Vegetation, Aircraft, Outdoors, Building, Road, Animal,car/truck/bus, Non-studio setting

– Female speech, Sporting event, Weather news, Zoom in,Physical violence

� Busqueda

– Automatica (un solo “query”)

– Interactiva (varias iteraciones)

TrabajoTrabajo FuturoFuturo: Web de Chile: Web de Chile

� Aplicar detectores a imagenes de la web

� Agrupar imagenes de acuerdo a rasgos

� Obtener nuevas estadisticas de acuerdo adetectores

� Integrar con informacion textual