Download - Otra forma de escuchar a través de Internet (BiMe), Gonzalo Ruiz

Otra forma de escuchar a través de Internet Gonzalo Ruiz – [email protected]

31 de octubre de 2014

Índice •  Introducción •  Qué es el scraping •  Qué hemos hecho en Aragon Open

Social Data •  Qué ofrecemos al público

•  Cómo se puede utilizar en el ámbito de la música

31 de octubre de 2014 2

Qué es el BIFI •  Instituto de Biocomputación y Física de

Sistemas Complejos de la Universidad de Zaragoza

•  Multidisciplinariedad – Bioquímica – Biofísica – Física – Computación


Redes complejas •  Grafo con una serie de características

especiales (estructura en comunidades, jerarquía, etc.)

•  Ej.: las redes sociales, foros, prensa online, Internet… -> datos relacionados

•  Experimentos dilema del prisionero, análisis del movimiento del 15m, Universidad de Zaragoza, collective music experiment en SONAR, etc.


Kampal •  Este tipo de análisis tiene mucho

potencial: – Marketing

– Prensa –  Imagen de marca – Toma de decisiones estratégicas

•  Creación de una spin-off para ofrecer estos servicios a empresas


Jacathon


Qué es el scraping •  Internet es una gran base de datos •  Algunos sitios proveen herramientas

para descargarlos (APIs, servicios web, etc.) -> JSON, XML

•  En los que no, el formato es muy heterogéneo -> HTML, XML, KML, AJAX

•  Técnica para extraer datos de sitios web a través de programas


Scraper •  Programas que simulan las visitas que

muchos usuarios harían •  Normalmente el usuario ve la

información a través de un navegador

•  Problemas según las fuentes: – Cuestiones legales – Límites


Tecnologías •  Existen multitud de librerías en distintos

lenguajes (Java, Python, Ruby, …) •  Necesitamos esencialmente – Librería para la conexión (urllib, requests…)

– Librería para parseo y extracción de datos •  HTML y XML (Beautifulsoup, lxml…)

•  JSON (json, simplejson)

– Almacenamiento de datos en ficheros, bases de datos, …


Dificultades •  En ocasiones es necesario – Autenticación – Enviar formularios

– Enviar cabeceras – Cookies de sesión

•  Requieren trabajo de ingeniería inversa •  A veces no es posible emular el

navegador -> utilizar un webdriver


Ejemplo I


http://docs.python-requests.org/en/latest/

Ejemplo II


http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Ejemplo III


http://selenium-python.readthedocs.org/

Buenas prácticas •  Mira el robots.txt de los sitios que vayas a

scrapear –  Honestamente, habría que mirar también las

cabeceras x-robots en HTTP y las tag robots en el HTML

•  Controla la velocidad. Si el sitio va lento, baja la presión.

•  Y al revés, para más velocidad usa múltiples IPs, varios scrapers, lanza proxies en la nube…

•  No mientas en el UserAgent e indica al sysadmin una forma de contactarte: email, web…


Qué hemos hecho en Aragón Open Social Data

•  ¿De qué se habla en Aragón? •  ¿Qué es importante para los

aragoneses? •  ¿Qué puede resultar interesante para los

aragoneses?

•  ¿En qué se diferencian los aragoneses del resto de España?


Qué fuentes capturamos •  Eventos: Facebook Events, Spain-info •  Texto: Twitter, Facebook, Google+, Blogger,

Blogia, Wordpress •  Wiki: Wikipedia •  Video: Youtube, Vimeo •  Imágenes: Instagram, Flickr, Pinterest •  Lugares: Foursquare •  Código: Github •  Prensa: Heraldo de Aragón, El Periódico de

Aragón, Diario del Alto Aragón, Diario de Teruel


Qué datos capturamos •  Siempre datos públicos •  Que cualquier usuario puede encontrar

por sus propios medios •  Se puede controlar el contenido: – por la URL

– por el autor

•  Un usuario puede solicitar dejar de ser escuchado


Criterios de captura •  Geoposición – Dentro de Aragón – Zonas colindantes – Nombres de municipios

•  Palabras/usuarios clave – Temas de interés – Usuarios relevantes para Aragón – Se realimentan y actualizan con los datos

geoposicionados


Temas de interés


Cómo se captura •  Normalmente el usuario ve la

información a través de un navegador •  Necesitamos capturar grandes

volúmenes de información constante

•  Filtrado por diferentes criterios •  Herramientas que las redes sociales y

otras webs proveen •  Límites de las fuentes


Cómo se captura •  Robots, arañas, web crawlers,

scrapers… •  Simulan las visitas que muchos

usuarios harían •  Cada uno se ocupa de una tarea – Una red social – Sólo cierta información

•  Centralizan la información – Filtran y “uniformizan” -> ETL


Cómo se procesa la información

•  Se solicitan sólo los campos que nos interesan, se obvian los demás

•  2 tipos: streaming o periódicas •  Las arañas no saben qué contenido es bueno o

malo –  Se captura mucho ruido, especialmente al buscar

por palabra clave –  No se deben de usar palabras demasiado cortas o

sin significado (preposiciones, artículos…) –  Hay que tener cuidado con otros idiomas. Ej.: CAI,

USJ


Cómo se almacena •  Todos los datos son guardados en una

base de datos distribuida •  La cantidad de información capturada

es importante

•  En torno a 30 GB al mes, que se reducen a unos 3 GBs al filtrar

•  Alrededor de 1.000.000 de entradas al mes entre vídeos, fotos, mensajes, etc.


Procesamiento •  Detección de idioma •  Se almacena el criterio que ha hecho que

cierto contenido se capture •  Se calculan ciertos parámetros en base a

los datos capturados: – Apariciones por cada 1000 palabras de dentro

y fuera de Aragón: •  Temas de interés dentro de Aragón •  Diferenciales •  Acumulados por 30, 60 y 90 días


Arquitectura


Arquitectura •  Nodo maestro •  PostgreSQL 9.3: sistema gestor de la base

de datos como maestro (+POSTGIS) •  Python 2.7 (pyscopg2, lxml,

beautifoulsoup4, json, urllib) •  Django: interfaz de administración •  Munin: monitorización de recursos •  Celery+Redis: sistema de colas de tareas

distribuidas •  Apache: servidor web


Arquitectura •  Nodo esclavo •  PostgreSQL 9.3: sistema gestor de la base

de datos como esclavo de sólo lectura •  Python 2.7 (pyscopg2, json, mod-wsgi) •  Munin: monitorización de recursos •  Celery+Redis: sistema de colas de tareas

distribuidas •  Apache: servidor web para servir la API

con mod-python y mod-evasive


Arquitectura


Cómo funciona


Cómo funciona •  Un script en Python por cada scraper – Cada uno se ocupa de una fuente – Código común separado (geolocalización, db,

idioma…) – En la base de datos se guarda información de

cada uno: •  Tipo: periódico o streaming •  Ruta: dónde se encuentra el script que lo ejecuta •  Cada cuánto se ejecuta •  Cuándo ha sido la última ejecución •  Resultado de la última ejecución


Cómo funciona •  Proceso tipo demonio que consulta esta

información y lanza en segundo plano conforme está configurado – Controla el resultado – Registra todo lo que sucede en logs – Manda emails a los administradores si hay

errores

•  Desde el panel de administración se modifican estos parámetros


Cómo funciona •  Los scrapers que requieren procesamiento

lo llevan integrado en el propio script (cambios en las fuentes)

•  Una vez que los datos están descargados – Automáticamente se copian al esclavo -> API – Pueden ser monitorizados y controlados desde

el panel de administración

•  El esclavo es el que soporta la carga de las consultas de los usuarios


Monitorización


Qué ofrecemos al público

•  Una API (Application Programming Interface) que permite acceder a los datos recogidos y filtrados

•  Totalmente pública, sin necesidad de registro (aunque con algún límite)

•  Se pueden acceder a los datos antiguos hasta 12 meses (por el momento disponemos desde diciembre de 2013)


Cómo usar nuestra API •  Peticiones HTTP como las que hace

cualquier navegador

•  El usuario sólo tiene que indicar qué datos desea obtener y cómo los quiere filtrar – Dirección (/trendings o /data) – Parámetros (?source=twitter)

•  Librerías en distintos lenguajes que hacen muy sencillo su uso


Qué formato tienen los resultados

•  Actualmente en formato JSON

•  Los resultados aparecen paginados •  Ordenados cronológicamente


Tendencias •  http://opendata.aragon.es/socialdata/trendings –  {"status": "OK", "results": [result_1, result_2,

result_3...]} –  Results: {"name": name, "url": url}

•  /socialdata/trendings?type=aragon •  /socialdata/trendings?type=spain •  /socialdata/trendings?type=30days •  /socialdata/trendings?type=60days •  /socialdata/trendings?type=90days •  /socialdata/trendings?type=diff


Contenido •  http://opendata.aragon.es/socialdata/data?

parameters –  {"status": "NOK", "error_message": message} –  {"status": "OK", "on_this_page": on_this_page,

"results":[result_1, result_2, result_3...]} –  {"id": id,"description": description, "ends_on":

ends_on, "lat": latitude, "lng": longitude, "published_on": published_on, "title": title, "url": url, "author": author,"starts_on": starts_on, "source": source, "type": type, "thumbnail":thumbnail}


Contenido •  id: entero identificativo del elemento. •  type: cadena que indica el tipo de contenido. •  source: cadena de texto que indica a qué fuente pertenece el resultado. •  title: cadena con el título del contenido en el caso de que lo tenga. •  description: contenido del elemento (texto del tweet, descripción del

evento, descripción del vídeo, etc.) •  url: dirección url directa al contenido. •  author: cadena de texto con el nombre del autor en caso de que lo haya. •  starts_on: para los eventos, si la tuvieran, fecha de comienzo. •  ends_on: para los eventos, si la tuvieran, fecha de final. •  published_on: fecha de publicación del contenido. •  lat: latitud del contenido en formato real. •  lng: longitud del contenido en formato real. •  thumbnail: dirección url del thumbnail asociado si lo hubiera.


Contenido •  Dos tipos de paginación: –  Estándar (máx. 1000) –  since_id & max_id

•  Todas las fechas tienen el formato: 16/01/14 13:03

•  Se puede especificar que la API devuelva los datos en crudo con el parámetro raw_mode –  /socialdata/data?source=twitter&raw_mode=true –  Nuevo campo en los resultados llamado raw_data


Cómo podemos filtrarla •  Por tipo de contenido •  Por fuente •  Por conversación •  Por geoposición •  Por período •  Por palabra clave


Filtro por tipo de contenido •  /socialdata/data?type=content_type –  event (Facebook Events, Spain-info) –  text (Twitter, Facebook, Google+, Blogger, Blogia,

Wordpress) –  wiki (Wikipedia) –  video (Youtube, Vimeo) –  picture (Instagram, Flickr, Pinterest) –  venue (Foursquare) –  code (Github) –  media (Heraldo de Aragón, El Periódico de Aragón,

Diario del Alto Aragón, Diario de Teruel)


Filtro por fuente •  /socialdata/data?source=source_name

–  spain_info –  facebook_events –  twitter –  youtube –  instagram –  facebook –  wikipedia –  blogger –  wordpress –  blogia –  vimeo –  flickr –  foursquare –  pinterest –  google_plus –  github –  heraldodearagon –  periodicodearagon –  diariodelaltoaragon –  diariodeteruel


Filtro por conversación •  /socialdata/data?

conversation=conversation_type – geo: conversación sobre lo

que se habla dentro de Aragón

– rel: conversación de temas y usuarios relevantes para Aragón


Filtro por geoposición •  Filtrado por centro y radio

–  /socialdata/data?center=coordinates&distance=distance_in_km

–  /socialdata/data?center=41.35678,-0.8148576&distance=5 •  Filtrado por cuadrado geográfico

–  /socialdata/data?bbox=min_lng,min_lat,man_lng,max_lat –  /socialdata/data?

bbox=-0.8148576,41.35678,-0.667584,41.78553 •  Filtrado por municipio y radio

–  /socialdata/data?locality=locality&distance=distance_in_km –  /socialdata/data?locality=Zaragoza&distance=5

•  Sólo datos geolocalizados: –  /socialdata/data?source=twitter&geolocated=true


Otros filtros •  Por período: –  /socialdata/data?

start_date=start_date&end_date=end_date

•  Por palabra clave: –  /socialdata/data?query=query

•  Combinaciones!


Ejemplo de uso


https://github.com/albertoalcolea/charla-scraping

Ejemplo de resultados


Qué puedo hacer con estos datos


Cómo se puede utilizar en el ámbito de la música

•  Tendencias – Volumen de tráfico en redes sociales (twitter,

facebook, youtube…)

– Volumen de descargas y compras (iTunes, Amazon, Spotify, Google Play…)

– Valoraciones – Charts, top lists (Emisoras de radio, foros…) – Volumen de búsquedas (Google)


Redes sociales específicas

•  Intentan dar a conocer nuevos temas, artistas, profesionales, conectar gente… – Last.fm: scrobblings, oyentes – Myspace – Tastebuds – Reverbnation – VK

•  Contrastar datos, tendencias, recomendaciones, gente importante…


Algo un poco más avanzado

•  Análisis de redes complejas – Quién habla más y es más escuchado – Quién es más influyente – Qué grupos de gente relacionada con la

música se forman: ej. estilos

•  Hay webs que van un poco más allá (SoundCloud, Hulkshare, Zippyshare…) – Proveen las formas de onda de las canciones

•  Patrones más comunes


Enlaces •  http://opendata.aragon.es/ •  http://opendata.aragon.es/portal/social-

data •  http://opendata.aragon.es/portal/

desarrolladores/resumen