Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 1
Transferencias masivas de Transferencias masivas de datos científicos de la datos científicos de la
colaboración CMS a través del colaboración CMS a través del Port d’Informació Científica (PIC)Port d’Informació Científica (PIC)
Josep Flix(*), Gonzalo Merino, Gerard Bernabeu, Diego Dávila
Jornadas Técnicas RedIRIS ‘07Oviedo – 19-23 Noviembre 2007
(*) CMS Tier-1 contact at PIC [CIEMAT]([email protected])
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 2
Large Hadron Collider: Flujo de datos IColisiones protón-protón a 14 TeV cada
25 nsDatos (lectura) por colisión a alto rate
Filtrado de datos (~300 MB/s/colisión) RAW
Datos RAW se envian al Tier-0 (10 Gbps-CERN)
Datos RAW se procesan en el Tier-0 (CERN)
LHC: Inicio de operaciones en 2008
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 3
Large Hadron Collider: Flujo de datos IIDatos RAW se graban en cinta en Tier-0
(CERN)Primer procesado de datos en Tier-0
(CERN)Datos RAW + procesado centros Tier-
1
11 centros Tier-1 para los 4 detectores del LHC
Tier-1: datos RAW cinta (copia custodial)
WLGC basado en estructura Tiers (0-1-2)
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 4
Large Hadron Collider: Flujo de datos IIITier-1: ESD a disco + distribución a
Tier-2sReprocesados de datos en Tier-1s (2-
3/año)Re-distribución de datos re-procesados a
Tier-2s
~150 centros Tier-2s distribuidos world-wide
Tier-2s producen simulaciones Tier-1s Tier-2s = Universidades, físicos Analistas
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 5
Worldwide LHC Computing Grid [WLCG]
• Large Hadron Collider (LHC) Gran instalación científica Decenas PBs de datos/año.
• Miles de científicos en todo el mundo accederán a los datos para analizarlos.
• Objetivo WLCG:
• Estructura ‘Tiered’ con > 100 centros de computación en > 20 países:
• WLCG depende de otros grandes proyectos de despliegue y operación de infraestructuras grid (EGEE en Europa, OSG en USA, NorduGrid en los países nórdicos...).
“Desplegar y mantener una infraestructura robusta de computación distribuida para el almacenamiento y el análisis de los datos obtenidos por los 4 detectores del LHC por la comunidad
de físicos de Altas Energías.”
1 Tier-0 (CERN) y 11 centros Tier-152 federaciones de centros Tier-2
Requisitos de los 4 experimentos LHC sobre los centros Tier-1. Presentados a la C-RRB de Octubre 2007
Detectores: ATLAS, CMS, LHCb, ALICE
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 6
Región SWE: PIC(Tier-1)&Tier-2s asociados
PIC [Barcelona]
SWE region: Tier-2s asociados al Tier-1 PIC
UB [Barcelona]
IFCA [Santander]
USC [Santiago]
IFIC [Valéncia]
UAM [Madrid]
CIEMAT [Madrid]LIP [Coimbra]
LIP [Lisboa]
CMS: CIEMAT&IFCA – LIP_Lisbon&LIP_Coimbra
ATLAS: IFAE&IFIC&UAM – LIP_Lisbon&LIP_Coimbra
LHCb: UB&USC
• Tier-1 para ATLAS, CMS y LHCb. Ofrece servicios para otras disciplinas: Astrofísica, imagen médica, etc…
• Centro de soporte a la investigación científica en entornos colaborativos con gran cantidad de datos.
• Almacenamiento, gestión y proceso de datos (TB-PB).
• Servicios Grid colaboraciones inter-institucionales, trans-nacionales y multi-disciplinares.
Port d’Informació Científica* [PIC]
Convenio Generalitat, CIEMAT, UAB, IFAE
(*) Sala de máquinas de 150 m2 - UPS de 200 KVA - Generador diesel de 500 KVA - 1000 “u” de racks - 300 KW de aire acondicionado - Librerías automatizadas de cintas STK-5500+IBM-3584
IFAE [Barcelona]
CERN
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 7
PIC Tier-1: Recursos experimentos LHC
Almacenamiento permanente de gran cantidad de
datos
… Custodia de segunda copia de datos RAW (LHC).
… Datos re-procesados en el PIC.
… Datos reducidos producidos en el PIC (y en otros centros).
… Datos simulados desde los centros Tier-2 asociados.
Capacidad de computación para
re-procesado/análisis
… Acesso a gran cantidad de datos de una forma
ordenada
…
Responsabilidades del PIC [Tier-1]Responsabilidades del PIC [Tier-1]
El modelo de computación CMS ( recursos/centro) es un modelo vivo, en cte. discusión factores x2,x3…
* PIC: ~130 MB/sPIC *: ~50 MB/s
Modelo Computación CMS (2008)
Contribución del PIC a LHC: ~5% del total Tier-1sContribución del PIC a LHC: ~5% del total Tier-1s
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 8
PIC Tier-1: LHC-OPN [red] I
• LHC-OPN (Optical Private Network): Arquitectura de red de 10 Gbps para el LHC.
- Garantiza calidad/estabilidad para el tráfico Tier-0 Tier-1.- Destinada también a llevar tráfico Tier-1 ↔ Tier-1.- No soporte a transferencias Tier-1 Tier-2 (redes nacionales).
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 9
PIC Tier-1: LHC-OPN [red] II
Despliegue de la LHC-OPN @ PIC (2006-2007)• Octubre 2006: 10 Gbps lambda hasta el POP de RedIRIS en Barcelona (CESCA).
• Mayo 2007: Llegada de la conexión al PIC.
• Junio 2007: Certificación de la línea. Tests de carga máxima.
Vista CERN
• Septiembre 2007: puesta en producción para datos LHC.
Vista PIC
Entrada al PIC: 10Gbps
(medidos tráficos superiores a 2Gbps)
Salida del PIC: 1Gbps (limitación temporal que desaparecerá al finalizar la migración a las nuevas IPs)
Config @ PIC2 VLANs sobre 10 Gbps
2 Gbps (Best Effort)
Tráfico PIC↔Tier-2
810 Gbps LHC-OPN
Tráfico Tier-0 PIC
Tráfico PIC↔Tier-1
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 10
CMS: Transferencias de Datos (PhEDEX) I
Actualmente la distribución network PhEDEX comprende el centro Tier-0 (CERN) y 8 centros Tier-1 regionales, que a su vez sirven a ~40 centros Tier-2 locales y ~10 centros pequeños (“Tier-3s”).
Necesidades de CMS (Transferencias de datos)
Alta disponibilidad del servicio.Transferencias sostenidas (sin interrupciones).
Tasa de transferencias alta.Sistema fácilmente escalable.
Acceso fácil de los datos por los físicos de la colaboración.
PhEDEX (CMS Data Transfer System)WEBSITE http://cmsdoc.cern.ch/cms/aprom/phedex
Throughput crítico CERN Tier-1Transferencias entre Tier-1s y Tier-2s.
Disponibilidad 24/7 entre centros Tier de CMS.
• Interface web: visualización, monitor, checks consistencia…
• Interacciona con sistemas de storage local: dif. tecnologías.
• Basado sobre grid middleware: File Transfer Service (FTS).
• Uso de BBDD privada (TMDB): catálogo+localización ficheros.
• TMDB gestiona status de transferencias ‘ongoing’.
• TMDB centralizada @ CERN (DBI Oracle interface).
• …
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 11
CMS: Transferencias de Datos (PhEDEX) II
• PhEDEX: Core consta de agentes escritos en perl-object-oriented.
• Cada Tier ejecuta agentes que se encargan de interaccionar con el storage local CMS VOBOX / centro.
• Los agentes se comunican via TMBD ~ “CMS blackboard” = mapas datasets-replicas, localizaciones,
subscripciones datasets, replica metadata (size, checksums,...), estados de transferencia, etc…
• Agentes / centro = 1 agente exportación + varios agentes de importación (download).
• Cada agente de download está conectado a una instancia de Phedex (Development,Debug,Production).
• PhEDEX está totalmente acoplado al midleware
grid,
como FTS (File Transfer service, EGEE glite middleware).
• Parámetros relevantes de configuración:
- Servidor FTS donde “glite-transfer-submit” jobs.
- Número de jobs “sumitidos” por tiempo.
- Número de ficheros por job.
- Timeout asociado a cada transferencia/job.
- Aceptar/ignorar algunos centros por agente.
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 12
Actividades pre-LHC CMS: LT07 + DDT
• Probando el sistema con “Retos” (como demostraciones de éxito):
- Mediante retos de servicio generales WLCG (“Services Challenges”).- Específicos del experimento: Software, Computación/Análisis (CSA), Tests de carga, etc…
• Reto CMS:Reto CMS: Probar modelo de computación + enlaces entre Tiers + Sistemas almacenamiento.
Objetivo: Estresar el sistema hasta los niveles requeridos por LHC, o superior…
• Infraestructura de generación de carga contínua 24/7 de tráfico CMS entre Tiers. [LT07][LT07]
- Fuente: ~1 TB/Tier - ficheros ‘fake’ de 2.6 GBs.- Inyección centralizada de datos en PhEDEX TMDB (simple).- Centros de destino subscriben a esas muestras recepción.- Disponibilidad infinita (LFNs apuntan al mismo fichero físico).
Tier-0→Tier-1 Tier-1↔Tier1 (trans-
oceánico) Tier-1↔Tier-2 ‘regionales’
Tier-1↔Tier-2 ‘no regionales’
Actividades de LoadTest 2007 [FebSept.2007]Certificación enlaces Tiers [ Julio 2007]
• Programa para depurar/certificar enlaces entre Tiers. [DDT][DDT]
- Enlace = ruta unidireccional entre 2 centros.- Instancia de PhEDEX de Debug + estructura LT07.- Los enlaces están sujetos a diferentes métricas: tasa de transferencia/volumen (300 GBs/dia).- Sólo los enlaces certificados se activan en la instancia Production en PhEDEX.- Enlaces certificados pueden de-certificarse si no mantienen las métricas.
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 13
LT07 + DDT: resultados globales I
CSA06
LoadTest07LoadTest07~2 PBs/mes!
Tier-1s: ~25 PBs [15-Nov-2007]
Tier-1s (2007)~28 PBs
Volumen transferencias LT07+DDT [Production+Debug instance]
Tasa de Transferencia LT07 [Production instance]
TB
/sem
ana
1-Ene-2007 15-Nov-2007
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 14
LT07 + DDT: resultados globales II
DDT
~2.5 PBs/mes!
273 enlaces certificados
Tier-1 matriz certificación
Tier-2 stats
Enlace certificado.
Enlace de-certificado
Transferencias en progreso (<métrica)
15-Nov-2007 15-Nov-2007 15-Nov-2007
15-Nov-2007Tasa de Transferencia DDT [Debug instance]
Enlaces Certificados
TB
/sem
ana
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 15
LT07 + DDT: resultados PIC Tier-11-Ene-2007 15-Nov-2007
PIC estimado 2007
import+export
~2 PBs~150
TBs/mes(contribución 6.5%
CMS)
Tier-1 Calidad export
PIC: Volumen transferencias LT07+DDT [Production+Debug instance]
Tier-1 Calidad import
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 16
LT07 + DDT: resultados SWE region
~15%Enlaces
certificadospor CMS
1-Ene-2007 15-Nov-2007 15-Nov-2007
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 17
Uso eficiente del servicio FTS con PhEDEX I• Transferencias CMS desde un punto de vista Tier-1:
- Tier-0 Tier-1 (crítico).- Tier-1↔ Tier-1 (thoughput importante en CMS).- Tier-1↔ Tier-2 regionales.- Tier-1↔ Tier-2 no regionales.
Algunos enlaces pueden tener más tráfico que otros,en función del Tier-1.
• PIC (p.e.):- PIC ~5% del total: Importa más datos reducidos de Tier-1s.
- SWE Tier-2s deben tener más prioridad/flujo ↔ que otros Tier-2s.
- …
La interacción PhEDEX con FTS debe reflejar estas necesidades.
El conjunto de agentes debe de coincidir en lo máximo posible con la configuración del FTS
a usar.
S o l u c I ó n a d o p t a d aUso de un conjunto de agentes PhEDEX que refleje el modelo de
computación de CMS.
PhEDEX @ PIC1 agente Tier-0→PIC.
7 agentes, uno por cada centro Tier-1->PIC. 2 agentes para los Tier-2 españoles (IFCA,CIEMAT).
2 agentes para los Tier-2 portugueses (LISBON,COIMBRA).
1 agente para Tier-2 no-regionales.
Cada Tier-2 regional corre un agente download PIC único.
Configuración canales FTS @ PIC
Canales independientes T1s→PIC.Para cada Tier-2 regional: PIC→T2reg, T2reg→PIC,
*→T2reg.1 canal *→PIC.1 canal PIC→*.
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 18
Uso eficiente del servicio FTS con PhEDEX II
• Esta configuración FTS/PhEDEx permite obtener mayor ocupación de los canales FTS y una mayor tasa de transferencia.• Modelo aceptado como configuración PhEDEX standard por todos los Tiers de CMS.• En CMS estamos desarrollando una nueva interfaz FTS/PhEDEX para optimizar aún más la interacción entre ambos sistemas.• Varias reuniones con los desarrolladores FTS. Nuevas funcionalidades en el FTS requeridas.
Transferencias PIC [Debug instance]
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 19
Medidas KB/s/Stream por Centro I
• La configuración del FTS fija modo (urlcopy/srmcp), número de ficheros en paralelo y Streams por fichero, por canal.• Si queremos mantener una tasa de transferencia constante en un canal, el throughput por Stream debería ser constante…
• En general esto no sucede: observamos variaciones significativas temporales en algunos
centros. Una posible explicación puede estar en la limitación a 1 Gbps de salida del PIC
+ saturación de salida la red: si otra VO no transfiere activamente throughput ≠ cte…
• En general fijar N ficheros en paralelo + Streams en el FTS no garantiza thr. máximos ctes.
• Monitorizar los valores de throughput cambiar dinámicamente los parámetros FTS por
canal que garantizen throughputs de acuerdo con el modelo de computación de CMS.
Throughput por Stream en las transferencias CMS PICTier-2s regionales entre 16-OCt y 15-Nov
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 20
Medidas KB/s/Stream por Centro II
RAL,FNALPIC INP3
• FTS no puede garantizar throughputs similares
para diferentes centros comprendidos en canales
tipo STAR-TIER o TIER-STAR.
• La monitorización no ayuda, ya que los cambios
Nfiles/Nstreams afectan de forma global al
canal STAR-TIER o TIER-STAR (y no a los centros
involucrados).
• Caso concreto: transferencias T1s->IFCA, donde
la mayoría de transferencias son gestionadas
por el canal STAR-IFCA (excepto PIC, PIC-IFCA).
• NOTA: El centro con throughput más bajo acaba bloqueando el canal STAR,
no gestiona otros canales necesidad de ‘share’ por centros.
• Nuevo código de interacción PhEDEX/FTS
ajustará estas diferencias (de forma dinámica),
en lo posible...
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 21
Medidas KB/s/Stream por Centro III
(Asimetría en throughput)
Transferencias * PIC: 10
Gbps.
Transferencias PIC *:1
Gbps.
- Tasas transferenciasGRIDFTP > GSIFTP
FTS introduce tiempos muertos:
- Pre/Post transferencia~20-40”
Tiempo muerto total:>50% en algunos enlaces>50% en algunos enlaces
(CIEMATPIC,LISBONPIC, etc…)A entender…
Stats. entre 16-Oct/15-Nov
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 22
Cuellos de Botella [red]
• El modelo de computación de CMS todavía no establece unos requisitos claros sobre el ancho de banda en las transferencias Tier-1 Tier-2s.
• Transferencias Tier-1 Tier-2s a ráfagas, (quizás) ~1Gbps simultáneas hacia varios Tier-2s.
• Es importante entender los enlaces entre el PIC y los centros Tier-2s conectados a RedIRIS, y minimizar los cuellos de botella Tests iperf en marcha con los centros Tier-2 regionales.
• Por ejemplo: para la conexión PIC↔IFCA parecen existir dos posibles rutas. Observamos que las transferencias están tomando el camino de menos rendimiento (622Mbps, por Aragón).
• Asimetría 10Gbps (entrada al PIC) - 1Gbps (salida del PIC) eliminada el 19-Nov al migrar los servidores de disco al nuevo rango de IPs.
Transferencias PIC * [Debug instance]
Dr. Josep Flix [PIC] - [email protected] Jornadas Técnicas RedIRIS 2007 (Oviedo) 23
Outlook + Conclusiones
• Mostrado el contexto de transferencias de datos del CERN al resto de Tiers.
• En particular cual es el contexto en CMS y el PIC como Tier-1 de la región SWE.
• Implantación de la LHC-OPN de 10 Gbps en el PIC: finalizada esta semana.
Futura optimización a nivel de storage va a incrementar el flujo in/out.
• PhEDEX es una herramienta que ha permitido a CMS mover datos a tasas más altas
que las demandados por LHC. (Objetivo Stress Test cumplido!)
• Programa CMS de certificación de enlaces DDT entre Tiers es positivo para
mantener los centros activos en todo momento (+admins).
• De estos tests de Stress se deducen optimizaciones tanto a nivel de PhEDEX como
del servicio grid middleware FTS. Ambas en desarrollo.
• El papel del PIC como Tier-1 CMS ha sido muy relevante en los tests:
Demostrado capacidad de mantener >5% de tasa de transferencias (x5 2008!).
En gran parte gracias a la buena ocupación de los canales FTS + monitorización.
Colaboración PIC/CERN: implementación de la nueva interfaz FTS/PhEDEX.
• Tests iperf con centros Tier-2 de la región SWE + Tier-1s planeados:
Primera incidéncia: Enlace PIC ↔ IFCA es de 622 Mbps Re-route a 2.5 Gbps?
Top Related