Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...

36
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 1 Análisis de Datos en Física de Partículas Sección de Posgrado Facultad de Ciencias Universidad Nacional de Ingeniería C. Javier Solano [email protected] http://compinformatidf.wordpress.com/ Página del curso: http://compinformatidf.wordpress.com/2013/04/13/ curso-analisis-estadistico-de-datos-en-fisica-de-particulas-mf708/

Transcript of Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos...

Page 1: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 1

Análisis de Datos en Física de Partículas

Sección de PosgradoFacultad de CienciasUniversidad Nacional de Ingeniería

C. Javier [email protected]://compinformatidf.wordpress.com/

Página del curso:http://compinformatidf.wordpress.com/2013/04/13/curso-analisis-estadistico-de-datos-en-fisica-de-particulas-mf708/

Page 2: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Análisis de Datos en Física de Partículas: Capítulo 5

1 Teorema de Probabilidad de Bayes, Variables aleatorias, y pdfs2 Funciones de r.v.s, Valores de expectación, propagación de errores3 Catálogo de pdfs4 El método de Monte Carlo5 Test estadísticos: conceptos generales6 Test statistics, métodos multivariantes7 Tests Bondad de ajuste (goodness-of-fit)8 Parámetros de estimación, maximum likelihood9 Mas de maximum likelihood10 Método de mínimos cuadrados (least squares)11 Intervalo de estimación, establecimiento de límites12 Parámetros molestos (nuisance), incertidumbres sistemáticas13 Ejemplos de aproximación Bayesiana

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 2

Page 3: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Límites de decisión lineal

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 3

Una frontera de decisión lineales sólo óptima cuando ambas clases siguen gaussianas multivariadas con covarianzasequivalentes y diferentes medias.

Para algunos casos un límite lineales casi inútil.

Page 4: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Transformaciones no lineales de los inputs/entradas

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 4

Tratemos de encontrar una transformación, 1, ...,

n->

1(),...,

n(), de

modo que las variables transformadas, de "características espaciales",se pueden separar mejor por una frontera lineal.

Aquí, suponer funciones de base fija(no parámetros libres)

Page 5: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Pruebas/Tests estadísticas no lineales

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 5

La frontera de decisión óptima puede no ser un hiperplano,→ prueba estadística no lineal t(x)

Métodos estadísticos multivariantesson una gran industria:- redes neuronales,- máquinas de vectores soporte,- métodos de densidad kernel,- …

Física de Partículas puede beneficiarse de los avancesen Machine Learning (aprendizaje automático)

Page 6: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Introducción a las redes neuronales

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 6

Se usa en neurobiología, reconocimiento de patrones, previsión financiera,...Aquí, redes neuronales son sólo un tipo de prueba estadística.

Supongamos que tomamos t(x) para tener la forma Logísticasigmoide

Esto se llamaperceptrón de una sola capa

s(·) es monotónica → equivalente a lineal t(x)

Page 7: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Introducción a las redes neuronales

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 7

Generalizar a partir de una capaa perceptrón multicapa:

Los valores de los nodos de lacapa intermedia (oculta) son

y la salida de la red está dada por

pesos (fuerzas de conexión)

Page 8: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Análisis de redes neuronales

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 8

Fácil de generalizar a número arbitrario de capas.

Red feed-forward: los valores de un nodo dependen sólo de las capas

anteriores, por lo general sólo de capa anterior ("arquitectura de red").

Más nodos → red neuronal se acerca a óptimo t(x), pero másparámetros necesitan ser determinados.

Parámetros generalmente determinados minimizando función de error,

donde t(0) , t(1) son valores, por ej., 0 y 1 para sigmoide logística. Valores

de expectación reemplazados por medias de datos entrenados (ej. MC).

En general entrenamiento puede ser difícil; software estándar disponible.

Page 9: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Ejemplo de redes neuronales del LEP II

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 9

Señal: e+e− → W+W− (frecuente: 4 jets hadrónicos bien separados)

Background: e+e− → qqgg (4 jets hadrónicos menos bien separados)

←variables de entrada/input basadas enla estructura del jet, forma del evento,...ninguna da sola mucha separación.

output redes neuronales lo hace mejor...

(Garrido, Juste and Martinez, ALEPH 96-144)

Page 10: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Algunos asuntos con redes neuronales

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 10

En el ejemplo, con eventos WW, el objetivo era seleccionar a estos eventos con el fin de estudiar las propiedades del bosón W.

Necesario evitar el uso de variables input correlacionadas con laspropiedades que eventualmente queremos estudiar (no trivial)

En principio, una sola capa oculta con un número suficientemente nodospuede aproximar arbitrariamente bien la prueba óptima de variables (likelihood ratio / razón de probabilidad).

En general comenzamos con un número pequeño de nodos yaumentamos hasta que los errores de clasificación en la validaciónde datos de la muestra deja de disminuir.

En general el entrenamiento MC de datos es barato -- problemas con quedaratrapado en mínimos locales, sobreentrenamiento, etc., menos importante qla preocupación por las diferencias sistemáticas entre los datos entrenadosy la Naturaleza, y las preocupaciones por la facilidad de interpretación delos resultados (output).

Page 11: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Técnicas de estimación de densidad de probabilidad (PDE)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 11

Ver, ej. K. Cranmer, Kernel Estimation in High Energy Physics, CPC 136 (2001) 198; hep-ex/0011057;T. Carli and B. Koblitz, A multi-variate discrimination technique based on range-searching, NIM A 501 (2003) 576; hep-ex/0211019

Construir estimadores no paramétricos de los pdfs

y usarlos para construir el likelihood ratio

(histograma n-dimensional es un ejemplo de fuerza bruta de esto.)

Técnicas de estimación más inteligentes pueden conseguir que estofuncione para dimensiones (un poco) mayores.

Page 12: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

PDE basado en Kernel (KDE, ventana de Parzen)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 12

Considerar d dimensiones, N eventos de entramiento, x1, ..., xN, estimar f (x) con

Usar, x ej. Kernel Gausiano:

kernelancho de banda (parámetro smoothing)

Necesidad de sumar N términos para evaluar la función (lento); algoritmos más rápidos solo cuentan eventos en vecindad de x (k-ésimo vecino más cercano, búsqueda por rango).

Page 13: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Correlación vs independencia

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 13

En una distribución multivariante general p(x) no factoriza en un producto de distribuciones marginales para las variables individuales:

Más importante, los componentes de x tendrán en general covarianciadiferente de cero (es decir, están correlacionadas):

Se mantiene solo sicomponentes de xson independientes

Page 14: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Decorrelación de variables de entrada

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 14

Podemos definir un conjunto de variables de entrada no correlacionadaspor una transformación lineal, es decir, hallar la matriz A tal que para las covarianciasy⃗=A x⃗ cov [ y i ,y j ]=0

Para lo siguiente suponer que las variables son “decorrelacionadas” deesta manera para cada una de p(x|H

0) y p(x|H

1) separadamente (desde

que en general sus correlaciones son diferentes)

Page 15: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Decorrelación no es suficiente

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 15

Porque aún con correlación cero, una pdf multivariante p(x) en generaltendrá no linealidades y entonces las variables decorrelacionadas aúnno son independientes.

pdf con covariancia cero perocomponentes todavía no sonindependientes, desde que

y por lo tanto

Page 16: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Bayes sencillo (naive)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 16

Pero si las nolinealidades no son muy grandes, es razonable primerodecorrelacionar las entradas/inputs y tomar como nuestro estimador para cada pdf

Entonces esto al menos reduce el problema a uno de hallar estimadosde pdfs 1-dim.

El estimado resultante de likelihood ratio da el clasificador Naive Bayes(llamado algunas veces en HEP el “método likelihood” )

Page 17: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Árboles de decisión

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 17

De todas las variables de entrada, encontrar el ideal para que con un solo corte de la mayor mejora en la pureza de la señal:

Ejemplo del experimento MiniBooNE,B. Roe et al., NIM 543 (2005) 577

donde wi es el peso del ith evento.

Los nodos resultantes son clasificados como señal o background.

Iterar hasta el criterio de parada, alcanzado sobre la base de, por ejemplo, pureza o el número mínimo de eventos en un nodo.

El conjunto de cortes define la frontera de decisión.

Page 18: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Encontrando el mejor corte único

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 18

El nivel de separación dentro de un nodo puede, por ej, ser cuantificado por el coeficiente de Gini, calculado a partir de la pureza (s o b) como:

Para un corte, que divide un conj. de eventos a en subconjuntosb y c, se puede cuantificar la mejora en la separación por el cambioen los coeficientes de Gini ponderados:

donde, por ej,

Elija por ej. el corte para maximizar ∆; una variante de este esquemapuede usarse en vez del Gini, por ej. la tasa de errores de clasificación:

Page 19: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Árboles de decisión (2)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 19

Los nodos terminales (hojas) se clasifican como señal o background en función de voto de la mayoría (o por ejemplo, fracción de señal superior a un umbral especificado).

Esto clasifica cada punto en el espacio de variable-input, ya sea como señal o background, un clasificador de árbol de decisión, con la función discriminante

f(x) = 1 si x region de señal, -1 en otro caso.

Los árboles de decisiones tienden a ser muy sensibles a fluctuaciones estadísticas en la muestra de entrenamiento.

Métodos tales como boosting se pueden utilizar para estabilizar el árbol.

Page 20: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Boosting

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 20

Boosting es un método general de creación de un conjunto de clasificadores que se pueden combinar para lograr un nuevo clasificador que es más estable y tiene un error menor que cualquier otro individualmente.

A menudo se aplica a árboles de decisión, pero se puede aplicar a cualquier clasificador.

Suponer que tenemos una muestra de entrenamiento T de N eventos con

x1,....,x

N vectores de datos de eventos (cada x multivariante)

y1,....,y

N etiquetas de clase reales (true), 1 para señal, -1 para background

w1,....,w

Npesos de eventos

Ahora definir una regla para crear a partir de este un conjunto de muestras de entrenamiento T

1, T

2, ..., derivar un clasificador de cada uno y

promediarlos.

Page 21: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

AdaBoost

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 21

Un algoritmo exitoso para boosting es AdaBoost (Freund & Schapire, 1997).

Primero inicializar la muestra de entrenamiento Ti usando el original

x1,....,x

Nvectores de datos de eventos (cada x multivariante)

y1,....,y

Netiquetas/labels de clase reales/true, (+1 o -1)

w(1)1,....,w(1)

Npesos de eventos

Con los pesos igual y normalizados tal que

Entrenar el clasificador fi(x) (por ejemplo un arbol de decision) usando los

pesos w(1) con el fin de minimizar el error de clasificación,

donde I(X) = 1 si X es verdadero y cero en otro caso

Page 22: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Actualizando los pesos de eventos (AdaBoost)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 22

Asignar una puntuación al clasificador k-esimo basado en su tasa de error

Definir la muestra de entrenamiento para el paso k+1 a partir del paso k, actualizando los pesos de los eventos de acuerdo a

Iterar K veces, el clasificador final es

Page 23: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Sobreentrenamiento

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 23

muestra de entrenamiento muestra de prueba independiente

Si frontera de decisión es demasiado flexible que se ajusta muchoa los puntos de formación → sobreentrenamiento.Supervisar aplicando clasificador para muestra independiente.

Page 24: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Monitoreando el sobreentrenamiento

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 24

De ejemplo MiniBooNE:

Rendimiento establedespués de unos cientosde árboles.

Page 25: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Resumen de árbol de decisión boosted

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 25

Ventaja de árbol de decisiones boosted es que puede manejar un gran número

de entradas. Los que prestan poca/ninguna separación rara vez se utilizan

como divisores de árbol, se ignoran efectivamente.

Fácil de hacer frente a entradas de tipo mixto (real, entero, categórica, ...).

Si un árbol tiene sólo unas pocas hojas, es fácil de visualizar (pero rara vez

utilizan un solo árbol).

Hay una serie de algoritmos de boosted, que difieren principalmente en el

estado de actualización de los pesos (e-Boost, Logit-Boost, ...).

Otras formas de combinar clasificadores débiles: Bagging (Agregadores-boost)

genera el conjunto de clasificadores mediante muestreo aleatorio con

reemplazo de la muestra completa de entrenamiento.

Page 26: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Comparando métodos multivariados (TMVA)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 26

Escoger el mejor

Page 27: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Software para análisis multivariado

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 27

TMVA, Hocker, Stelzer, Tegenfeldt, Voss, physics/0703039De tmva.sourceforge.net, también distribuida con ROOTVariedad de clasificadoresBuen manual

StatPatternRecognition, I. Narsky, physics/0507143Mas información en www.hep.caltech.edu/~narsky/spr.htmlAmplia variedad de métodos, complementarios a TMVA(este proyecto ya no tiene soporte :( )

Page 28: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Fuentes de métodos multivariados

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 28

Libros

Material de congresos

Page 29: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Terminando Capítulo 6

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 29

Nos fijamos en tests estadísticos y asuntos relacionados:discriminar entre tipos de eventos (hipótesis),determinar la eficacia de la selección, pureza de la muestra, etc

Hemos discutido algunos métodos modernos (y no tan modernos):discriminante de Fisher, redes neuronales,

PDE, KDE, árboles de decisión, ...

En una extensión de este curso veríamos...… tests de significancia (goodness-of-fit):

p-value expresa el nivel de concordancia entre los datosy la hipótesis

Page 30: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Slides adicionales

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 30

Page 31: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Identificación de partículas en MiniBooNE

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 31

El detector es un tanque de 12-m diametro de aceite mineral expuesto a un haz de neutrinos y visto por 1520 tubos PMTs:

H.J. Yang, MiniBooNE PID, DNP06H.J. Yang, MiniBooNE PID, DNP06

Búsqueda de oscilaciones νµ a νe

requirió i.d. de partículas usando información de los PMTs.

Page 32: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Ejemplo BDT en MiniBooNE

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 32

~200 variables de entrada para c/evento (interacción ν produciendo e, µ or π)

Cada árbol individual es relativamente débil, con una tasa de error de clasificación de ~ 0.4 – 0.45

B. Roe et al., NIM 543 (2005) 577

Page 33: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Comparación de algoritmos Boosted

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 33

Un número de algoritmos de boosting en el mercado;difieren en la regla de actualización de los pesos.

Page 34: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Usando output del clasificador para el descubrimiento

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 34

y

f(y)

y

N(y)

Normalizado a unidad Normalizado a númeroesperado de eventos

¿exceso?

señal

background background

región debúsqueda

Descubrimiento = número de eventos hallados en región de búsqueda incompatible con hipótesis de solo-background.p-valor de hipótesis de solo-background puede depender crucialmente de distribución f(y|b) en la "región de búsqueda".

ycut

Page 35: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Producción de un quark top (CDF/D0)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 35

Top quark descubierto en pares, peroSM predice producción de single top.

Usar muchas entradas basadas enpropiedades de jet, i.d. de partículas,...

Producción de pares de tops sonahora un proceso de background

señal(azul +verde)

Page 36: Análisis de Datos en Física de Partículas › 2013 › 04 › stat_6b2.pdf · Análisis de Datos en Física de Partículas: Capítulo 5 1 Teorema de Probabilidad de Bayes, Variables

Diferentes clasificadores para un top (single)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 6 página 36

También Naive Bayes y varias aproximaciones a likelihood ratio,....

Resultado final combinado es estadísticamente significativa (nivel >5σ) pero no fácil de entender las salidas (outputs) de losclasificadores.