FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

182
FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios, Poincaré. Monte Carlo. L. L. Salcedo Departamento de Física Atómica, Molecular y Nuclear, Universidad de Granada, E-18071 Granada, Spain E-mail: [email protected] 29 de julio de 2020 Resumen Apuntes de la asignatura. Versión v3.13, 2014-2020. Se ruega comunicar los errores que puedan encontrarse a [email protected] http://www.ugr.es/local/salcedo/public/fm/curso.pdf Índice general 1 Grupo de traslaciones en R n 7 2 Generalidades sobre grupos de Lie 10 2.1 Grupos de Lie ..................................... 10 2.2 Ley de composición .................................. 12 1

Transcript of FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Page 1: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

FÍSICA MATEMÁTICA.Grupos de Lie, rotaciones, unitarios, Poincaré.

Monte Carlo.

L. L. SalcedoDepartamento de Física Atómica, Molecular y Nuclear,

Universidad de Granada, E-18071 Granada, SpainE-mail: [email protected]

29 de julio de 2020

Resumen

Apuntes de la asignatura. Versión v3.13, 2014-2020.Se ruega comunicar los errores que puedan encontrarse a [email protected]://www.ugr.es/local/salcedo/public/fm/curso.pdf

Índice general

1 Grupo de traslaciones en Rn 7

2 Generalidades sobre grupos de Lie 10

2.1 Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Ley de composición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1

Page 2: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

2.3 Constantes de estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 Elementos infinitesimales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5 Representación fiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.6 Generadores infinitesimales. Álgebra del grupo. . . . . . . . . . . . . . . . . . . . . 16

2.7 Coordenadas canónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.8 Fórmula de Campbell-Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.9 Álgebra de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.10 Relación entre grupo de Lie y álgebra . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.11 Medida invariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.12 Representación adjunta del grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.13 Acción de un grupo de Lie sobre una variedad . . . . . . . . . . . . . . . . . . . . 25

2.13.1 Representación escalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.13.2 Generadores infinitesimales . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.13.3 Representaciones espinoriales . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Grupo de rotaciones 28

3.1 Grupo de rotaciones en Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2 Álgebra de Lie de SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3 Grupo SO(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4 Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.4.1 Ángulos de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2

Page 3: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

3.4.2 Generadores infinitesimales y álgebra de SO(3) . . . . . . . . . . . . . . . . 35

3.4.3 Operador momento angular orbital . . . . . . . . . . . . . . . . . . . . . . 37

3.4.4 Operadores escalares y vectoriales . . . . . . . . . . . . . . . . . . . . . . . 39

3.5 Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5.1 Grupos U(n) y SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5.2 Matrices de SU(2) y matrices de Pauli . . . . . . . . . . . . . . . . . . . . 42

3.5.3 Álgebra de SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5.4 Relación entre los grupos SU(2) y SO(3) . . . . . . . . . . . . . . . . . . . 44

3.5.5 Representaciones enteras y semienteras de SU(2) . . . . . . . . . . . . . . . 46

3.6 Representaciones irreducibles de SU(2) y SO(3) . . . . . . . . . . . . . . . . . . . 47

3.6.1 Soluciones del álgebra de SU(2) . . . . . . . . . . . . . . . . . . . . . . . 47

3.6.2 Matrices de las representaciones irreducibles de SU(2) y SO(3) . . . . . . . 53

3.7 Armónicos esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.8 Serie de Clebsch-Gordan de SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.8.1 Suma de momentos angulares . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.8.2 Coeficientes de Clebsch-Gordan . . . . . . . . . . . . . . . . . . . . . . . . 57

4 Grupo de Poincaré 61

4.1 Transformaciones de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2 Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3 Métricas y aplicaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3

Page 4: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

4.4 Estructura del grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.5 Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.5.1 Tipos de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.6 Álgebra de Lie del grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.6.1 Álgebra de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.6.2 Álgebra de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.7 Álgebra de Poincaré en la base espacio-temporal . . . . . . . . . . . . . . . . . . . 73

4.8 Representaciones irreducibles del grupo de Lorentz . . . . . . . . . . . . . . . . . . 75

4.9 Representaciones irreducibles del grupo de Poincaré . . . . . . . . . . . . . . . . . 76

5 Representaciones de SU(n) 81

5.1 Representación tensorial de GL(n,C) . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.2 Reducción de V rn bajo Sr y GL(n,C) . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.3 Serie de Clebsch-Gordan para irreps tensoriales de GL(n,C) . . . . . . . . . . . . . 87

5.4 Reducibilidad de representaciones tensoriales bajo SU(n) . . . . . . . . . . . . . . 90

5.5 Otras representaciones de GL(n,C) . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.6 Representaciones de tipo T rs de GL(n,C) y U(n) . . . . . . . . . . . . . . . . . . . 92

5.7 Representaciones irreducibles de SU(n) . . . . . . . . . . . . . . . . . . . . . . . . 95

5.8 Matrices de Gell-Mann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6 Método Monte Carlo 101

6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4

Page 5: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

6.1.1 Ejemplo de cálculo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 101

6.1.2 Monte Carlo y valores esperados . . . . . . . . . . . . . . . . . . . . . . . . 102

6.1.3 Fluctuación en estimaciones Monte Carlo . . . . . . . . . . . . . . . . . . 102

6.1.4 Estimación Monte Carlo de integrales . . . . . . . . . . . . . . . . . . . . . 105

6.2 Probabilidad. Variables aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6.2.1 Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6.2.2 Deltas de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6.2.3 Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6.3 Método Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6.3.1 Promedios pesados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6.4 Métodos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

6.4.1 Números pseudo aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.4.2 Distribuciones de variables discretas . . . . . . . . . . . . . . . . . . . . . . 126

6.4.3 Distribuciones de variables continuas . . . . . . . . . . . . . . . . . . . . . 130

6.4.4 Método de inversión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.4.5 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.4.6 Puntos uniformemente distribuidos en una región . . . . . . . . . . . . . . . 133

6.4.7 Método de aceptación-rechazo . . . . . . . . . . . . . . . . . . . . . . . . 136

6.4.8 Método de reweighting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

6.5 Métodos markovianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

6.5.1 Condición de balance detallado . . . . . . . . . . . . . . . . . . . . . . . . 142

5

Page 6: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

6.5.2 Algoritmo de Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6.5.3 Baño térmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

6.5.4 Método de búsqueda de mínimos por enfriamiento . . . . . . . . . . . . . . 150

6.5.5 Termalización y tiempo de autocorrelación . . . . . . . . . . . . . . . . . . 150

7 Problemas resueltos 156

7.1 Relación 1: Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

7.2 Relación 2: Grupo de rotaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

7.3 Relación 3: Grupo de rotaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

7.4 Relación 1 de problemas laboriosos. . . . . . . . . . . . . . . . . . . . . . . . . . . 171

7.5 Relación 4: Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

6

Page 7: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

1 Grupo de traslaciones en Rn

El grupo de traslaciones está formado por aplicaciones de Rn en Rn, con la composición deaplicaciones, del tipo:

G = Ta, a ∈ Rn, Ta : Rn −→ Rn

x 7→ x+a (1.1)

Aquí a = (a1,a2, . . . ,an) forman un sistema de coordenadas de G. La dimensión del grupo es n,el número de coordenadas. dimG = n.

Ley de composición:

x 7→a2

x+a2 7→a1(x+a2)+a1 = x+(a1 +a2) (1.2)

por tanto la ley de composición de este grupo en estas coordenadas es

a12 = a1 +a2. (1.3)

Se trata de un grupo abeliano Ta1Ta2 = Ta2Ta1 .

Representación de las traslaciones en L2(Rn):

ψ(x) 7→ (U(a)ψ)(x) = ψ(x−a). (1.4)

Esto es una representación ya que U(a12) =U(a1)U(a2). Además es unitaria: es una isometría

〈U(a)ψ1|U(a)ψ2〉=∫

dnxψ∗1 (x−a)ψ2(x−a) =

∫dnxψ

∗1 (x)ψ2(x) = 〈ψ1|ψ2〉, (1.5)

y es invertible: U(a)−1 =U(−a), como se deduce de la ley de multiplicación. Esto implica U−1(a) =U†(a).

Esta representación coincide con la representación regular del grupo.1

Por otro lado, para una traslación infinitesimal δa

ψ(x−δa) = ψ(x)−δai∂iψ(x). (1.6)

1La representación regular por la izquierda se define como (T L(g)ψ)(g′) = ψ(g−1g′) en el espacio de funcionesdefinidas sobre el grupo, C (G), y se les puede dar estructura de espacio de Hilbert, L2(G,dµ).

7

Page 8: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Aquí ∂i = ∂/∂xi y despreciamos términos de segundo orden O(δa2). La variación puede escribirse

δψ(x) =−δa ·∇ψ(x)≡ 1ih

δa ·Pψ(x) (1.7)

donde se ha introducido el operador momento

Pi =−ih∂i, P =−ih∇ = P† (1.8)

que es el generador infinitesimal de las traslaciones. El 1/(ih) es convencional, se introduce paraque P sea hermítico y con dimensiones de momento lineal. Los operadores −ih∂i son los generadoresinfinitesimales de las traslaciones en esta representación del grupo.

Relaciones de conmutación. Las derivadas conmutan

∂i∂ jψ(x) = ∂ j∂iψ(x) (1.9)

y esto implica las relaciones de conmutación entre generadores

[Pi,P j] = 0. (1.10)

Que los generadores conmuten es consecuencia directa de que el grupo es abeliano.

Para transformaciones finitas

ψ(x−a) =∞

∑n=0

(−1)n

n!ai1 · · ·ain∂i1 · · ·∂inψ(x) (Taylor)

=∞

∑n=0

1n!(−a ·∇)n

ψ(x) = e−a·∇ψ(x).

(1.11)

Por tanto el operador que representa a las traslaciones en L2(Rn) es

U(a) = e−ih a·P. (1.12)

Esto es general: exponenciando los generadores infinitesimales se obtiene el operador del grupo (paragrupos conexos). También se tiene la relación entre generadores hermíticos y representación unitaria

P = P† ⇐⇒ U(a)† =U(a)−1. (1.13)

Tomando a infinitesimal se recuperan los generadores a partir de los operadores del grupo

U(a) = 1− ih

a ·P+O(a2), Pi = ih∂U(a)

∂ai

∣∣∣0. (1.14)

8

Page 9: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Representaciones irreducibles.2 Como el grupo es abeliano sus representaciones irreducibles(o simplemente irreps) son unidimensionales, por el lema de Schur.3 Si D(a) (matriz compleja 1×1)es una tal representación

D(a1)D(a2) = D(a1 +a2). (1.15)

Las únicas soluciones (con el requerimiento de que sean diferenciables con respecto de a)4 son dela forma

D(a) = eµ·a, µ ∈ Cn. (1.16)

En efecto, aplicando ∇a2 |0 a la relación (1.15), se tieneD(a1)D′(0) = D′(a1) , D′(0) = ∇ logD(a). (1.17)

(D(a) 6= 0 por ser D(a) invertible.) Llamando µ a D′(0) se obtiene la solución dada. El vector µ

determina completamente todas las irreps inequivalentes (en espacios unidimensionales representa-ciones distintas son inequivalentes) del grupo de traslaciones. En particular

e−i a·ph , p ∈ Rn (1.18)

son las representaciones unitarias y están contenidas en la representación regular, L2(Rn). Si ψp(x)y sus múltiplos forman un subespacio unidimensional en la representación p,

ψp(x−a) = (U(a)ψp)(x) = e−i a·ph ψp(x). (1.19)

Tomando a = x se obtiene (salvo normalización)

ψp(x) = ei p·xh (onda plana). (1.20)

Es decir, una partícula con momento p cae en la irrep p del grupo de traslaciones y esto nos dicecómo responde su función de onda a una traslación.

En la reducción de L2(Rn) bajo traslaciones cada irrep p ∈ Rn aparece exactamente una vez

H = L2(Rn) =⊕

pVp, Vp = λei p·x

h ,λ ∈ C

ψ(x) =∫ dn p

(2π h)n ψ(p)ei p·xh (Transformada de Fourier)

(1.21)

Las otras irreps con µ complejo aparecen también en el espacio C (Rn) de funciones complejasf (x), x ∈ Rn pero no en su restricción a L2(Rn).

2Cuando no se diga otra cosa la irreducibilidad se entenderá en el sentido de representaciones complejas. Repre-sentaciones irreducibles reales pueden ser reducibles complejas.

3Para un grupo abeliano [U(g1),U(g2)] = 0 en una irrep implica U(g) = λ (g)1d (identidad en Cd) y d = 1 por serirreducible.

4De hecho hay otras soluciones no continuas de la ecuación pero sólo buscamos representaciones continuas.

9

Page 10: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

2 Generalidades sobre grupos de Lie

2.1 Grupos de Lie

Un grupo continuo G es un conjunto que es grupo en sentido algebraico y al mismo tiempo unespacio topológico tal que la aplicación de G×G→ G definida por (g1,g2) 7→ g1g−1

2 es continua.5

Se dice que dos espacios topológicos son homeomorfos si existe una aplicación biyectiva ybicontinua entre ellos, y en este caso es consideran topológicamente equivalentes. Dos grupos con-tinuos son isomorfos si lo son como grupos en sentido algebraico y además son homeomorfos comoespacios topológicos.

Un espacio topológico X que sea localmente euclídeo es una variedad topológica. Esto quieredecir que admite un atlas de coordenadas locales. Cada carta local del atlas es un abierto de Xhomeomorfo a un abierto de Rn, siendo n la dimensión de la variedad topológica.

Un grupo continuo localmente euclídeo es un grupo de Lie. La dimensión del grupo de Lie es sudimensión como variedad topológica, es decir, el número de coordenadas necesario para especificarun elemento del grupo.

Propiedades topológicas relevantes de un grupo de Lie son su dimensión, y si se trata o no deun conjunto compacto, o conexo o simplemente conexo.

Ejemplo. El grupo (R2,+) tiene dimensión 2, es homeomorfo a (tiene la misma topología que)un plano, por tanto es conexo y simplemente conexo, pero no compacto. Basta una sola carta paracubrir todo el grupo.

Ejemplo. (U(1), ·) es el grupo de las fases con el producto

U(1) = ω|ω ∈ C, |ω|= 1, ω = eiθ , θ ∈ R, ω12 = ω1ω2. (2.1)

Este grupo tiene la topología de una circunferencia, S1. Este grupo tiene dimensión 1, es compacto,conexo pero no simplemente conexo. Los elementos se pueden parametrizar con θ ∈]−π,π] conω = eiθ , pero una carta local es un conjunto abierto, entonces se puede usar |θ |< π como sistemade coordenadas que incluye al elemento neutro (ω = 1) pero hace falta otra carta que incluya alelemento ω =−1 (por ejemplo ω =−eiθ ′ con |θ ′|< π).

5Ver por ejemplo [4] para definiciones precisas de espacio topológico, continuidad, conjunto compacto, variedadtopológica, etc.

10

Page 11: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Ejemplo. O(2) es el grupo de matrices 2×2 reales y ortogonales

O(2) =(

cosθ −η senθ

senθ η cosθ

), 0≤ θ < 2π, η =±1

. (2.2)

Este grupo tiene dimensión 1 y es compacto pero no es conexo: tiene dos componentes conexas(η =±1) cada una con topología S1. La matrices con η =+1 forman el grupo SO(2), que es unsubgrupo invariante de O(2). Esto es general, en un grupo de Lie G, la componente conexa delneutro, Gc, es un subgrupo invariante y las demás componentes son las clases de equivalencia deG/Gc y son homeomorfas a Gc (ver [4]).

Ejemplo. GL(1,R), el grupo de cambios de base reales en una dimensión, tiene dos compo-nentes conexas.

Teorema. Para grupos compactos (lo cual incluye a los grupos finitos) se tiene6

a) Sus representaciones son equivalentes a unitarias y completamente reducibles.

b) Sus irreps son de dimensión finita.

c) En la reducción de la representación regular, cada irrep aparece tantas veces como sea sudimensión.

Que el espacio sea simplemente conexo significa que, dados dos puntos cualesquiera, todoslos caminos que los unen son deformables unos en otros, es decir, esencialmente sólo hay un modode ir de un punto a otro. Equivalentemente, todo camino cerrado es contráctil a un punto.

Ejemplo. Rn es simplemente conexo.

Ejemplo. El grupo GL(1,C) de cambios de base complejos en una dimensión. Cada elementoes un punto de C \ 0. Este grupo es conexo pero no simplemente conexo: los caminos cerrados(que no pueden pasar por 0) pueden dar n ∈ Z vueltas alrededor de 0 y caminos con distinto valorde n no son deformables entre sí. Igualmente las clases de caminos de U(1) (la circunferencia S1), yde R×U(1) (el cilindro R×S1) se clasifican por un número entero. Las clases de U(1)×U(1) (eltoro S1×S1) se clasifican por dos enteros, Z2.

6Un teorema relacionado: si G es conexo, simple y no compacto, su única representación unitaria de dimensiónfinita es la trivial. Para un grupo de Lie, simple quiere decir que es no abeliano y que sus únicos subgrupos invariantespropios son discretos.

11

Page 12: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

2

2

2

1

3

3

a

b

Figura 1: D2/∼: Disco con los puntos del borde diametralmente opuestos identificados. Los caminos 1 y 2 dea a b son de la misma clase de homotopía (es decir, deformables uno en otro) y 3 de la otra case.

Ejemplo. El disco abierto D2 = x ∈ R2, ‖x‖ < 1 es simplemente conexo. En cambio, siañadimos los puntos del borde e identificamos los que sean diametralmente opuestos, obtenemos

D2/∼= x ∈ R2, ‖x‖ ≤ 1, con x∼−x si ‖x‖= 1, (2.3)

que es un espacio doblemente conexo: hay dos tipos de caminos cerrados, según que utilicen x∼−xun número par o impar de veces.

La relevancia es que los espacios simplemente conexos no tienen funciones multivaluadas, perolos múltiplemente conexos sí. Ej: en U(1), ω → ω1/2 (representación unidimensional) es bivaluada.

2.2 Ley de composición

Sea G un grupo de Lie de dimensión n. Se puede elegir un sistema de coordenadas localesque contenga al elemento neutro e. Esto quiere decir que hay un homeomorfismo entre un entornoabierto del grupo, UG 3 e, y un entorno abierto U de Rn,

g ∈UG↔ a = (a1,a2, . . . ,an) ∈U. (2.4)

Se suele elegir el sistema de coordenadas de modo que el neutro, e, tiene coordenadas (0,0, . . . ,0).

Si g1, g2 y g12 = g1g2 están en UG, con coordenadas a1, a2 y a12, respectivamente, la función

a12 = f (a1,a2) (2.5)

12

Page 13: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

se denomina ley de composición de G en esas coordenadas. Más explícitamente

ai12 = f i(a1

1, . . . ,an1,a

12, . . . ,a

n2), i = 1, . . . ,n. (2.6)

La ley de composición es una función continua y cumple

f (a, f (b,c)) = f ( f (a,b),c), a = f (a,0) = f (0,a), (2.7)

correspondientes a propiedad asociativa y existencia de neutro. Existencia de inverso requiere que0 = f (a,b) sea invertible para expresar b en función de a.

Obviamente la ley de composición depende del sistema de coordenadas. Aunque no se ha im-puesto, las restricciones sobre f por ser un grupo garantizan que se puede elegir el sistema decoordenadas de modo que f sea analítica (real). Elegimos coordenadas analíticas (no únicas) en loque sigue.

Dos grupos de Lie G y G′ son localmente isomorfos si admiten la misma ley de composiciónen sendos entornos del neutro UG y UG′ . En general dos grupos localmente isomorfos pueden no serglobalmente isomorfos (es decir, no ser realmente isomorfos como grupos de Lie).

Ejemplo. En U(1) ω = eiθ , ω12 = ω1ω2, θ12 = θ1+θ2, y para (R,+), x12 = x1+x2. Los dosgrupos tienen la misma ley de composición pero no son isomorfos. Por ej. (ei2π/3)3 = 1 en cambio3× 2π/3 6= 0 (no son algebraicamente isomorfos). Y tampoco son topológicamente iguales: U(1)es compacto y no simplemente conexo y R es no compacto y simplemente conexo.

Teorema. Dado un grupo de Lie G, en la clase de equivalencia de los grupos localmenteisomorfos a G hay exactamente uno (módulo isomorfismos), G, que es conexo y simplemente conexo,denominado recubridor universal de la clase de equivalencia. Además si G es conexo, G ∼= G/Ndonde N es un subgrupo invariante discreto de G.7 Si N tiene n elementos, G será un espacion-conexo.

Ejemplo. R y U(1) son localmente isomorfos y R es simplemente conexo, por lo cual es elgrupo recubridor y U(1) es un grupo cociente. En efecto, U(1)∼=R/(2πZ) ya que x (mód2π ) esuna variable angular.

Cualquier representación (univaluada) de G define una representación de G que será tambiénunivaluada en un entorno del neutro, sin embargo generalmente será multivaluada para G a nivel

7Usamos ∼= para indicar isomorfismo.

13

Page 14: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

G=G/N

e e~

G~

h

hg

~

g

~

T(g)

T(hg)

~

~

~

~

g~

Figura 2: G = G/N donde N es un subgrupo discreto. G y G son localmente isomorfos. Al tomar cociente elcamino g→ hg (h ∈ N) es abierto en G pero cerrado y no contráctil en G que es no simplemente conexo. Unarepresentación T de G en general será multivaluada como representación de G.

global. En efecto, si D(a) son los operadores de la representación del recubridor G, y h ∈ N (G ∼=G/N), siempre que D(h) 6= 1 se tendrá una multivaluación de D como representación de G ya queD(e) = 1 pero h≡ e en G.

2.3 Constantes de estructura

Dada la ley composición8 (usando la segunda ec. (2.7))

f k(x,y) = xk + yk +∂ 2 f k

∂xi∂y j

∣∣∣0xiy j +R3 (2.8)

(R3 representa términos cúbicos o más en el desarrollo en serie.) Los números

ci jk =

∂ 2 f k

∂xi∂y j

∣∣∣0− ∂ 2 f k

∂x j∂yi

∣∣∣0

(2.9)

se denominan constantes de estructura del grupo (en las coordenadas x). Se deduce que se anulansi el grupo es abeliano.

Bajo cambios de coordenadas x′i(x) las constantes de estructura se transforman como un tensor8Importante: Aquí, y a menudo en lo que sigue, usamos el convenio de índices repetidos. Así por ejemplo

Bi = Ai jkx jyk quiere decir Bi = ∑ j,k Ai jkx jyk.

14

Page 15: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(a diferencia de ∂ 2 f k

∂xi∂y j

∣∣0):

xi = Aijx′ j +R2 , Ai

j =∂xi

∂x′ j

∣∣∣0, ci j

k = c′lmnAl

iAmj(A−1)k

n. (2.10)

Propiedades:

1) Las ci jk son reales.

2) ci jk =−c ji

k (antisimetría).3) cir

lc jkr + c jr

lckir + ckr

lci jr = 0 (identidad de Jacobi).

(2.11)

La identidad de Jacobi es consecuencia de la propiedad asociativa.

2.4 Elementos infinitesimales

Los elementos infinitesimales son elementos del grupo con coordenadas (analíticas) infinitesimales(de primer orden), δai. En particular, usando la ec. (2.8),

f (δa,−δa) = 0, (2.12)

ya que despreciamos O(δ 2). Esto implica que si un elemento infinitesimal tiene coordenadas δai, suinverso tiene coordenadas −δai.9

2.5 Representación fiel

A menudo es conveniente trabajar con operadores (o matrices) que representen al grupo en lugarde con el grupo directamente. A g ∈ G la representación le asocia un operador invertible T (g) deGL(V ), siendo V un espacio vectorial (o de Hilbert), de modo que T (g1)T (g2) = T (g1g2), o encoordenadas, T (a)T (b) = T ( f (a,b)) (usamos T (a) para el operador T (g) siendo a las coordenadasde g.)

La representación T (g) es fiel si es inyectiva (es decir, elementos distintos se representan poroperadores distintos) y en este caso hay un isomorfismo entre los grupos G y T (G) = T (g), g∈G.

Una representación fiel concreta es la representación regular por la izquierda T L. En estecaso V = C (G) es el espacio de funciones complejas continuas definidas sobre el grupo, ψ(g) ∈ C,y T L se define mediante

(T L(g)ψ)(g′) = ψ(g−1g′), T L(g1)T L(g2) = T L(g1g2). (2.13)9Para elementos finitos, el inverso coincide con −ai sólo en ciertos sistemas de coordenadas.

15

Page 16: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

2.6 Generadores infinitesimales. Álgebra del grupo.

T (a) = 1+∂T∂a j

∣∣∣0a j +O(a2) (2.14)

Aquí, 1 representa el operador identidad en el espacio V en el que actúa la representación. El operador

X j := i∂T∂a j

∣∣∣0

j = 1, . . . ,n (2.15)

es el generador infinitesimal en la dirección j. La unidad imaginaria i se introduce por conveniencia(también se puede introducir un h pero no es usual en este contexto). Por tanto, para un elementoinfinitesimal

T (δa) = 1− iδaiXi ≡ 1− iδa ·X . (2.16)

Los Xi son n operadores que actúan en V , igual que T (a). Si se trata de una representaciónunitaria,

T (a)−1 = T (a)†, (2.17)

los Xi son hermíticos:

∀δa 1+ iδaiX†i = T (δa)† = T (δa)−1 = T (−δa) = 1+ iδaiXi ⇒ Xi = X†

i . (2.18)

(Para esto se introduce la i en la definición de generador.)

Los Xi subtienden un espacio vectorial real10

L := linRXi, i = 1, . . . ,n= aiXi, a ∈ Rn. (2.19)

Si la representación es fiel, los Xi son linealmente independientes y forman una base. En efecto, siδaiXi = 0, se tendrá T (δa) = 1 y entonces δa = 0 por ser a un sistema de coordenadas y T fiel. Eneste caso, dimL = n.

El espacio L concreto depende de la representación. El espacio asociado a la representaciónregular, T L, se denomina álgebra del grupo G. Por extensión, el mismo nombre se aplica a los Lasociados a representaciones fieles.

10Esto quiere decir, que tomamos combinaciones lineales reales de los generadores, pero V es un espacio vectorialcomplejo y los Xi mismos pueden ser matrices complejas, por ejemplo.

16

Page 17: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La base Xi depende de las coordenadas. Bajo un cambio de coordenadas a′i(a)

X ′i = i∂T∂a′i

∣∣∣0= i

∂a j

∂a′i

∣∣∣0

∂T∂a j

∣∣∣0= A j

iX j. (2.20)

Esto implica que el cambio de coordenadas induce un cambio de base, pero el espacio L mismono depende de las coordenadas. Por supuesto hay muchos sistemas de coordenadas con los mismosgeneradores. Los generadores serán los mismos cuando los dos sistemas coincidan hasta primer ordenen un entorno del neutro, es decir, a′i = ai +O(a2).

Para estados y operadores cuánticos un grupo de transformaciones actúa según

|ψ〉 7→ |ψg〉= T (g)|ψ〉, A 7→ Ag = T (g)AT (g)−1, (2.21)

de modo que (A|ψ〉)g = Ag|ψg〉. (Esta acción define la representación adjunta de T .) Entonces, parala variación infinitesimal se tiene, usando T (g) = 1− iδX ,

δ |ψ〉=−iδX |ψ〉, δA =−i[δX ,A], δX ≡ δaiXi . (2.22)

Se deduce que si un observable A es invariante bajo la acción de un grupo dicho observable conmutacon los generadores infinitesimales.

2.7 Coordenadas canónicas

La exponencial de un operador A se define por su desarrollo en serie

eA =∞

∑n=0

1n!

An. (2.23)

Para operadores acotados esta serie es convergente en todo el espacio.

En general si f (x) = ∑cnxn, se define f (A) = ∑cnAn, o equivalentemente, si |a〉 es una basepropia, A|a〉= a|a〉, se define f (A)|a〉= f (a)|a〉. En todo caso se deduce la propiedad S f (A)S−1 =f (SAS−1) que se utilizará más adelante.

Sea G un grupo conexo. Por conveniencia, en lugar de usar directamente el grupo, podemos usaruna representación fiel cualquiera, T , de modo que el grupo T (G) es isomorfo a G.

En general para un sistema de coordenadas a, no se cumple que T (a)T (a) = T (2a) o másgeneralmente que T (a)N = T (Na) (N ∈ Z), sin embargo es posible elegir las coordenadas de modoque esto sea cierto, éstas son las denominadas coordenadas canónicas.

17

Page 18: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Dado un sistema cualquiera de coordenadas a ∈U ⊆ Rn, con generadores X j, veamos primeroque

e−ia jX j = e−ia·X ∈ T (G), a ∈ Rn. (2.24)

Partimos de a ∈U ,T (G) 3 T (a) = 1− ia ·X +O(a2) = e−ia·X+O(a2). (2.25)

Para N ∈ N también se tendrá11

T (G) 3 T (a/N)N =(

e−i 1N a·X+O(1/N2)

)N= e−ia·X+O(1/N), (2.26)

donde se ha usado la identidad(eA)N = eNA N ∈ Z. (2.27)

Tomando el límite de N grande con a fijo

e−ia·X ∈ T (G). (2.28)

Aquí se suponía a ∈U pero lo mismo vale para a ∈ Rn: basta escribir a = N(a/N) para N suficien-temente grande de modo que a/N ∈U y e−ia·X ∈ T (G) por e−i a

N ·X ∈ T (G).

Lo que acabamos de ver es que (simbólicamente) e−iL ⊆ G. De hecho,

G = e−iL , (2.29)

es decir, todos los elementos de G se pueden alcanzar variando a, y los a j definen un sistemade coordenadas. Un argumento (cualitativo) para ver esto es que, para un grupo de Lie conexo,cualquier entorno UG del neutro se puede usar para reconstruir todo el grupo, y concretamente

∀g ∈ G ∃h ∈UG ∃N ∈ N g = hN . (2.30)

De modo que basta ver que todos los elementos de UG se pueden obtener mediante e−ia·X . Peroesto es evidente cuando se toma UG formado por elementos infinitesimales12

h ∈UG T (UG) 3 T (h) = 1− iδ a ·X = e−iδ a·X . (2.31)

Los n números ai forman un sistema de coordenadas locales denominadas coordenadas canóni-cas o normales. Todas las T (g) se pueden expresar como e−ia·X , pero sólo en un entorno del neutro

11Sin pérdida de generalidad suponemos U es convexo, es decir, tal que que si x ∈U entonces λx ∈U , para λ ≤ 1.12Para g ∈G cualquiera, podemos elegir UG cada vez más pequeño de modo que g = hN con un h más próximo al

neutro y N mayor.

18

Page 19: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

está garantizado que es una biyección. Las coordenadas canónicas no dependen de la representaciónfiel usada en la construcción, son una propiedad del grupo.

Nótese que en general las ai no coinciden con las ai originales, T (a) 6= limN→∞ T (a/N)N , peroai = ai +O(a2) y por tanto sí tienen los mimos generadores infinitesimales.

Las coordenadas canónicas son únicas para cada conjunto de generadores (cada base de L)y distintas coordenadas canónicas están relacionadas por transformaciones lineales. La propiedadbásica de las coordenadas canónicas es que al hacer dos transformaciones en la misma dirección lascoordenadas se suman13

e−iλ a·X e−iµ a·X = e−i(λ+µ)a·X , (2.32)

Nótese que las coordenadas no se suman para dos transformaciones arbitrarias e−ia·X e−ib·X , a menosque el grupo sea abeliano.

2.8 Fórmula de Campbell-Hausdorff

Una fórmula útil es

eAXe−A = X +[A,X ]+12![A, [A,X ]]+

13![A, [A, [A,X ]]]+ · · · ≡ e[A, ]X . (2.33)

Esta fórmula se demuestra por inducción.14

Sean A y B dos operadores y C tal que15

eAeB = eC . (2.34)

Desarrollando en serie ambos lados, se ve que el operador C puede escribirse como [4]

C = A+B+12[A,B]+

112

[A, [A,B]]+1

12[B, [B,A]]+ · · · ≡C1 +C2 +C3 + · · · , (2.35)

donde [A,B]≡ AB−BA es el conmutador de A y B. El término Cn tiene exactamente n operadoresA ó B y n− 1 conmutadores, además A y B sólo aparecen en la forma [A, ], [B, ]. Dicho de otraforma

C = A+ f ([A, ·], [B, ·])B, (2.36)13Para que esta condición garantice que ai son canónicas hace falta además que sean coordenadas analíticas.14Alternativamente, si ponemos una etiqueta 1 ó 2 según que un operador A esté situado a la izquierda o la derecha

de X , se tiene eAXe−A = eA1−A2X y A1−A2 no es más que el conmutador [A, ].15Se va aplicar para matrices en un entorno de cero, la multivaluación de tipo 2πin en C no es relevante aquí. Se

elige la rama tal que C→ 0 cuando A,B→ 0.

19

Page 20: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

donde la operación [A, ·] sobre un operador X cualquiera representa [A,X ] (ídem [B, ·]) y f (X ,Y ) esuna función conocida de argumentos X e Y para los que se supone válida la propiedad asociativapero no la conmutativa, y f es desarrollable en serie de potencias de X e Y .

Esta fórmula es consistente con A→ A+a1, B→ B+b1, C→C+(a+b)1, a,b ∈ C.

2.9 Álgebra de Lie

Un álgebra de Lie es un álgebra con un producto de Lie, esto es, lineal, antisimétrico y quesatisfaga la identidad de Jacobi. El espacio formado por todos los operadores definidos sobre unespacio vectorial forma un álgebra de Lie con el conmutador como producto.16

El espacio subtendido por los generadores infinitesimales, L, forma un álgebra de Lie, es decir,L es cerrado bajo conmutación de operadores

X ,Y ∈ L ⇒ − i[X ,Y ] ∈ L, −i[L,L]⊆ L . (2.37)

Para ver esto, en cualquier representación T , dado un sistema de coordenadas a y sus coordenadascanónicas asociadas a,

T (a) = e−iaiXi, T (b) = e−ibiXi

T (a)T (b) = T (c) = e−iciXi, ci = f i(a,b) .(2.38)

Por la fórmula de Campbell-Hausdorff

−ickXk =−iakXk− ibkXk +12[−iaiXi,−ib jX j]+R3 (2.39)

y al mismo tiempo

−ickXk =−i(

ak + bk +∂ 2 f k

∂ ai∂ b j

∣∣∣0aib j +R′3

)Xk , (2.40)

lo cual implica, usando la definición de las constantes de estructura en ec. (2.9),

−12[Xi,X j] =−i

∂ 2 f k

∂ ai∂ b j

∣∣∣0Xk =−

i2

ci jkXk . (2.41)

16La identidad Jacobi en este caso se sigue de

0 = [A, [B,C]]+ [B, [C,A]]+ [C, [A,B]].

para tres operadores cualesquiera.

20

Page 21: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Nótese que ∂ 2 f k

∂ai∂b j

∣∣0 no es antisimétrico en general, pero sí en coordenadas canónicas. Por otro lado

ci jk = ci j

k ya que la matriz de cambio de base entre las coordenadas a y a es Aij = δ i

j en ec. (2.10).Finalmente se obtiene, en un sistema de coordenadas arbitrario y para una representación cualquiera

[Xi,X j] = ici jkXk (relaciones de conmutación) , (2.42)

que también pueden escribirse como

[−iXi,−iX j] = ci jk(−iXk) o − i[Xi,X j] = ci j

kXk, (2.43)

interpretando −i[ , ] como el producto de Lie.

Si la representación es fiel, las ci jk (que no dependen de la representación) se pueden obtener

calculando [Xi,X j] por ser Xknk=1 una base. Una vez conocidas las relaciones de conmutación se

puede obtener el conmutador de dos elementos cualesquiera del álgebra de Lie (sin necesidad detener los operadores mismos)

X ,Y ∈ L X = aiXi, Y = b jX j, −i[X ,Y ] = zkXk ∈ L, zk ≡ ci jk aib j . (2.44)

A veces se usa la notación z = a× b. De hecho el producto vectorial usual es un caso particularcomo se verá.

Por definición una representación de un álgebra de Lie L en un espacio L′ de operadoresquiere decir un homomorfismo de álgebras

f : X ∈ L 7→ f (X) ∈ L′ f ([X ,Y ]) = [ f (X), f (Y )] . (2.45)

Puesto que el conmutador depende sólo de las constantes de estructura, se deduce que dos álgebrasde Lie son isomorfas si y sólo si tienen las mismas constantes de estructura (en sendas basesapropiadas). Cualquier representación T (a) del grupo produce una representación de su álgebra deLie.

Acabamos de ver que si los operadores de L son los generadores infinitesimales de un grupo deLie, entonces forman un álgebra de Lie. También se cumple el recíproco: si un conjunto de operadoresL es un álgebra de Lie, entonces su exponencial e−iL es un grupo de Lie.17

17Al menos formalmente. Si los operadores de L son no acotados (lo cual requiere un espacio de dimensión infinita)puede ocurrir que e−iL o la serie de Campbell-Hausdorff no converjan. En este caso se dice que el álgebra L no esintegrable a un grupo de Lie.

21

Page 22: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En efecto, dado L álgebra de Lie, definimos G = e−iL. Es evidente que G tiene un neutro y cadaelemento e−iX tiene un inverso dado por eiX . Falta ver que G es cerrado bajo multiplicación. Estose ve usando Campbell-Hausdorff: Sean X ,Y ∈ L

T (x)≡ e−iX , T (y)≡ e−iY , T (x)T (y) = e−iX e−iY ≡ e−iZ,

−iZ =−iX− iY +12[−iX ,−iY ]+ · · · , o Z = X +Y +

12(−i)[X ,Y ]+ · · ·

(2.46)

Como toda la serie está formada por conmutadores, Z ∈ L y T (x)T (y) ∈ G. Las constantes deestructura de G son las del álgebra L.

Al mismo tiempo esta demostración implica que no sólo las constantes de estructura estánfijadas por la ley de composición del grupo, sino que a su vez la ley de composición c = f (a,b) estácompletamente determinada por las constantes de estructura (módulo cambios de coordenadas). Enefecto, las componentes de Z se obtienen calculando conmutadores lo cual sólo requiere conocer lasconstantes de estructura

f k(x,y) = zk = xk + yk +12

ci jkxiy j + · · · . (2.47)

En consecuencia el álgebra de Lie (caracterizada por sus constantes de estructura) determina com-pletamente el grupo a nivel local: dos grupos son localmente isomorfos si y sólo si sus álgebras deLie son isomorfas. Si se tienen los operadores concretos (no abstractos) del álgebra, su exponencialproduce el grupo conexo (la componente conexa del grupo que contiene al neutro) concreto. Así porejemplo, si n = 1 y X1 = 1 (matriz 1×1) su exponencial e−iaXi produce el grupo U(1), en cambiosi X1 = i su exponencial produce un grupo isomorfo a (R,+). En ambos casos las relaciones deconmutación son las mismas, [X1,X1] = 0.

Si L es abeliana ([L,L] = 0) el grupo conexo es abeliano. Nótese que O(2) tiene un álgebra deLie abeliana pero el grupo mismo no es abeliano porque no es conexo. (La componente conexa esel grupo SO(2) de rotaciones en el plano que sí es abeliano.)

Obsérvese que no todos los conjuntos de n3 números ci jk definen un álgebra de Lie (es decir,

existen n operadores linealmente independientes que cumplan las relaciones de conmutación). Lacondición necesaria y suficiente es que se satisfaga las condiciones (2.11). Además las constantes deestructura se pueden llevar a una forma canónica mediante cambios de base, por lo que hay menosálgebras de Lie distintas de lo podría parecer. Para cada dimensión n sólo hay un número finito deálgebras de Lie semisimples18 distintas (no isomorfas) y por tanto de grupos de Lie locales.

18Un álgebra es simple cuando no tiene ideales y semisimple cuando es suma directa de simples.

22

Page 23: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para n = 1 sólo hay un álgebra (álgebra abeliana) y para n = 2 sólo hay dos álgebras distintas

[X1,X2] = 0 (abeliana)[X1,X2] = iX1 (por ejemplo X1 = x, X2 =−ix∂x en L2(R))

(2.48)

Análogamente, para dimensión 3 sólo hay dos álgebras de Lie reales simples (y por tanto semisimples).

2.10 Relación entre grupo de Lie y álgebra

Si H es un subgrupo de G, su álgebra de Lie LH es una subálgebra de L, es decir,−i[LH ,LH ]⊆ LH .Y viceversa, la exponencial de una subálgebra genera un subgrupo.

Si H es un subgrupo invariante de G, LH es un ideal de L, es decir, −i[LH ,L]⊆ LH . En efecto,si H es invariante (usando ec. (2.33))

g ∈ G, h ∈ H, H 3 ghg−1 = e−iXge−iXheiXg = exp(−ie−iXgXheiXg) = e−iXh−[Xg,Xh]+···

⇒−i[Xg,Xh] ∈ LH ∀Xg ∈ L, Xh ∈ LH .(2.49)

Y viceversa si LH es un ideal su exponencial es un subgrupo invariante.

Por otro lado, si T (1)(g) y T (2)(g) son dos representaciones de G en los espacios V (1) y V (2), sepuede hacer su producto directo T (g) = T (1)(g)⊗T (2)(g) que actúa en el espacio producto tensorialV =V (1)⊗V (2). Los generadores infinitesimales de la representación T son

Xi = X (1)i ⊗1+1⊗X (2)

i ≡ X (1)i +X (2)

i . (2.50)

En efecto, para un elemento infinitesimal g = e−iδX

T (1)(g)⊗T (2)(g) = (1+δX (1))⊗ (1+δX (2)) = 1+δX (1)⊗1+1⊗δX (2) . (2.51)

2.11 Medida invariante

En un grupo finito, si ψ(g) es una función definida sobre el grupo, se puede definir su promediocomo 〈ψ〉G =

1|G| ∑g∈G

ψ(g), y este promedio es invariante por la izquierda y por la derecha, es decir,

las funciones ψ(g′g) y ψ(gg′) tienen los mismos promedios que la función original. Esto se puedeextender a grupos continuos.

23

Page 24: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Todo grupo de Lie tiene una medida invariante, también denominada medida de Haar, que esinvariante por la izquierda y única salvo normalización. Y lo mismo por la derecha. Si ψ(g) es unafunción definida sobre el grupo

ψ : G→ C,∫

GdµL(g)ψ(g) =

∫G

dµL(g)ψ(g′g)∫G

dµR(g)ψ(g) =∫

GdµR(g)ψ(gg′)

(2.52)

En un sistema de coordenadas a las medidas toman la forma

dµL,R(g) = ρL,R(g)dna , (2.53)

para ciertas densidades no negativas ρL,R(g).

Por ejemplo, para el grupo de traslaciones en Rn ∫ dnaψ(a) es la medida invariante.

Con la medida invariante por la izquierda se puede definir el espacio de Hilbert L2(G,dµL) defunciones complejas de cuadrado integrable definidas sobre el grupo y la representación regular porla izquierda es una representación unitaria con ese producto escalar. (Ídem por la derecha.)

Si el grupo es compacto o abeliano (y más casos) las medidas por la derecha e izquierda coinciden(se dice que el grupo es unimodular). Además si el grupo es compacto, se puede (y se suele) elegir∫

Gdµ(g) = 1 . (2.54)

Por ejemplo para U(1) 3 ω = e−iφ , la medida invariante normalizada es 〈ψ〉U(1) =∫ 2π

0

2πψ(ω).

De acuerdo con el teorema de Peter-Weyl, para un grupo compacto G con irreps Dµ(g)de dimensión nµ , las funciones √nµDµ(g−1)i

j forman una base ortonormal de L2(G,dµ). Enconsecuencia si ψ(g) es de cuadrado integrable

ψ(g) = ∑µ

∑i, j=1

ψjµi√

nµDµ(g−1)ij , ψ

jµi =

∫G

dµ(g)(√

nµDµ(g−1)ij)∗ψ(g) . (2.55)

Bajo la representación regular por la izquierda, cada subespacio Vµi = linDµ(g−1)ij

j=1 lleva unairrep µ . En efecto, si | j〉 ≡ Dµ(g−1)i

j,

T L(g′)| j〉= Dµ((g′−1g)−1)ij = Dµ(g−1g′)i

j = Dµ(g−1)ikDµ(g′)k

j = Dµ(g′)kj|k〉. (2.56)

24

Page 25: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

2.12 Representación adjunta del grupo

Dada una representación fiel cualquiera T , se puede construir la representación adjunta delgrupo, usando como espacio de representación

Lc = a ·X, a ∈ Cn . (2.57)

La representación g 7→ Adg está definida por la acción

X ∈ L 7→g

Adg(X)≡ T (g)XT (g)−1 . (2.58)

Cuando X ∈ L también T (g)XT (g)−1 ∈ L por la relación

G 3 T (g)e−iX T (g)−1 = exp(−iT (g)XT (g)−1) (2.59)

(todo está definido en el grupo de modo que el resultado no depende de la representación usada).Por tanto AdLc ⊂ Lc. Además es una representación del grupo ya que aplicar g2 y luego g1 produceel mismo efecto que g1g2. Esta representación es real: Para X = aiXi, ai 7→ D(g)i

ja j y D(g) unamatriz real n×n ya que AdL⊂ L.

Para grupos abelianos la representación adjunta es equivalente a la representación trivial.

La representación adjunta del grupo induce la representación adjunta del álgebra, formadapor operadores que actúan sobre Lc. Usando (2.22), es inmediato que Xi está representado por AdXidefinido por [Xi, ],

X ∈ L 7→ AdX AdX(Y )≡ [X ,Y ] ∀Y ∈ Lc. (2.60)

Por la identidad de Jacobi, es inmediato comprobar que es una representación del álgebra, es decirAd(−i)[X ,Y ] = (−i)[AdX ,AdY ]. Esta representación es puramente imaginaria, ya que si X ,Y ∈ L[X ,Y ] ∈ iL. Las relaciones de conmutación ec. (2.42) implican que la matriz n×n correspondienteal generador Xi del álgebra en la representación adjunta es (AdXi)

kj = ici j

k.19

2.13 Acción de un grupo de Lie sobre una variedad

Sea G un grupo de Lie de dimensión n, y M una variedad diferenciable de dimensión m. Unaacción A de G sobre M es una aplicación

A : G×M 3 (g,x) 7→ A(g,x) ∈M. (2.61)19En efecto, si [Xi,X ] = X ′ con X = a jX j y X ′ = a′kXk, buscamos la matriz AdXi tal que (AdXi)

kja j = a′k. Entonces,

[Xi,a jX j] = a jici jkXk = a′kXk implica (AdXi)

kj = ici j

k.

25

Page 26: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

tal queA(e,x) = x, A(g1,A(g2,x)) = A(g1g2,x) . (2.62)

Por ejemplo, el propio grupo como espacio, M = G, y gx como producto en G. Por tanto todo grupose puede ver como un grupo de transformaciones.

Cuando la acción a que nos referimos se sobreentiende, se suelen usar las notaciones

A(g,x) = xg = gx. (2.63)

2.13.1 Representación escalar

Sea C (M) el conjunto de funciones complejas definidas sobre la variedad M, en la que actúa elgrupo G. Se puede definir una representación de G en C (M) mediante

g 7→U(g) ψ 7→ ψg =U(g)ψ, ψ

g(x)≡ ψ(g−1x) (2.64)

o equivalentementeψ

g(gx) = ψ(x) (transformación escalar). (2.65)

Podemos comprobar que U(g) así definido es una representación del grupo:

ψ(x) 7→g2

ψg2(x) = ψ(g−1

2 x) 7→g1

ψg2(g−1

1 x) = ψ(g−12 (g−1

1 x)) = ψ((g1g2)−1x) = ψ

g1g2(x) (2.66)

que implica U(g1)U(g2) =U(g1g2).

2.13.2 Generadores infinitesimales

Para g infinitesimal con coordenadas δai, i = 1, . . . ,n y xµ , µ = 1, . . . ,m,

(gx)µ = xµ +δxµ , δxµ = δai f µ

i (x) . (2.67)

Igualmente,g−1x = x−δx (2.68)

ya que −δai son las coordenadas de g−1. Las f µ

i se pueden obtener mediante

(gx)µ = Fµ(x,a), f µ

i (x) =∂Fµ

∂ai

∣∣∣∣a=0

. (2.69)

26

Page 27: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Queremos obtener los generadores infinitesimales correspondientes a la representación escalar. Paraello consideramos al acción de g infinitesimal sobre una función ψ

ψg(x) = ψ(x−δx)≡ ψ(x)+δψ(x), δψ(x) =−δx ·∇ψ(x) =−δxµ

∂µψ(x) . (2.70)

Por otro ladoψ

g =U(g)ψ = (1− iδX)ψ, δψ =−iδXψ =−iδaiXiψ . (2.71)

Se deduceδX =−iδxµ

∂µ , Xi =−i f µ

i (x)∂µ . (2.72)

Por ejemplo para traslaciones δx= δa, f µ

i = δµ

i , Xi =−i∂i, X =−i∇.

2.13.3 Representaciones espinoriales

Si D(g) es una representación de G en un espacio vectorial V de dimensión d (por ejemplosi V = Cd, los D son matrices d× d) se puede construir una representación en el espacio H =C (M)⊗V . Los vectores de H están descritos por funciones ψα(x), donde α etiqueta una base deV . Considerado como un vector de V para cada x, Ψ(x) ∈V (un vector columna de longitud d).

La representación U(g) en H se puede definir mediante

Ψg(x) = D(g)Ψ(g−1x), ψ

gα(x) = (D(g))αβ ψβ (g

−1x) . (2.73)

En efecto,

Ψ(x) 7→g2

D(g2)Ψ(g−12 x) 7→

g1D(g1)(D(g2)Ψ(g−1

2 (g−11 x)) = D(g1)D(g2)Ψ((g1g2)

−1x)

= D(g1g2)Ψ((g1g2)−1x) = Ψ

g1g2(x) .(2.74)

A nivel infinitesimal, usandoD(g) = 1− iδaiSi, (2.75)

se encuentra

Ψg(x) = (1− iδaiSi)(1−δxµ

∂µ)Ψ(x) = (1− iδaiSi−δxµ∂µ)Ψ(x)

≡ (1− iδaiXi)Ψ(x)(2.76)

que implicaXi =−i f µ

i (x)∂µ +Si ≡ Li +Si. (2.77)

El operador Li sólo actúa en C (M) y Si sólo actúa en V y ambos operadores conmutan. Esteresultado es consistente con ec. (2.50).

27

Page 28: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

3 Grupo de rotaciones

3.1 Grupo de rotaciones en Rn

O(n,R) u O(n) es el grupo de las matrices ortogonales reales n×n

O(n) = A matriz n×n, A∗ = A, AT A = 1 (3.1)

(Compruébese que forman grupo.) Equivalentemente, A−1 = AT ó A−1T = A.

La ortogonalidad de la matriz implica que como aplicación lineal conserva la norma euclídea enRn (o equivalentemente el producto escalar)

x ∈ Rn ‖Ax‖2 = Ax ·Ax= Aijx j Ai

kxk = x j(AT A) jkxk = ‖x‖2 (3.2)

o también ‖Ax‖2 = (Ax)T (Ax) = xT AT Ax = xT x = ‖x‖2, donde x es un vector columna, es decir,una matriz n×1.

Que A sea ortogonal equivale a decir que sus n columnas son las componentes de n vectores queforman una base ortonormal, y lo mismo las n filas.

La propiedad de conservar la norma se puede tomar como definición de O(n). En general, unconjunto de transformaciones invertibles que dejan una propiedad invariante siempre define un grupo.

El grupo O(n) no es conexo:

1 = det(AT A) = det(A)2 ⇒ det(A) =±1 . (3.3)

Como siempre, la componente conexa del neutro forma un subgrupo invariante, el grupo de lasrotaciones en n dimensiones:

SO(n) = R matriz n×n, R∗ = R, RT R = 1, det(R) = 1 . (3.4)

Los grupos SO(n) son simples (para n > 2), compactos y conexos pero no simplemente conexos.SO(2) es abeliano.

O(n)/SO(n)∼= Z2, O(n) = SO(n)∪O−(n). (3.5)

Por ejemplo A = diag(−1,1,1, . . . ,1) ∈ O−(n) representa una reflexión respecto del primer eje.O−(n) está formado por transformaciones del tipo rotaciones seguidas de una reflexión.

28

Page 29: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para dimensiones impares se puede definir inversión espacial o paridad P≡ diag(−1,−1, . . . ,−1)=−1 ∈ O−(n) de modo que 1,P ∼= Z2 es un subgrupo invariante de O(n) y de hecho

O(n)∼= SO(n)⊗Z2 (n impar). (3.6)

En el punto de vista pasivo (cambian las componentes porque cambia la base)

x′i = Aijx j (3.7)

A es la matriz del cambio de base,

A ∈ GL(n,R) = A, matriz n×n, A∗ = A, det(A) 6= 0 (3.8)

Para los vectores de la base

x= x je j = x′ie′i = Aijx je′i ⇒ ei = Ai

je′i, e′i = (A−1)i

jei. (3.9)

Los objetos/índices que se transforman como la base se dice que son covariantes [índice abajo,ec. (3.9)], y los que se transforman como las componentes se dice que son contravariantes [índicearriba, ec. (3.7)].

Por definición dos bases tienen la misma orientación si det(A)> 0. Por tanto, las rotaciones sepueden definir como las transformaciones lineales que dejan invariante la norma y la orientación,20

es decir, las rotaciones transforman entre sí bases ortonormales con orientación positiva. Hay unabiyección entre rotaciones y bases ortonormales positivamente orientadas: dada una tal base fija B0,cualquier otra base B está fijada por la rotación que lleva B0 a B.

Las transformaciones en O−(n) se denominan rotaciones impropias y cambian la orientación.

Como la matriz RT R es automáticamente simétrica, la ecuación RT R = 1 sobre R ∈ GL(n,R)impone n(n+1)/2 ecuaciones para n2 incógnitas, en consecuencia

dimSO(n) = n2− n(n+1)2

=n(n−1)

2. (3.10)

Otra forma de verlo es contar bases ortonormales positivas. Para especificar el primer vector de la basese necesitan n−1 parámetros (n componentes pero la norma está fijada a 1). Para el vector k-ésimo se

20En realidad la condición de que sean lineales se puede deducir de conservación de la norma.

29

Page 30: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

requerirán n−k parámetros: estar normalizado quita un parámetro y ser ortogonal a cada uno de losk−1 vectores anteriores quitan otros k−1 parámetros. En total ∑

nk=1(n−k) = ∑

n−1j=1 j = n(n−1)/2.

3.2 Álgebra de Lie de SO(n)

Considerando transformaciones infinitesimales, R = 1− iδX

1 = RT R = (1− iδXT )(1− iδX) = 1− i(δXT +δX) ⇒ δXT +δX = 0 . (3.11)

Se deduce que el álgebra de Lie so(n) está formada por matrices imaginarias puras antisimétricas

so(n) = X , matriz n×n, X∗ =−X , XT =−X. (3.12)

Se comprueba que forman álgebra:

X ,Y ∈ so(n), (−i[X ,Y ])T =−i[Y T ,XT ] =−i[Y,X ] = i[X ,Y ] ⇒ − i[X ,Y ] ∈ so(n). (3.13)

Estas matrices son hermíticas, X† = X y las R son unitarias (las matrices ortogonales reales sonautomáticamente unitarias). Exponenciando el álgebra se obtiene el grupo (ya que es conexo)

SO(n) = R = e−iX , X ∈ so(n), RT = e−iXT= eiX = R−1 . (3.14)

La condición de que la matriz X sea antisimétrica automáticamente implica que el número deparámetros (reales) libres es n(n− 1)/2 (este es el número de elementos de matriz por encima dela diagonal).

3.3 Grupo SO(2)

SO(2) son las rotaciones en el plano,

SO(2) =

R =

(cosφ −senφ

senφ cosφ

), −π < φ ≤ π

. (3.15)

(Compruébese usando RT R = 1, det(R) = 1.) Este grupo es isomorfo al grupo de las fases

SO(2)∼= U(1) = eiφ , −π < φ ≤ π. (3.16)

La ley de composición es simplemente φ12 = φ1 +φ2.

30

Page 31: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Como el grupo es abeliano sus irreps Dµ(φ) son de dimensión 1. La condición D(R1)D(R2) =D(R1R2) implica

D(R) = e−iαφ , α ∈ C (3.17)

α es una constante característica de la representación. Para que la representación sea univaluada,α = m ∈ Z, por ejemplo 1 = D(π/2)4 = (e−iαπ/2)4 = e−i2πα .

Dm(R) = e−imφ , m ∈ Z (irreps de SO(2)). (3.18)

Alternativamente, por la teoría general, y teniendo en cuenta que φ es directamente una coordenadacanónica, D(R) = e−iφJ donde J es el generador infinitesimal (J ∈C, es una matriz 1×1 compleja)que automáticamente cumple el álgebra de Lie, [J,J] = 0. Para que sea una representación de U(1)y no sólo de su recubridor (R,+), J = m ∈ Z.

La propia representación R que define al grupo SO(2) es bidimensional y por tanto es reducible(como representación compleja). Para ver cómo se reduce es más cómodo trabajar con el álgebra.Para una rotación infinitesimal (Jz denota el generador infinitesimal correspondiente)

R =

(1 −δφ

δφ 1

)= 1− iJzδφ , Jz =

(0 −ii 0

)≡ σ2 (3.19)

(σ2 es una de las matrices de Pauli). Jz = J†z , J2

z = 1, de aquí

e−iφJz = cos(φJz)− isen(φJz) = cos(φ)− isen(φ)σ2 =

(cosφ −senφ

senφ cosφ

). (3.20)

La representación Jz = σ2 se puede reducir (se puede diagonalizar)

e±1 ≡∓1√2

(1±i

), Jzeλ = λeλ , 〈eλ |eλ ′〉= e∗λ ·eλ ′ = δλλ ′, λ ,λ ′ =±1. (3.21)

Esto implicaR(φ)eλ = e−iφJzeλ = e−iλφeλ , λ =±1 (3.22)

y los dos vectores e±1 generan sendos subespacios irreducibles unidimensionales. Por tanto la re-ducción es

R = Dm=1⊕Dm=−1. (3.23)

En la base e±1 la rotación toma la forma(

e−iφ 00 eiφ

).

31

Page 32: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

SO(2) es compacto, tiene una medida biinvariante normalizable

〈 f 〉SO(2) ≡∫ 2π

0

2πf (φ) =

∮ dω

2πi1ω

f (ω) (ω = eiφ ). (3.24)

(La integral de contorno es sobre |ω|= 1 con orientación positiva.) Esta medida es invariante〈 f (ω)〉SO(2) = 〈 f (ω ′ω)〉SO(2). (3.25)

También se aplica el teorema de Peter-Weyl, las irreps e−imφ , m ∈ Z forman una base ortonormalde las funciones periódicas f (φ)

f (φ) = ∑m∈Z

fmeimφ , fm =∫ 2π

0

2πe−imφ f (φ)

∫ 2π

0

2πe−imφ eim′φ = δmm′,

∑m∈Z

eimφ e−imφ ′ = ∑n∈Z

2πδ (φ −φ′−2πn) = 2πδ (φ −φ

′) (φ ,φ ′ mod 2π).

(3.26)

Esta última relación es la identidad de Poisson.

Con otra notación〈m|m′〉= δmm′, 〈φ |φ ′〉= 2πδ (φ −φ

′) (φ ,φ ′ mod 2π),

| f 〉= ∑m∈Z

fm|m〉=∫ 2π

0

2πf (φ)|φ〉, fm = 〈m| f 〉, f (φ) = 〈φ | f 〉, 〈φ |m〉= eimφ .

(3.27)

Sobre funciones (escalares) definidas sobre el plano R2, las rotaciones actúan según ψ(x) 7→ψ(R−1x). Podemos calcular el generador infinitesimal en esta representación (que denotamos Lz):

δx=

(δx1

δx2

)=

(0 −δφ

δφ 0

)(x1

x2

)=

(−δφ x2

δφ x1

),

− iδφLz =−δx ·∇=−δφ(−x2∂1 + x1

∂2) ⇒ Lz =−i(x1∂2− x2

∂1),

e−iφLzψ(x) = ψ(R−1x) .

(3.28)

3.4 Grupo SO(3)

Una rotación en R3 se puede parametrizar mediante un eje n, n2 = 1, n ∈ S2, y un ángulo θ ,R(n,θ). En total tres parámetros, de acuerdo con la fórmula general de SO(n).

Prescindiendo de conocimientos previos sobre rotaciones, usando sólo R ∈ SO(3), se ve que el

32

Page 33: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

θ

n

Figura 3: Convenio eje-ángulo: El ángulo se toma en dirección positiva relativa al eje (regla del tornillo).

polinomio característico det(R−λ ) = 0 es cúbico y debe tener una solución real, es decir, Rx= λx(x 6= 0). Por la conservación de norma λ = ±1 y por continuidad con R = 1 (el grupo es conexo)λ = 1. Por tanto hay un n ∈ S2 tal que Rn = n. Por otro lado, un x ∈ R3 cualquiera se puedeescribir x= x‖+x⊥ (según n) y Rx= x‖+Rx⊥, por conservación del producto escalar Rx⊥ ⊥ ny además ‖Rx⊥‖= ‖x⊥‖ (y conserva la orientación por continuidad). En consecuencia x⊥ y Rx⊥están relacionados por una rotación del plano perpendicular a n, es una rotación de SO(2) y tieneasociado un ángulo θ :

R(n,θ)x= x‖+ cos(θ)x⊥+ sin(θ)n×x⊥. (3.29)

De esta expresión se deduce que

R(n,θ) = R(n,θ +2π) = R(−n,2π−θ) (3.30)

por lo cual el ángulo se puede restringir a 0≤ θ ≤ π. Incluso así hay casos repetidos por R(n,π) =R(−n,π) pero forman un conjunto de medida nula.

De la ec. (3.29) se puede deducir que, para una rotación cualquiera R′,

R′R(n,θ)R′−1 = R(n′,θ), n′ = R′n. (3.31)

Esto permite llevar cualquier eje a cualquier otro y demuestra que las clases de conjugación de SO(3)está unívocamente determinadas por el ángulo de rotación, 0≤ θ ≤ π.

Las rotaciones sobre un eje fijo, digamos el eje z, n= e3, forman un subgrupo isomorfo a SO(2).

Por tanto, SO(3)⊃ SO(2) con R3 =

(R2 00 1

).

33

Page 34: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Dada una rotación R 6= 1 con eje n, se tiene Rn= n y de hecho éste es el único vector propioreal.21 Por ello, si Rx = x entonces x es paralelo a n. Una consecuencia es que la representaciónde SO(3) definida por las matrices R es irreducible (como representación compleja). En efecto, sifuera reducible habría un vector propio (complejo) común a todas las rotaciones, pero los únicosvectores propios de una rotación (que no sea la identidad) son el eje n y los e±1 asociados al planoperpendicular al eje, y estos vectores dependen de la rotación.

Los tres númerosθ = θ n (3.32)

definen un sistema de coordenadas (que son analíticas, como se sigue de ec. (3.29)). El grupo no esabeliano pero si se hacen dos rotaciones sucesivas sobre el mismo eje los ángulos se suman

R(n,θ1)R(n,θ2) = R(n,θ1 +θ2). (3.33)

Esto implica que θ define un sistema de coordenadas canónicas para SO(3). El sistema decoordenadas vale en el abierto |θ |< π/2, con n ∈ S2. Es importante notar que

R(θ1)R(θ2) 6= R(θ1 +θ2) en general. (3.34)

La ley de composición θ12 = f (θ1,θ2) es complicada y no se necesita en forma explícita.

3.4.1 Ángulos de Euler

Sea ei, i = 1,2,3, una base ortonormal positiva, y Ri(θ)≡ R(ei,θ). La rotación más general sepuede escribir como

R = R3(α)R2(β )R3(γ), 0≤ α,γ < 2π, 0≤ β ≤ π. (3.35)

En efecto, dada una rotación R, si el nuevo eje z es e′3 = (β ,α) (ángulos polar y acimutal, respec-tivamente)

Re3 = e′3 = R3(α)R2(β )e3 ⇒ (R3(α)R2(β ))

−1Re3 = e3 ⇒ (R3(α)R2(β ))−1R = R3(γ) . (3.36)

Hay que señalar que los parámetros (α,β ,γ), ángulos de Euler, no forman un auténtico sistemade coordenadas ya que e = (α,0,−α) (no es una biyección local entre elementos del grupo y

21Los e±1 de ec. (3.21) sí serían vectores propios pero complejos.

34

Page 35: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

β

α

12

3

3’β

Figura 4: La rotación R2(β ) seguida de R3(α), R3(α)R2(β ), lleva el eje 3 a 3′, con ángulos polar β y acimutalα .

parámetros).

3.4.2 Generadores infinitesimales y álgebra de SO(3)

Dado que θ son coordenadas canónicas podemos escribir, en cualquier representación

U(R) = e−iθ·J . (3.37)

En la propia representación R (que coincide con la representación adjunta del grupo SO(3))

R(e3,θ) =

cosθ −senθ 0senθ cosθ 0

0 0 1

(3.38)

que implica

J3 =

0 −i 0i 0 00 0 0

(3.39)

análogamente, considerando rotaciones según los otros dos ejes

J1 =

0 0 00 0 −i0 i 0

, J2 =

0 0 i0 0 0−i 0 0

. (3.40)

35

Page 36: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Estas matrices son hermíticas y sin traza y satisfacen las relaciones de conmutación

[J1,J2] = iJ3, [J2,J3] = iJ1, [J3,J1] = iJ2, (3.41)

es decir,[Ji,J j] = iJk, i jk permutación cíclica de 123. (3.42)

Como todos los generadores se mezclan no hay ningún ideal y el álgebra y el grupo son simples. Lasrelaciones pueden también escribirse

[Ji,J j] = iεi jkJk (Álgebra del momento angular). (3.43)

Aquí εi jk es el tensor de Levi-Civita, que es completamente antisimétrico

εi jk =

1 si i jk es una permutación par de 123−1 si i jk es una permutación impar de 123

0 si se repite algún índice(3.44)

En particularεi jk =−ε jik, εi jk = ε jki, (A×B)i = εi jkA jBk . (3.45)

Otra forma de obtener los generadores Ji es considerar una rotación infinitesimal sobre x ∈ R3.Usando ec. (3.29) se deduce

δx= δθ×x, (3.46)

y por definición de generador infinitesimal [ec. (2.22)] se tendrá

δx=−i(δθ ·J)x. (3.47)

Comparando ambas expresiones (en componentes):

δxi = (δθ×x)i = εil jδθlx j,

δxi = (−iδθ ·J)ijx j =−iδθ

l(Jl)ijx j,

(3.48)

se deduce(Ji) jk =−iεi jk, (3.49)

que coincide con el resultado en (3.39) y (3.40).22

22Para reconstruir una matriz Ai j a partir de sus elementos de matriz el convenio es que el primer índice es la filay el segundo la columna. Así (J3)12 =−iε312 =−i coincide con el elemento de matriz (12) en (3.39).

36

Page 37: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La ec. (3.43) dice que las constantes de estructura de SO(3) son ci jk = εi jk en esta base.

En cualquier representación de SO(3) es convencional elegir la base del álgebra de modo que lasconstantes de estructura sean εi jk (esto es automático si la base son los generadores asociados a lascoordenadas θ).

Para todo grupo de Lie las constantes de estructura proporcionan las matrices de la representaciónadjunta mediante (AdXi)

kj = ici j

k, y la ec. (3.49) verifica esta propiedad para SO(3).

El tensor de Levi-Civita satisface las relacionesεi jkεabc = δiaδ jbδkc±permutaciones de abcεi jkεabk = δiaδ jb−δibδ ja

εi jkεa jk = 2δia

(3.50)

Entoncesεi jk[Ji,J j] = iεi jkεi jcJc = 2iJk ⇒ J×J = iJ . (3.51)

(Para c-números a×a= 0 pero J es un operador y las componentes Ji y J j no conmutan si i 6= j.)

La representación definida por las matrices R es unitaria y correspondientemente J† = J . Comoya se dijo la representación es irreducible y ello se comprueba igualmente en el álgebra (por ejemplo,[Ji,X ] = 0 ⇒ X = λ1, X matriz 3×3).

3.4.3 Operador momento angular orbital

En L2(R3) tenemos la representación escalar

ψ(x) 7→R(U(R)ψ)(x) = ψ(R−1x). (3.52)

Esta representación es unitaria:

‖U(R)ψ‖2 =∫

d3x |ψ(R−1x)|2 =∫

d3x |ψ(x)|2 = ‖ψ‖2. (3.53)

Se ha usado que la medida (el elemento de volumen) es invariante bajo rotaciones. En efecto, siy ≡ R−1x, y cambiamos de variable x= Ry, d3x = det(R)d3y = d3y.23

El operador U(R) que representa a la rotación R se puede escribir

U(R) = e−iθ·L, L=L†. (3.54)23El grupo de transformaciones lineales en Rn que dejan el volumen invariante, es decir, detA = 1, forman el grupo

SL(n,R).

37

Page 38: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

L, momento angular orbital, es el nombre usual de J en esta representación. Para determinar esteoperador necesitamos δx, que ya hemos obtenido en ec. (3.46). Usando entonces la relación (2.72)

δθ ·L=−iδx ·∇=−i(δθ×x) ·∇=−iδθ · (x×∇). (3.55)

FinalmenteL=−ix×∇= x×p=−p×x p≡−i∇ . (3.56)

Aquí x es un operador multiplicativo, el operador posición. (Nótese que en general para operadoresA×B no coincide con −B×A, pero xi conmuta con p j si i 6= j.) En componentes

Li =−iεi jkx j∂k = εi jkx j pk (3.57)

o tambiénLi = x j pk− xk p j, (i jk) permutación cíclica de (123), (3.58)

explícitamenteLx = ypz− zpy, Ly = zpx− xpz, Lz = xpy− ypx. (3.59)

Por supuesto Lz es el mismo operador ya obtenido en ec. (3.28) para SO(2).

Para derivar las relaciones de conmutación en esta representación, se pueden usar las relaciones

[∂i, f (x)] = (∂i f )(x), [∂i,x j] = δj

i , [xi, p j] = iδ ij, [xi,x j] = [pi, p j] = 0. (3.60)

Y también[A,BC] = [A,B]C+B[A,C], (3.61)

que expresa que [A, ] es una derivación (satisface la regla de Leibniz), e igualmente [ ,A] = −[A, ].Así, si i jk es una permutación cíclica de 123

[Li,L j] =−[x j∂k− xk

∂ j,xk∂i− xi

∂k] =−[x j∂k,xk

∂i]− [xk∂ j,xi

∂k]

=−x j∂i + xi

∂ j = iLk.(3.62)

Alternativamente, para índices i, j, . . . arbitrarios

[Li,L j] =−εiabε jcd[xa∂b,xc

∂d] =−εiabε jcd([xa∂b,xc]∂d + xc[xa

∂b,∂d])

=−εiabε jcd(xaδ

cb ∂d− xc

δad ∂b) =−εiabε jbdxa

∂d + εiabε jcaxc∂b

= (δ di δ

ja −δ

da δ

ji )x

a∂d− (δ b

j δic−δ

bc δ

ij)x

c∂b = x j

∂i− xi∂ j

=−εi jkεabkxa∂b = iεi jkLk

(3.63)

38

Page 39: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

De hecho, dada cualquier álgebra de Lie n-dimensional, el conjunto de operadores Xi = ci jkx j pk en

L2(Rn) satisface la relaciones de conmutación [Xi,X j] = ici jkXk, como consecuencia de la identidad de

Jacobi para las constantes de estructura. Esta realización del álgebra se denomina álgebra de Poisson-Lie.

3.4.4 Operadores escalares y vectoriales

En una representación cualquiera de SO(3), se dice que S es un operador escalar bajo rotacionessi

S 7→U(R)SU(R)−1 = S (3.64)

igualmente, A es un operador vectorial si

A 7→U(R)AU(R)−1 = R−1A, U(R)AiU(R)−1 = (R−1)ijA j = R j

iA j. (3.65)

Equivalentemente, RijU(R)A jU(R)−1 = Ai. Obsérvese que U(R)AU(R)−1 = RA no sería consis-

tente con U(R1R2) =U(R1)U(R2).

Por ejemplo el operador ∇ en L2(R3) es un vector:

U(R)∂iU(R)−1ψ(r) =U(R)∂i(ψ(Rr)) =U(R)

∂ (Rr) j

∂ ri (∂ jψ)(Rr) =U(R)R ji(∂ jψ)(Rr)

= R ji(∂ jψ)(r) = (R−1)i

j∂ jψ(r).

(3.66)

Igualmente el operador posición x 24

U(R)|r〉= |Rr〉, x|r〉= r|r〉U(R)xU(R)−1|r〉=U(R)x|R−1r〉=U(R)R−1r|R−1r〉= R−1r|r〉= R−1x|r〉.

(3.67)

Se comprueba que si A y B son operadores vectoriales, su producto escalar es un escalar y suproducto vectorial un vector:

UA ·BU−1 =UAiU−1UBiU−1 = (R−1)ijA j(R−1)i

kBk = (RT R) jkA jBk

= δ jkA jBk =A ·B,

RijU(A×B) jU−1 = (R−1) j

iε jkl(R−1)kaAa(R−1)l

bBb = det(R−1)εiabAaBb = (A×B)i.

(3.68)

En la última igualdad se ha utilizado la identidad

εi1,...,inAi1 j1 · · ·Ain

jn = det(A)ε j1,..., jn, (3.69)

24|ψ〉=∫

d3xψ(x)|x〉 implica U(R)|ψ〉=∫

d3xψ(R−1x)|x〉=∫

d3xψ(x)|Rx〉.

39

Page 40: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

válida para una matriz cuadrada A arbitraria.

Nótese que no hace falta que los operadores involucrados conmuten entre sí.

Si A y B se transforman según ec. (3.65) incluso cuando R es una rotación impropia se diceque son vectores polares o auténticos vectores. El operador producto C =A×B en cambio seráun pseudo-vector o vector axial, es decir, bajo rotaciones impropias C 7→ −R−1C, R ∈ O−(3).En efecto, en la demostración anterior salía un factor det(R) que antes era 1 pero para rotacionesimpropias es −1.

A nivel infinitesimal, U = 1− iδθ ·J , la transformación de un operador bajo rotaciones es

A 7→UAU−1 = (1− iδθ ·J)A(1+ iδθ ·J) ⇒ δA =−iδθ · [J ,A] (3.70)

Para un escalarδS = 0 ⇔ [J ,S] = 0. (3.71)

Para un operador vectorial

R−1A=A−δθ×A, δA=−δθ×A=−i[δθ ·J ,A]. (3.72)

En componentes−εi jkδθ

jAk =−iδθj[J j,Ai] ⇒ [Ji,A j] = iεi jkAk. (3.73)

La última relación también se puede escribir [Ai,J j] = iεi jkAk. Así en particular J es un vector. EnL2(R3), x, p y L son vectores.

3.5 Grupo SU(2)

3.5.1 Grupos U(n) y SU(n)

Las matrices unitarias forman el grupo U(n) (n = 1,2, . . .)

U(n) = U, matriz compleja n×n, U†U = 1. (3.74)

Una matriz U es unitaria sii sus columnas forman una base ortonormal de Cn. En efecto,

(e j)i ≡Ui j, δ jk = (U†U) jk = (U†) jiUik =U∗i jUik = (e j)∗i (ek)i = 〈e j|ek〉. (3.75)

Análogamente la condición equivalente UU† = 1 implica la ortonormalidad por filas.

40

Page 41: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Los elementos de U(n) son las matrices de cambio de base entre dos bases ortonormales complejasde Cn.

El subgrupo de matrices unitarias con determinante unidad forman el grupo unitario especialSU(n)

SU(n) = U, matriz compleja n×n, U†U = 1, det(U) = 1. (3.76)

La aplicación U 7→ det(U) define un homomorfismo de U(n) en U(1) (por ser U unitaria su deter-minante es una fase) con núcleo SU(n), de modo que U(n)/SU(n)∼= U(1).25

U(n) es un grupo compacto y conexo pero no simplemente conexo ni simple (contiene un factorU(1)). El grupo SU(n) es compacto, conexo y simplemente conexo, y simple.

Los elementos de U(n) se pueden escribir en la forma

U = e−iX , U† = eiX†=U−1 = e+iX , (3.77)

y se concluye que su álgebra es26

u(n) = X ,matrices complejas n×n, X† = X. (3.78)

La dimensión de U(n) o u(n) es n2, ya que cada matriz hermítica queda especificada por n elementosde matriz reales en la diagonal y n(n−1)/2 elementos de matriz complejos por encima de la diagonal,en total n+2×n(n−1)/2 = n2 parámetro reales.

De la igualdad de Jacobi, válida para cualquier matriz cuadrada compleja A

det(eA) = etr(A) (3.79)

se deduce (de nuevo la multivaluación se puede obviar) que

1 = det(e−iX) = e−i tr(X) ⇔ tr(X) = 0 . (3.80)

En consecuencia, el álgebra de SU(n) está formada por matrices hermíticas sin traza,

su(n) = X , matriz compleja n×n, X† = X , tr(X) = 0. (3.81)

25Por otro lado, el centro de U(n) es el subgrupo isomorfo a U(1) formado por las matrices e−iθ 1. El centro deSU(n) es Zn (formado por las raíces n-ésimas de la unidad) de modo que U(n)/U(1)∼= SU(n)/Zn.

26Elegimos X por continuidad desde 0 por lo que no afecta la multivaluación 2πn.

41

Page 42: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En efecto, su(n) forma un álgebra. Si X ,Y ∈ su(n), −i[X ,Y ] es otra vez hermítico. Por otro ladopara dos matrices n×n cualesquiera tr[A,B] = 0, por la propiedad cíclica de la traza27

tr(AB) = AijB j

i = tr(BA). (3.82)

Si X es hermítica, tr(X) es automáticamente real e imponer tr(X) = 0 sólo elimina un parámetroreal, en consecuencia, la dimensión de SU(n) o su(n) es n2−1.

3.5.2 Matrices de SU(2) y matrices de Pauli

No es difícil ver que la matriz más general de SU(2) se puede escribir como28

U =

(a0− ia3 −ia1−a2−ia1 +a2 a0 + ia3

), a ∈ R4,

3

∑µ=0

a2µ = 1 . (3.83)

Hay una biyección entre los elementos de SU(2) y los puntos a de la esfera S3 = a∈R4, ‖a‖=1, y ambos espacios son homeomorfos. Esto implica que SU(2) es compacto, conexo y simplementeconexo. De hecho la medida invariante de SU(2) no es más que la medida uniforme sobre S3 (inducidapor la medida de Lebesgue en R4) [4].

Las matrices U de (3.83) se pueden escribir en la forma

U = a01− ia1σ1− ia2σ2− ia3σ3 = a0− ia ·σ, (3.84)

donde σi, i = 1,2,3 son las matrices de Pauli,

σ1 =

(0 11 0

), σ2 =

(0 −ii 0

), σ3 =

(1 00 −1

). (3.85)

Estas matrices tienen las siguientes propiedades

σ†i = σi, σiσ j = δi j + iεi jkσk. (3.86)

27Puesto que la traza del conmutador siempre se anula, las matrices sin traza forman un ideal del álgebra de Lie,y las matrices con determinante unidad forman un subgrupo invariante.

28En efecto, si U =

(z1 z3z2 z4

)es unitaria, los dos vectores

(z1z2

)y(

z3z4

)forman una base ortonormal de C2.

Entonces, |z1|2 + |z2|2 = |z3|2 + |z4|2 = 1 y z∗1z3 + z∗2z4 = 0, ó z3/(−z∗2) = z4/z∗1 ≡ λ . Entonces U =

(z1 −λ z∗2z2 λ z∗1

)con

|λ |= 1, para que U ∈ U(2). Si además 1 = det(U) = λ , se obtiene la forma en ec. (3.83).

42

Page 43: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La segunda relación equivale a

σ2i = 1 (no hay suma en i),

σiσ j =−σ jσi = iσk (i jk permutación cíclica de 123).(3.87)

Estas propiedades implican que ±1,±iσ es el grupo de cuaterniones Q8 y el conjunto

H= a0− ia ·σ, a ∈ R4 (3.88)

es el álgebra de los cuaterniones, introducida por Hamilton.

Para el grupo se obtiene

SU(2) = U = a0− ia ·σ, a20 +a

2 = 1 . (3.89)

El vector a define un sistema de coordenadas locales en ‖a‖< 1 con a0 =+√

1−a2 (hemisferionorte –abierto– de S3). Estas coordenadas no son canónicas.

Es interesante notar que las matrices de Pauli forman un conjunto irreducible ya que no admitenun vector propio común a las tres. En consecuencia las matrices U forman una irrep de SU(2).

3.5.3 Álgebra de SU(2)

Tomando un elemento infinitesimal, U = 1− iδa ·σ, se ve que σ forma una base del álgebra deLie de SU(2) (matrices 2×2 hermíticas sin traza). Es convencional tomar la base reescalada

Ji =12

σi, J =12σ. (3.90)

De este modo, usando la identidad [σi,σ j] = 2iεi jkσk,

[Ji,J j] = iεi jkJk, (3.91)

que coincide con el álgebra de SO(3).

Exponenciando las matrices del álgebra se reobtiene el grupo SU(2)

U = e−iψ·J = e−iψ·σ/2. (3.92)

El vector ψ = (ψ1,ψ2,ψ3) define la tres coordenadas canónicas para este grupo (asociadas a losgeneradores J).

43

Page 44: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para calcular explícitamente la exponencial conviene expresar ψ en la forma

ψ = ψn, ψ = ‖ψ‖, n=ψ

ψ. (3.93)

Las identidades(ψ ·σ)2 = ψ

2, (ψ ·σ)n =

ψn n par

ψn n ·σ n impar (3.94)

permiten expresar U en función de ψ y n:

U(ψ) =U(n,ψ) = e−iψn·σ/2 = cos(

ψ

2

)− isen

2

)n ·σ (3.95)

En consecuencia la relación con las coordenadas a es

a= sen(

ψ

2

)n, a0 = cos

2

). (3.96)

El grupo queda cubierto tomando n ∈ S2 cualquiera y 0 ≤ ψ ≤ 2π.29 Esto es el doble que paraSO(3), que sólo requería 0≤ ψ ≤ π.

Más en detalle, expresando n en polares, n= (senθ cosϕ,senθ senϕ,cosθ), se tiene

U(ψ) =

(cos(

ψ

2

)− isen

2

)cos(θ) −ie−iϕ sen

2

)sen(θ)

−ieiϕ sen(

ψ

2

)sen(θ) cos

2

)+ isen

2

)cos(θ)

). (3.97)

Como caso particular

R(e3,ψ) =

cosψ −senψ 0senψ cosψ 0

0 0 1

, U(e3,ψ) =

(e−iψ/2 0

0 eiψ/2

). (3.98)

3.5.4 Relación entre los grupos SU(2) y SO(3)

Como SU(2) y SO(3) comparten álgebra de Lie abstracta (tienen las mismas constantes deestructura) estos grupos son localmente isomorfos en un entorno del neutro

SO(3)∼=loc SU(2), (3.99)

29Y cada elemento del grupo aparece sólo una vez, excepto un conjunto de medida nula.

44

Page 45: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

U

−U

S3

Figura 5: Dos caminos cerrados en SO(3).

además SU(2) es simplemente conexo, lo cual implica que es el grupo recubridor universal de suclase, y SO(3) un grupo cociente. De hecho,

SU(2)/Z2 ∼= SO(3), Z2 = 1,−1. (3.100)

Z2 es el centro de SU(2) (más generalmente el centro de SU(n) está formado por las raíces n-ésimasde la unidad y es isomorfo a Zn).

Para ver esto basta mostrar que existe un homomorfismo de grupos de SU(2) en SO(3) connúcleo Z2. En efecto, las relaciones de conmutación (3.91) indican que σ es un operador vectorial,por tanto

U(n,ψ)σU(n,ψ)−1 = R(n,ψ)−1σ , (3.101)

y el homomorfismo indicado es simplemente

π : U(n,ψ) 7→ R(n,ψ). (3.102)

En efecto es un homomorfismo ya que

(U1U2)σ(U1U2)−1 =U1(R−1

2 σ)U−11 = R−1

2 R−11 σ = (R1R2)

−1σ, (3.103)

es decir, π(U1U2) = π(U1)π(U2). Por otro lado, si U es del núcleo UσU−1 = σ, que implica que Ues un múltiplo de la identidad por ser σ un conjunto irreducible, y la condición det(U) = 1 implicaU =±1.

45

Page 46: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

El grupo SU(2) recubre dos veces a SO(3) ya que (usando las ecs. (3.30) y (3.95))

U(n,ψ +2π) =−U(n,ψ), R(n,ψ +2π) = R(n,ψ). (3.104)

La relación SO(3) ∼= SU(2)/Z2 indica que SO(3) es doblemente conexo. Su espacio topológico esla esfera S3 con puntos diametralmente opuestos identificados, U =−U mod Z2, es decir, U ∼=−Upara SO(3). Hay una biyección entre rotaciones y diámetros de S3 (rectas que pasan por el origenen R4).

3.5.5 Representaciones enteras y semienteras de SU(2)

El centro de SU(2) está formado por 1,−1, de modo que si U ∈ SU(2), también −U está enSU(2). Se denominan representaciones enteras de SU(2) aquellas que son funciones pares de U ysemienteras las que son funciones impares:30

T (−1) = +1 (representación entera) T (−U) = T (U),

T (−1) =−1 (representación semientera) T (−U) =−T (U).(3.105)

Una representación genérica T de SU(2) tendrá una componente entera y otra semientera.Estas componentes se obtienen simplemente proyectando en la componentes par e impar respectode U →−U :

T = T+⊕T−, T+(U)≡ 12(T (U)+T (−U)), T−(U)≡ 1

2(T (U)−T (−U)). (3.106)

Es inmediato comprobar que T± son también representaciones de SU(2)

Se deduce que las representaciones irreducibles de SU(2) son necesariamente enteras o semien-teras, ya que si tuvieran ambas componentes a la vez se podrían reducir.

Las representaciones enteras de SU(2) son a su vez representaciones (univaluadas) de SO(3)(R 7→ ±U 7→ T (U)), y las semienteras son bivaluadas para SO(3) (R 7→ ±U 7→ ±T (U)).

Así la representación bidimensional de SU(2), U = e−iψn·σ/2 es irreducible y semientera. Con-siderada como representación de SO(3), R(n,ψ) 7→U(n,ψ), es una representación bivaluada, yaque según se elija ψ o ψ +2π sale un signo de diferencia, aunque la rotación es la misma.

30Para SU(n) el centro está formado por las n n-ésimas raíces complejas de 1, en consecuencia hay n tipos derepresentaciones, según sea el valor de r en T (e2πi/N) = e2πir/N , con r = 0, . . . ,n−1. Todas las demás representacionesson suma directa de éstas.

46

Page 47: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Por otro lado la representación tridimensional U → R es una representación entera de SU(2) eirreducible. Como representación de SO(3), R 7→ R es univaluada.

En principio SO(3) es el grupo físico y sólo las representaciones univaluadas deberían aparecer,ya que queremos que una rotación de 2π no tenga ningún efecto físico (el sistema se queda comoestaba). Sin embargo, en mecánica cuántica el estado está representado por vectores del espaciode Hilbert normalizados módulo una fase: |ψ〉 y eiϕ |ψ〉 representan el mismo estado físico. Estohace que sistemas que caigan en representaciones bivaluadas de SO(3) también son admisibles.Los estados en representaciones enteras son bosónicos y aquellos en representaciones semienterasson fermiónicos. Éstos responden con una fase −1 a una rotación de 2π. Por consistencia, no hayestados físicos que sean suma coherente de estados bosónicos y fermiónicos ya que para estas sumasuna rotación de 2π no produciría sólo una fase (regla de superselección).31

3.6 Representaciones irreducibles de SU(2) y SO(3)

3.6.1 Soluciones del álgebra de SU(2)

Buscar irreps de SU(2), siendo conexo y simplemente conexo, equivale a buscar irreps de suálgebra de Lie

[Ji,J j] = iεi jkJk . (3.107)

Como el grupo es compacto, sus irreps son unitarias y de dimensión finita. Por tanto buscamoslas tres matrices J más generales que sean matrices hermíticas irreducibles y que satisfagan lasrelaciones de conmutación, y sólo nos interesan soluciones inequivalentes (es decir, que no difieransólo por un cambio de base).

Primero definimos el operador J2

J2 := J ·J =3

∑i=1

J2i . (3.108)

Nótese que J2 no pertenece al álgebra de Lie. Puesto que J es un vector, J2 es un escalar, es decir,satisface

[Ji,J2] = 0, (3.109)

31Se deduce que la paridad del número de fermiones, que determina si un estado es bosónico o fermiónico, seconserva absolutamente: los fermiones sólo pueden crearse o aniquilarse por pares.

47

Page 48: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

que también se sigue directamente de las relaciones de conmutación:

[Ji,J jJ j] = J j, [Ji,J j]= iεi jkJ j,Jk= 0. (3.110)

Por ser J irreducible (por hipótesis) el lema de Schur implica que J2 toma un valor constanteK en toda la representación y además positivo ya que J2 ≥ 0 por J = J†:

J2 = K, K ≥ 0. (3.111)

También definimos los operadores escalera

J± := J1± iJ2, J†± = J∓. (3.112)

Nótese que estrictamente hablando tampoco pertenecen al álgebra ya que no son hermíticos. Lasrelaciones de conmutación se puede reexpresar equivalentemente usando J3 y los operadores escalera

[J3,J±] =±J±, [J+,J−] = 2J3. (3.113)

Otras relaciones útiles son

J2 =12(J+J−+ J−J+)+ J2

3 = J∓J±+ J3(J3±1). (3.114)

Lema. Si el vector |ψ〉 es propio de J3 con valor propio m, los vectores J±|ψ〉 son propios deJ3 con valores propios m±1 (de ahí el nombre operadores escalera). En efecto,

J3|ψ〉= m|ψ〉,J3(J±|ψ〉) = (J±J3 +[J3,J±])|ψ〉= (J±m± J±)|ψ〉= (m±1)(J±|ψ〉).

(3.115)

J3 es una matriz hermítica, entonces admite una base ortonormal de vectores propios con valorespropios reales. Sea j el valor propio máximo de J3 y | j〉 un vector propio normalizado asociado alautovalor j

J3| j〉= j| j〉 〈 j| j〉= 1 J3 ≤ j. (3.116)

Por el lema,J+| j〉= 0, (3.117)

(ya que no hay vectores propios con valor propio j+1). Además

J2| j〉= j( j+1)| j〉, K = j( j+1). (3.118)

48

Page 49: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En efecto, ya queJ2| j〉= (J−J++ J3(J3 +1))| j〉= j( j+1)| j〉. (3.119)

Usamos el siguiente resultado: Dada una representación T de un grupo G en un espacio V , esinmediato que el espacio generado al aplicar el grupo sobre un vector cualquiera |ψ〉 de V es unsubespacio invariante:

Vψ ≡ linT (g)|ψ〉, g ∈ G, T (g)Vψ =Vψ . (3.120)

Además T irreducible (V es mínimo) sii Vψ =V para cualquier |ψ〉 no nulo.32

Volviendo al problema de las irreps de SU(2), como la representación es irreducible por hipótesis,usando | j〉 como pivote se genera todo el espacio al aplicar repetidamente J . Si se aplica J− repeti-damente sobre | j〉 se obtendrán vectores propios con valores propios m = j−n, n = 0,1,2, . . . ,nmáx.Si denotamos por |m〉 a los vectores normalizados así obtenidos,

J3|m〉= m|m〉, m = j, j−1, j−2, . . . , j′, (3.121)

y el último autovalor debe cumplirJ−| j′〉= 0, (3.122)

dado que el espacio es de dimensión finita.

Hay que comprobar que si aplicamos J+ sobre estos vectores no se generan otros vectores nuevos.En efecto, usando ec. (3.114),

J+(J−|m〉) = (J2− J3(J3−1))|m〉= ( j( j+1)−m(m−1))|m〉 ∝ |m〉. (3.123)

En definitiva, |m〉, m = j, j− 1, j− 2, . . . , j′ es una base ortonormal del espacio (no hay otrosvalores propios de J3 ni éstos están degenerados, y son linealmente independientes por correspondera autovalores distintos de J3).

Por otro lado

j( j+1)| j′〉= J2| j′〉= (J+J−+ J3(J3−1))| j′〉= j′( j′−1)| j′〉 (3.124)

32 Nótese que Vψ = V para algún |ψ〉 no garantiza que T sea irreducible. Por ejemplo, U =

(eiϕ 00 e−iϕ

)define

una representación de U(1) en V = C2. Para |ψ〉 =(

11

), es inmediato que Vψ = C2, aunque la representación es

reducible. Sin embargo, si T es completamente descomponible (por ejemplo unitaria) y |ψ〉 es un vector propio dealgún T (g) con autovalor λ no degenerado, sí se deduce que Vψ es mínimo. En efecto, V se reduce como sumadirecta de espacios mínimos y |ψ〉 estará en el subespacio que lleva el autovalor λ .

49

Page 50: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

implica j′( j′− 1) = j( j + 1), con solución j′ = − j (la otra solución j′ = j + 1 está excluida porj′ ≤ j). Además j≥ j′ =− j implica j≥ 0. Finalmente, m = j, j−1, . . . ,− j indica que la dimensióndel espacio es 2 j+1 = 1,2,3, . . ., en consecuencia j = 0, 1

2 ,1,32 ,2, . . . Éstos son los únicos valores

permitidos para representaciones unitarias irreducibles de SU(2).

Denotamos los estados de la base de la irrep j por | jm〉. Tenemos

J3| jm〉= m| jm〉, J2| jm〉= j( j+1)| jm〉, m =− j,− j+1, . . . , j,

〈 jm| jm′〉= δmm′, j = 0,12,1,

32,2, . . . , dim = 2 j+1.

(3.125)

Veamos que cada j determina exactamente una irrep inequivalente de SU(2). Al aplicar eloperador J− bajando desde | j j〉 y normalizando, se tiene

J−| jm〉= N−( j,m)| j,m−1〉, N−( j,m)≥ 0. (3.126)

Que la fase sea positiva es una elección (de la fase de | j,m− 1〉), es el convenio de Condon-Shortley. Después de fijar las fases relativas la única ambigüedad es una fase global para toda lairrep. La base así elegida es la base estándar.

Los elementos de matriz N−( j,m) están completamente determinados por las relaciones deconmutación:

‖J−| jm〉‖2 = 〈 jm|J+J−| jm〉= N−( j,m)2

= 〈 jm|(J2− J3(J3−1))| jm〉= j( j+1)−m(m−1).(3.127)

Es decir,J−| jm〉=+

√j( j+1)−m(m−1)| j,m−1〉 (3.128)

Por otro lado

〈 j,m+1|J+| j,m〉= 〈 j,m|J−| j,m+1〉∗ =√

j( j+1)− (m+1)m (3.129)

FinalmenteJ±| jm〉= N±( j,m)| j,m±1〉,

N±( j,m) =√

j( j+1)−m(m±1) =√

( j∓m)( j±m+1).(3.130)

En conclusión, la representación está unívocamente determinada por j.33

33Es interesante notar que suponiendo sólo que la representación es unitaria y que J3 admite un vector propio yase deduce que debe ser de dimensión finita: la relación ec. (3.114) implica que m está acotado ya que K es fijo yJ±J∓ = J†

∓J∓ es definido positivo.

50

Page 51: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Una vez construidas explícitamente las matrices se puede comprobar que se cumplen las rela-ciones de conmutación, que la representación es unitaria y que es irreducible. Esto último se puedecomprobar usando el lema de Schur, o bien por la observación en la nota a pie de página en 49, dadoque el espectro de J3 es no degenerado y entonces el espacio generado por | j, j〉 debe ser mínimo.

Aplicando el lema de Schur, supongamos que la matriz A conmuta con J :

0 = 〈 jm′|[J3,A]| jm〉= (m′−m)〈 jm′|A| jm〉 ⇒ 〈 jm′|A| jm〉= amδm′m,

A| jm〉= am| jm〉 (A es diagonal)0 = [J−,A]| jm〉= (am−am−1)N−( j,m)| j,m−1〉⇒ am = am−1 = · · · ≡ a, A = a .

(3.131)

A es múltiplo de la identidad y la representación es irreducible.

En SU(2) hay exactamente una irrep por cada dimensión.

j = 0 (dim. 1) es la representación trivial, J = 0, J |ψ〉= 0, corresponde a estados invariantesbajo rotaciones.

j = 1/2 (dim. 2) es la irrep formada por el propio SU(2) (representación fundamental). Sise calculan los elementos de matriz con las fórmulas previas se obtiene

J3 =

(12 00 −1

2

), J+ =

(0 10 0

), J− =

(0 01 0

)J1 =

(0 1

212 0

)J2 =

(0 − i

2i2 0

).

(3.132)

Es decir, J = 12σ. Los dos estados | j,m〉= |12 ,±

12〉 se representan también

|12 ,+12〉=

(10

)= |↑〉, |12 ,−

12〉=

(01

)= |↓〉, (3.133)

(espín hacia arriba y espín hacia abajo, respectivamente).

j = 1 (dim. 3) es la representación formada por las propias matrices de SO(3),

J3 =

1 0 00 0 00 0 −1

, J+ = J†− =

0√

2 00 0

√2

0 0 0

. (3.134)

Los objetos que caen en esta representación j = 1 son vectores bajo rotaciones.

51

Page 52: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En las ecs. (3.39),(3.40) se usaba la base cartesiana ei, i= 1,2,3. Esta es la misma representaciónpero expresada en la denominada base esférica, em = | j = 1,m〉, m = 0,±1. La base esférica (quees compleja) es la formada por los estados estándar (propios de J3 y con fases relativas fijadas porel convenio de Condon-Shortley). La relación entre ambas bases es

e±1 =∓1√2(e1± ie2) =∓

1√2

1±i0

, e0 = e3 =

001

. (3.135)

Las representaciones con 2 j par/impar son enteras/semienteras, respectivamente. En efecto,tomando por simplicidad n= e3 (eje z) se tiene

U(e3,φ)| jm〉= e−iφJ3| jm〉= e−imφ | jm〉,U(e3,2π)| jm〉= e−2πim| jm〉= (−1)2m| jm〉= (−1)2 j| jm〉.

(3.136)

Es decir,U(n,2π) = (−1)2 j =

+1 j entero−1 j semientero (3.137)

Puesto que la representación escalar ψ(x) 7→ ψ(R−1x) de SO(3) en L2(R3) es univaluada,se deduce que el operador momento angular orbital L = r×p sólo tiene valores j = l enteros,l = 0,1,2, . . . Así, si tenemos una distribución de carga eléctrica, ρ(x) se podrá descomponer (porejemplo aplicando operadores de proyección) en suma de funciones con l definido, ρ(x)=∑

∞l=0 ρl(x).

Éste es el desarrollo multipolar. La componente l = 0 es la contribución monopolar, tiene simetríaesférica y lleva toda la carga. La componente l = 1 es la contribución dipolar, el momento dipolareléctrico de la distribución es un vector (es decir, j = 1). La componente l = 2 lleva el momentocuadrupolar, etc.

De cara a estudiar otros grupos es interesante notar que lo que se ha hecho es usar J2, J3 comoconjunto completo de operadores compatibles para clasificar los estados. Esto se basa en lacadena canónica

SU(2)⊃ U(1), ó SO(3)⊃ SO(2), (3.138)

donde SO(2) está generado por J3. Esta cadena es canónica porque J3 = diag( j, j− 1, . . . ,− j) ytodos los autovalores (cada valor m es una irrep de SO(2)) son distintos.

J2 es un ejemplo de operador de Casimir. Para un álgebra de Lie cualquiera, los operadoresde Casimir son operadores de su álgebra envolvente universal34 que sean invariantes (es decir, que

34El álgebra envolvente universal es el conjunto de polinomios construidos con los generadores.

52

Page 53: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

conmuten con todos los generadores) y algebraicamente independientes.35 Para álgebras semisimplesel número de operadores de Casimir coincide con su rango: el rango es el número de generadoresque conmutan entre sí. SU(2) es un grupo de rango 1 ya que sólo un generador, por ejemplo J3, sepuede incluir en el conjunto completo de operadores compatibles.

3.6.2 Matrices de las representaciones irreducibles de SU(2) y SO(3)

Las matrices de representación del grupo se pueden obtener mediante

U(n,ψ) = e−iψ·J , U(ψ)| jm〉= D j(ψ)m′m| jm′〉, (3.139)

calculando la exponencial de la matriz n ·J , pero es más práctico usar los ángulos de Euler

U(α,β ,γ) = e−iαJ3e−iβJ2e−iγJ3. (3.140)

En la base estándar

U(α,β ,γ)| jm〉= e−iαm′d j(β )m′me−iγm| jm′〉, d j(β )m′

m = 〈 jm′|e−iβJ2| jm〉. (3.141)

Por ejemplo, para j = 12 ,

d12 (β ) = e−iβσ2/2 = cos(

β

2)− iσ2 sen(

β

2) =

(cos(β

2 ) −sen(β

2 )

sen(β

2 ) cos(β

2 )

),

D12 (α,β ,γ) =

(e−i(α+γ)/2 cos(β

2 ) −e−i(α−γ)/2 sen(β

2 )

ei(α−γ)/2 sen(β

2 ) ei(α+γ)/2 cos(β

2 )

).

(3.142)

3.7 Armónicos esféricos

Como ya se ha dicho, el grupo SO(3) actúa en H = L2(R3) mediante ψ(x) 7→ ψ(R−1x) ylas rotaciones están generadas por el operador momento angular orbital L = r×p que sólo tomavalores enteros l = 0,1,2, . . ., es decir,

H =∞⊕

l=0

Hl, Hl =

ψ(x), L2|ψ〉= l(l +1)|ψ〉. (3.143)

35Independientes quiere decir sólo se consideran de Casimir los bloques básicos a partir de los cuales se formantodos los demás operadores invariantes.

53

Page 54: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Cada uno de estos espacios Hl es reducible, es la suma directa de infinitos espacios mínimosde tipo l, por ejemplo, Hl=0 es el espacio de todas las funciones radiales ψ(x) = f (r). Una formapráctica de proceder es usar coordenadas esféricas, (r,θ ,φ) ó equivalentemente (r, x), siendo

r = ‖x‖, x=x

r. (3.144)

Por separación de variables las funciones se pueden escribir en la forma

ψ(x) = ∑ν

Rν(r)Aν(x). (3.145)

Las rotaciones sólo actúan sobre la parte angular. De hecho los operadores Lz y L2 en coordenadasesféricas son de la forma

Lz =−i∂

∂φ, L2 =− 1

senθ

∂θsenθ

∂θ− 1

sen2 θ

∂ 2

∂φ 2 , (3.146)

y la coordenada radial no interviene (igualmente para Lx y Ly).

El espacio de funciones tridimensionales se puede expresar como un producto tensorial de fun-ciones radiales, HR, y funciones angulares, HA. El producto escalar de L2(R3) tiene la forma

‖ψ‖2 =∫

d3x |ψ(x)|2 =∫

0drr2

∫S2

dΩ |ψ(r, x)|2, (3.147)

por tanto los productos escalares en HR y HA se pueden elegir como

‖R‖2 =∫

0drr2|R(r)|2, ‖A‖2 =

∫S2

dΩ |A(x)|2 =∫ 2π

0dφ

∫π

0dθ senθ |A(x)|2. (3.148)

Se tiene entonces que

H = L2(R3,d3x) = HR⊗HA, HR = L2(R+,drr2), HA = L2(S2,dΩ). (3.149)

Las rotaciones son la identidad en HR.

HA es el espacio de funciones definidas sobre la esfera unitaria S2. Este espacio se reduce bajorotaciones HA =

⊕∞l=0 HA,l, y cada HA,l ya es mínimo. Equivalentemente, L2 y Lz forman un

conjunto completo para HA. En el caso de H hay que añadir otro operador escalar bajo rotaciones,tal como P 2, para tener un conjunto completo de operadores compatibles.

54

Page 55: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Las funciones propias normalizadas de L2 y Lz en HA se denominan armónicos esféricos,Ylm(x),

L2Ylm(x) = l(l +1)Ylm(x)

LzYlm(x) = mYlm(x), m = l, l−1, . . . ,−l, l = 0,1,2, . . . (3.150)

Los armónicos esféricos de orden más bajo son

Y0,0 =

√1

4π, Y1,0 =

√3

4πcosθ , Y1,±1 =∓

√3

8πsenθ e±iφ . (3.151)

Los armónicos esféricos forman una base ortonormal de las funciones angulares. Además, para un ldado, los Ylm forman una base estándar de HA,l. Esta condición determina los Ylm de forma únicasalvo por una fase relativa entre distintos valores de l. El convenio que se usa es Yl,0(0,0)> 0.

Una función cualquiera de L2(R3) se puede escribir en la forma

ψ(x) =∞

∑l=0

l

∑m=−l

Rlm(r)Ylm(x), Rlm(r) =∫

S2dΩY ∗lm(x)ψ(x). (3.152)

Si se elige una base Rn(r) en el espacio de funciones radiales, HR,

ψ(x) =∞

∑l=0

l

∑m=−l

∑n

ψnlmRn(r)Ylm(x). (3.153)

En la práctica es frecuente tomar una base radial distinta para cada valor de l, Rnl(r).

3.8 Serie de Clebsch-Gordan de SU(2)

3.8.1 Suma de momentos angulares

Tenemos el siguiente resultado general: Si Vµ y Vν son dos espacios con irreps µ y ν de un grupo

Vµ ⊗Vν =⊕

λ

aλ⊕α=1

Vαλ ≡⊕

λ

aλVλ (Serie de Clebsch-Gordan), (3.154)

donde aλ = 〈λ |µ,ν〉= 0,1,2, . . . es la multiplicidad de la irrep λ al reducir µ⊗ν . Correspondien-temente, para los caracteres

χµ(g)χν(g) = ∑

λ

〈λ |µ,ν〉χλ (g). (3.155)

55

Page 56: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La descomposición (es decir el valor de las multiplicidades 〈λ |µ,ν〉) queda unívocamente determi-nada ya que los caracteres forman una base ortogonal en el espacio de clases de conjugación.

En el caso de SU(2) el ángulo ψ determina la clase de conjugación. En efecto, para U1 ∈ SU(2)cualquiera y R1 su representación en SO(3),

U1e−iψ·JU−11 = e−iU1ψ·JU−1

1 = e−iψ·(R−11 J) = e−i(R1ψ)·J . (3.156)

Por tanto, los elementos con coordenadas ψ y R1ψ son conjugados. Aplicando un R1 adecuadocualquier rotación de ángulo ψ y eje n se puede llevar a otra de igual ángulo y eje z. Se deduce queψ caracteriza la clase de conjugación.

Esta observación nos permite calcular los caracteres eligiendo rotaciones alrededor del eje z,

χj(ψ) = trD j(e3,ψ) =

j

∑m=− j

e−iψm =sen(( j+ 1

2)ψ)

sen(12ψ)

, (3.157)

donde se ha usado la identidadb

∑n=a

xn =xb+1− xa

x−1=

xb+1/2− xa−1/2

x1/2− x−1/2 .

A partir de este resultado, y haciendo uso de ec. (3.155), veamos que

V j1⊗V j2 =j1+ j2⊕

j=| j1− j2|V j (Serie de Clebsch-Gordan de SU(2)), (3.158)

es decir, en la reducción de j1⊗ j2

j = jmín, jmín +1, . . . , jmáx, jmín = | j1− j2|, jmáx = j1 + j2, (3.159)

y cada irrep j de la serie aparece exactamente una vez. En total 2min( j1, j2)+1 irreps. Como puedecomprobarse esto es consistente con el cálculo de dimensiones:

(2 j1 +1)(2 j2 +1) =j1+ j2

∑j=| j1− j2|

(2 j+1). (3.160)

Para comprobar las multiplicidades basta verlo a nivel de caracteres. Como la serie de C-G es

56

Page 57: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

simétrica (〈λ |µ,ν〉= 〈λ |ν ,µ〉) podemos suponer j1 ≥ j2

jmáx

∑j= jmín

χj(ψ) = Im

∑ j ei( j+ 12 )ψ

sen(ψ

2 )= Im

ei ψ

2 (ei( jmáx+12 )ψ − ei( jmín− 1

2 )ψ)

sen(ψ

2 )(ei ψ

2 − e−i ψ

2 )

= Imei( j1+ j2+1)ψ − ei( j1− j2)ψ

sen(ψ

2 )2i sen(ψ

2 )=−cos(( j1 + j2 +1)ψ)− cos(( j1− j2)ψ)

2sen2(ψ

2 )

=sen(( j1 + 1

2)ψ)

sen(ψ

2 )

sen(( j2 + 12)ψ)

sen(ψ

2 )= χ

j1(ψ)χ j2(ψ).

(3.161)

En el último paso se ha usado la identidad cos(α +β )−cos(α−β ) =−2sen(α)sen(β ). La relaciónen ec. (3.160) corresponde al caso particular ψ = 0.

Un caso especial interesante es

( j1 = 1)⊗ ( j2 = 1) = ( j = 0)⊕ ( j = 1)⊕ ( j = 2), 3×3 = 1+3+5. (3.162)

Indica que multiplicando dos vectores se puede construir un escalar y un vector (el producto escalary el producto vectorial) y otro objeto con j = 2, que es un tensor de rango 2 sin traza (5 grados delibertad)

AiB j =13

δi jA·B+12

εi jk(A×B)k +12(AiB j +A jBi− 2

3δi jA·B). (3.163)

3.8.2 Coeficientes de Clebsch-Gordan

Notemos que el generador de SU(2) en V j1⊗V j2 es

Jtot = J1⊗1+1⊗J2 ≡ J1 +J2 (Momento angular total). (3.164)

La serie de C-G también se puede obtener contando estados. Si | j1,m1〉 y | j2,m2〉 son basesestándar de V j1 y V j2 (únicas salvo fase global), su producto directo

| j1,m1〉⊗ | j2,m2〉 (base desacoplada), (3.165)

es una base de V j1 ⊗V j2 denominada base desacoplada. La dimensión de V j1 ⊗V j2 es (2 j1 +1)(2 j2 +1).

Para estudiar la reducción notemos que los estados desacoplados son propios de Jtot3 con valor

propio m = m1 +m2,

Jtot3 | j1,m1〉⊗ | j2,m2〉=

((J1)3 +(J2)3

)| j1,m1〉⊗ | j2,m2〉= (m1 +m2)| j1,m1〉⊗ | j2,m2〉. (3.166)

57

Page 58: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Veamos un ejemplo con j1 = 1, j2 = 32 . En la tabla se recogen los valores de m = m1 +m2 por

cada estado de la base desacoplada

m2m = m1 +m2 −3/2 −1/2 1/2 3/2

m1

1 −1/2 1/2 3/2 5/20 −3/2 −1/2 1/2 3/2−1 −5/2 −3/2 −1/2 1/2

El estado con m máximo tiene m = 5/2 y este valor es único. Se deduce que en el espacio productono hay valores de j > 5/2 y además el valor j = 5/2 aparece exactamente una vez. Esa entrada en latabla corresponde a un estado | j = 5/2,m = 5/2〉. Por tanto hay un estado | j = 5/2,m = 3/2〉 quecorresponde a cierta combinación lineal de las dos entradas 3/2. Este estado se obtienen aplicandoJ− al m = 5/2. La combinación ortogonal a esta debe corresponder a | j = 3/2,m = 3/2〉 (m = 3/2implica j≥ 3/2 pero ya no hay más estados con j = 5/2). Igualmente hay tres estados con m = 1/2,una combinación de ellos es | j = 5/2,m = 1/2〉 y otra (ortogonal) será | j = 3/2,m = 1/2〉. Entoncesla tercera combinación ortogonal a las otras dos será | j = 1/2,m = 1/2〉. Y esto ya da cuenta delos valores con m negativo:

m = 52 | j = 5

2 ,m = 52〉

m = 32 | j = 5

2 ,m = 32〉, | j =

32 ,m = 3

2〉m = 1

2 | j = 52 ,m = 1

2〉, | j =32 ,m = 1

2〉, | j = 12 ,m = 1

2〉m =−1

2 | j = 52 ,m =−1

2〉, | j =32 ,m =−1

2〉, | j =12 ,m =−1

2〉m =−3

2 | j = 52 ,m =−3

2〉, | j =32 ,m =−3

2〉m =−5

2 | j = 52 ,m =−5

2〉

(3.167)

Implica

( j1 = 1)⊗ ( j2 = 3/2) = ( j = 1/2)⊕ ( j = 3/2)⊕ ( j = 5/2)3×4 = 2+4+6.

(3.168)

Los estados | jm〉 forman la base acoplada de V j1⊗V j2 .

Para un grupo cualquiera (compacto) los coeficientes de Clebsch-Gordan relacionan las basesacoplada y desacoplada

|αλk〉= ∑i, j(µiν j|αλk) |µ, i〉⊗ |ν , j〉

|µ, i〉⊗ |ν , j〉= ∑α,λ ,k

(αλk|µiν j) |αλk〉.(3.169)

58

Page 59: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

α distingue entre las 〈λ |µ,ν〉 copias de la irrep λ en la serie de C-G de µ⊗ν .36

En particular para SU(2) no hace falta la etiqueta α ya que la multiplicidad es cero o uno (SU(2)es un grupo simplemente reducible),

| j1 j2; j,m〉= ∑m1,m2

C( j1, j2, j;m1,m2,m) | j1,m1〉⊗ | j2,m2〉,

| j1,m1〉⊗ | j2,m2〉= ∑j,m

C( j1, j2, j;m1,m2,m) | j1, j2; j,m〉.(3.170)

Los coeficientes de Clebsch-Gordan de SU(2) son reales y ortogonales. Las sumas indicadas tomansus recorridos naturales ya que el coeficiente se anula en otro caso por definición (por ejemplo, sim 6= m1 +m2).37

Los coeficientes de C-G se pueden calcular explícitamente usando operadores escalera y orto-gonalidad. Veamos un ejemplo para j1 = j2 = 1/2, j = 0,1. Dos partículas de espín 1

2 acopladas aj = 0 están en estado singlete de espín, y acopladas a j = 1 en estado triplete.

m2m = m1 +m2 −1/2 1/2

m11/2 0 1−1/2 −1 0

En primer lugar|12 ,

12〉⊗ |

12 ,

12〉= |

12 ,

12 ;1,1〉 . (3.171)

Construimos el estado |12 ,12 ;1,0〉 aplicando los operadores escalera. Usamos

J−|12 ,12〉= |

12 ,−

12〉, J−|12 ,−

12〉= 0, J−|1,1〉=

√2|1,0〉, Jtot

− = J1−+ J2−. (3.172)

Entonces

Jtot− |12 ,

12 ;1,1〉=

√2|12 ,

12 ;1,0〉

= (J1−+ J2−)|12 ,12〉⊗ |

12 ,

12〉= |

12 ,−

12〉⊗ |

12 ,

12〉+ |

12 ,

12〉⊗ |

12 ,−

12〉

(3.173)

36Como las representaciones son unitarias, las bases son ortonormales, por tanto la matriz de cambio de base entrebases acoplada y desacoplada es unitaria y (µiν j|αλk) = (αλk|µiν j)∗.

37Los coeficientes de C-G sirven igual en los dos sentidos (acoplar o desacoplar). Esto es consecuencia de que loscoeficientes de C-G definen una matriz ortogonal ya que pasan de una base ortonormal a otra y son reales. Paramatriz una ortogonal, R−1 = RT , si e′i = Riaea, también ea = Riae′i.

59

Page 60: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Es decir,|12 ,

12 ;1,0〉= 1√

2

(|12 ,

12〉⊗ |

12 ,−

12〉+ |

12 ,−

12〉⊗ |

12 ,

12〉). (3.174)

Nótese que el vector sale correctamente normalizado, y ésta es una comprobación del cálculo.

Aplicando de nuevo Jtot− se obtiene

|12 ,12 ;1,−1〉= |12 ,−

12〉⊗ |

12 ,−

12〉. (3.175)

El estado con j = 0, |1212 ,00〉, se obtiene por ortogonalidad con |12 ,

12 ;1,0〉,

|12 ,12 ;0,0〉= 1√

2

(|12 ,

12〉⊗ |

12 ,−

12〉− |

12 ,−

12〉⊗ |

12 ,

12〉). (3.176)

Al reducir el espacio, por cada nuevo valor de j hay una ambigüedad de fase que generalmentese fija con el convenio

C( j1, j2, j; j1, j− j1, j)> 0 . (3.177)

Es decir, en el desarrollo de | j1, j2; j, j〉 en la base desacoplada, el coeficiente del estado | j1, j1〉⊗| j2, j− j1〉 debe ser real y positivo. Siguiendo este convenio en el caso anterior el signo de |12 ,

12 ;0,0〉

se ha tomado de modo que la componente de |12 ,12〉⊗ |

12 ,−

12〉 sea positiva. La fase de |12 ,

12 ;1,1〉

en ec. (3.171) se ha fijado con este convenio. Nótese que la necesidad de introducir convenios defases hace que en general se obtengan distintos coeficientes de Clebsch-Gordan al acoplar Vj1⊗Vj2y Vj2⊗Vj1 cuando j1 6= j2.

Usando la notación frecuente |↑〉 ≡ |12 ,12〉, |↓〉 ≡ |

12 ,−

12〉, las relaciones anteriores quedarían

|1,1〉= |↑↑〉, |1,0〉= 1√2(|↑↓〉+ |↓↑〉), |1,−1〉= |↓↓〉, (triplete)

|0,0〉= 1√2(|↑↓〉− |↓↑〉), (singlete)

(3.178)

Este resultado es consistente con la teoría general de reducción de tensores bajo GL(n,C). En estecaso, j1 = j2 = 1

2 , tenemos biespinores n = 2. V2⊗V2 se reduce en dos espacios, el simétrico [2] yel antisimétrico [12], el primero con dimensión 3 es el triplete j = 1, y el segundo con dimensión 1es el singlete, j = 0.

60

Page 61: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

4 Grupo de Poincaré

4.1 Transformaciones de Lorentz

Cada evento espacio-temporal tiene una coordenada (t,x) ∈ R4 (espacio-tiempo) para unobservador inercial dado A. Para un observador B que se mueva con una velocidad relativa v, en lateoría no relativista las coordenadas (t ′,x′) estarán relacionadas mediante

x= Rx′+vt ′+a, t = t ′+ τ (transformación de Galileo) (4.1)

(R es una rotación y también permitimos una traslación en tiempo y espacio) de modo que laposición de B, (t ′,x′ = 0) en su propio sistema, vista en A es

(t ′,x′ = 0), x= v(t− τ)+a (4.2)

que expresa que B se mueve con velocidad v (dx/dt = v).

La transformación indicada en ec. (4.1) es una transformación de Galileo. Forman el grupode Galileo y la ley de composición de velocidades es simplemente

v12 = v1 +v2 . (4.3)

t’

t

x’ x

x=ct

t

x

t’ x’

(t,x=0)(t’,x’=0)

(t’=0,x’)

(t=0,x)

(t,x=0) (t’,x’=0)

(t’=0,x’)

(t=0,x)

Figura 6: Transformaciones galileanas (izquierda) y relativistas (derecha).

61

Page 62: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para simplificar, vamos a considerar 1+1 dimensiones y a= τ = 0, es decir, elegimos el origende coordenadas de modo que coinciden en los dos sistemas (ver Fig. 6)

x = x′+ vt ′, t = t ′ . (4.4)

Esta relación no es compatible con el postulado de la invariancia de la velocidad de la luz en cualquiersistema inercial. Para ello hay que permitir que el tiempo no sea absoluto, t 6= t ′:

x = ax′+bt ′, t = ex′+ f t ′ . (4.5)

Podemos suponer a > 0 (los dos observadores eligen igualmente orientadas la coordenada x) y f > 0(los dos relojes avanzan en el tiempo). Ahora podemos imponer la condición de que una señalluminosa se mueva con velocidad c en ambos sistemas hacia la derecha o hacia la izquierda, ytambién que A vea a B moverse con velocidad v

x = ct ⇔ x′ = ct ′, x =−ct ⇔ x′ =−ct ′, x′ = 0 ⇔ x = vt . (4.6)

Al imponer estas tres condiciones sobre los parámetros a,b,e, f en (4.5) sólo queda un parámetrolibre y la transformación se puede escribir

x = λγ(x′+ vt ′)

t = λγ(t ′+vc2 x′)

x′ = λ−1γ(x− vt)

t ′ = λ−1γ(t− vc2 x)

γ ≡ (1− v2/c2)−1/2, λ > 0 . (4.7)

Implica |v|< c (γ > 1). Según estas relaciones el observador A ve el reloj de B (x′ = 0) cambiando aun ritmo dt ′/dt = λ−1γ−1, B el de A (x= 0) a un ritmo dt/dt ′= λγ−1. Para que ambos observadoressean equivalentes (no haya observadores inerciales privilegiados) se requiere λ = 1. Así se obtienenlas transformaciones de Lorentz:

x = γ(x′+ vt ′)

t = γ(t ′+vc2 x′)

x′ = γ(x− vt)

t ′ = γ(t− vc2 x)

γ ≡ (1− v2/c2)−1/2 . (4.8)

Es conveniente usar coordenadas homogéneas para espacio y tiempo, por lo que se usa ct en vezde t, así, en forma matricial(

ctx

)=

(γ γvγv γ

)(ct ′

x′

),

(ct ′

x′

)=

(γ −γv−γv γ

)(ctx

). (4.9)

Nótese que estas matrices no son unitarias. Componiendo dos transformaciones sucesivas se obtienela ley relativista de suma de velocidades(

γ12 γ12v12γ12v12 γ12

)=

(γ1 γ1v1

γ1v1 γ1

)(γ2 γ2v2

γ2v2 γ2

), v12 =

v1 + v2

1+v1v2

c2

. (4.10)

62

Page 63: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Se deduce que v no es una coordenada canónica, la coordenada canónica es ξ = tanh−1(v/c), demodo que ξ12 = ξ1 +ξ2.

Más generalmente, en 3+1 dimensiones, descomponiendo x y x′ según la dirección de v,

x= x‖+x⊥, x′ = x′‖+x′⊥,

x‖ = γ(x′‖+vt ′), x⊥ = x′⊥, t = γ(t ′+v

c2 ·x′).

(4.11)

Esta transformación es un boost de velocidad v (o transformación de Lorentz pura).

Los boosts conservan el intervalo

s2 ≡ x2− c2t2 = γ2(x′‖+vt ′)2 +x′⊥

2− c2γ

2(t ′+v

c2 ·x′)2 = x′2− c2t ′2. (4.12)

El intervalo también es conservado por las rotaciones

(t,x) 7→ (t,Rx). (4.13)

4.2 Grupo de Lorentz

Usamos la notaciónx ∈ R4, xµ = (ct,x), µ = 0,1,2,3 . (4.14)

El intervalo puede escribirse como

s2 =−(x0)2 +x2 =−(x0)2 +(x1)2 +(x2)2 +(x3)2 ≡ gµνxµxν ,

gµν ≡ diag(−1,+1,+1,+1).(4.15)

El tensor gµν es la métrica de Minkowski. En la literatura también se usa con mucha frecuenciala signatura (+,−,−,−). R4 con la métrica de Minkowski es el espacio de Minkowski,

x · y = gµνxµyν = x ·y− x0y0, ‖x‖2 ≡ x2 = gµνxµxν . (4.16)

Por definición el grupo de Lorentz, L, son las transformaciones lineales (en realidad no hayotras) que dejan invariante el intervalo, o equivalentemente el producto escalar, o la métrica.38 Sirepresentamos una transformación lineal en el espacio de Minkowski mediante

x′ = Λx, x′µ = Λµ

νxν , (4.17)38La conservación de la norma equivale a la conservación del producto escalar, por ‖x+ y‖2−‖x− y‖2 = 4x · y.

63

Page 64: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

la conservación del producto escalar implica

x · y = gµνxµyν = x′ · y′ = gαβ x′αy′β = gαβ Λα

µ xµΛ

βν yν , (4.18)

es decir,Λ ∈ L ⇔ gµν = gαβ Λ

αµΛ

βν , (4.19)

o en notación matricial

(G)µν ≡ gµν (Λ)µν ≡ Λµ

ν G = ΛT GΛ . (4.20)

Así

L = O(3,1) = Λ, matrices reales 4×4, G = ΛT GΛ (grupo de Lorentz) (4.21)

sus elementos se denominan transformaciones de Lorentz. Es inmediato comprobar partiendo desu definición que este conjunto forma un grupo: si Λ1,Λ2 son de Lorentz, Λ1Λ2 y Λ

−11 también.39

El conjunto O(3,1) es un grupo de matrices pseudo ortogonales 4×4 y tiene dimensión 6. O(3,1)es una extensión del grupo de rotaciones SO(3) (para SO(3) la métrica es (G3)i j = δi j, i, j = 1,2,3,de modo que la condición G3 = RT G3R, equivale a RT R = 1).

4.3 Métricas y aplicaciones lineales

Hay que notar que en un espacio V de dimensión n, las aplicaciones lineales, Aij, y las métricas

gi j se pueden representar mediante matrices n×n, pero son objetos geométricamente distintos y setransforman de modo distinto bajo cambios de base. Sea U un cambio de base

e′i =U jie j, x= x′ie′i = x′iU j

ie j = x je j, x j =U jix′i, x′i = (U−1)i

jx j (4.22)

matricialmente

x =Ux′, x′ =U−1x (4.23)

siendo U una matriz n×n y x, x′ matrices n×1 (matrices columna). Los índices que se transformancomo i en ei se denominan índices covariantes, los que se transforman como i en xi se denominaníndices contravariantes. Se suelen poner abajo y arriba, respectivamente.

Si A es una aplicación lineal, Ax= y,

Aei = A jie j, y = A(xiei) = xiA j

ie j, y j = A jixi, y = Ax, (4.24)

39Equivalentemente, Λ1Λ−12 ∈ L. En general, un subconjunto H de un grupo G es subgrupo sii HH−1 ⊆ H.

64

Page 65: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

al cambiar de base

y′ =U−1y =U−1Ax =U−1AUx′ ≡ A′x′, A′ =U−1AU, A′i j = (U−1)ikAk

lU lj . (4.25)

Si G es una métrica, x ·y = gi jxiy j ≡ xT Gy, al cambiar de base

x′ ·y′ = x′T G′y′ = x ·y = xT Gy = (Ux′)T GUy′,

⇒ G′ =UT GU, g′i j = (UT )ikgklU l

j =UkigklU l

j .(4.26)

Con una métrica no singular se puede asociar un vector covariante (una 1-forma del espacio dualV ∗) a cada vector de V (vectores contravariantes):

gi j ≡ (G−1)i j, gi jg jk = δik, xi ≡ gi jx j, xi = gi jx j . (4.27)

Bajo un cambio de base xi se transforma covariantemente

x′i = g′i jx′ j =Uk

jgklU lj(U−1) j

mxm =Ukjgklxl =Uk

jxk . (4.28)

gi j y gi j se pueden usar para subir y bajar índices en tensores, en particular, la propia métrica

gi j = gikgklgl j, gij = gikgk j = δ

ij . (4.29)

Nótese que δ ij (aplicación lineal) es un tensor invariante, en cambio δi j (métrica) no es invariante

bajo cambios de base arbitrarios. Igualmente si en una base Ti j = δi j ello no implica que T ij = δ i

j.

Para su identificación como matrices, cuál es el primer índice y cuál es el segundo índice es siempreimportante (exceptuando el caso de matrices simétricas o antisimétricas). Si además la métrica noes δi j, también importa si el índice es covariante o contravariante, de cara a su transformación bajocambios de base. Así T i j, T ji, T i

j, etc, son en general distintos objetos.

Un índice covariante se puede contraer con uno contravariante y los papeles se pueden inter-cambiar:

T i jkS jk = T ijkS j

k = T ijkS jk . (4.30)

Y también se pueden pasar de contravariante a covariante (y viceversa) a los dos lados de unaecuación tensorial:

V i = T ijS j, ⇔ Vi = Ti jS j . (4.31)

65

Page 66: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

4.4 Estructura del grupo de Lorentz

En relatividad, en un sistema inercial, la métrica es gµν = diag(−,+,+,+)= gµν , de modo que

xµ = (−x0,x), x · y = gµνxµyν = xµyµ = xνyν , (4.32)

y bajo una transformación de Lorentz

xµ 7→ x′µ = gµνΛν

αxα = (gµνΛν

αgαβ )xβ = (Λ−1)βµxβ ≡ Λµ

β xβ , GΛG−1 = ΛT−1 . (4.33)

Por definición de transformación de Lorentz gµν es invariante

g′µν = gαβ Λα

µΛβ

ν = gµν . (4.34)

Los elementos del grupo de Lorentz se dividen en dos clases disconexas, L±, según detΛ seapositivo o negativo:

G = ΛT GΛ ⇒ det(G) = det(G)det(Λ)2 ⇒ detΛ =±1 , (4.35)

y también en dos clases L↑,↓ según se conserve o no el sentido del tiempo (transformacionesortócronas o antiortócronas):

g00 = gαβ Λα

0Λβ

0 ⇒ −1 =−(Λ00)

2 +3

∑i=1

(Λi0)

2 ⇒ Λ0

0 ≥ 1 ó Λ0

0 ≤−1 . (4.36)

En total O(3,1) tiene cuatro componentes conexas

L = L↑+∪L↑−∪L↓+∪L↓− . (4.37)

L↑− contiene las transformaciones ortócronas con inversión espacial, en particular la transformaciónde paridad

(x0,x) 7→ (x0,−x), P = diag(1,−1,−1,−1) ∈ L↑− . (4.38)

L↓− contiene las transformaciones antiortócronas sin inversión espacial, en particular inversión tem-poral

(x0,x) 7→ (−x0,x), T = diag(−1,+1,+1,+1) ∈ L↓− . (4.39)

66

Page 67: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

L↑+ es el grupo propio ortócrono de Lorentz y es el que vamos a considerar en lo que sigue.Este grupo es doblemente conexo (al igual que su subgrupo SO(3)), no compacto (las transforma-ciones de Lorentz puras no son matrices unitarias, ni equivalentes a unitarias en R4). Su recubridoruniversal es SL(2,C).

El grupo L↑+ contiene rotaciones (parametrizadas por φ) y boosts (parametrizados por v) entotal 3+3 = 6 parámetros, así como productos de ambos.

Los boosts son de la forma dada en ec. (4.11) y están caracterizados por su acción sobre (1,0),

B(v)(

10

)=

γv/c

), γ = (1−v2/c2)−1/2. (4.40)

Las rotaciones (relativas a un observador) se definen como las transformaciones que dejan (1,0)invariante, y forman un subgrupo isomorfo a SO(3)

R ∈ L↑+, R(

10

)=

(10

)∼= SO(3). (4.41)

Las rotaciones son de la forma(

1 00 R

), de modo que (x0,x) 7→ (x0,Rx). Las rotaciones no son un

subgrupo invariante, esto se debe a que el vector (1,0) es distinto para cada observador.

Los boosts relativistas (a diferencia de los galileanos) no forman un subgrupo: el producto dedos boosts contiene una rotación, a menos que las velocidades de los boosts sean paralelas. Losboosts se pueden considerar como representantes canónicos del espacio cociente L↑+/SO(3) (no esun grupo cociente porque las rotaciones no forman un subgrupo invariante).

Todas las transformaciones de L↑+ se pueden escribir unívocamente en la forma

Λ = BR, (4.42)

donde R es una rotación y B un boost. En efecto, aplicando Λ sobre (1,0)

Λ

(10

)=

(x0

x

)≡(

γ

γv/c

),

v

c=x

x0 , x0 = γ por −1 = x2− (x0)2, x0 > 0. (4.43)

Esta v define unívocamente el boost B. Ahora

B−1Λ

(10

)= B−1

γv/c

)=

(10

)(4.44)

67

Page 68: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

implica que B−1Λ = R es efectivamente una rotación. También es inmediato que

RB(v)R−1 = B(Rv) ⇒ Λ = B(v)R = RB(R−1v). (4.45)

4.5 Grupo de Poincaré

Si se consideran transformaciones que dejen invariante el intervalo entre dos sucesos x1 y x2

s2 = (x1− x2)2, (4.46)

se obtiene el grupo inhomogéneo de Lorentz o grupo de Poincaré, P = IO(3,1):

(Λ,a) ∈ P Λ ∈ L, a ∈ R4, x 7→ x′ = Λx+a, x′µ = Λµ

νxν +aµ . (4.47)

Incluye traslaciones espaciales y temporales además de transformaciones de Lorentz. La ley decomposición se obtiene inmediatamente haciendo dos transformaciones de Poincaré sucesivas

(Λ12,a12) = (Λ1Λ2,a1 +Λ1a2). (4.48)

Matemáticamente, el grupo de Poincaré tiene estructura de producto semidirecto de traslaciones yLorentz, IO(3,1) = T 4⊗s O(3,1).40 El grupo de Poincaré tiene 6+4 = 10 parámetros.

4.5.1 Tipos de intervalo

Si s2 < 0, el intervalo es de tipo tiempo. Existe un sistema de referencia en el que x1 = x2(los dos eventos están en el mismo sitio pero a distintos tiempos) y cτ =

√−s2 = |x0

1− x02|, τ es el

tiempo propio, el tiempo medido por un observador en reposo en ese sistema. Así en la paradojade los gemelos (ver Fig 7)

cτ1 =√

(2ct)2 = 2ct, cτ2 =√

(ct)2− (vt)2 +√(ct)2− (−vt)2 = 2ct

√1−v2/c2 < 2ct.

(4.49)

Si s2 > 0, el intervalo es tipo espacio. Existe un sistema de referencia en el que ambos sucesosson simultáneos, t1 = t2, y d =

√s2 = |x1−x2| es la distancia entre ambos.

Si s2 = 0, el intervalo es de tipo luz. En este caso x1 y x2 se pueden conectar por una señalluminosa que parta de x1 y llegue a x2 (si t1 < t2) o al revés.

40Que un grupo G tenga estructura de producto semidirecto N⊗s H quiere decir que N es un subgrupo invariantede G, H un subgrupo y G = NH con N∩H = e (implica G/N ∼= H).

68

Page 69: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(2t,0)

(t,vt)

x=ct

(1)

x

t

(2)

Figura 7: Paradoja de los gemelos: el tiempo propio a lo largo del camino 2 es menor que siguiendo el camino1.

Para intervalos de tipo tiempo o luz, la ordenación temporal, es decir, el signo de x01−x0

2, es uninvariante bajo transformaciones ortócronas, L↑, en cambio si el intervalo es tipo espacio el signode x0

1− x02 depende del sistema de referencia.

Es interesante notar que el conjunto de transformaciones que deja invariante la condición (x1−x2)

2 = 0 (pero no necesariamente (x1− x2)2 cuando este intervalo no es cero) es bastante mayor

que el grupo de Poincaré, estas transformaciones forman el grupo conforme, de dimensión 15, eincluye dilataciones (λ 6= 1 en ec. (4.7)) así como transformaciones conformes especiales que son nolineales [1].

4.6 Álgebra de Lie del grupo de Poincaré

4.6.1 Álgebra de Lorentz

Consideremos una transformación de Lorentz infinitesimal

Λµ

ν = gµν −δω

µν . (4.50)

Para que sea de Lorentz debe conservar la métrica y eso impone condiciones sobre los 16 parámetros

69

Page 70: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

infinitesimales δωµν ,

gµν = (gαµ −δω

αµ)gαβ (g

βν −δω

βν) = gµν −gβ µδω

βν −δω

αµgαν

⇒ δωµν =−δωνµ , ó δωµ

ν =−δωνµ .

(4.51)

Como δωµν es antisimétrico el número de parámetros independientes es 6, que es la dimensióndel grupo. Se puede proceder a identificar los 6 parámetros independientes (φ y v), lo cual rompeinvariancia Lorentz explícita, o bien trabajar con ωµν (coordenadas canónicas asociadas a δωµν)como tensor antisimétrico para mantener la invariancia Lorentz en forma manifiesta. De momentolo hacemos así.

El convenio usual en la definición de los generadores de Lorentz es (unidades h = 1)

U(Λ) = e−i2 ωµν Jµν

, Jµν =−Jνµ . (4.52)

Hay sólo 6 generadores independientes.

Para obtener el álgebra de Lorentz se puede usar la propia representación matricial Λ quedefine el grupo. En este caso Jµν son 16 matrices 4×4 (una matriz por cada elección de µ y ν).

Λα

β = gαβ −δω

αβ = (U)α

β = (1)αβ −

i2

δωµν(Jµν)αβ ,

δωα

β = gαµgβνδωµν =

12

δωµν(gαµgβν −gανgβ

µ)

⇒ (Jµν)αβ =−i(gαµgβ

ν −gανgβµ).

(4.53)

De aquí se obtienen las relaciones de conmutación (que no dependen de la representación usada)

[Jµν ,Jαβ ] =−i(gναJµβ −gµαJνβ −gνβ Jµα +gµβ Jνα). (4.54)

Equivalentemente, sí µναβ representan índices distintos, las relaciones son

[Jµν ,Jµβ ] = iJνβ (no hay suma sobre µ)

[Jµν ,Jαβ ] = 0.µ,ν ,α,β distintos (4.55)

En realidad las relaciones de conmutación (4.54) son válidas para cualquier grupo O(n) u O(n,m)

70

Page 71: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

ya que no se han usado propiedades especiales de la métrica.

4.6.2 Álgebra de Poincaré

Para el grupo de Poincaré el convenio que define los generadores de las traslaciones espacio-temporales Pµ es

U(Λ,a) = e−iaµ Pµ

e−i2 ωµν Jµν

, Jµν =−Jνµ . (4.56)

Las relaciones de conmutación entre J ya las tenemos, nos falta [P,J] y [P,P]. El método de antesno se puede usar de forma directa porque la acción de (Λ,a) en R4 no es lineal sino afín:

(Λ,a)x = Λx+a. (4.57)

Una opción es reducir esto a una acción lineal en R5(Λ a0 1

)(x1

)=

(Λx+a

1

)(matrices 5×5). (4.58)

Los elementos de matriz de (Jµν)αβ (α,β = 0,1,2,3) son los mismos de antes, (Pµ)α

4 = igαµ ,y los demás elementos de matriz se anulan.

Alternativamente, podemos usar la representación de funciones escalares ψ(x) en C (R4) (ec.(2.64)):

ψ(x) = ψ(Λ−1(x−a)). (4.59)

Para una transformación infinitesimalψ′(x) = ψ(x+δωx−δa) = (1−δaµ

∂µ +δωµ

νxν∂µ)ψ(x)

δψ = (−iδaµPµ − i2

δωµνJµν)ψ.(4.60)

Simetrizando e identificando Pµ y Jµν con los operadores diferenciales, se obtiene, en esta repre-sentación

Pµ =−i∂ µ , Jµν =−i(xµ∂

ν − xν∂

µ) = xµPν − xνPµ . (4.61)

Usando las propiedades

[∂µ ,xν ] = gµν , [xµ ,xν ] = [∂µ ,∂ν ] = 0 (4.62)

71

Page 72: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

así como ec. (3.61), para [J,J] se obtiene el resultado ya conocido (álgebra de Lorentz) y

[Jµν ,Pα ] =−i(gναPµ −gµαPν), [Pµ ,Pν ] = 0 . (4.63)

Observaciones:

1) El álgebra de no depende de la representación usada.

2) La representación en C (R4) (o L2(R4)) se ha usado aquí únicamente para obtener unarepresentación fiel del grupo de Poincaré. Esta representación no es la que aparecería en mecánicacuántica de una partícula relativista sin espín, por ejemplo. Ahí el espacio de Hilbert sería L2(R3).En mecánica cuántica ψ(x, t) puede estar localizada en una zona del espacio R3 pero no localizadaen un intervalo temporal ya que

∫d3x|ψ(x, t)|2 = 1 todo el tiempo, en cambio una función de

L2(R4) estaría localizada también temporalmente, por∫

d4x |ψ(x)|2 < +∞. O también, se ve queen la representación obtenida [P0,x] = 0, lo cual no es cierto en el caso cuántico (x no es unaconstante de movimiento).

3) El operador xµ existe en la representación en L2(R4) pero no pertenece al álgebra del grupo,y por tanto no tiene que estar definido en otras representaciones del grupo. Por ejemplo, en unarepresentación matricial (como la definida en ec. (4.58), de dimensión 5) nunca pueden hallarseoperadores que satisfagan [xµ ,Pν ] = igµν , ya que, por ejemplo para µ = ν = 0, la traza de la matrizde la derecha no es cero y la de la izquierda sí, por ser un conmutador de matrices.

Por inspección del álgebra de Poincaré se sigue que Jµν forma una subálgebra y genera unsubgrupo (el grupo de Lorentz) y Pµ forma un ideal y en consecuencia genera un subgrupo invarianteabeliano, el de las traslaciones. Que sea invariante quiere decir que una traslación sigue siendo unatraslación para cualquier otro observador transformado Poincaré (en cambio un transformación deLorentz se verá como Lorentz más traslación para otros observadores).

Por las relaciones de conmutación, bajo una transformación de Lorentz infinitesimal

Pµ 7→ U(Λ)PµU−1(Λ) = Pµ − i2[δωαβ Jαβ ,Pµ ]

δPµ =−iδωαβ (−i)gβ µPα =−δωαµPα = δω

µαPα .

(4.64)

Esta transformación corresponde a un cuadrivector Lorentz (a nivel infinitesimal), es decir,

Pµ 7→ Pµ +δωµ

νPν = (gµν +δω

µν)Pν = (Λ−1)µ

νPν . (4.65)

72

Page 73: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Aplicando la transformación infinitesimal repetidamente se obtiene el resultado finito

Pµ 7→ U(Λ)PµU−1(Λ) = (Λ−1)µνPν . (4.66)

Igualmente, se deduce

Jµν 7→ U(Λ)JµνU−1(Λ) = (Λ−1)µα(Λ

−1)νβ Jαβ , (4.67)

que es la ley de transformación de un tensor Lorentz (dos veces contravariante).

Como ya se observó para rotaciones, los operadores se transforman al revés que las coordenadas,Pµ 7→ (Λ−1)µ

νPν frente xµ 7→ Λµνxν . Ambas transformaciones son consistentes (y no lo serían al

revés):

x 7→2

x′ = Λ2x 7→1

x′′ = Λ1x′ = Λ1Λ2x = Λ12x,

P 7→2

U2PU−12 = Λ

−12 P 7→

1U1(Λ

−12 P)U−1

1 = Λ−12 (U1PU−1

1 ) = Λ−12 Λ

−11 P = (Λ12)

−1P.(4.68)

4.7 Álgebra de Poincaré en la base espacio-temporal

El álgebra de Poincaré también puede escribirse en la base adaptada a las coordenadas φ (ro-taciones), v (boosts), τ (traslaciones temporales) y a (traslaciones espaciales), con generadoresasociados J (momento angular), K (generador de los boosts), H (hamiltoniano) y P (momentolineal). Para una transformación de Poincaré infinitesimal,

U = e−iδX , δX = δaµPµ +12

δωµνJµν

=−δτH +δa ·P +δv ·K+δφ ·J .(4.69)

Veamos primero la relación entre los dos conjuntos de coordenadas. Usamos

δr = δa+δvt +δφ×r, δ t = δτ +1c2 δv ·r, (4.70)

a comparar con

δxµ = δaµ −δωµ

νxν , (4.71)

73

Page 74: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

teniendo en cuenta que xµ = (ct,r). Particularizando para µ = i se obtiene

δxi = δai−δωi0ct−δω

ijx j, (4.72)

que implica

(δa)i = δai, (δv)i =−δωi0c = cδω0i,

εik jδφkx j =−δωijx j ⇒ δωi j = εi jkδφk, δφk =

12

εi jkδωi j.(4.73)

Si se toma µ = 0 se obtiene

cδ t = δa0−δω0

ixi ⇒ δa0 = cδτ. (4.74)

Para los generadores

δX = δaµPµ +12

δωµνJµν =−cδτP0 +δaiPi +1c

δviJ0i +12

εi jkδφkJ jk, (4.75)

que implica

P0 =1c

H, Pi = (P )i, J0i = cKi, Jk =12

εi jkJi j, Ji j = εi jkJk. (4.76)

Cambiando de variables podemos reexpresar el álgebra de Poincaré, ecs. (4.54) y (4.63), en labase H, P , K y J ,

[Ji,J j] = iεi jkJk, [Ji,K j] = iεi jkKk, [Ki,K j] =− ic2 εi jkJk,

[Pi,P j] = [H,Pi] = 0,

[H,Ji] = 0, [H,Ki] = iPi, [Ji,P j] = iεi jkPk, [Pi,K j] = iδi jHc2 .

(4.77)

La primera línea es el álgebra de Lorentz y contiene a las rotaciones como subgrupo. En el límitec→ ∞ (y suponiendo que los generadores son finitos en ese límite) se recupera el álgebra del grupode Galileo, en el que los boosts conmutan y forman un subgrupo abeliano.

Por la relación de conmutación con J , se deduce que P , K y J son operadores vectoriales,P 7→ R−1P , etc. A su vez la relación [J,P] ∼ P dice que J tiene una componente extrínseca, quecambia bajo traslaciones. En efecto, para una traslación infinitesimal

U(δa)JU(δa)−1 = J − i[δa ·P ,J ] = J −δa×P , (4.78)

74

Page 75: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

y para una transformación finita

U(a)JU(a)−1 = J −a×P . (4.79)

Esto es consistente con J =L+S donde S (el espín) es intrínseco (invariante bajo traslaciones) yL = x×P es la parte orbital, teniendo en cuenta que x 7→ x−a bajo traslaciones (consecuenciade [xi,P j] = iδi j).41 Nótese otra vez que x no forma parte del álgebra de Poincaré.

Las relaciones de conmutación indican que H, P y J con constantes de movimiento (conmutancon H) y al mismo tiempo que H es invariante bajo traslaciones y rotaciones.

4.8 Representaciones irreducibles del grupo de Lorentz

Veamos la irreps de dimensión finita del grupo de Lorentz. Estas irreps no son unitarias: comoel grupo es simple y no compacto sus representaciones unitarias son de dimensión infinita (exceptola trivial).

Definimos los nuevos operadores

JL :=12(J + icK), JR :=

12(J − icK), J = JL +JR, K =− i

c(JL−JR). (4.80)

Es inmediato comprobar que el álgebra de Lorentz se puede reescribir en la forma

[JiL,J

jL] = iεi jkJk

L, [JiR,J

jR] = iεi jkJk

R, [JiL,J

jR] = 0 , (4.81)

y JL,R forman dos álgebras de SU(2) independientes. Una consecuencia inmediata es que J2L y J2

Rson operadores de Casimir del álgebra de Lorentz. Están relacionados con los invariantes JµνJµν yεµναβ JµνJαβ , expresados en la base Jµν .

Las matrices que representan a J y K son irreducibles si y sólo si JL,R lo son, entonces elproblema se reduce a encontrar irreps de su(2) que como sabemos son necesariamente equivalentesa unitarias

JL,R = J†L,R, J = J†, K =−K† . (4.82)

Estas irreps son conocidas y se caracterizan por etiquetas jL,R = 0, 12 ,1,

32 , . . . Si usamos JL para

denotar las matrices de dimensión 2 jL +1, de la irrep jL de SU(2), y lo mismo para JR, lo que se41Alternativamente, U(a)xU(a)−1|r〉=U(a)x|r−a〉= (r−a)U(a)|r−a〉= (r−a)|r〉= (x−a)|r〉.

75

Page 76: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

tiene para el álgebra de Lorentz es una irrep de dimensión (2 jL+1)(2 jR+1) que actúa en V jL⊗V jR ,

JL = JL⊗1, JR = 1⊗ JR, J = JL⊗1+1⊗ JR, K =− ic(JL⊗1−1⊗ JR) . (4.83)

Nótese que el factor 1 es la identidad en (2 jR +1) y en (2 jL +1) dimensiones, respectivamente.

Cada irrep de Lorentz está caracterizada por los valores de jL y jR y la denotamos [ jl, jR]. Enparticular,

[0,0], dimensión 1, son los escalares Lorentz (la representación trivial).

[12 ,

12 ], dimensión 4, son los cuadrivectores, Aµ = (A0,A), Aµ 7→ (Λ−1)µ

νAν . A0 es un escalarbajo rotaciones ( j = 0) y A un vector ( j = 1). Como J = JL+JR al acoplar jL = 1/2 con jR = 1/2se obtiene j = 0,1.

Las irreps básicas son [12 ,0] y [0, 1

2 ]:

[12 ,0], JL =

σ

2, JR = 0, J =

σ

2, K =− i

2

[0, 12 ], JL = 0, JR =

σ

2, J =

σ

2, K =+

icσ

2.

(4.84)

Puesto que en estas representaciones K =±iJ/c, la relación K×K =−iJ/c2 es consecuenciainmediata de J ×J = iJ .

Las representaciones básicas tienen dimensión 2 y son conjugadas una de otra. Exponenciandopor ejemplo [1

2 ,0] se obtiene

D(Λ) = e−iφ·J−iξ·K = e−i2 (φ−

icξ)·σ ≡ e−iα·σ/2, φ,ξ ∈ R3, α ∈ C3, (4.85)

que es el conjunto de matrices complejas 2× 2 con determinante unidad, el grupo SL(2,C). Estegrupo es el recubridor universal de L↑+. El grupo de Lorentz es doblemente conexo por SL(2,C)/Z2∼=L↑+, y tiene representaciones bivaluadas igual que SO(3).

4.9 Representaciones irreducibles del grupo de Poincaré

Nos referimos al grupo conexo P↑+. Las irreps de Poincaré se clasifican por operadores invariantes.Hay básicamente dos operadores invariantes.

76

Page 77: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

El primero es la masa invariante (al cuadrado) del sistema

M2 :=− 1c2 PµPµ =

1c4 H2− 1

c2P2, H2 = (Mc2)2 +(cP )2. (4.86)

Puesto que Pµ es un cuadrivector, M2 es un escalar Lorentz, y conmuta con Jµν , y también conmutacon Pµ . Por el lema de Schur, en una irrep del grupo M2 toma un valor constante. Como los Pµ

conmutan, los estados de la base de la irrep se pueden elegir propios de P , |α,p〉 (α son otrosposibles números cuánticos) y P0 se obtiene con M2 (salvo signo).

Hay cuatro tipos de irreps.

La representación trivial. Tiene dimensión 1 y el estado correspondiente suele denotarse |0〉,denominado estado vacío.42 En esta representación

U(Λ,a)|0〉= |0〉, Pµ |0〉= Jµν |0〉= 0. (4.87)

El estado vacío no tiene momento, energía ni momento angular y representa el vacío físico en lasteorías cuánticas relativistas, donde se postula que éste es el estado fundamental (es decir, el demenor energía) y que está no degenerado. Esto implica que para todos los demás estados H > 0.El grupo de Poincaré contiene irreps con H < 0 pero no aparecen en teorías admisibles y no lasconsideramos.

Representaciones masivas. Para éstas M2 > 0 y H > 0. Representan partículas con masa, osistemas de partículas. Pµ es de tipo tiempo, y haciendo un boost de velocidad

v =−c2P

H, (4.88)

se puede llevar el sistema al reposo (sistema del centro de masas)

P = 0, H = Mc2, M :=+√

M2 (4.89)

Mc2 es la energía total del sistema en el sistema del centro de masas. En otro sistema

H =+√

M2c4 + c2P 2 = γMc2, γ = (1−v2/c2)−1/2. (4.90)

M es la masa invariante del sistema.42Nótese que |0〉 no es el vector 0 del espacio de Hilbert. De hecho es un estado normalizado a uno.

77

Page 78: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Representaciones sin masa. Para éstas M2 = 0 y H > 0. Representan partículas sin masa, Pµ

es de tipo luz y no admite un sistema centro de masas en el que P = 0, más bien H = c|P | > 0.Aunque la partícula va siempre a la velocidad c, sí cambia su energía y momento al aplicar un boost(Pµ se transforma como un cuadrivector Lorentz en todos los casos).

Representaciones taquiónicas. En estas representaciones M2 < 0 y Pµ es de tipo espacio.En este caso el signo de P0 depende del sistema de referencia (se puede cambiar mediante trans-formaciones de Lorentz). Las partículas en estas representaciones serían taquiones, moviéndose avelocidad superior a c. Esto lleva a paradojas (Fig. 8) y de hecho no se ha encontrado aplicación deestas irreps en la naturaleza. El hecho de que H se pueda hacer arbitrariamente negativo indica queno hay estado fundamental (si en una teoría aparecen taquiones quiere decir que el supuesto vacíoes en realidad un estado metaestable, un falso vacío).

B

C

A

(t,x=0)

(t=0,x)

(t’,x’=0)

(t’=0,x’)

cc

−c

Figura 8: La señal supralumínica A→ B viaja hacia adelante en el tiempo para A, la señal supralumínica B→Ctambién viaja hacia adelante en el tiempo para B, sin embargo C está en el pasado causal de A.

Hay que observar que M incluye toda la energía en reposo del sistema físico, incluida la debidaa interacciones. Así por ejemplo, un termo con agua caliente tiene más masa inercial y gravitatoria(ambas coinciden por el principio de equivalencia) que con agua fría. Si la ec. (4.90) se desarrollaen serie en potencias de 1/c

H = Mc2 +P 2

2M+O(

1c2 ),

(4.91)

78

Page 79: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

parecería que sólo hay energía cinética, sin embargo, separando

Mc2 = M0c2 +V (4.92)

donde V indica un potencial de interacción, por ejemplo,

H = M0c2 +V +P 2

2(M0 +1c2V )

+O(1c2 ) = M0c2 +V +

P 2

2M0+O(

1c2 ), (4.93)

que es consistente con la fórmula no relativista con un término de interacción. M contiene todala energía. En el límite no relativista, se incluyen en V aquellas energías (gravitatorias terrestres,químicas, etc) cuya variación y transformación en energía cinética no supone cambios de velocidadesde las partículas comparables a c y en M0 las que sí (nucleares, etc). M0 se puede considerar inertesi y sólo si el tratamiento no relativista es adecuado.

El segundo operador invariante Poincaré que permite clasificar las irreps del grupo está relacio-nado con el espín. Hacemos un tratamiento cualitativo. Un tratamiento sistemático se basa en eloperador de Pauli-Lubanski, Wµ = 1

2εµναβ PνJαβ .43 Como se puede comprobar W 2 es un invariantePoincaré [5].

Para partículas con masa (representaciones M2 > 0), el sistema físico se puede llevar al reposo,P = 0, P0 = Mc. El subgrupo del grupo de Lorentz que deja invariante Pµ = (Mc,0) es el grupode rotaciones (en el sistema centro de masas) y se puede usar para reducir el espacio de Hilbertsegún el valor de J2 de los estados. Una vez que hemos fijado el sistema de referencia (el centro demasas) el valor de J2 es un invariante Lorentz. Además, por P = 0, el momento angular no tieneparte orbital (L = x×P = 0) sólo hay espín, J = L+S = S, y por tanto J es invariante bajotraslaciones espaciales, y también temporales por ser J conservado. En definitiva el observable S2

así definido es un invariante Poincaré. Su espectro es el usual de un momento angular, S2 = s(s+1),s = 0, 1

2 ,1,32 ,2, . . . y s se denomina el espín de la partícula.

Las representaciones masivas son del tipo |M,s;p,λ 〉 donde M (la masa) y s (el espín) son fijosy caracterizan la irrep. p es el momento (el valor propio de P ) y λ es la helicidad, que se definecomo el momento angular en la dirección de P , λ =−s,−s+1, . . . ,s.

Para partículas sin masa (M = 0), el análisis es más complicado. El subgrupo que deja invariantePµ = (|P |,P ) es el grupo euclídeo bidimensional, también de dimensión 3 [5]. Las únicas irreps alas que se ha encontrado aplicación física son aquellas con W 2 = 0 (esencialmente corresponde a

43Hay dos convenios para el tensor de Levi-Civita, aquí adoptamos el convenio ε0i jk = εi jk.

79

Page 80: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

estados de espín finito). Para estas irreps W µ = λPµ . Lo que se encuentra es que la helicidad

λ :=P ·J|P |

, (4.94)

es un invariante Lorentz y Poincaré. Para una partícula masiva no lo es: la partícula se puede llevar alreposo, rotarla, y luego deshacer el boost, cambiando λ . Pero las partículas sin masa no se puedenllevar al reposo y λ no se puede cambiar. Por tanto en este caso M = 0 y λ son los operadoresinvariantes, y los valores permitidos para λ son 0,±1

2 ,±1,±32 , . . .

Las representaciones sin masa son del tipo |M = 0,λ ;p〉 donde M = 0 (la masa) y λ (la helicidad)son fijos y caracterizan la irrep. Nótese que una partícula sin masa sólo tiene un estado espín, envez de los 2s+1 posibles estados de espín de una partícula masiva.44

44El fotón admite dos valores, λ =±1, pero cada uno define una representación irreducible de P↑+. Los dos estadosse mezclan bajo paridad, que es realizable por ser una simetría de la interacción electromagnética. No hay fotonescon helicidad nula.

80

Page 81: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

5 Representaciones de SU(n)

5.1 Representación tensorial de GL(n,C)

Como se vio, al acoplar dos espines 12 se podía obtener un estado triplete ( j = 1) o singlete

( j = 0)

|1,1〉= |↑↑〉, |1,0〉= 1√2( |↑↓〉+ |↓↑〉), |1,−1〉= |↓↓〉

|0,0〉= 1√2( |↑↓〉− |↓↑〉).

(5.1)

Estos estados se pueden escribir en la forma

|ψ〉= ψi1i2|i1, i2〉 ik = 1,2 (ó ↑,↓) . (5.2)

Los estados j = 1 son simétricos, ψ i1i2 =+ψ i2i1 y el estado j = 0 es antisimétrico, ψ i1i2 =−ψ i2i1 .

Más generalmente, si |i〉, i = 1, . . . ,n es una base de Vn ∼= Cn,

|i1, i2, . . . , ir〉= |i1〉⊗ · · ·⊗ |ir〉 base de V rn ≡Vn⊗

(r)· · ·⊗Vn, (5.3)

un vector cualquiera es de la forma (suma implícita)

|ψ〉= ψi1i2...ir |i1, i2, . . . , ir〉. (5.4)

|ψ〉 ∈V rn , o equivalentemente ψ i1i2...ir , es un tensor contravariante de rango r. En general, un

tensor es un objeto caracterizado por su transformación bajo un grupo que actúe en Vn. En nuestrocaso el grupo es Gn ≡ GL(n,C) (el grupo de cambios de base en Cn). En el punto de vista activo,g ∈ Gn actúa sobre los vectores de la base de Vn así

|i〉 7→ g ji| j〉, (5.5)

y sobre las componentes del tensor actúa según

|ψ〉 7→g|ψ〉′ = ψ

i1...irg j1 i1 · · ·gjr

ir | j1, . . . , jr〉 ≡ ψ′ j1... jr | j1, . . . , jr〉, (5.6)

de donde se lee la ley de transformación de las componentes del tensor

ψ′i1...ir = gi1 j1 · · ·g

irjrψ

j1... jr . (5.7)

81

Page 82: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Esto define la representación tensorial g⊗(r)· · ·⊗g de GL(n,C) sobre V r

n . Como luego van a aparecerrepresentaciones más generales, denotamos este tipo de representaciones por T r. Todas las irrepsinequivalentes de SU(n) aparecen al reducir los espacios V r

n , r = 0,1,2, . . .

5.2 Reducción de V rn bajo Sr y GL(n,C)

Para reducir V rn buscamos subespacios invariantes bajo GL(n,C). El grupo de permutaciones Sr

también actúa en el espacio de tensores V rn ,

p ∈ Sr, |i1, . . . , ir〉= |i1〉1 · · · |ir〉r 7→p

|i1〉p1 · · · |ir〉pr = |ip−11〉1 · · · |ip−1r〉r = |ip−11 . . . , ip−1r〉,(5.8)

y para las componentesψ

i1,...,ir 7→p

ψip1,...,ipr . (5.9)

Así por ejemplo

|i jk〉 →(12)| jik〉 →

(23)| jki〉, (23)(12) = (132)

ψi jk|i jk〉 →

(12)ψ

i jk| jik〉= ψjik|i jk〉 →

(23)ψ

jik|ik j〉= ψki j|i jk〉.

(5.10)

Las acciones de los grupos Sr y GL(n,C) en Vn conmutan, en consecuencia, aplicando proyectoresPλ sobre irreps de Sr (λ es un diagrama de Young con r casillas)

V rn =

⊕λ

(V rn )λ (5.11)

donde (V rn )λ son espacios invariantes bajo los dos grupos.

Generalmente (V rn )λ es todavía reducible: cada irrep λ de Sr aparece con una multiplicidad dλ .

Tomando una base estándar en cada uno de los dλ espacios irreducibles (mínimos) se tiene una basede (V r

n )λ ,45

|λαa〉, a = 1, . . . ,nλ , α = 1, . . . ,dλ, (5.12)

donde nλ denota la dimensión de la irrep λ de Sr. Por construcción |λαa〉, a = 1, . . . ,nλ, paraλ ,α fijos es una base estándar de un espacio irreducible de Sr de tipo λ . Se demuestra que a su

45Nótese que la reducción de (V rn )λ en espacios irreducibles de Sr no es única si hay más de uno, dλ > 1.

82

Page 83: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

vez |λαa〉, α = 1, . . . ,dλ con λ ,a fijos, subtiende un espacio irreducible respecto de GL(n,C), yademás dos irreps de este tipo son equivalentes si y sólo si sus diagramas de Young, λ , son iguales.

V rn =

⊕λ

dλ⊕α=1

Vλ ,α ≡⊕

λ

dλVλ (reducción bajo Sr)

=⊕

λ

nλ⊕a=1

V ′λ ,a ≡

⊕λ

nλV ′λ

(reducción bajo Gn).(5.13)

En particular para r = 1 el único diagrama es [1] ( ) y se tiene que la propia representación quedefine el grupo, gi

j, es irreducible (evidente, ya que con transformaciones invertibles arbitrarias sepuede llevar cualquier vector de Vn a cualquier otro, no hay espacios invariantes propios).

En el siguiente caso más simple r = 2

r = 2, n = 1,2, . . . , V 2n =Vn⊗Vn

ψi j i, j = 1, . . . ,n λ = [2] , [12]

(5.14)

V 2n = (V 2

n ) ⊕ (V 2n ) = linψ,ψ i j =+ψ

jidim = n(n+1)/2

⊕ linψ,ψ i j =−ψji

dim = n(n−1)/2

ψi j = ψ

i jS +ψ

i jA , ψ

i jS,A =

12(ψ i j±ψ

ji).

(5.15)

V 2n =

n(n+1)2

×V ⊕ n(n−1)2

×V (Reducción bajo S2)

= 1×V ′ ⊕ 1×V ′ (Reducción bajo GL(n,C))(5.16)

Como se verá las irreps tensoriales T r de GL(n,C) son también irreducibles bajo SU(n). Asíaplicando el resultado anterior a SU(2)

Vj1= 12⊗Vj2= 1

2=Vj=0⊕Vj=1, Vj=1 =V ′ (dim = 3), Vj=0 =V ′ (dim = 1) (5.17)

83

Page 84: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Tensores de rango 3. Hay n3 estados y vamos a separarlos por tipos.

Tipo |i jk〉. Si aplicamos S3 sobre |i jk〉 para i jk distintos, se obtienen 3! estados que forman larepresentación regular de S3. Esta representación se puede reducir aplicando idempotentes asociadosa los tableros estándar e123, e12

3, e13

2, e1

23

. Puesto que los índices se van a permutar, se puede elegir

i < j < k. Esto produce46

|i jk〉 1≤ i < j < k ≤ n

∑ni=1 ∑

nj=i+1 ∑

nk= j+1 =

n(n−1)(n−2)6 casos

1×1+2×2+1×1 = 6

i j k i jk

ijk

i kj

(5.18)

Tipo |i j j〉 con 1 ≤ i < j ≤ n. Ahora al aplicar permutaciones sobre |i j j〉 (para i, j dados) seobtienen 3!/(1!2!) = 3 estados (que por construcción forman un espacio invariante bajo permu-taciones). Los idempotentes actúan igual que antes y se obtiene lo mismo poniendo k = j en ec.(5.18):

|i j j〉 1≤ i < j ≤ n

∑ni=1 ∑

nj=i+1 =

n(n−1)2 casos

1×1+1×2+0×1 = 3

i j j i jj

i

jj

i jj

(5.19)

El segundo i jj

se va porque está repetido y ijj

se va por tener índices repetidos en la misma

columna (se anula al antisimetrizar). En total se tienen 3 estados para i, j dados.46 Por ejemplo, el espacio i j

k, está generado por el vector e12

3|i jk〉 = s12a13|i jk〉 = |i jk〉− |k ji〉+ | jik〉− | jki〉.

Este espacio tiene dimensión 2 ya que al aplicar permutaciones arbitrarias se obtienen dos vectores linealmenteindependientes.

84

Page 85: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Tipo |ii j〉, 1≤ i < j ≤ n. En este caso se tiene

|ii j〉 1≤ i < j ≤ n

∑ni=1 ∑

nj=i+1 =

n(n−1)2 casos

1×1+1×2+0×1 = 3

i i j i ij

i

ij

i ji

(5.20)

Como era de esperar se obtiene lo mismo que en el caso |i j j〉 ya que el etiquetado de los estados nopuede afectar al resultado (aunque superficialmente la justificación para eliminar algunos tablerossea distinta).

Finalmente, tipo |iii〉. Este estado ya es invariante bajo permutaciones (espacio invariante uni-dimensional). Tomando i = j = k en ec. (5.18):

|iii〉 1≤ i≤ n

∑ni=1 1 = n casos

1×1+0×2+0×1 = 1

i i i

i ii

i

ii

i ii

(5.21)

Reuniendo todos los casos se obtiene

V 3n = d × +d × +d × (Reducción bajo S3) (5.22)

d =n(n−1)(n−2)

6+

n(n−1)2

+n(n−1)

2+n =

n(n+1)(n+2)6

,

d = 2× n(n−1)(n−2)6

+n(n−1)

2+

n(n−1)2

+0×n =n(n+1)(n−1)

3,

d = 1× n(n−1)(n−2)6

=n(n−1)(n−2)

6,

n3 = d ×1+d ×2+d ×1.

(5.23)

Al mismo tiempo la reducción bajo Gn es

V 3n = 1× +2× +1× (Reducción bajo Gn) (5.24)

85

Page 86: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Los dλ (multiplicidad de λ en la reducción bajo S3) son la dimensión de la irrep λ de Gn. Una delas dos irreps de Gn corresponde a los estados |[2,1],α,a = 1〉 y la otra a |[2,1],α,a = 2〉.Por otra parte, todos los tensores completamente simétricos de rango 3 forman una sola irrep de Gny lo mismo los completamente antisimétricos.

Más generalmente, por cada irrep de Sr de tipo λ hay un estado de la base de la irrep λ de Gny por ello esta irrep tiene tantos estados como tableros estándar de Gn: estos son diagramas deYoung de tipo λ llenados con r etiquetas i1, . . . , ir = 1, . . . ,n (con repetición) tales que la etiquetano decrezca al moverse a la derecha por una fila y crezca estrictamente al moverse hacia abajo poruna columna.

Así, por ejemplo, los tableros estándar de GL(3,C) para λ = [22] son

1 12 2

1 12 3

1 13 3

1 22 3

1 23 3

2 23 3

(5.25)

y se concluye que la dimensión de [22] en G3 es 6.

Obviamente, en GL(n,C) la dimensión es 0 (la irrep no existe) para λ ’s con columnas de longitudsuperior a n.

Una fórmula para la dimensión es

dλ =∏

ri=1 ci

∏ri=1 li

, (5.26)

donde li es la longitud del gancho de la casilla i-ésima y ci es n para la primera casilla (izquierdaarriba) aumentando en uno al moverse a la derecha y disminuyendo en uno al moverse hacia abajo.Por ejemplo

dimGn [22] =

n n+1

n−1 n

3 2

2 1

=n(n+1)(n−1)n

3 ·2 ·2 ·1=

n2(n2−1)12

. (5.27)

La fórmula análoga para la dimensión de la irrep λ de Sr es

nλ =r!

∏ri=1 li

, (5.28)

86

Page 87: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Por ejemplodimS4 [2

2] =4!

3 2

2 1

=4!

3 ·2 ·2 ·1= 2, (5.29)

correspondiente a los dos tableros estándar de S4 de [22], 1 23 4

y 1 32 4

.

Ejemplo. Consideremos n = 2 y r = 3. La reducción bajo GL(2,C) es

V 32 = 1× ⊕2× ⊕1× , 23 = 1×4+2×2+1×0. (5.30)

Esto es completamente consistente con lo que sabemos de la serie de Clebsch-Gordan de SU(2):

Vj= 12⊗Vj= 1

2⊗Vj= 1

2= (Vj=0⊕Vj=1)⊗Vj= 1

2=Vj= 3

2⊕Vj= 1

2⊕Vj= 1

2, (5.31)

con dimensiones 4+2+2 = 8.

Aparte de la irrep [1], que es la propia gij que define el grupo GL(n,C), otra irrep interesante es

[1n] (una columna con n casillas). Tiene dimensión 1 y corresponde a los tensores completamenteantisimétricos de rango n, y no es más que el determinante de g:

ψi1...inA = ε

i1...inψ con ψ ≡ ψ1...nA ,

εi1...in 7→ gi1 j1 · · ·g

injnε

j1... jn = εi1...ing1

j1 · · ·gn

jnεj1... jn = det(g)ε i1...in .

(5.32)

Aquí ε i1...in es el tensor de Levi-Civita que está completamente definido por ser totalmente an-tisimétrico y ε1...n = 1. En efecto, el determinante define una representación ya que det(g1g2) =det(g1)det(g2).

Más generalmente, para una irrep tensorial de GL(n,C) dada por un tablero λ , cada columnade longitud n produce un factor det(g). Por ejemplo,

= det(g)2× en GL(3,C). (5.33)

5.3 Serie de Clebsch-Gordan para irreps tensoriales de GL(n,C)

Como se ha visto, cada irrep tensorial T r de GL(n,C) viene dada por un diagrama de Young yla serie de C-G puede escribirse como producto de tableros. Este producto se puede hacer a nivel

87

Page 88: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

de tableros, sin referirse a un n concreto. Para multiplicar dos diagramas λ y µ , en primer lugaretiquetamos el segundo diagrama con 1’s en la primera fila, 2’s en la segunda, y así sucesivamente.Así por ejemplo, si queremos multiplicar [2] con [2,12],

× 1 123

. (5.34)

A continuación se van añadiendo casillas etiquetadas del segundo tablero al primero de todas lasformas posibles tales que se obtenga un diagrama admisible y un tablero admisible distinto.47

Como diagrama, la construcción es admisible cuando la longitud de una fila superior es mayor oigual que la longitud de otra fila inferior. Como tablero, éste es admisible si 1) no hay dos etiquetasiguales en una misma columna, y 2) leído de derecha a izquierda fila por fila de arriba a abajo, elnúmero de etiquetas i en ningún momento supera el número de etiquetas i−1, y esto para cualquieri. Se guardan todos los tableros admisibles distintos, y se quitan la etiquetas. Al hacer esto puedenquedar diagramas repetidos, lo cual indica que esas irreps aparecen con multiplicidad mayor que unoen la reducción de λ ⊗µ .

En el ejemplo de antes, después de añadir las casillas con etiquetas 1’:

1 1 11 1 1

11

(5.35)

Después de añadir las casillas con etiquetas 2:

1 1 2 1 1

2

1 21

11 2

112

2

1 1 1 12

(5.36)

Finalmente añadiendo las casillas con etiqueta 3 (omitimos ya los cuatro tableros inadmisibles que47En sentido estricto usamos diagrama para la estructura de casillas (una partición de r) y un tablero para un

diagrama etiquetado. En sentido más vago se usa tablero para un diagrama de Young con o sin etiquetas.

88

Page 89: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

se obtienen poniendo un 3 en la primera fila):

1 1

2 31 1

23

1

1 2 31

1 23

1

1 32

1123

1 12 3

1 123

(5.37)

Finalmente× = + + + . (5.38)

En realidad, puesto que el producto de tableros es conmutativo es más conveniente calcular [2,12]×[2]

× 1 1 = 1 1 + 11

+ 1

1

+

11

+1

1

+

11

. (5.39)

Nótese que cuando el producto de tableros se aplica a un n concreto, los tableros con columnascon longitud mayor que n tienen dimensión cero y sobran. Así, por ejemplo

(n = 2) × = +

1×2 = 2+0 . (5.40)

En SU(2) y tienen dimensión 2 y corresponden a j = 12 y tiene dimensión 1 y corresponde

a j = 0.

Al calcular series de C-G una comprobación extraordinariamente útil es verificar que las dimen-siones a ambos lados sean iguales. (Compruébese ec. (5.38), bien para n genérico o para algún n no

89

Page 90: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

totalmente trivial.)

5.4 Reducibilidad de representaciones tensoriales bajo SU(n)

Veamos que las representaciones tensoriales que son irreducibles en GL(n,C) también lo son enSU(n), y por tanto en U(n) y SL(n,C). Nótese que es trivial que si una representación es irreduciblepara un subgrupo lo es para el grupo, pero no al revés.

La primera observación es que las representaciones tensoriales de GL(n,C) son analíticas, esdecir, las matrices D(g) dependen analíticamente de los elementos de matriz gi

j. Por otro lado, laextensión analítica de SU(n) es el grupo SL(n,C) (matrices complejas de determinante 1). Esto sededuce de que

SU(n) 3 g = e−iaiXi, Xi = X†i , tr(Xi) = 0, a ∈ Rn , (5.41)

y si se toma a ∈ Cn se obtiene un elemento arbitrario de SL(n,C), g = eA, tr(A) = 0. Igualmente,la extensión analítica de U(n) es GL(n,C).

Supongamos que D(g) es una representación tensorial de GL(n,C) tal que es reducible en SU(n),

es decir, cuando g ∈ SU(n) D(g) =(

A(g) 0B(g) C(g)

). Entonces, por extensión analítica tendrá la

misma forma en SL(n,C). Y también será reducible en GL(n,C): en efecto, todo g ∈ GL(n,C)puede escribirse como g = zg′ con z ∈ C y g′ ∈ SL(n,C) (de hecho zn = detg). Por ser D(g) una

función homogénea de grado r en g (ver ec. (5.7)) se tiene D(g) = zrD(g′) =(

zr A(g′) 0zr B(g′) zr C(g′)

),

que es reducible. Esto demuestra que las representaciones irreducibles de GL(n,C) lo siguen siendocuando se restringen a SU(n).

5.5 Otras representaciones de GL(n,C)

Hasta ahora hemos visto las representaciones de tipo g⊗(r)· · ·⊗g de GL(n,C) pero hay más. Hay

cuatro representaciones básicas, a saber, g, g−1T , g∗ y g−1†. Así por ejemplo,

(g1g2)−1† = g−1†

1 g−1†2 . (5.42)

En componentes (por conveniencia usamos índices a,b, . . .= 1, . . . ,n en vez de i, j, . . .)

g : ψa 7→ ga

bψb , g−1T : ψa 7→ (g−1)b

aψb ≡ (g−1T )abψb ,

g∗ : ψa 7→ (gab)∗ψb ≡ (g∗)a

bψb , g−1† : ψ

a 7→ ((g−1)ba)∗ψ

b ≡ (g−1†)abψ

b .(5.43)

90

Page 91: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Los índices con punto recorren los mismos valores, a, b = 1, . . . ,n, el punto sirve para indicar queesos índices no se transforman con g sino con g∗.

Igualmente, para las bases de los espacios correspondientes Vn, Vn, V ∗n y V ∗n

g|ea〉= gba|eb〉 , g−1T |ea〉= (g−1T )b

a|eb〉,

g∗|ea〉= (g∗)ba|eb〉, g−1†|ea〉= ((g−1)b

a)∗|eb〉 .

(5.44)

Estas cuatro representaciones son irreducibles e inequivalentes para GL(n,C). Dentro del subgrupoU(n) (matrices unitarias) sólo dos de ellas son inequivalentes, ya que cuando g es unitaria g−1† = gy g−1T = g∗ (y siguen siendo irreducibles).

Todas las representaciones de dimensión finita de GL(n,C) se obtienen como subespacios delproducto tensorial de las cuatro irreps básicas:

V rn ⊗V s

n ⊗V ∗np⊗V ∗n

q r,s, p,q = 0,1,2, . . . (5.45)

Los correspondientes elementos son tensores de tipo T r,ps,q con componentes

ψa1...ar,a1...ap

b1...bs,b1...bq. (5.46)

Los tensores V rn considerados hasta ahora son de tipo T r ≡ T r,0

0,0 .

Es inmediato comprobar que si las variables ψa1...ar,a1...ap

b1...bs,b1...bqse transforman como las componentes

de un tensor de tipo T r,ps,q , entonces (ψ

a1...ar,a1...ap

b1...bs,b1...bq)∗ (representación conjugada) se transforman

como las componentes de un tensor de tipo T q,sp,r .

Las representaciones T rs ≡ T r,0

s,0 son analíticas (su transformación depende analíticamente de g)y las T 0,p

0,q son antianalíticas (funciones conjugadas de analíticas). Todas las irreps (de dimensiónfinita) de GL(n,C) son separables, de la forma analítica por antianalítica

ψa1...arb1...bs

(φc1...cqd1...dp

)∗. (5.47)

Este resultado se deduce notando que las irreps de un producto directo de grupos se obtienen como elproducto tensorial de irreps, Dµ(g1)

ijDν(g2)

kl. En el presente caso lo que se tiene es Dµ(g)i

jDν(g∗)kl y

a efectos prácticos las variables g y g∗ se pueden considerar como variables independientes por lo que esirreducible.

91

Page 92: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La consecuencia es que sin pérdida de generalidad nos podemos restringir a estudiar las irrepsanalíticas, T r

s , de GL(n,C).

5.6 Representaciones de tipo T rs de GL(n,C) y U(n)

Cuando nos restringimos a U(n) (subgrupo de matrices unitarias) g−1† = g y g∗ = g−1T , enconsecuencia en este subgrupo no hay diferencia entre índices con y sin punto. Todas las irreps deU(n) se encuentran al reducir V r

n ⊗V sn . La demostración que se hizo anteriormente de que las irreps

de GL(n,C) de tipo T r se mantienen irreducibles en SU(n) (Sec. 5.4) también se aplica al casomás general T r

s ya que sólo se usó que las representaciones eran analíticas y homogéneas en g locual también vale para T r

s .48 Además, representaciones inequivalentes de GL(n,C) siguen siendoinequivalentes al restringirlas a U(n), por extensión analítica.49

Nótese que para U(n) (T rs )∗ = T s

r . Aparte de esto, por extensión analítica, todas las propiedadeslineales de T r

s bajo GL(n,C) valen para U(n) y viceversa.

Sobre los tensores ψa1...arb1...bs

actúan los grupos Sr y Ss de permutaciones de los índices contrava-riantes y covariantes por separado, y de nuevo su acción conmuta con GL(n,C). Entonces, por lamisma construcción que para T r, se obtienen subespacios invariantes de tensores asociados a tiposde simetría de permutaciones (diagramas de Young) λ (r casillas) y µ (s casillas) para los índicescontravariantes (a1, . . . ,ar) y covariantes (b1, . . . ,bs) por separado. Sin embargo, a diferencia delcaso s = 0, estos subespacios no son irreducibles en general.

El motivo es que el tensor δ ab es invariante

δab 7→ ga

a′(g−1T )b

b′δ

a′b′ = ga

a′(g−1)a′

b = δab . (5.48)

Más generalmente son invariantes los tensores formados por productos de factores δaib j

y sumas deéstos. Aparte de éstos no hay otros tensores invariantes.50

Así, por ejemplo, el espacio de tensores de la forma ψab , de dimensión n2, contiene un subespacio

48No se aplica al caso general T r,ps,q . Por ejemplo, los tensores ψa,b forman una representación irreducible de GL(n,C)

en cambio en U(n) es del tipo ψa,b que es reducible ya que a y b no están simetrizados/antisimetrizados.49Esto ya no es cierto para SU(n). Como se verá, dos irreps inequivalentes de U(n) pueden pasar a ser equivalentes

al restringirlas a SU(n).50Por el lema de Schur, cualquier matriz que conmute con todos los gi

j debe ser múltiplo de la identidad, es decir,δ i

j.

92

Page 93: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

invariante de dimensión 1: el dado por el tensor con componentes δ ab

|ea〉⊗ |ea〉 7→g|ea〉⊗ |ea〉. (5.49)

La invariancia de δ ab equivale a decir que la traza ψa

a , obtenida por contracción del índice contra-variante con el covariante, es un invariante bajo el grupo.51 El espacio ψa

b se descompone en dosespacios invariantes irreducibles, con dimensiones n2− 1 (tensores sin traza) y 1 (tensores propor-cionales a δ a

b ):

ψab = ψ

ab +ψδ

ab con ψ =

1n

ψaa , ψ

aa = 0. (5.50)

En general, tomando traza respecto de dos índices cualesquiera (uno contravariante y otro covarian-te) de un tensor de tipo T r

s se obtiene de nuevo un tensor, de tipo T r−1s−1 . Esto permite reducir T r

s enespacios invariantes, a saber, como suma de tensores sin traza respecto de ningún par de índicesde tipo T r−k

s−k (k = 0,1, . . .) multiplicados por tensores invariantes tipo δ ⊗(k)· · ·⊗δ . Por ejemplo,

ψabc = ψ

abc +ψ

bc +φ

ac (5.51)

donde ψabc no tiene trazas: ψab

a = ψabb = 0. Basta tomar trazas a ambos lados de la ecuación y

resolver en ψa y φ b

ψcbc = ψ

b +nφb, ψ

acc = nψ

a +φa,

ψa =

1n2−1

(nψacc −ψ

cac ), φ

a =1

n2−1(nψ

cac −ψ

acc ).

(5.52)

ψabc , ψaδ b

c y φ bδ ac subtienden tres espacios invariantes, los dos últimos con dimensión n y el primero

con dimensión n3−2n.

Obviamente esta reducción es simétrica respecto de todos los índices contravariantes y respec-to de todos los índices covariantes, y en consecuencia es compatible con la reducción por tipo desimetría de permutaciones, que se puede aplicar antes o después. Así si ψab

c era un tensor simétri-co/antisimétrico en ab se tendrá

ψabc = ψ

abc +ψ

bc ±ψ

ac (5.53)

con ψabc simétrico/antisimétrico y sin trazas. En este caso hay dos subespacios invariantes ψaδ b

c ±ψbδ a

c , de dimensión n, y ψabc , de dimensión n2(n±1)/2−n. Estos espacios ya son irreducibles.

51Como es sabido, la traza de una aplicación lineal no depende de la base: es un invariante bajo el grupo de cambiosde base GL(n,C).

93

Page 94: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Aplicando las dos reducciones mencionadas (permutaciones y trazas) se obtienen las represen-taciones irreducibles de tipo T r

s de GL(n,C) y U(n), a saber, tensores sin traza con simetría bajopermutaciones caracterizada por dos diagramas de Young (λ ,µ) (uno para los índices contrava-riantes y otro para los covariantes). Diagramas distintos corresponden a irreps inequivalentes. Sinembargo no todos los pares (λ ,µ) pueden aparecer. El motivo es que al imponer un tipo de simetríay al mismo tiempo que el tensor no tenga traza el sistema de ecuaciones puede quedar sobrede-terminado y la solución reducirse al espacio nulo. La regla es que el número de filas de λ más elnúmero de filas de µ debe ser menor o igual que n. Equivalentemente, cada irrep (analítica) deGL(n,C) y cada irrep de U(n), está unívocamente caracterizada por cada conjunto de n númerosenteros ordenados

[m1, . . . ,mn] m1 ≥ m2 ≥ ·· · ≥ mn mi ∈ Z . (5.54)

Los mi positivos definen el diagrama λ y los negativos el µ . Por ejemplo

n = 7 [3,3,1,0,0,−1,−2], λ = [3,3,1] = , µ = [2,1] = . (5.55)

Tal y como se ha visto en los ejemplos anteriores la dimensión de una irrep (λ ,µ) no es directamenteel producto de dimensiones de λ y µ . En general es menor por la ligadura impuesta de ser tensoressin traza. La dimensión es la misma que da SU(n) y se obtendrá más adelante.

Para U(n), la representación conjugada de (λ ,µ) es (λ ,µ)∗ = (µ,λ ), o equivalentemente[−mn, . . . ,−m1].

Con la notación de ec. (5.54) también es muy fácil obtener la ley de ramificación de U(n),

es decir, cómo se reducen sus irreps con respecto al subgrupo U(n−1) definido por g =

(g′ 00 1

)donde g′ ∈ U(n−1). Las irreps de U(n−1) que aparecen al reducir [m1, . . . ,mn] son [k1, . . . ,kn−1]con mi ≥ ki ≥ mi+1 y cada una aparece exactamente una vez. La misma regla se aplicará a SU(n).

Así, por ejemplo, la representación ψ ij de U(3) (i, j = 1,2,3), es ([1], [1]) = [1,0,−1], de dimen-

sión 32−1 = 8. Su ramificación (reducción bajo U(2)) produce [1,0] = ([1], [ ]), [1,−1] = ([1], [1]),[0,−1] = ([ ], [1]), y [0,0] = ([ ], [ ]), es decir, los tensores de U(2) ψa, ψa

b , ψa y ψ , (a,b = 1,2) condimensiones 2+3+2+1 = 8,(

,)

U(3) =(

,•)⊕(

,)⊕(• ,

)⊕(• ,•

)U(2) . (5.56)

94

Page 95: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(El símbolo • indica la representación trivial, con tablero vacío [ ].)

5.7 Representaciones irreducibles de SU(n)

Para los subgrupos SU(n) y su extensión analítica SL(n,C), la condición det(g) = 1 introduceun nuevo tensor invariante, el tensor de Levi-Civita. En efecto, por la ec. (5.32)

εi1...in 7→ gi1 j1 · · ·g

injnε

j1... jn = det(g)ε i1...in = εi1...in, g ∈ SL(n,C) (5.57)

y lo mismo εi1...in .

Este tensor invariante hace que representaciones irreducibles inequivalentes de U(n) pasen aser equivalentes en SU(n). Un ejemplo es la representación definida por el propio determinante,g 7→ det(g) que corresponde a ([1n], [ ]) en U(n) y equivale a ([ ], [ ]) (la representación trivial g 7→ 1)cuando nos restringimos a SU(n).

Más generalmente en SU(n) los tensores antisimétricos contravariantes de rango r, ([1r], [ ]), sonequivalentes a los tensores antisimétricos covariantes de rango n− r, ([ ], [1n−r]).

Para ver esto, sea ψ i1...ir un tensor completamente antisimétrico ((

nr

)variables)

ψi1...ir 7→ ψ

′i1...ir = gi1 j1 · · ·gir

jrψj1... jr (5.58)

e introducimos su dual φir+1,...,in , también completamente antisimétrico (igual número de variables(n

n− r

)=

(nr

)), mediante

ψi1...ir =

1(n− r)!

εi1...inφir+1,...,in, φir+1,...,in =

1r!

εi1...inψi1...ir . (5.59)

Se trata de demostrar que φir+1,...,in así definido es a su vez un tensor covariante si g ∈ SU(n):

φir+1,...,in 7→ φ′ir+1,...,in = (g−1) jr+1 ir+1 · · ·(g

−1) jninφ jr+1,..., jn. (5.60)

Multiplicando la ecuación intermedia en ec. (5.57) por n−r factores g−1, se obtiene la identidad

gi1 j1 · · ·gir

jrεj1,..., jn = det(g)(g−1) jr+1 ir+1 · · ·(g

−1) jninε

i1,...,in 0≤ r ≤ n . (5.61)

95

Page 96: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Ahora podemos ver cómo se transforma φ :

ψ′i1...ir = gi1 j1 · · ·g

irjrψ

j1... jr = gi1 j1 · · ·gir

jr1

(n− r)!ε

j1,..., jnφ jr+1,..., jn

=1

(n− r)!ε

i1,...,in det(g)(g−1) jr+1 ir+1 · · ·(g−1) jn

inφ jr+1,..., jn

≡ 1(n− r)!

εi1,...,inφ

′ir+1,...,in.

(5.62)

Esto implica que φir+1,...,in es un tensor cuando det(g) = 1. La misma comprobación se puede haceren sentido contrario, suponiendo que φ es un tensor covariante y comprobando que su dual ψ estambién un tensor.

Más generalmente, si se tiene un tensor de tipo (λ ,µ), cada columna de longitud r de λ

corresponde a r índices contravariantes antisimetrizados. Contrayendo con el tensor de Levi-Civitase transforman en n− r índices covariantes antisimetrizados, es decir, en una columna de longitudn− r a añadir en µ , y viceversa. Por este procedimiento de mover columnas entre λ y µ se obtienennuevos pares (λ ′,µ ′) que corresponden a irreps que son equivalentes en SU(n) (ídem SL(n,C)). Asípor ejemplo, en SU(3) se tienen las siguientes equivalencias(

,•)≡(

,)≡(• ,

),(

,•)≡(

,)≡(

,)≡(• ,

),

en SU(3). (5.63)

Podemos comprobar que la equivalencia conserva correctamente la dimensión. Por ejemplo, enSU(n) las irreps ([1], [1]) (tensores ψ i

j) deben tener la misma dimensión que ([2,1n−2], [ ]) (tensoresψ i1,...,in simétricos en los dos primeros índices y “antisimétricos” en los n− 1 últimos). Aplicandola ec. (5.26), la dimensión del tablero ([2,1n−2], [ ]) es n2−1. La dimensión de ψ i

j sería n2 por losdos índices independientes, pero se pierde un grado de libertad al imponer que la traza se anule,quedando una dimensión n2−1.

Mediante estas equivalencias, dada una irrep (λ ,µ) siempre se puede elegir otra equivalentedentro de SU(n), que podemos indicar como (λ µ,•) (cada columna de longitud r de µ se hacambiado por una columna de longitud n−r y se ha añadido a λ ). Este es un tensor de tipo T r, queúnicamente tiene índices contravariantes. Se concluye entonces que reduciendo las representacionestensoriales T r se tienen todas las irreps de SU(n).

Nótese que no todos los tableros λ producen representaciones inequivalentes en SU(n), ya que níndices antisimetrizados (que producirían det(g)) equivalen a la representación trivial por det(g) = 1.

96

Page 97: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Así≡ ≡ en SU(3). (5.64)

En SU(n) las irreps inequivalentes corresponden a tensores contravariantes (o covariantes) contableros λ con a lo sumo n−1 filas.

La representación conjugada de una dada λ viene dada por el tablero dual λ (que depende den), obtenido cambiando cada columna de longitud r de λ por una columna de longitud n− r en λ .Esto se deduce de (λ ,•)∗ = (•,λ )≡ (λ ,•). Así, en SU(3) es autoconjugada, y la conjugada

de es :

tableros duales en SU(3). (5.65)

Una representación y su conjugada tienen la misma dimensión.

A menudo, junto con la notación λ = [m1, . . . ,mn−1,0] (n− 1 filas a lo sumo) se utiliza lanotación alternativa (l1, . . . , ln−1) ≡ (m1−m2, . . . ,mn−2−mn−1,mn−1− 0) de modo que el dual seobtiene simplemente como (ln−1, . . . , l1).

Para tensores T r no hay ligaduras de tipo traza, por lo cual la dimensión de una representaciónde tipo λ es la dada en la ec. (5.26). Para una representación irreducible de tipo T r

s con tableros(λ ,µ), simplemente se obtiene la irrep puramente contravariante equivalente bajo SU(n), (λ µ,•),y se calcula su dimensión. Esto vale para todos los grupos GL(n,C), SL(n,C), U(n) y SU(n) yaque la irrep no se reduce más al restringirla a SU(n).

Por el mismo motivo, la ley de ramificación de U(n) también se aplica a SU(n).

Ejemplo. Consideremos la irrep [2,1] de SU(3), de dimensión 8. Para ver cómo se reducebajo SU(2) la reescribimos como [2,1,0] y aplicamos la prescripción mi ≥ ki ≥ mi+1. Esto nos da[2,1]≡ [1], [1,1]≡ •, [2,0]≡ [2] y [1,0]≡ [1],

SU(3)= ⊕•⊕ ⊕ SU(2) 8 = 2+1+3+2 . (5.66)

Puesto que [2,1] es equivalente a [1,0,−1] en SU(3) (ec. (5.63)) esta reducción es equivalente ala indicada en ec. (5.56). Indica que el octete de SU(3) se descompone en un triplete (I = 1), dos

97

Page 98: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

dobletes (I = 1/2) y un singlete (I = 0) de SU(2). Por ejemplo el octete de mesones pseudoescalarescontiene un triplete de isospín, el pion, un doblete de kaones, otro doblete de antikaones y la etaque es singlete de isospín. Otro ejemplo es la descomposición del decuplete 3

2+ en estados ∆, Σ, Ξ

y Ω, con isospines I = 32 , 1, 1

2 y 0:

SU(3) = ⊕ ⊕ ⊕• SU(2) 10 = 4+3+2+1 . (5.67)

La ley de ramificación permite identificar unívocamente cada estado de una irrep de SU(n),usando la cadena canónica (es decir, cada irrep de un subgrupo aparece a lo sumo una vez)

U(n)⊃ U(n−1)⊃ ·· · ⊃ U(2)⊃ U(1). (5.68)

Ya lo hemos visto para SU(2) ⊃ U(1) ≡ SO(2), los estados son | j,m〉 correspondientes as J2,J3. j es la irrep de SU(2) y m la irrep de U(1)≡ SO(2), el grupo de rotaciones alrededor del eje z.

Para los estados del octete de SU(3), con la notación |λU(3),λU(2),λU(1)〉

| , , 〉 | , , 〉

| , , 〉 | , , 〉 | , ,•〉

| , , 〉

| , , 〉 | , ,•〉

(5.69)

La serie de Clebsch-Gordan que vimos para GL(n,C) en T r, multiplicando tableros, se aplicainmediatamente a SU(n).

En particular, en SU(2), los tableros sólo tienen una fila y son del tipo [r]: tensores completamentesimétricos con r índices (i1, . . . , ir = 1,2). Aplicando la ec. (5.26), su dimensión es r+ 1 = 2 j+ 1,es decir, j = r/2. Los estados con momento angular j se representan por tensores completamentesimétricos con 2 j índices. Si se calcula la serie de C-G se obtiene el resultado usual. Por ejemplo

j=3/2⊗

j=1= ⊕ ⊕ ⊕

=j=5/2

⊕j=3/2

⊕j=1/2

.

(5.70)

98

Page 99: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Igualmente, para SU(3) el producto de dos representaciones adjuntas (ψ ij, o [2,1], octetes)

produce

8

8

= •1⊕

8

8

⊕10

10∗

27

8⊗8 = 1⊕8⊕8⊕10⊕10∗⊕27 .(5.71)

Otro ejemplo en SU(3)

3⊗

3∗

= •1⊕

8

3⊗3∗ = 1⊕8 .(5.72)

Es interesante notar que, para el caso particular de SU(3), además de elegir una forma canónicade tipo T r para sus irreps, también se puede elegir representarlas canónicamente por tensores T r

s sintraza, completamente simétricos en los índices contravariantes y en los índices covariantes. Enefecto, como en T r λ sólo tiene dos filas, las columnas de longitud 2 se pueden dualizar a columnasde longitud 1 para los índices covariantes. Por ejemplo

ψi1,...,i5,i6,...,i8 ∼

(,•)≡(

,)∼ ψ

i1i2j1 j2 j3 SU(3) (5.73)

En esta forma es fácil verificar que las representaciones de SU(3) así definidas son irreducibles[2]. En efecto, por teoría general de representaciones, se sabe que en la serie de C-G del productode dos irreps, µ y ν

µ⊗ν =⊕

λ

〈λ |µ,ν〉λ , (5.74)

la multiplicidad de la representación trivial es 1 si µ y ν son conjugadas y 0 en otro caso

〈1|µ,ν〉= δµ,ν∗ (5.75)

Por tanto si se multiplica una representación (en general reducible) por su conjugada(⊕µ

nµ µ

)⊗

(⊕ν

nνν

)∗=⊕

µ,ν ,λ

nµnν 〈λ |µ,ν∗〉λ = (∑λ n2λ)1⊕·· · , (5.76)

la multiplicidad de la irrep trivial nos da información de cómo se reduce, y es irreducible si y sólo sidicha multiplicidad es 1.

99

Page 100: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La irrep trivial corresponde a un tensor invariante. Al multiplicar un tensor simétrico en índicescontravariantes y covariantes por separado y sin traza, por su conjugado

ψi1,...,irj1,..., js (ψ

i′1,...,i′r

j′1,..., j′s)∗ ≡ ψ

i1,...,irj1,..., js ψ

∗ j′1,..., j′s

i′1,...,i′r, (5.77)

dado que no tiene traza, sólo se puede formar un único tensor invariante, contrayendo todos losíndices i con los i′, y los j con j′. Esto implica que estas representaciones son irreducibles.

5.8 Matrices de Gell-Mann

Las matrices de Gell-Mann son una generalización de las matrices de Pauli para SU(3),

λ1 =

0 1 01 0 00 0 0

, λ2 =

0 −i 0i 0 00 0 0

, λ3 =

1 0 00 −1 00 0 0

,

λ4 =

0 0 10 0 01 0 0

, λ5 =

0 0 −i0 0 0i 0 0

, λ6 =

0 0 00 0 10 1 0

,

λ7 =

0 0 00 0 −i0 i 0

, λ8 =1√3

1 0 00 1 00 0 −2

,

(5.78)

Aquí se ve que el rango de SU(3) es 2, por ejemplo λ3 y λ8 conmutan.

Las matrices de Gell-Mann satisfacen las relaciones

λ†i = λi, tr(λi) = 0, tr(λiλ j) = 2δi j (5.79)

Los generadores del álgebra son Ti =12λi (análogo a Ji =

12σi en SU(2)) de modo que las

relaciones de conmutación son[Ti,Tj] = i fi jkTk, (5.80)

y las constantes de estructura fi jk con completamente antisimétricas en esta base. Esto es generalpara grupos compactos. La antisimetría en i j es inmediata y falta verificar fi jk = f jki :

4i fi jk = tr([λi,λ j]λk) = tr(λi[λ j,λk]) = 4i f jki . (5.81)

El procedimiento de construcción de las matrices se extiende fácilmente para otros grupos SU(n).

100

Page 101: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

6 Método Monte Carlo

6.1 Introducción

En términos generales se denomina método Monte Carlo (MC) a todo tratamiento que involucramagnitudes aleatorias para resolver un problema. El problema en sí puede tener naturaleza aleatoriao no.

6.1.1 Ejemplo de cálculo Monte Carlo

Por ejemplo, supongamos que en Rd tenemos una región Ω de bordes bien definidos de la cualqueremos calcular el volumen,52

VΩ =∫

Ω

ddx =∫

ddxΘ(x ∈Ω). (6.1)

Para ello podemos proceder a calcular los límites de integración, que definen el borde de Ω. Sinembargo, supongamos que Ω no es una región fácil de describir analíticamente. Por ejemplo, podríaocurrir que todo lo que sepamos es que la región Ω cabe en el hipercubo [0,L]d,

VΩ =∫[0,L]d

ddxΘ(x ∈Ω), (6.2)

y se nos proporciona un programa tal que al introducir las coordenadas de x ∈ [0,L]d nos dé 0 ó 1según que x esté o no en Ω. Un método es dividir [0,L]d en cubitos pequeños, de lado a L, yevaluar Θ(x∈Ω) en el centro de cada cubo. Si Ω es suficientemente bien comportada de modo quela función característica sea integrable Riemann, nad nos estima VΩ, siendo n el número de puntosdentro de Ω, y nad →VΩ cuando a→ 0.

Una versión MC del mismo cálculo se basa en la observación de que si se hace el experimento detirar (o generar) un punto al azar (pero uniformemente distribuido en [0,L]d), la probabilidad de queel punto caiga en Ω es p =VΩ/V , siendo V = Ld el volumen total del hipercubo. Por la definiciónusual (frecuencial) de probabilidad como el número de casos favorables sobre el número de casos

52Por analogía con la función escalón de Heaviside, Θ(x) = 1 si x > 0 y 0 si x≤ 0, usamos la notación Θ(A) paraindicar la función que vale 1 si la proposición A es cierta y 0 si es falsa. Así, en particular Θ(x) = Θ(x > 0). La funciónΘ(x ∈Ω) = 0,1 se denomina función característica de Ω.

101

Page 102: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

posibles, p se puede medir lanzando N puntos, x1, . . . ,xN , con N→ ∞ de modo que53

p = limN→∞

nN, (6.3)

siendo n el número de casos favorables, es decir, el número de casos i tal que xi ∈ Ω. Una vezobtenido p, el volumen se obtiene mediante VΩ = pV , usando el valor conocido de V .

6.1.2 Monte Carlo y valores esperados

Lo que ha hecho el MC en este ejemplo es estimar (y en el límite N→∞, calcular) una probabi-lidad: p es la probabilidad de que el punto x lanzado caiga o no dentro de Ω. Una probabilidad sepuede ver como un caso particular de un valor esperado (el valor esperado o esperanza matemáticade una variable aleatoria X suele denotarse 〈X〉 o también E(X)) y en general, estimar valores espe-rados es todo lo que puede hacer el método MC. Para aplicar el método MC a cualquier problemahay que empezar por reducir el problema al cálculo de un valor esperado. Para ver que la probabilidades un cierto valor esperado de algo, basta definir la variable aleatoria θ como Θ(x ∈ Ω), es decir,θ = 1 si al tirar el punto al azar uniformemente en [0,L]d éste cae en Ω, y θ = 0 si cae fuera.Que θ sea una variable aleatoria simplemente quiere decir que es una magnitud que puede tomarvalores distintos (o no) cada vez que se realiza el mismo experimento aleatorio. En nuestro casoel experimento es tirar un punto x al azar uniformemente en [0,L]d. Con esta definición p = 〈θ〉.Igualmente se podría definir otro experimento aleatorio, el que consiste en tirar N puntos, todosellos de forma independiente unos de otros, y en este caso n (el número de puntos que cae dentro,de esos N) sería una variable aleatoria, de modo que p = 〈 n

N 〉.

6.1.3 Fluctuación en estimaciones Monte Carlo

Consideremos el experimento de lanzar N puntos, y definamos la variable aleatoria θN = nN .

Puesto que p = 〈θN〉, cualquiera que sea el valor de N, incluido N = 1, podría preguntarse por quétomamos N lo mayor posible en la práctica. El motivo es que aunque las variables aleatorias θ1y θN tienen el mismo valor esperado, su dispersión sí depende de N, siendo menor cuanto mayorsea N (excepto en los dos casos triviales VΩ = 0 y VΩ = V , correspondientes a p = 0 y p = 1respectivamente). Para ver esto,54 notemos que la probabilidad de un cierto resultado concreto n

53Nótese que estrictamente hablando éste es un límite impropio ya que la sucesión aN = n/N no está bien definiday no puede usarse para un tratamiento riguroso del tema.

54El mismo resultado se obtiene más fácilmente usando las propiedades de la varianza de una suma de variablesaleatorias independientes. Aquí lo vemos dando un rodeo supuestamente pedagógico.

102

Page 103: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(para N dado) viene dado por la distribución binomial

pn =

(Nn

)pn(1− p)N−n,

N

∑n=0

pn = 1. (6.4)

Aquí p es la probabilidad de que un punto caiga dentro de Ω y pn la probabilidad de que entotal caigan n puntos dentro al tirar N. El factor

(Nn

)es el número de modos de elegir n tiradas

distintas de entre N, y el factor pn(1− p)N−n es la probabilidad de que los puntos caigan dentrode Ω exactamente en las n tiradas seleccionas y sólo en ésas. (Aquí se ha usado que las tiradasson independientes unas de otras.) No es difícil calcular la media y desviación estándar de estadistribución. Un método conveniente es usar la función generatriz:

g(x)≡∑n

pnxn, 〈nk〉= ∑n

pnnk =

(x

ddx

)k

g(x)∣∣∣x=1

. (6.5)

Estas fórmulas son válidas en general. En nuestro caso

g(x) = (xp+1− p)N , 〈n〉= pN, 〈n2〉= pN + p2N(N−1). (6.6)

Por tanto, para la dispersión

σN =√〈n2〉−〈n〉2 =

√N p(1− p). (6.7)

La variable aleatoria n está centrada en pN con una dispersión que escala como√

N. De hecho, sise utiliza la fórmula de Stirling

logx! = x(logx−1)+ log√

2πx+O(1x), (6.8)

se obtiene la forma asintótica de pn para N grande manteniendo (n− pN)/√

N fijo,55

pn =1√

2πσNe−(n−pN)2/2σ2

N

(1+O(N−1/2)

). (6.9)

Es decir, para N grande se obtiene una distribución normal, esta es una ilustración del teorema dellímite central.

55Para aplicar la fórmula de Stirling lo mejor es trabajar con log pn, usar que(

Nn

)=

N!n!(N−n)!

y cambiar de

variable n a x = (n− pN)/√

N.

103

Page 104: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La consecuencia es que al medir n se obtendrá un valor aleatorio alrededor de pN con unafluctuación de orden

√p(1− p)N, lo cual suele indicarse así:

n = pN±√

p(1− p)N, (6.10)

y para θN ≡ n/N

θN = p±√

p(1− p)N

. (6.11)

Se deduce que conviene tomar N grande, para que la dispersión sea pequeña y el valor de θN quese obtenga al hacer el experimento tenga más probabilidad de parecerse al valor esperado.

Hay que notar que el valor esperado (igual que la probabilidad) es un concepto intuitivo querealmente nunca llega a materializarse.56 En un experimento aleatorio, por complicado o extenso quesea, lo único que se obtiene siempre es una muestra de una cierta variable aleatoria; en nuestro caso,el vector X = (x1, . . . ,xN). La teoría de la probabilidad sólo hace afirmaciones sobre probabilidadesy valores esperados de estas variables aleatorias. Por ejemplo, por muy grande que sea N, la teoríano dice que θN vaya a acabar coincidiendo con su esperanza matemática, p, o incluso no se puedegarantizar que |θN− p|< ε (para cualquier ε > 0 dado) sólo por aumentar N. Aunque improbable,podrían generarse todos los puntos fuera de Ω por casualidad, o todos dentro, etc. Lo único que puedeafirmarse es que la probabilidad de que al hacer el experimento salga |θN − p| > ε puede hacersearbitrariamente pequeña aumentando N. Si el experimento se repite K veces, puede calcularse lamedia de la muestra de las θN así obtenidas, θN = 1

K ∑Kj=1 θN, j, y de nuevo 〈θN〉= p pero la situación

de fondo es la misma: por muy grande que sea K todo lo que se obtiene es una muestra de otravariable aleatoria, a saber, X = (x1, . . . ,xKN), y θN es también una variable aleatoria, ya que puedecambiar de valor cada vez que se hace el KN-experimento. Lo que sí se consigue es reducir ladispersión, que pasa a ser

√p(1− p)/(KN), y por tanto disminuir la probabilidad de que θN esté

lejos del valor esperado de la distribución.

En MC, después de reducir el problema a valores esperados de ciertas variables aleatorias, seconstruye una muestra o realización de dichas variables mediante un experimento aleatorio, y ellonos proporciona una estimación de los valores esperados buscados. Por lo tanto un tema centralen MC es el de reducir lo más posible la varianza (el cuadrado de la dispersión), para aumentar laprobabilidad de que la estimación se parezca al valor esperado.

En el ejemplo anterior queríamos calcular el volumen de Ω, que se puede estimar por VΩ =V θN

56Aunque intuitivo, el valor esperado está sujeto a condiciones básicas, tales como, ser lineal, 〈1〉= 1 y 〈X〉 ≥ 0 sila variable X ≥ 0.

104

Page 105: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

ya que 〈VΩ〉=VΩ. Teniendo en cuenta la dispersión

VΩ =V

(p±√

p(1− p)N

)=VΩ±

√VΩ(V −VΩ)

N. (6.12)

(Puesto que no conocemos VΩ no podemos calcular la dispersión exacta, pero se puede estimar asu vez usando VΩ como aproximación a VΩ.) El error relativo en la estimación de VΩ, es por tanto√

V −VΩ

NVΩ

. (6.13)

Se deduce que, aparte de tomar N grande, conviene que V sea lo más próximo a VΩ posible, esdecir, debemos tomar la caja (la región de Rd donde tiramos los puntos) lo más ajustada posiblea Ω, si tenemos esa opción. De ningún modo conviene tomar una caja mucho más grande de lonecesario: si Ω ocupa sólo una pequeña parte del volumen total, que un punto caiga o no dentro deΩ será muy azaroso (puede variar mucho de un experimento a otro) lo cual aumenta la dispersiónen los resultados. Eso habrá que compensarlo aumentando el valor de N. Concretamente, para Vgrande querremos mantener constante N/V que no es más que la densidad de puntos, de ese modomantendremos constante la cantidad de puntos que caigan cerca de la zona de interés Ω.57

También debe notarse que con MC no se puede calcular el volumen de Ω directamente, sino quees necesario reducirlo primero a un promedio de algo, y esto es lo que requiere introducir una caja(en nuestro caso el hipercubo [0,L]d): MC calcula el volumen de Ω comparado con el volumen totalde la caja, a partir de la proporción de puntos que caen dentro. El valor del volumen total de la cajahay que proporcionarlo aparte (no lo da MC). Tomar V lo menor posible permite aumentar la señalfrente al ruido, es decir, aumentar el número de puntos que caen en Ω.

6.1.4 Estimación Monte Carlo de integrales

Muy frecuentemente la forma de poder aplicar MC a un problema es reducirlo a integrales, y deahí a promedios. Podemos generalizar el problema anterior. En vez de Ω, tenemos una función f (x)definida en [0,L]d, y queremos calcular

I f =∫[0,L]d

ddx f (x). (6.14)

57Si V es grande, p será pequeño y el error en su estimación,√

p(1− p)/N, también lo será, concretamenteO(V−1/2). Sin embargo, al multiplicar por V para obtener VΩ, el error pasa a O(V 1/2) y se magnifica a medida queV aumenta.

105

Page 106: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

De nuevo en este caso lo que se usa es un promedio

〈 f (x)〉=I f

V=

∫[0,L]d ddx f (x)∫

[0,L]d ddx1, (6.15)

de modo que con MC se estima 〈 f (x)〉, y luego I f = 〈 f (x)〉V . Igual que antes, el valor de 〈 f (x)〉se puede estimar lanzando N puntos x1, . . . ,xN aleatorios independientes y uniformes en [0,L]d,y tomando el promedio

fN =1N

N

∑i=1

f (xi). (6.16)

Como se veráfN = 〈 f (x)〉±

σ f√N, σ

2f = 〈 f 2〉−〈 f 〉2, (6.17)

de modo que, en probabilidad, fN → 〈 f (x)〉 cuando N → ∞. Si aplicamos esta fórmula al casof (x) = Θ(x ∈Ω), se tiene 〈 f 2〉= 〈 f 〉=VΩ/V = p, es decir, σ2

f = p(1− p), como antes.

Un rasgo prácticamente universal de MC es que el error disminuye como 1/√

N. Dado que elesfuerzo de cálculo (tiempo de computación) suele crecer como N (al tratarse de tiradas indepen-dientes), se tiene que el ritmo de convergencia de un cálculo MC es relativamente lento.

Por ejemplo, si se calcula

I f =∫ b

adx f (x) (6.18)

con N puntos no aleatorios, sino equidistantes, xi = a+ ih, i = 0, . . . ,N−1, y h = (b−a)/(N−1), elerror es como mucho O(h) = O(N−1). El método trapezoidal ya da O(h2) = O(N−2) si f ′′(x) existey es continua. Si se utiliza un método un poco más eficiente, por ejemplo Simpson, el error pasaa ser O(h4) = O(N−4), que es considerablemente más rápido que O(N−1/2) de MC. (Por ejemplo,multiplicando por 10 el número de puntos en Monte Carlo el error se divide por 3, en Simpson sedivide por 10000.) Claramente, para calcular

∫ ba dx f (x) no es pratico usar MC.

Sin embargo, la utilidad de MC aparece cuando el número de dimensiones crece. En efecto, en ddimensiones, si ponemos K puntos Simpson en cada dirección, el error relativo será O(h4) =O(K−4),en cada una de las d integrales, y la suma de errores relativos para la integral completa, tambiénO(K−4). El número total de puntos requeridos (evaluaciones de f (x) requeridas) es N = Kd, portanto, el error escala como O(N−4/d). En cambio, en MC el error sigue escalando como O(N−1/2),independientemente del problema. Por este motivo MC empieza a ser menos ineficiente que los otros

106

Page 107: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

métodos cuando d crece. Para Simpson, MC empieza a ser preferible cuando d > 8. Por ejemplo,58

si d = 20, el número de puntos usado en Simpson con K = 10 sería N = Kd = 1020 para unaprecisión εS = 1/104, mientras que MC con el mismo esfuerzo daría una precisión εMC = 1/1010. Enrealidad 1020 es una cantidad de puntos enorme que está más allá de las posibilidades prácticas decomputación. En la práctica se usaría MC con menos puntos y menos precisión, pero mucho mayorque Simpson con los mismos puntos.

Como regla general, para problemas con muchas variables, los demás métodos se vuelven inviablesy hay que recurrir a MC. Nótese que de nada sirve usar métodos de cuadraturas más sofisticados (porejemplo Gauss) ya que a efectos prácticos O(N−100/d) es lo mismo que O(1) (el error no disminuye)si d es realmente grande.59 Por ejemplo, para simular 1000 partículas de una gas (evidentementepoco parecido a un gas realista, con 1023 partículas) d = 6000. O para estudiar un plasma de gluones(cada gluon tiene cuatro polarizaciones y 8 colores) en una red 164 hay que hacer una integral sobred = 8×4×164 = 221 = 2.1×106 dimensiones.

Por supuesto, que MC sea preferible cuando hay muchas variables es sólo la regla general. Enproblemas concretos puede haber un método particular no MC que sea mejor. Un caso obvio es el deintegración en muchas dimensiones, pero de una función separable de modo que la integral equivalea d integrales unidimensionales. Lo más eficiente será probablemente integrar cada dimensión porseparado ya que en este caso N = dK y no Kd.

En resumen, MC no es un método diseñado para obtener resultados muy precisos, pero es capazde dar buenas estimaciones fiables y con gran facilidad en casos en los que otros métodos fallan.

Aparte, tampoco se debe abusar de MC: generalmente será más eficiente calcular de modoanalítico todo lo que se pueda hacer así que dejarlo a MC. Por ejemplo, supongamos que 0 ≤f (x)≤ K, x ∈ [0,L]d, y queremos calcular I =

∫ L0 ddx f (x) con MC.

Método a): f = 1N ∑

Ni=1 f (xi), con xi independientes y uniformemente distribuidos en [0,L]d.

Puesto que I =V 〈 f 〉 (V = Ld), se obtiene una estimación con

Ia =V f = I±Vσ f√

N. (6.19)

107

Page 108: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

0

y

K

Ld x

f(x)

Figura 9: Función a integrar en [0,L]d acotada entre 0 y K.

Método b): En Rd+1 tenemos la caja [0,L]d× [0,K], que contiene la región Ω = (x,y)| f (x)<y. El volumen de Ω es la integral pedida I, y podemos aplicar el método visto anteriormente: silanzamos N puntos y n cumplen y < f (x), KV n/N es una estimación de I (ya que ahora KV esel volumen total):

Ib = KVnN

= I±√

I(KV − I)N

. (6.20)

Comparando las varianzas de los dos métodos, se tiene (usando I =V 〈 f 〉)

NV 2 (σ

2Ib−σ

2Ia) = (K〈 f 〉−〈 f 〉2)− (〈 f 2〉−〈 f 〉2)

= 〈(K− f ) f 〉 ≥ 0.(6.21)

El método a siempre es más eficiente (tiene menor dispersión). De hecho la dispersión de Ib puede sermuy grande si K es mucho mayor que el valor típico de f (esto puede ser inevitable, por ejemplo, sif tiene un pico alto y estrecho). El motivo es que en el método b se está haciendo una integral extra,en [0,K], mediante MC, para calcular el tamaño del intervalo [0, f (x)], mientras que en el métodoa esa integral se calcula exactamente. Como regla, se reduce la varianza haciendo las integralesanalíticas directamente, si es posible, evitando usar MC ahí.

58Ésta es una estimación muy burda ya que estas tendencias deben completarse con coeficientes cuyo valor puedeintroducir una modificación sustancial en la estimación.

59No sólo eso, a menos que el problema sea enormemente regular, será inviable calcular los límites de integraciónanidados de cada variable. Si simplemente se pone a cero la función fuera de su intervalo, dejará de ser suave,perdiéndose las altas precisiones teóricas del método de integración usado.

108

Page 109: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Otra cosa a tener muy en cuenta es que aunque MC se base en experimentos aleatorios eso noquiere decir que se pueda proceder de modo arbitrario. Elegir los puntos de un modo ad hoc “más omenos aleatorio” inventado por nosotros, producirá resultados completamente incorrectos, especial-mente en problemas multidimensionales, en los que, como veremos, la región donde el integrandoes relevante puede ser extremadamente pequeña.

Que la arbitrariedad es inaceptable, incluso en casos simples se puede ver en el siguiente ejemplo:Queremos saber cuál es el valor promedio del área de “un cuadrado elegido al azar” de entre los delado 0≤ `≤ L.

Método a): El valor del lado está entre 0 y L, así que promediamos sobre `, teniendo en cuentaque el área es A = `2,

〈A〉a =∫ L

0 d``2∫ L0 d`

=13

L2. (6.22)

Método b): El área está entre 0 y L2, por tanto promediamos directamente sobre A

〈A〉b =∫ L2

0 dAA∫ L2

0 dA=

12

L2. (6.23)

Se obtienen valores distintos. El primer resultado supone lados equiprobables, mientras que el se-gundo supone áreas equiprobables, y ambas situaciones no son equivalentes. En cada caso concretohabrá que usar el tratamiento correcto, yendo al origen del problema que se estudia. Tal y como está,“un cuadrado elegido al azar” no es una afirmación suficientemente bien definida para una respuestaprecisa. En este caso ambas prescripciones producen una estimación similar (difieren en un factordel orden de la unidad) pero no sería así si en lugar de un cuadrado se tratara de un hipercubo en106 dimensiones.

Otro ejemplo, si se quiere calcular el tamaño de una región Ω contenida dentro de una cajay tiramos más puntos en unas zonas que en otras, estaremos sobrestimando VΩ si Ω está en lazona más visitada y subestimándolo si está en la zona menos visitada. Se está introduciendo unsesgo en la estimación. Supongamos, para concretar, que tenemos el problema de calcular el áreade una región Ω ⊂ R2 y en lugar de enmarcarla en una caja rectangular la enmarcamos dentro deuna región circular D de radio R. Si tiramos puntos uniformemente en D obtendremos la estimacióncorrecta del área. Sin embargo nos inventamos la siguiente prescripción, primero se genera el radior uniformemente en [0,R], y a continuación se genera el ángulo φ uniformemente en [0,2π], y comoantes, se estima VΩ mediante θN = n/N. Esta prescripción introduce un sesgo, ya que pone tantospuntos en 0 < r < R/2 como en R/2 < r < R, cuando en realidad el área de la segunda región es

109

Page 110: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Ω

Ω2

1

Figura 10: Regiones Ω1 y Ω2 en una caja circular. Para que la estimación de las áreas sea correcta los puntosdeben generarse de modo que r2, no r, tenga una distribución uniforme.

tres veces mayor. Si tenemos dos regiones Ω1 y Ω2, la primera situada más cerca del centro y laotra más lejos, la prescripción sobrestimará Ω1 y subestimará Ω2.

6.2 Probabilidad. Variables aleatorias.

6.2.1 Probabilidades

Un experimento aleatorio puede dar lugar a uno cualquiera de los resultados posibles, x. Elconjunto de resultados es el espacio muestral Ω. Los subconjuntos A⊆Ω se denominan sucesos.60

Una probabilidad P definida sobre Ω es una medida que sea positiva y normalizada:

P(A)≥ 0, P( /0) = 0, P(A∪B) = P(A)+P(B) si A∩B = /0, P(Ω) = 1. (6.24)

P(A) quiere decir P(x ∈ A), es decir, la probabilidad de que al hacer el experimento, el resultadox que ocurra esté en A. (Es equivalente hablar de probabilidades de subconjuntos o probabilidadesde proposiciones). P(x) denota P(x) (A = x en ese caso). Que P es la probabilidad definidasobre Ω, el conjunto de resultados x, se suele indicar con x∼ P: “x sigue o está distribuido según laprobabilidad P”.

Dos sucesos A y B son incompatibles si son disjuntos. Otro concepto importante es el deprobabilidad condicionada, P(B|A) es la probabilidad de que el resultado x ∈ B cuando x ∈ A

60Para simplificar suponemos que todos los subconjuntos son admisibles.

110

Page 111: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(suponemos que P(A) 6= 0), y se puede expresar como

P(B|A) = P(AB)P(A)

(6.25)

(donde P(AB)≡ P(A∩B)).61 También se tiene P(AB) = P(B|A)P(A) = P(A|B)P(B), que relacionaP(A|B) con P(B|A) (Teorema de Bayes). Dos sucesos A y B son independientes cuando P(AB) =P(A)P(B), equivalentemente P(A|B) = P(A) o P(B|A) = P(B).

Si Ai, i = 1, . . . ,n es una partición de Ω, es decir ∪ni=1Ai = Ω y Ai∩A j = /0 si i 6= j, entonces

BAi es una partición de B, y

P(B) =n

∑i=1

P(BAi) =n

∑i=1

P(B|Ai)P(Ai), (6.26)

es decir, la probabilidad de un suceso se puede obtener si se conocen su probabilidad condicionadaa un conjunto de alternativas, y las probabilidades de éstas.

Si Ω es un conjunto discreto (finito o infinito numerable), Ω = xi, i = 1,2, . . ., y cada xi tieneuna probabilidad que denotamos pi, con 0≤ pi ≤ 1, ∑i pi = 1. La función p : i ∈ 1,2, . . .→ pi ∈[0,1], es la función de distribución de la probabilidad, y se indica x∼ p.

Si Ω es continuo, un subconjunto de Rd ó una variedad d-dimensional, podemos tomar unsistema de coordenadas,62 x, y considerar una partición de Ω formada por elementos infinitesimalesde volumen (x,ddx), cada uno con una probabilidad infinitesimal ddx p(x), p(x)≥ 0, de modo que∫

Ω

ddx p(x) = 1, P(A) =∫

Addx p(x) =

∫Ω

ddx p(x)Θ(x ∈ A). (6.27)

La función p(x) se denomina densidad de probabilidad. Con cierto abuso de lenguaje se puedeindicar x ∼ p(x). Sin embargo es importante tener en cuenta que la densidad de probabilidad p(x)es una función que cambia al cambiar de sistema de coordenadas usado para describir Ω. En efecto,si x′ es otro sistema de coordenadas

P(A) =∫

Addx p(x) =

∫A

ddx′ p′(x′) =∫

Addx∣∣∣∣∂x′

∂x

∣∣∣∣ p′(x′). (6.28)

61En realidad todas las probabilidades son condicionadas; P(A) es realmente P(A|Ω), siempre puede suponerse quehay un espacio muestral mayor respecto del cual Ω es un subconjunto.

62A menudo no usaremos negrita para enfatizar que x son d coordenadas.

111

Page 112: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Como esta relación vale para A arbitrario, se tiene

p(x) =∣∣∣∣∂x′

∂x

∣∣∣∣ p′(x′(x)),∣∣∣∣∂x′

∂x

∣∣∣∣≡ ∣∣∣∣det(

∂x′i(x)∂x j

)∣∣∣∣ . (6.29)

Por tanto, aunque P(A) y p(x)ddx (la probabilidad de un elemento de volumen infinitesimal) nodependen del sistema de coordenadas, ddx y p(x) por separado sí dependen. Por ejemplo, si x tienedimensiones de longitud, L, p(x)ddx es adimensional pero p(x) tiene dimensiones L−d (y si se cambiade unidades, cambia su valor).63

En el caso unidimensional

P(X < a) =∫ a

−∞

dx p(x),dP(X < a)

da= p(a)≥ 0. (6.30)

Igualmente p(a) =−dP(X > a)da

.

6.2.2 Deltas de Dirac

La delta de Dirac en d dimensiones, δ (x),64 es una distribución o función generalizada cuyapropiedad definitoria es ∫

ddxδ (x−y) f (x) = f (y), (6.31)

siendo f (x) cualquier función ordinaria suficientemente bien comportada. Una consecuencia inme-diata es δ (x) f (x) = δ (x) f (0). Y también∫

Addxδ (x−y) = Θ(y ∈ A). (6.32)

La delta d-dimensional no es más que el producto de las d deltas unidimensionales

δ (x−y) =d

∏i=1

δ (xi− yi). (6.33)

63La magnitudes que no cambian de valor al cambiar de coordenadas, F(x) = F ′(x′(x)), se denominan escalares,las que cambian con el jacobiano, densidades. Para variables continuas, la moda (valor más probable) depende de lavariable que se use.

64A veces se escribe δ (d)(x) para indicar que es la delta en d dimensiones.

112

Page 113: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Intuitivamente δ (x) es +∞ en x = 0 y cero si x 6= 0, pero no toda familia de funciones f (x,λ )tal que

∫dx f (x,λ ) = 1 y f (x,λ ) →

λ→00 (x 6= 0) tiende a δ (x). Por ejemplo,

f (x,λ ) = δ (x)+1

2λ(δ (x+λ )−δ (x−λ ))→ δ (x)+δ

′(x) 6= δ (x). (6.34)

(La distribución δ ′(x) se define integrando por partes,∫

dxδ ′(x) f (x) = − f ′(0).) Una forma deobtener δ (x) es como el límite h(x/a)/a para a→ 0+, siendo h(x) una función continua con integral1.

Tampoco es cierto que δ (λx) = δ (x), de hecho

δ (λx) =1|λ |

δ (x) (λ 6= 0). (6.35)

En efecto,∫dxδ (λx) f (x) =

1|λ |

∫d(|λ |x)δ (λx) f (x) =

1|λ |

∫dyδ (y) f (y/λ ) =

1|λ |

f (0). (6.36)

Una fórmula útil, que se demuestra de la misma forma, es la siguiente: si f (x) tiene ceros simplesen xin

i=1, y es derivable ahí,

δ ( f (x)) =n

∑i=1

δ (x− xi)

| f ′(xi)|. (6.37)

Estas expresiones indican que δ (x) es una densidad bajo cambios de coordenadas. En efecto, siy(x) es invertible y se anula en x= 0

δ (y(x)) =

∣∣∣∣det(

∂xi

∂y j

)∣∣∣∣δ (x). (6.38)

Equivalentemente, ddyδ (y) = ddxδ (x). Si x tiene dimensiones, digamos L, δ (x) tiene dimensionesL−d.

El caso discreto Prob(xi) = pi se podría incluir en el continuo asignando una densidad de pro-babilidad

p(x) = ∑i∈I

pi δ (x− xi), (6.39)

donde δ (x− xi) es la delta de Dirac d-dimensional centrada en xi, ya que esta densidad reproducecorrectamente

P(A) = ∑xi∈A

pi. (6.40)

113

Page 114: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

6.2.3 Variables aleatorias

Por conveniencia, en lo que sigue vamos a usar r (en vez de x) para denotar a los resultados.En el caso continuo y en un cierto sistema de coordenadas, r especifica el resultado y p(r) es ladensidad de probabilidad.

Una variable aleatoria real es cualquier función X real definida sobre el conjunto de resultadosΩ,

X : Ω→ R, r ∈Ω 7→ X(r) ∈ R. (6.41)

Al realizar el experimento aleatorio se obtiene un cierto resultado r y la variable aleatoria toma elvalor X(r) en ese caso. Por ejemplo, el experimento puede ser tirar dos dados y X el valor de lasuma de los puntos de las dos caras. Igualmente se pueden definir variables aleatorias que tomenvalores en Rn, C, operadores, etc. Generalmente interesa que se trate de un espacio vectorial sobrelos reales, para definir valores esperados de la variable. Si no se dice otra cosa se supondrá quelas variables son reales o en Rn. Nótese que los propios valores de las coordenadas r definen unavariable aleatoria, que podemos denotar R.

El valor esperado o esperanza matemática de X se denota 〈X〉 ó E(X). Si Ω = r1,r2, . . .es discreto,

〈X〉= ∑i∈I

piXi, Xi = X(ri). (6.42)

Si Ω es continuo65

〈X〉=∫

Ω

ddr p(r)X(r). (6.43)

Si hay más de una distribución de probabilidad posible lo indicamos con un subíndice:

〈X〉P =∫

Ω

ddr p(r)X(r). (6.44)

Observaciones:

1) El valor esperado es una abstracción de la media aritmética de X obtenida en muchos experi-

mentos independientes: por la ley de los grandes números X =1N

N

∑i

Xi tiende a 〈X〉 con probabilidad

uno. El “valor esperado” X es lo que deber esperarse para X cuando N es grande, ciertamente no65Para no sobrecargar la notación aquí usamos Ω también para denotar el conjunto de valores de r. En realidad

este conjunto depende de la elección de coordenadas.

114

Page 115: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

es el valor que debe esperarse para X al hacer un experimento. De hecho en general 〈X〉 no tienepor qué ser uno de los valores posibles que toma X . Por ejemplo, X puede tomar valores 0 y 1 y〈X〉 ser 1/2.

2) El conjunto de variables aleatorias define un espacio vectorial. El valor esperado es lineal(respecto de X), no negativo si la variable aleatoria es no negativa, y el valor esperado de X = 1 es1. Y viceversa, una aplicación 〈 〉 del conjunto de variables aleatorias en R, X 7→ 〈X〉, con estas trespropiedades define unívocamente una densidad de probabilidad p(r) (añadiendo algunas condicionesde regularidad sobre el espacio de las X admisibles).

También se define el valor esperado condicionado (que también se denota E(X |A)):

〈X |A〉=∫

A ddr p(r)X(r)∫A ddr p(r)

=〈X Θ(R ∈ A)〉〈Θ(R ∈ A)〉

. (6.45)

(Aquí R denota la variable aleatoria definida por las propias coordenadas r.) El promedio se tomasólo sobre los casos en que r ∈ A, y se normaliza de modo que el promedio de X = 1 sea 1 de nuevo.

La probabilidad se puede recuperar a partir del valor esperado, ya que

P(A) =∫

Addr p(r) =

∫Ω

ddr p(r)Θ(r ∈ A) = 〈Θ(R ∈ A)〉. (6.46)

Del mismo modo se obtiene la densidad de probabilidad:

p(r) =∫

Ω

ddr′ p(r′)δ (r′−r) = 〈δ (R−r)〉. (6.47)

Intuitivamente: p(r) es la “probabilidad” de que R caiga en r y estos son los casos seleccionadospor δ (R−r).

Esto se puede generalizar: al hacer el experimento, una variable aleatoria X puede adoptardistintos valores. Repitiendo el experimento muchas veces se puede obtener un histograma de losvalores de X y eso define una densidad de probabilidad. Equivalentemente, se puede definir ladensidad de probabilidad asociada a una variable X mediante

pX(x)≡ 〈δ (X− x)〉. (6.48)

Esta densidad de probabilidad permite calcular los valores esperados de variables aleatorias quedependan del resultado sólo a través de X :

〈F(X)〉=∫

ddr p(r)F(X(r)) =∫

ddr p(r)∫

dxF(x)δ (X(r)− x)

=∫

dx〈δ (X− x)〉F(x) =∫

dx pX(x)F(x).(6.49)

115

Page 116: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Si se tiene pX(x) se puede calcular 〈F(X)〉 sin necesidad de referirse a las variables subyacentes r yp(r).

También se define la función de distribución acumulada de un variable aleatoria X como

PX(x)≡ Prob(X < x) =∫ x

−∞

dx′pX(x′), pX(x) =dPX(x)

dx≥ 0. (6.50)

La virtud de la probabilidad acumulada es que, a diferencia de la densidad de probabilidad, es unescalar bajo cambios de variable x. En el caso discreto, la probabilidad acumulada es una funciónescalonada

PX(x)≡ ∑xi≤x

pi. (6.51)

Si xi es estrictamente creciente, xi < xi+1, pi = PX(xi)−PX(xi−1).

La construcción de la densidad de probabilidad se puede generalizar para varias variables aleatoriasXi, i = 1, . . . ,n, ó X ∈ Rn:

pX(x)≡ 〈δ (X−x)〉= 〈n

∏i=1

δ (Xi− xi)〉. (6.52)

Si sólo se necesitan variables aleatorias que sean funciones de estas n variables, pX(x) es la densidadde probabilidad más detallada requerida, pues permite obtener todos los valores esperados:

〈F(X)〉=∫

dnx pX(x)F(x), (6.53)

así como la densidad de probabilidad de otra variable construida con las X, G = G(X):

pG(g) = 〈δ (G(X)−g)〉=∫

dnx pX(x)δ (G(x)−g). (6.54)

De esta discusión se concluye que no hay una diferencia fundamental entre variables derivadas,X, y variables subyacentes, R: en realidad estas R podrían ser a su vez variables derivadas de otrasmás detalladas Q. Se puede trabajar todo el tiempo con un conjunto de variables sin necesidad deespecificar en ningún momento si éstas son variables derivadas o no.

Cálculo de densidad de probabilidad de X

Supongamos que los resultados R ∈ Rd y X ∈ Rn y que las X son funcionalmente independientes, yen particular n≤ d. Las r = (r1, . . . ,rd) forman un conjunto de coordenadas, lo que hacemos es completar

116

Page 117: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

las X hasta formar otro sistema de coordenadas (x1, . . . ,xn,xn+1, . . . ,xd). Partiendo de

〈F(X)〉=∫

dnx pX(x)F(x) =∫

ddr p(r)F(X(r)), (6.55)

y usando el nuevo sistema de coordenadas

〈F(X)〉=∫

ddxJ(x)p(r)F(x), (6.56)

donde ahora r es función de x y J(x) es el jacobiano del cambio de variable en valor absoluto

J(x) =∣∣∣∣det

(∂ ri

∂x j

)∣∣∣∣ . (6.57)

De aquí se deduce quepX(x) =

∫dn−dxJ(x)p(r(x)), (6.58)

donde la integral es sólo sobre las variables (xn+1, . . . ,xd). A menudo las (xn+1, . . . ,xd) se eligen como unsubconjunto de las r.

Si se tiene la distribución de probabilidad de un conjunto de variables aleatorias X, pX(x), y sequiere sólo un subconjunto de ellas, por ejemplo X1,X2, se puede obtener su probabilidad marginal

pX1,X2(x1,x2) =∫

dx3 . . .dxn pX(x1,x2,x3, . . .xn) = 〈δ (X1− x1)δ (X2− x2)〉. (6.59)

También se define la densidad de probabilidad condicionada de unas variables respecto de otras,por ejemplo

pX1,X2|X3(x1,x2|x3) =〈δ (X1− x1)δ (X2− x2)δ (X3− x3)〉

〈δ (X3− x3)〉=

pX1,X2,X3(x1,x2,x3)

pX3(x3). (6.60)

Esta probabilidad está correctamente normalizada para todo x3∫dx1dx2 pX1,X2|X3(x1,x2|x3) = 1. (6.61)

Dos conjuntos de variables, X = (X1, . . . ,Xn) e Y = (Y1, . . . ,Ym) se dicen que son independien-tes (unas de otras) cuando

pX,Y (x,y) = pX(x)pY (y). (6.62)

(Y análogamente para tres o más conjuntos de variables.) En este caso, para la probabilidad condi-cionada

pX|Y (x|y) = pX(x), (6.63)

117

Page 118: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

y también〈 f (X)g(Y )〉= 〈 f (X)〉〈g(Y )〉. (6.64)

Y viceversa, si ec. (6.64) se cumple para funciones arbitrarias f y g, las variables X y Y sonindependientes. (En efecto, basta tomar f (X) = δ (X−x) y g(Y ) = δ (Y −y).)

Ejemplo. Si X e Y son dos variables aleatorias con densidad de probabilidad pX ,Y (x,y) podemoscalcular la densidad de probabilidad de Z = X +Y

pX+Y (z) =∫

dxdy pX ,Y (x,y)δ (x+ y− z) =∫

dx pX ,Y (x,z− x). (6.65)

Si X e Y son variables son independientes, pX ,Y (x,y) = pX(x)pY (y),

pX+Y (z) =∫

dx pX(x) pY (z− x)≡ (pX ∗ pY )(z) (convolución de pX e pY ). (6.66)

Más generalmente, para la suma de N variables independientes, Z = ∑Ni=1 Xi,

pZ(z) = (pX1 ∗ · · · ∗ pXN )(z). (6.67)

(La convolución es asociativa y conmutativa.) Si en lugar de la suma se toma la media aritmética

X =1N

N

∑i=1

Xi, pX(z) = N(pX1 ∗ · · · ∗ pXn)(Nz). (6.68)

Una forma práctica de convolucionar es mediante transformada de Fourier, ya que si

f (k) =∫ +∞

−∞

e−ikx f (x)dx, f (x) =∫ +∞

−∞

eikx f (x)dk2π

,

f (x) = ( f1 ∗ f2)(x) ⇔ f (k) = f1(k) f2(k).(6.69)

Respecto de la transformada de Fourier, también es interesante la relación

pX(k) =∫

dxe−ikx pX(x) = 〈e−ikX〉=∞

∑n=0

(−ik)n

n!〈Xn〉, (6.70)

es decir, es la función generatriz de los momentos de la distribución p(x). Análogamente en ddimensiones (X = (X1, . . . ,Xd) son d variables cualesquiera)

pX(k) = 〈e−ik·X〉=∞

∑n=0

(−i)n

n!

d

∑i1=1· · ·

d

∑in=1

ki1 · · ·kin〈X i1 · · ·X in〉. (6.71)

118

Page 119: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La varianza de una variable real X se define

Var(X) = σ2X = 〈(X−〈X〉)2〉= 〈X2〉−〈X〉2. (6.72)

La varianza es no negativa, y su raíz cuadrada positiva es la dispersión o desviación estándar, σX .Es una medida de cuánto puede fluctuar X alrededor de su valor medio. Análogamente la covarianzade dos variables X e Y se define66

Cov(X ,Y ) = 〈(X−〈X〉)(Y −〈Y 〉)〉= 〈XY 〉−〈X〉〈Y 〉. (6.73)

Un covarianza positiva indica que cuando una de las variables está por encima de su media la otratiende a estar también por encima (ídem por debajo). Una covariancia negativa indica lo contrario:cuando una de las variables está por encima de su media la otra tiende a estar por debajo. Cuandola variables son independientes su covarianza se anula (pero no necesariamente al revés).

La varianza de la suma de variables se puede expresar como

Var(∑i

Xi) = ∑i, j

Cov(Xi,X j) = ∑i

Var(Xi)+2 ∑i< j

Cov(Xi,X j), (6.74)

por tanto, cuando las variables Xi son independientes

Var(∑i

Xi) = ∑i

Var(Xi) (variables independientes). (6.75)

6.3 Método Monte Carlo

Podemos ahora deducir la fórmula fundamental del cálculo Monte Carlo de integrales. Todo esanálogo para el caso discreto.

Sea f (x) una función real definida sobre Ω ⊆ Rd. Aunque el método funciona igual cuando ftoma valores en un espacio vectorial cualquiera, la fórmula de la dispersión es más simple si f esreal. Lo que queremos calcular es

I f ≡∫

Ω

ddx p(x) f (x), donde p(x)≥ 0,∫

Ω

ddx p(x) = 1. (6.76)

66En cálculo numérico, las versiones basadas en 〈(X−〈X〉)(Y−〈Y 〉)〉 son preferibles a las basadas en 〈XY 〉−〈X〉〈Y 〉ya que esta forma tiende a reforzar el error de redondeo. La misma observación se aplica a la estimación numéricade la varianza.

119

Page 120: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La función no negativa normalizada p puede o no tener la naturaleza de una densidad de probabilidaddefinida sobre Rd (u otra variedad d dimensional) pero en todo caso se puede utilizar como si lofuera a efectos de cálculo. Con esta interpretación

I f = 〈 f (X)〉p ≡ 〈 f 〉. (6.77)

Sean Xi, i = 1, . . . ,N, N variables aleatorias independientes idénticamente distribuidas (iid.)según p, Xi ∼ p. Esto quiere decir que su densidad de probabilidad conjunta es

pX1,...,XN (x1, . . . ,xN) = p(x1) · · · p(xN). (6.78)

El conjunto XiNi=1 forma la muestra. Se define la media de la muestra (otra variable aleatoria)

como

f ≡ 1N

N

∑i=1

f (Xi) (6.79)

que nos proporciona una estimación no sesgada de 〈 f 〉

〈 f 〉= 1N

N

∑i=1〈 f (Xi)〉=

1N

N

∑i=1〈 f 〉= 〈 f 〉. (6.80)

(Obsérvese que aquí no se ha requerido que las variables sean independientes.)

La ley de los grandes números afirma que de hecho f → 〈 f 〉 con probabilidad uno, cuandoN→ ∞:

∀ε > 0 limN→∞

Prob(| f −〈 f 〉| ≤ ε) = 1. (6.81)

Este teorema sólo requiere que exista 〈 f 〉 (es decir, que la integral I f converja).

En cuanto a la dispersión del estimador f

Var( f ) =1

N2 Var(∑i

f (Xi)) =1

N2

N

∑i=1

Var( f (Xi)) =1N

σ2f , (6.82)

En la segunda igualdad se ha usado que las variables son independientes y en la tercera que estándistribuidas según p. Aquí

σ2f = 〈 f 2〉−〈 f 〉2 =

∫Ω

ddx p(x)( f (x)−〈 f 〉)2. (6.83)

120

Page 121: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Se deduce quef = 〈 f 〉±

σ f√N. (6.84)

Suponiendo que σ f < ∞, el error en la estimación disminuye (en probabilidad) como 1/√

N alaumentar N.

Cuando, además de converger 〈 f 〉, también converge 〈 f 2〉, o equivalentemente, σ f < ∞, seaplica el teorema del límite central. Este teorema afirma que, en el límite N→ ∞, la variable fsigue una distribución normal centrada en 〈 f 〉 y con dispersión σ f /

√N. En otras palabras, en el

límite N→ ∞ la distribución de probabilidad de la variable ϕ ≡ f −〈 f 〉σ f /√

Ntiende a e−ϕ2/2

√2π

. Para una

distribución normal, la probabilidad de que la variable se aparte de su media menos de 1, 2, 3, 4, 5,. . . , desviaciones estándar es 68.2689%, 95.4500%, 99.7300%, 99.9937%, 99.9999%,. . .

Para N finito la distribución no es normal, pero se pueden aplicar relaciones más generales, comola desigualdad de Chebyshev [7]

∀ξ > 0 Prob(|X−〈X〉| ≥ ξ σX

)≤ 1

ξ 2 . (6.85)

Por ejemplo, la probabilidad de que X diste de su media más de 5 desviaciones estándar (ξ = 5) nopuede superar el 4%. Esta desigualdad es válida cualquiera que sea la distribución de probabilidadde X . Para distribuciones concretas pueden darse cotas mejores, como se ha visto en el caso de ladistribución normal.

En la práctica lo que se tiene es una muestra de las variables Xi, con la cual se construye laestimación f = 1

N ∑Ni=1 f (Xi) de 〈 f 〉. Es muy importante notar que la dispersión en f (Xi) es σ f y

no disminuye con N, mientras que la dispersión de f es σ f /√

N (si los N Xi son independientes),que disminuye como 1/

√N al aumentar N.

El valor de σ2f no se conoce y lo que suele hacerse es estimarlo a su vez a partir de la varianza

de la muestra:

S2f ≡

1N−1

N

∑i=1

( fi− f )2, fi ≡ f (Xi). (6.86)

S2f es ella misma una variable aleatoria, igual que f . (Intuitivamente el N− 1 se debe a que, de

los N valores fi− f , sólo N−1 independientes, por la relación ∑Ni=1( fi− f ) = 0.) La varianza de la

muestra es un estimador no sesgado de la varianza de la variable:

〈S2f 〉= σ

2f . (6.87)

121

Page 122: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En efecto, ya que

S2f =

NN−1

( f 2− ( f )2), 〈 f 2〉= 〈 f 2〉,

( f )2 =1

N2

(∑

if 2i +∑

i 6= jfi f j

), 〈( f )2〉= 1

N〈 f 2〉+ N−1

N〈 f 〉2.

(6.88)

Por otro lado, por la ley de los grandes números, aplicada a f y f 2, se deduce que S2f tiende a

σ2f con probabilidad 1 cuando N→ ∞:

〈 f 〉= f ±S f√

N(con probabilidad 1 para N→ ∞). (6.89)

Por supuesto, dado que S f es una variable aleatoria, en un experimento concreto puede ocurrir queS f no sea una buena estimación de σ f , o bien N puede no ser lo suficientemente grande.

6.3.1 Promedios pesados

Con mucha frecuencia el problema que se quiere resolver es estimar el valor de

〈 f 〉=∫

Ωddxw(x) f (x)∫Ω

ddxw(x), w(x)≥ 0, N ≡

∫Ω

ddxw(x)<+∞, (6.90)

donde w es un peso no negativo normalizable pero no normalizado. Este problema se reduce alanterior definiendo

p(x)≡ 1N

w(x). (6.91)

Sin embargo, a menudo la normalización N no se conoce y tampoco es fácilmente calculable(cuando d 1). En realidad, como se verá, no es necesario conocer N para hacer un muestreo dela distribución p(x), es decir, construir una sucesión de variables aleatorias independientes tales queXi ∼ p. Por abuso de lenguaje, también se suele denotar Xi ∼ w, aunque w no esté normalizada.

Ejemplo. Si ψ(x) es la función de onda no normalizada de M partículas, x ∈Rd, d = 3M, conhamiltoniano H = T +V (energía cinética más potencial)

〈V (x)〉=∫

ddx |ψ(x)|2V (x)∫ddx |ψ(x)|2

, (Valor esperado del potencial). (6.92)

122

Page 123: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Por otro lado si ψ(x) es un autoestado de H, podemos aplicar el teorema del virial

〈T 〉= 〈12x ·∇V (x)〉. (6.93)

Siendo autoestado se podría obtener la energía mediante Hψ = Eψ , y de ahí 〈T 〉 = E − 〈V 〉,sin embargo, esta método no será viable si no se tiene ψ(x) en forma analítica, mientras que laestimación MC puede usarse aunque sólo se tenga una muestra de la densidad de probabilidad|ψ(x)|2 en un conjunto de puntos.

Ejemplo. (Mecánica estadística clásica): Sea φ la configuración del sistema. Por ejemplo,

en un sistema de espines ↑, ↓, en una red con nodos Ω⊆Zd, φ : Ω → ↑,↓n 7→ φn

, siendo φn=↑ ó ↓.

Cada función φ es una configuración.

Cada configuración tiene una energía E(φ). La función de partición a temperatura absoluta Tse define como

Z = ∑φ

e−E(φ)/kT , (6.94)

donde k es la constante de Boltzmann. De acuerdo con Boltzmann y Gibbs, la probabilidad de laconfiguración φ a temperatura T es

p(φ) =1Z

e−E(φ)/kT , ∑φ

p(φ) = 1. (6.95)

A temperaturas frías el sistema está congelado en los estados de más baja energía, a temperaturasmayores la probabilidad de poblar estados más energéticos aumenta.67

La energía interna U es el valor esperado de la energía

U = 〈E〉= ∑φ

p(φ)E(φ) =∑φ w(φ)E(φ)

∑φ w(φ), w(φ) = e−E(φ)/kT . (6.96)

No es necesario conocer Z, sino que se puede hacer un muestreo de w(φ), y estimar la energíainterna con un MC

〈E〉= limN→∞

1N

N

∑i=1

E(φi) (con prob. 1), φi ∼ e−E(φ)/kT . (6.97)

67Por otro lado, el número de estados con una energía dada E crece rápidamente con la energía, de modo que siρ(E) es la densidad de estados por unidad de energía, Z =

∫dE ρ(E)e−E/kT , el integrando tiene un máximo en una

E(T ) que crece con la temperatura.

123

Page 124: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para calcular Z, que es la normalización del peso w(φ), no se puede usar simplemente un MCbasado en φ ∼ w(φ) y hay que emplear un método indirecto, por ejemplo

d logZdβ

=−U, β ≡ 1kT

. (6.98)

U(T ) se puede calcular con MC y luego integrar numéricamente sobre β , con la condición decontorno Z ∼

T→0N0 e−βE0 , siendo E0 el mínimo de E(φ) (estado fundamental), y N0 el número de

configuraciones con energía E0 (degeneración del estado fundamental). También se podría usar unmétodo basado en reweighting (ver Sec. 6.4.8) pero en general eso da resultados con grandes barrasde error.

Para ver aplicaciones del método MC en integral de caminos puede consultarse [10].

6.4 Métodos de muestreo

Para calcular los promedios citados es necesario saber generar variables X distribuidas segúnuna densidad de probabilidad p(x) dada definida en un Ω⊆Rd, X ∼ p(x). Esto quiere decir que

Prob(X ∈ A) =∫

Addx p(x) ∀A⊆Ω, (6.99)

o en el caso discretoProb(X ∈ A) = ∑

xi∈Api ∀A⊆Ω. (6.100)

Un método de muestreo de p es un algoritmo que construya variables independientes distribuidassegún p.

Ejemplo. Si por ejemplo los resultados del experimento son números reales x ∈ [−L,L] con

pesos w(x) =

1 x < 02 x > 0 , la densidad de probabilidad será

p(x) =1

3LΘ(−L < x < 0)+

23L

Θ(0 < x < L). (6.101)

Los puntos Xi deben caer con igual probabilidad en todo el intervalo −L < x < 0 y lo mismo en0 < x < L, y con el doble de probabilidad en x > 0 que en x < 0. Eso no quiere decir que al lanzarN puntos , N/3 caigan necesariamente a la izquierda y 2N/3 a la derecha de 0. Más bien, si segeneran N puntos independientes, la probabilidad de que n caigan en la parte positiva debe ser

124

Page 125: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

x

1

L

2

w

−L 0

Figura 11: Pesos relativos 1 en la mitad izquierda y 2 en la derecha. En un muestreo correcto los puntos Xi

deben caer con el doble de probabilidad a la derecha de 0. Asimismo, deben caer de modo equiprobable a lolargo del intervalo [−L,0] y también en [0,L].

(Nn

) 2n

3N , de acuerdo con la distribución binomial. A medida que N crece las desviaciones respecto delas proporciones 1 : 2 deben disminuir como 1/

√N.

6.4.1 Números pseudo aleatorios

Para construir los algoritmos de muestreo, generalmente se hace uso de números pseudoaleatorios. Éstos son números generados por ordenador, completamente deterministas pero quepasan una amplia gama de tests de aleatoriedad. Por ejemplo, para una generador de bits (losresultados son 0 ó 1 con probabilidad 1/2), se requiere que 0 y 1 salgan al 50% en un tirada de Nbits, cuando N es grande, y que las desviaciones sean consistentes con lo que predice la teoría de laprobabilidad. Se requiere que después de 0 siga la cadena 110 una de cada 8 veces, en promedio,que la frecuencia de aparición de 5 unos seguidos sea la correcta, etc, etc. En [11] hay herramientaspara medir la aleatoriedad de un generador de números pseudo aleatorios dado.

Los generadores de números pseudo aleatorios suelen producir sucesiones periódicas. Importa quetengan un periodo largo, que sean poco costosos de producir y que sean suficientemente aleatorios.Muchas malas experiencias indican que deben usarse generadores de números pseudo aleatoriosque sean bien entendidos y ampliamente contrastados. Un mal generador puede producir resultadosdirectamente incorrectos al usarlos en MC. De ningún modo debe usarse un generador desconocido(y mucho menos uno casero), aunque parezca aleatorio, ni siquiera los que vienen en el hardware delos ordenadores. Fortran 90 viene con un generador, random_number (con random_seed), que sesupone que es fiable (aunque el algoritmo depende del compilador) [12]. El uso de este generadorse ilustra en [13].

125

Page 126: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Que los números pseudo aleatorios sean deterministas tiene la ventaja de que se puede reproducirun cálculo sin tener que guardar la lista de números que ha ido saliendo. También existen generadoresde números aleatorios (basados en procesos físicos) pero son más costosos y menos prácticos en elcontexto de MC.68

Los generadores suelen producir números pseudo aleatorios (aproximadamente) uniformementedistribuidos entre 0 y 1 e independientes. La densidad de probabilidad asociada es p(u) = Θ(0 <u < 1) 69 y esta distribución se suele denotar U(0,1) (distribución uniforme), U ∼ U(0,1). Paraesta distribución

∀a,b 0≤ a≤ b≤ 1, Prob(a <U < b) = b−a. (6.102)

Todas las demás distribuciones se pueden construir a partir de la uniforme. Es decir, si X es unavariable aleatoria con distribución pX(x)70

X = f (U1,U2, . . . ,Un) (6.103)

donde las Ui son n variables uniformes en (0,1) e independientes (proporcionadas por el generadorde números pseudo aleatorios), y f es una función adecuada tal que X ∼ pX :

pX(x) =∫ 1

0du1

∫ 1

0du2 · · ·

∫ 1

0dun δ (x− f (u1,u2, . . . ,un)). (6.104)

Nótese que lo único aleatorio aquí son las Ui. f es una función fija perfectamente bien definida encada caso. f equivale a un algoritmo para combinar las Ui y a menudo no es necesario explicitar fcomo función sino sólo describir (o programar) el algoritmo asociado. A diferencia de la función pX ,el algoritmo f no es ni mucho menos único y suele ser crucial elegir algoritmos que sean eficientes.

6.4.2 Distribuciones de variables discretas

Ejemplo. Generar un bit X = 0,1, con probabilidad p0 = 1− p y p1 = p. Aquí p es un parámetroentre 0 y 1 que caracteriza la distribución. Se puede usar el siguiente algoritmo

X = Θ(p−U) =

1 U ≤ p0 U > p , U ∼ U(0,1). (6.105)

68Número aleatorios (frente a pseudo aleatorios) se usan en criptografía y en casos en los cuales es importanteque el proceso no se pueda reproducir para no desvelar información que se quiere mantener secreta. Como son muycostosos de producir, principalmente se usan para generar la semilla de una sucesión de números pseudo aleatorios.

69Dependiendo del generador 0 y/o 1 pueden estar incluidos o no. Idealmente esto no debería ser relevante paraMC, al ser 0∪1 un conjunto de medida nula.

70Esto es una simplificación. Más generalmente, X se construye mediante algún algoritmo bien definido pero quepuede involucrar un número indefinido de variables Ui. Este es caso de los algoritmos de aceptación-rechazo.

126

Page 127: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En efecto, Prob(X = 1) = Prob(U ≤ p) = p. (De nuevo, es irrelevante poner U ≤ p o U < p, paraconcretar ponemos lo primero.)

Ejemplo. Queremos generar una variable discreta con valores X = 1, . . . ,n, cada uno con unaprobabilidad pi dada (0≤ pi, ∑i pi = 1). Un algoritmo es

X = i sii ∑j<i

p j <U ≤∑j≤i

p j, U ∼ U(0,1). (6.106)

Se genera U y se van sumando las p j; X = i es el primer valor de i tal que U ≤ p1+ · · ·+ pi. Este

0 p pp41

U X=3

1p32

Figura 12: En el ejemplo, p1 + p2 <U < p1 + p2 + p3, por tanto X = 3 en este caso.

método vale igual para n finito o infinito. Si se van a hacer muchas extracciones puede convenircalcular y guardar las sumas parciales, si ≡∑ j≤i p j. En este caso, dado U se busca el primer i tal queU ≤ si. Alternativamente, se pueden guardan algunas sumas parciales, por ejemplo, las de bloquesde tamaño m, sm, s2m, etc. En este caso se procede a sortear primero el bloque, y luego dentro delbloque, entre los m valores posibles.

Ejemplo. (Casos equiprobables.) Lo anterior es para un caso general, con pi arbitrarias. Paran casos equiprobables, no es necesario hacer una búsqueda sobre los casos, simplemente

X = dnUe . (6.107)

La función techo, dxe, quiere decir redondear a entero por arriba (es decir, el menor entero mayoro igual que x). Cuando U recorre uniformemente (0,1), nU recorre (0,n) y dnUe tiene la mismaprobabilidad de tomar cualquiera de los valores 1, . . . ,n.

Ejemplo. (Método de alias.) En general, la búsqueda de primer i tal que U ≤ si puede sercostosa. Si hay que hacerla muchas veces y n es grande, puede ser conveniente usar el métodoalternativo de alias. Veamos cómo funciona con un ejemplo. Supongamos que tenemos n = 4 casos,con probabilidades p1 = 0.36, p2 = 0.34, p3 = 0.10 y p4 = 0.20. Lo que se hace es construir 2n = 8casos organizados en n= 4 columnas equiprobables (probabilidad 1/n= 0.25 cada una). El resultadofinal está en la tabla de la derecha. Los 4 casos originales están ahora repartidos en 8 casos. Por

127

Page 128: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

1 2 3 4 0.25 0.25 0.25 0.250.36 0.34 0.10 0.20 0.103 0.204 0.211 0.2520.21 0.34 0.20 0.151 0.052 0.042 0.0020.21 0.29

0.25

Cuadro 1: A la izquierda evolución de las probabilidades en las 4 iteraciones. A la derecha resultado final dela distribución en 8 casos. El valor de i aparece como subíndice. Las 4 columnas son equiprobables.

ejemplo, el caso 2 aparece en cuatro sitios, con probabilidad total 0.05+0.04+0.25+0.00 = 0.34.Para usar la tabla, se sortea entre los 8 casos con las probabilidades indicadas, pero como cadacolumna es equiprobable, basta sortear primero la columna, lo cual no requiere hacer una búsqueda,y una vez determinada la columna, se sortea entre los dos casos de esa columna. Por ejemplo, para latercera, habrá una probabilidad 0.21/0.25= 0.84 para el caso 1 y una probabilidad 0.04/0.25= 0.16para el caso 2.

Para construir la tabla de la derecha, en la primera iteración se toma el caso menos probable(el 3, con probabilidad 0.10) que ocupara la posición de arriba de la primera columna. La columnase completa con lo que haga falta hasta 0.25 del caso más probable (el 1, del cual tomamos 0.15).Después de descontar esas probabilidades transferidas a la tabla, las nuevas probabilidades son lasindicadas en la segunda línea de la izquierda (0.21, 0.34, 0.00 y 0.20). En la segunda iteración seprocede del mismo modo: se mueve la probabilidad más pequeña (0.20 del caso 4) a la segundacolumna arriba, y se completa la columna con el caso más probable hasta 0.25 (transferimos 0.05del caso 2). Las probabilidades quedan como se indica en la tercera línea (0.21, 0.29, 0.00 y 0.00).Se procede del mismo modo con las dos columnas restantes.

El método de alias evita hacer una búsqueda pero requiere el trabajo previo de construir y guardarla información de la tabla. No puede aplicarse (al menos tal cual) al caso n infinito.

Ejemplo. (Distribución de Poisson). Una variable discreta n = 0,1, . . . sigue una distribuciónde Poisson con media µ si

Pn = e−µ µn

n!, n = 0,1,2, . . . (6.108)

Es inmediato comprobar que está normalizada, ∑∞n=0 Pn = 1, así como que71

〈n〉= µ, Var(n) = µ. (6.109)

71Este resultado se puede obtener usando la función generatriz (pág. 103) g(x) = e(x−1)µ .

128

Page 129: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La distribución de Poisson es el límite de la binomial cuando N es grande y p pequeña, conµ = pN y n fijos. Una realización de la distribución de Poisson es una fuente emisora estacionaria(por ejemplo una muestra radioactiva de vida media larga, una cola de llegada de clientes) tal quelos lapsos entre dos emisiones sucesivas τn sean variables aleatorias independientes con distribuciónexponencial τn ∼Θ(τ)e−τ (eligiendo las unidades para que el ritmo de emisión sea una emisión porunidad de tiempo en media). Es instructivo ver que en efecto, el número de emisiones, n, despuésde un tiempo µ sigue una distribución de Poisson. Y además proporciona un método para muestrearesta distribución.

Por hipótesis los lapsos τk, k = 1,2, . . ., son independientes y siguen una distribución Θ(τ)e−τ .Los tiempos en los que se producen las emisiones n = 1,2, . . . son

Tn = τ1 + τ2 + · · ·+ τn, n = 1,2, . . . (6.110)

El algoritmo es generar τ1 y si T1 = τ1 > µ , n = 0. En otro caso, se genera τ2. Si T2 = τ1 + τ2 > µ ,n = 1. Y así sucesivamente. La probabilidad de obtener un valor n es

Pn(µ) = Prob(Tn ≤ µ < Tn+1) =∫

dtndtn+1 pTn,Tn+1(tn, tn+1)Θ(tn ≤ µ < tn+1). (6.111)

Como las emisiones son independientes

pTn,Tn+1(tn, tn+1) = pTn+1|Tn(tn+1|tn) pTn(tn) = e−(tn+1−tn)pTn(tn)Θ(tn+1− tn). (6.112)

De aquí,

Pn(µ)=∫

0dtn∫

0dτn+1 pTn(tn)Θ(µ−tn)Θ(tn+τn+1−µ)e−τn+1 =

∫µ

0dtn pTn(tn)e

−(µ−tn). (6.113)

Necesitamos pTn . Como Tn = ∑nk=1 τk y las τk son independientes, pTn es la convolución de las n

distribuciones pτ(τ) = e−τΘ(τ)

pTn(tn) = (pτ ∗n· · · ∗ pτ)(tn)≡ p∗nτ (tn). (6.114)

Una forma práctica de proceder es tomar transformada de Fourier

pτ(k) =∫ +∞

0dτ e−τe−ikτ =

11+ ik

, pTn(k) =1

(1+ ik)n . (6.115)

(Comprobamos que pτ(0) = 1, la normalización es correcta.) Entonces

pTn(tn) =∫ +∞

−∞

dk2π

eiktn 1(1+ ik)n = 2πiRes

k=i

eiktn

(1+ ik)n = e−tn tn−1n

(n−1)!. (6.116)

129

Page 130: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(De nuevo se comprueba que∫

0 dtn pTn(tn) = 1.) Podemos ya obtener la distribución de n,

Pn(µ) =∫

µ

0dtn e−tn tn−1

n(n−1)!

e−(µ−tn) = e−µ µn

n!. (6.117)

El cálculo está hecho para n≥ 1. El caso n = 0 se puede calcular por separado:

pT0(t0) = Prob(µ < T1) =∫ +∞

0dτ1 e−τ1 Θ(τ1−µ) =

∫ +∞

µ

dτ e−τ = e−µ . (6.118)

6.4.3 Distribuciones de variables continuas

En la construcción de algoritmos de variables continuas son útiles las relaciones

pX+a(x) = pX(x−a), pλX(x) =1|λ |

pX(x/λ ) (λ 6= 0). (6.119)

Ejemplo. Construcción de X ∼ U(a,b) (a < b). En este caso p(x) = Θ(a < x < b)/(b−a), yse obtiene de la distribución uniforme aplicando un factor de escala, de (0,1) a (0,b− a) y luegouna traslación a (a,b). Por tanto

X = a+(b−a)U U ∼ U(0,1). (6.120)

Ejemplo. Muestreo deX ∼U([a1,b1]×·· ·× [ad,bd]),X ∈⊆Rd. Simplemente se genera comoantes cada una de las componentes de X, es decir, X i ∼ U(ai,bi).

Esto es general: si una distribución es separable, usualmente lo mejor será generar las distintascoordenadas por separado. Si dos (o más) subconjuntos de coordenadas son independientes entresí, usualmente será más eficiente hacer un muestreo de cada subconjunto por separado, ya que ladificultad de muestreo suele crecer con la dimensión.

6.4.4 Método de inversión

Sea p(x) una densidad de probabilidad con soporte (a,b), es decir, p(x)> 0 sii a < x < b, dondea,b pueden ser finitos o infinitos. Se quiere hacer un muestreo de p, es decir, construir una variablealeatoria X ∼ p.

130

Page 131: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

El método de inversión consiste en definir una función h(x) mediante

h(x)≡∫ x

ady p(y) x ∈ [a,b]. (6.121)

Por construcción esta función es estrictamente creciente en [a,b] con h(a) = 0 y h(b) = 1. Por tantou = h(x) satisface 0 ≤ u ≤ 1. Ahora definimos la función inversa x = f (u) ( f = h−1) que tambiénes estrictamente creciente. En este caso la variable aleatoria

X = f (U) U ∼ U(0,1) (6.122)

está distribuida según p, es decir X ∼ p ó pX = p.

En efecto, para demostrar esto notemos que

∀x ∈ [a,b] Prob(X < x) = Prob( f (U)< x) = Prob(U < h(x)) = h(x) =∫ x

ady p(y) (6.123)

por otro ladoProb(X < x) =

∫ x

ady pX(y) (6.124)

en consecuencia pX = p.

Éste es el denominado método de inversión.72 Equivalentemente, puede usarse u(x)=Prob(X >

x) =∫ b

x pX(x′)dx′.

Ejemplo. Para hacer un muestreo de X con distribución pX(x) = e−xΘ(x), podemos usar elmétodo de inversión:

u(x) = Prob(X < x) =∫ x

−∞

Θ(y)e−ydy = Θ(x)∫ x

0e−ydy = Θ(x)(1− e−x). (6.125)

Invirtiendo (para x positiva)X =− log(1−U). (6.126)

También sirve X =− log(U) ya que U y 1−U están igualmente distribuidos.

Otra forma instructiva de plantearlo es

〈 f 〉=∫

0dxe−x f (x) =

∫ x=∞

x=0d(1− e−x) f (x) =

∫ 1

0du f (x(u)), (6.127)

72Nótese que el método de inversión U =∫ X−∞

pX (x)dx, es la versión continua del método visto para variablesdiscretas, si−1 <U ≤ si, ec. (6.106).

131

Page 132: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

con el cambio de variable u = 1− e−x, igual que antes. Más generalmente dxp(x) = du. El peso 1en∫ 1

0 du f indica que u∼ U(0,1).

Otra forma de plantearlo: Un método para producir muestreos de nuevas densidades de probabilidad esrelacionarlas con otras mediante un cambio de variable. Para un cambio de variable X(Y ), las densidadesde probabilidad está relacionadas por

pX(x(y)) =

∣∣∣∣∂y∂x

∣∣∣∣ pY (y). (6.128)

Si sabemos hacer un muestreo de Y , la idea es elegir el cambio de variable de modo que pX(x) sea ladensidad de probabilidad deseada. En el caso unidimensional, podemos elegir que Y = U ∼ U(0,1), portanto pU(u) = 1 para 0 < u < 1. En consecuencia el cambio de variable X(U) debe cumplir (elegimos porejemplo que X sea una función creciente de U)

pX(x) =∣∣∣∣dudx

∣∣∣∣ pU(u) =dudx

. (6.129)

Integrando desde a hasta un x cualquiera73

u(x) =∫ x

apX(x′)dx′ = Prob(X < x). (6.130)

Para aplicar este método se genera U∼U(0,1), y se obtiene X ≡ x(U) tal que X ∼ pX . Aquí x(u) la funcióninversa de u(x)≡ Prob(X < x).

Una generalización del método de inversión para varias variables es la siguiente: Sea X ∈ Rd y U =U([0,1]d), entonces

u1(x1) = Prob(X1 < x1) =∫ x1

−∞

dy1

∫ +∞

−∞

dy2 · · ·∫ +∞

−∞

dyd pX(y1, . . . ,yd)

...un(x1, . . . ,xn) = Prob(Xn < xn|X1 = x1, . . . ,Xn−1 = xn−1)

=

∫ xn−∞

dyn∫ +∞

−∞dyn+1 · · ·

∫ +∞

−∞dyd pX(x1, . . . ,xn−1,yn, . . . ,yd)∫ +∞

−∞dyn

∫ +∞

−∞dyn+1 · · ·

∫ +∞

−∞dyd pX(x1, . . . ,xn−1,yn, . . . ,yd)

...

(6.131)

Como se puede comprobar∣∣∣∣∂u∂x

∣∣∣∣ = pX(x1, . . . ,xd), y en consecuencia X(U) (invirtiendo las relaciones)

73También se puede integrar desde −∞ entendiendo que pX (x) se anula para x < a.

132

Page 133: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

está distribuido según pX . En la práctica esta versión multidimensional no puede aplicarse ya que no esfácil hacer las integrales requeridas ni invertir las ecuaciones.

6.4.5 Distribución normal

Cuando la distribución de una variable es de tipo gaussiano

pX(x) =1√

2πσe−

(x−µ)2

2σ2 (6.132)

(el prefactor es tal que pX está normalizada) se dice que X sigue una distribución normal centradaen µ y con dispersión σ , ya que en efecto 〈X〉= µ y Var(X) = σ2, X ∼ N(µ,σ2). Evidentementebasta saber muestrear N(0,1) (y luego X 7→ µ +σX). Para hacer el muestreo se puede usar elmétodo de Box-Muller: se generan dos variables normales independientes X e Y , con distribución

pX ,Y (x,y) = pX(x)pY (y) =1

2πe−

12 (x

2+y2), (6.133)

y se trabaja en coordenadas polares:

〈 f 〉=∫ dxdy

2πe−

12 (x

2+y2) f (x,y) =∫ 2π

0

∫∞

0dr r e−r2/2 f

=∫ 2π

0

∫ r=∞

r=0d(1− e−r2/2) f =

∫ 1

0duφ

∫ 1

0dur f ,

(6.134)

con los cambios de variablesuφ =

φ

2π, ur = e−r2/2. (6.135)

La última expresión en ec. (6.134) indica que uφ y ur son independientes y están distribuidas segúnU(0,1). Invirtiendo los cambios de variable para pasar de (uφ ,ur) a (φ ,r) y de ahí a (x,y), se obtiene

X = cos(2πUφ )√−2logUr

Y = sin(2πUφ )√−2logUr

, Uφ ,Ur ∼ U(0,1) e independientes. (6.136)

6.4.6 Puntos uniformemente distribuidos en una región

Sea Ω ⊆ Rd con volumen V finito, y queremos X distribuida uniformemente dentro de Ω,X ∼ U(Ω), es decir, pX(x) =

1V

Θ(x ∈Ω).

133

Page 134: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Si Ω tiene un límites acotados conocidos, un algoritmo sencillo es el método de aceptación-rechazo, que consiste en meter Ω en una caja rectangular, Ω⊆ [a1,b1]×·· · [ad,bd]. Se genera Xuniformemente en la caja. El valor se rechaza si X 6∈Ω y se genera uno nuevo hasta que se acepte.Por construcción ese X estará distribuido correctamente, X ∼ U(Ω).

El método funciona igual si X se genera uniformemente en una región cualquiera (no necesaria-mente rectangular) que contenga a Ω. La eficiencia de este método depende de la probabilidad deaceptación, que es el cociente entre el volumen de Ω y el de la caja. Conviene que la caja sea lo másajustada posible para aumentar la probabilidad de aceptación (y no desperdiciar recursos generandopuntos que no se van a aceptar). Incluso con una caja ajustada el método puede ser ineficiente,como se ve en el siguiente ejemplo.

Ejemplo. (Puntos uniformes dentro o sobre una esfera). Supongamos que la región es unaesfera de radio 1 en Rd y su interior, Bd = ‖x‖ ≤ 1,x ∈ Rd. Aplicamos el método de aceptación-rechazo con el cubo [−1,1]d. Las d coordenadas de la X propuesta se obtienen fácilmente conXi = 2Ui−1 (con Ui ∼U(0,1), i = 1, . . . ,d e independientes). La propuesta se acepta sii ‖X‖ ≤ 1.Un X aceptado está distribuido uniformemente en el interior de la esfera Bd.

Si lo que se quiere es que X esté definido uniformemente sobre la esfera Sd = ‖x‖= 1,x∈Rd,el método es construirX en el interior como antes y luego normalizarlo conX/‖X‖. (El casoX = 0es casi imposible, si ocurriera bastaría generar X de nuevo.)74

Figura 13: Caja cuadrada ajustada a la esfera para d = 2.

En cualquiera de los dos casos se necesita generar un X dentro de la esfera y la probabilidad deaceptación es el cociente entre el volumen de la esfera Vd y el del cubo, que es 2d.

74En teoría de la probabilidad, los sucesos que no son /0 (suceso imposible) pero tienen probabilidad cero sedenominan casi imposibles. Igualmente los sucesos con probabilidad 1, excepto Ω mismo, se denominan casi seguros.

134

Page 135: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Aunque para dimensiones bajas no lo parezca, la probabilidad de aceptación disminuye rápida-mente con la dimensión. Esto es fácil de entender notando que las d coordenadas xi se generan unifor-memente en [−1,1] y la aceptación requiere que x2

1+ · · ·+x2d ≤ 1. Dado que Prob(x2

i < 1/d)= 1/√

d,se puede estimar que la probabilidad de aceptación disminuye como d−d/2.

Es instructivo ver cómo se puede calcular exactamente Vd y de ahí la probabilidad de aceptación.Consideremos la integral, que es separable en coordenadas cartesianas,

(2π)d/2 =∫

ddxe−x2/2 = Sd−1

∫∞

0dr rd−1 e−r2/2 = Sd−12

d2−1

∫∞

0dxx

d2−1e−x

= Sd−12d2−1

Γ(d/2).(6.137)

Se han usado coordenadas polares, y Sd−1 es el ángulo sólido en d dimensiones (el área de la esferade radio 1 en d dimensiones). Γ es la función gamma de Euler.75 Se deduce que

Sd−1 =2πd/2

Γ(d/2). (6.138)

(Por ejemplo, S0 = 2, S1 = 2π, S2 = 4π.) Ahora podemos calcular el volumen de la esfera d-dimensional

Vd =∫

ddxΘ(1−‖x‖) = Sd−1

∫ 1

0dr rd−1 =

1d

Sd−1 =πd/2

Γ(d/2+1). (6.139)

d p1 12 0.793 0.52

10 2.5×10−3

20 2.5×10−8

100 2×10−70

Cuadro 2: Probabilidad de acertar en la esfera en una tirada uniforme en el cubo, en función de la dimensión.

Finalmente, la probabilidad de aceptación será 76

p =Vd

2d =(π/4)d/2

Γ(d2 +1)

. (6.140)

75Γ(α) =∫

0 dxxα−1e−x. Propiedades Γ(x+1) = xΓ(x) = x!, Γ( 12 ) =

√π, Γ(x)∼ xx.

76Y en efecto, para d grande log p−d2

logd.

135

Page 136: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Como se ve en la tabla adjunta, la probabilidad de aceptación decrece muy rápidamente a medidaque la dimensión crece. Para dimensiones medianas o grandes el método de aceptación-rechazo noes viable y hay que buscar métodos alternativos. Aparte de los métodos markovianos que se veránmás adelante, en el caso de la esfera se puede hacer separación de variables en coordenadas polares,generando los d−1 ángulos que permiten reconstruir X. Por ejemplo para d = 3

1 =3

4πR3

∫ R

0dr r2

∫ 2π

0dφ

∫π

0dθ senθ =

∫ 1

0dur

∫ 1

0duφ

∫ 1

0duθ ,

ur =r3

R3 , uφ =φ

2π, uθ =

cosθ

2ur,uφ ,uθ ∼ U(0,1) e independientes.

(6.141)

Es importante notar en este ejemplo que métodos de muestreo que parecen razonables a primeravista pueden ser extremadamente ineficientes cuando vamos a dimensiones grandes (que es cuandose requiere MC). La intuición basada en el caso d = 2 (en la Fig. 13) o d = 3, el espacio ordinariopara el que p = 0.52, puede producir impresiones equivocadas respecto de lo que ocurrirá para dgrande. Como regla, a medida que d crece, las zonas que son realmente relevantes (en el ejemplo, elvolumen ocupado por la esfera) tienden a ser una parte muy pequeña del total y se hace necesariousar métodos eficientes para que el MC sea viable.

6.4.7 Método de aceptación-rechazo

Entre los métodos para obtener muestreos de distribuciones genéricas (en particular no separa-bles) está el método de aceptación-rechazo.

Queremos hacer un muestreoX ∼w(x) donde w(x) es un peso no necesariamente normalizado.Denotamos N la normalización de w(x) (en general desconocida) y p(x)=w(x)/N la probabilidadnormalizada.

En la versión mas simple del método se supone que w tiene soporte en cierta región Ω⊆ Rd yque podemos hacer un muestreo uniforme de Ω, esto sólo es posible si Ω tiene un volumen finito, V .Además suponemos conocido un C tal que w(x)≤C ∀x ∈Ω. El algoritmo consiste en generar uncandidato x uniformemente en Ω, y este candidato se acepta con probabilidad w(x)/C. Es decir, segenera U ∼ U(0,1) y x se acepta (X = x) sii UC ≤ w(x). Si el candidato no se acepta se generauno nuevo. Los candidatos aceptados están distribuidos según w(x). (Intuitivamente es obvio quex se acepta proporcionalmente a w(x).) No es necesario conocer la normalización N de w(x), sólosaber calcular w(x) en cada punto que se pida y conocer el valor de un C válido (que sea una cotasuperior).

136

Page 137: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La probabilidad de aceptación es (V = |Ω|)

pacept =∫

Ω

ddx1V

∫ 1

0duΘ(uC < w(x)) =

∫Ω

ddxw(x)VC

=N

VC. (6.142)

Obviamente, para aumentar la probabilidad de aceptación conviene tomar C lo más ajustada (pe-queña) posible.

El gran problema de este método es que la probabilidad de aceptación puede ser extremadamentepequeña en casos prácticos (como se ha visto en el caso de la esfera d-dimensional). De hecho, elfactor N /V no es más que el promedio de w(x) en Ω y lo que se tiene es

〈w〉Ω ≤maxx∈Ω

w(x)≤C, pacept =〈w〉Ω

C≤ 〈w〉Ω

wmáx. (6.143)

Incluso eligiendo C óptimamente, la probabilidad de aceptación sólo puede ser importante si 〈w〉Ω ≈wmáx. y esto sólo es posible si la función w(x) es muy plana en Ω. El método sólo es útil para d nomuy grandes y w con poca variación en Ω, de modo que w/C pueda mantenerse próximo a 1. Otracondición que puede ser limitante es que hace falta que Ω sea fácilmente muestreable.

Una forma de mejorar el problema de la probabilidad de aceptación es generar directamentemás puntos en la zona relevante de w. Supongamos que 1) tenemos una densidad de probabilidad(normalizada) auxiliar q(x) que sea similar a p(x), 2) q sea fácil de muestrear y 3) además conoz-camos un K, lo más pequeño posible, tal que w(x)≤ Kq(x) ∀x ∈Ω. En ese caso podemos usar elsiguiente algoritmo de aceptación-rechazo:

1) Se genera un candidato x∼ q(x).

2) Se acepta con probabilidad w(x)Kq(x)

. Es decir, se genera U ∼ U(0,1) y se acepta sii

UKq(x)≤ w(x).

En caso contrario se genera un nuevo candidato.

Intuitivamente se ve que se producen más candidatos donde q es mayor, pero se compensa conque se aceptan menos (para w dado). La mejora se debe a que si q(x) es similar a p(x), el cocientew/q variará poco y se puede tomar un K que sea parecido a ese cociente en todo Ω, lo cual aumentala probabilidad de aceptación. La probabilidad de aceptación es

pacept =∫

Ω

ddyq(y)∫ 1

0duΘ(w(y)−uKq(y)) =

∫Ω

ddyq(y)w(y)

Kq(y)=

N

K. (6.144)

137

Page 138: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En particular si w está normalizada (N = 1) la probabilidad es 1/K. En la aplicación de este métododebe evitarse que q(x) sea pequeña donde w(x) no lo es, ya que en esas regiones w/q será muygrande lo fuerza a que K también lo sea. La probabilidad la distribución q debe ser, en todo caso,más extendida (mayor soporte, más ancha) que w.

Veamos que el método es correcto, es decir, no introduce un sesgo y un X aceptado estádistribuido según w:

x(aceptado)∼ E(δ (X−x)|(X,u) aceptado)

=

∫Ω

ddyq(y)∫ 1

0 duδ (y−x)Θ(w(y)−uKq(y))∫Ω

ddyq(y)∫ 1

0 duΘ(w(y)−uKq(y))

=w(x)/KN /K

=w(x)N

= p(x).

(6.145)

El método de aceptación-rechazo es general y fácil de usar. Su principal inconveniente es que en lapráctica, cuando se va a dimensiones grandes, distribuciones q aparentemente parecidas a la w dadano lo son en absoluto y la probabilidad de aceptación se hace extremadamente pequeña. El métodofuncionará cuando sea posible satisfacer el requerimiento de muestreo relevante (importancesampling) es decir, que q ponga más puntos donde w es mayor.

6.4.8 Método de reweighting

Relacionado con la idea de usar una probabilidad auxiliar está el método de reweighting.Este método no produce un muestreo de la probabilidad dada pero sí permite calcular los valoresesperados asociados.

Dado un peso w(x) = N p(x) y una densidad de probabilidad q(x) auxiliar, que suponemosnormalizada,

〈A(X)〉w =

∫ddxw(x)A(x)∫

ddxw(x)=

∫ddxq(x)w(x)A(x)/q(x)∫

ddxq(x)w(x)/q(x)=〈Aw/q〉q〈w/q〉q

. (6.146)

De acuerdo con esta identidad una forma de proceder es calcular los promedios de A(X)w(X)/q(X)y w(X)/q(X) para X ∼ q y el cociente de ambos nos proporcionará el promedio de A(X) paraX ∼ w. Igual que en el método de aceptación-rechazo, para X ∼ q, X tenderá a producirse másdonde q (y no necesariamente w) es importante, pero eso se compensa por el factor w/q que serámenor donde q sea grande.

138

Page 139: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

El denominador 〈w/q〉q no es más que N , y en particular, cuando w = p (w está normalizado)la expresión queda

〈A(X)〉p =⟨

p(X)

q(X)A(X)

⟩q. (6.147)

Es importante notar que aunque los promedios coinciden, las varianzas no lo hacen,

Var(pA/q)q−Var(A)p =

⟨p2A2

q2

⟩q−〈A2〉p =

⟨(pq−1)

A2⟩

p. (6.148)

Por ejemplo, si es posible elegir q proporcional a pA o casi, la variable pA/q será casi constante y suvarianza será muy pequeña. Sin embargo ese caso es de interés académico; en la práctica un cálculoMC se adapta a p y no a un observable concreto (el cálculo MC es costoso y se utiliza un mismomuestreo para calcular el valor esperado de múltiples observables a la vez). Generalmente el cálculocon reweighting tiende a empeorar, no mejorar, la dispersión. En un caso claro, si A = 1, el cálculodirecto de 〈A〉p no tiene ninguna dispersión (cada X ∼ p da el mismo valor A = 1), mientras queel cálculo con A′ ≡ pA/q = p/q y X ∼ q, sí tendrá una varianza que puede ser grande.

Ejemplo. Supongamos que

p(x) = (2π)−d/2e−x2/2, q(x) = (2πσ

2)−d/2e−x2/2σ2 en Rd. (6.149)

Por lo que sabemos, 1 = 〈1〉p = 〈p/q〉q, entonces

1+Var(p/q)q = 〈p2/q2〉q =∫

ddxp2

q=

(σ4

2σ2−1

)d/2

, σ2 >

12. (6.150)

Cuando σ2 ≤ 1/2 (q demasiado poco extendida) la varianza diverge. Por otro lado, si σ = 1 lavarianza se anula, ya que q = p. En los demás casos σ4/(2σ2−1)> 1 y en consecuencia la varianzacrece exponencialmente con la dimensión d. Igual que veíamos en el caso de la esfera d-dimensional,a medida que las dimensiones son mayores el parecido entre las dos funciones (para un mismo valorde σ) va disminuyendo y eso hace aumentar la dispersión, tanto en reweighting como en aceptación-rechazo. De nuevo el método sólo será útil si q se satisface el requerimiento de muestreo relevantepara w.

En el caso general de peso w no normalizado (es decir, no se conoce su normalización) hayun problema añadido de sesgo. En efecto, aunque el cociente indicado en ec. (6.146) proporcionacorrectamente 〈A〉w, en realidad el valor esperado como tal nunca se calcula, sino sólo resultadosde experimentos aleatorios para los que una variable aleatoria toma un valor que se acepta como

139

Page 140: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

estimación del valor esperado. Para estimar el valor esperado en el numerador se genera una muestraX1, . . . ,XN distribuida según q. Para el denominador se puede usar la misma muestra o bien generarotra independiente. En el primer caso la estimación es

A1 =∑

Ni=1 w(Xi)A(Xi)/q(Xi)

∑Ni=1 w(Xi)/q(Xi)

, Xi ∼ q (independientes) (6.151)

cuando N → ∞ A1 → 〈A〉w con probabilidad 1 (ya que numerador y denominador lo hacen), sinembargo, para N finito hay un sesgo ya que E(A1) no coincide con E(A). El caso más claro es N = 1:en este caso A1 = A(X1) con X1 ∼ q, por tanto E(A1) = 〈A〉q y no 〈A〉w. Esto es muy distinto delMC usual (se muestrea la distribución p) ya que ahí E(A) = E(A) independientemente del valor deN (otra cosa es que para N = 1 la dispersión pueda ser grande o no).

En el segundo caso la estimación es

A2 =∑

Ni=1 w(Xi)A(Xi)/q(Xi)

∑Ni=1 w(Yi)/q(Yi)

≡ wA/q

w/q, Xi,Yi ∼ q (independientes). (6.152)

De nuevo tiende a 〈A〉w con probabilidad 1, pero

E(A2) = 〈wA/q〉q⟨(

w/q)−1

⟩q. (6.153)

Generalmente, 〈X−1〉 6= 〈X〉−1 (que es lo que haría falta, aplicado a X = w/q para concluir queE(A2) = 〈A〉p). Por otro lado, aunque hay sesgo para N finito, éste no desempeña un papel relevantepara N suficientemente grande, ya que el sesgo es menor que la propia dispersión en el estimador.En efecto, para X = w/q, sea su media µ y su dispersión σ/

√N, entonces,

〈X−1〉=⟨

1µ +X−µ

⟩=

⟨1µ− x−µ

µ2 +(x−µ)2

µ3 + · · ·⟩=

1µ+

1µ3

σ2

N+ · · · (6.154)

por tanto el sesgo es〈X−1〉−〈X〉−1 = O(N−1), (6.155)

mientras que la dispersión es O(N−1/2). A medida que N crece el sesgo disminuye más deprisa quelas fluctuaciones y eventualmente queda tapado por éstas.

El principal problema del método de reweighting es que la dispersión en numerador y denominador(si lo hay) crece muy rápidamente a medida que el número de dimensiones aumenta: para d grandep y q son muy distintas en general, el muestreo produce la inmensa mayoría de puntos donde q es

140

Page 141: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

grande (no p) y luego le asigna un peso p/q despreciable. Todo el peso viene de los raros casosen los que el punto cae donde p importa. En consecuencia, el número efectivo de puntos que deverdad intervienen en los promedios es muy pequeño por lo que las fluctuaciones son muy grandes.En casos prácticos, el problema crece exponencialmente con el número de variables involucradas.

Puesto que hay métodos eficientes markovianos para hacer un muestreo de cualquier p(x), elinterés de usar un q(x) auxiliar, es principalmente poder reutilizar configuraciones XiN

i=1, X ∼ qque ya se tienen, de modo que si p(x) depende de uno o más parámetros λ , p(x,λ ), se puedencalcular estimaciones 〈 f (x)〉λ para varios λ a la vez, con un mismo cálculo MC. Según el caso, inclusose pueden obtener curvas enteras en función de λ , lo cual es imposible haciendo una simulación MCpara cada λ requerida.

Otra aplicación es al caso de w complejo (o con partes negativas), en lugar de real y positivoen todos los puntos. Aunque los promedios están bien definidos cuando w es complejo, el muestreoX ∼ w tal cual no tiene sentido en este caso.77 Sin embargo, el método de reweighting se puedeaplicar sin problemas, eligiendo q(x) positivo.

6.5 Métodos markovianos

Para hacer muestreos eficientes de pesos w multidimensionales generales se suelen usar méto-dos de tipo markoviano. El sistema pasa por una secuencia de estados X parametrizados por unparámetro t que es el tiempo ficticio o de simulación. La idea es generar un caminante quedescribe un camino X(t) que recorra la región a muestrear Ω ⊆ Rn de manera ergódica, es decir,que a la larga el tiempo que el caminante pasa en una región A⊆Ω cualquiera sea proporcional aProb(A) =

∫A dnρ(x), donde ρ(x) denota el peso normalizado que se quiere muestrear. Se cambia

el promedio sobre x por un promedio temporal:

〈A〉= limT→∞

1T

∫ T

0dtA(X(t)) (con probabilidad 1). (6.156)

En la mayor parte de las implementaciones el tiempo es una variable discreta, k, y el caminantepasa sucesivamente por puntos X1,X2, . . . ,Xk, . . . El adjetivo markoviano indica que la probabi-lidad de Xk →Xk+1 no depende de la historia anterior, es decir, depende sólo del valor de Xk yno de los X j, j < k:

Prob(Xk+1,Xk+2, . . . |Xk,Xk−1, . . .) = Prob(Xk+1,Xk+2, . . . |Xk). (6.157)77Mediante extensión analítica se puede construir un auténtico muestreo MC de w(x) genéricos que proporciona

correctamente los valores esperados [14], sin embargo el método es costoso.

141

Page 142: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Los procesos markovianos son los procesos estocásticos más sencillos y mejor estudiados.

El salto Xk→Xk+1 se rige por cierta regla aleatoria prefijada78

Prob(Xk+1 = y|Xk = x) =Wk(y|x). (6.158)

Wk(y|x) es la (densidad de) probabilidad de saltar a y en tiempo k+1 si en tiempo k el caminanteestaba en x y evidentemente Wk debe estar normalizada y ser no negativa∫

dnyWk(y|x) = 1, Wk(y|x)≥ 0. (6.159)

A menudo la función Wk no depende k.

En cada momento k la distribución de caminantes vendrá dada por una cierta densidad ρk(x).Al aplicar el salto markoviano, esta probabilidad se actualiza a ρk+1(x):

ρk+1(y) =∫

Wk(y|x)ρk(x)dnx. (6.160)

Eligiendo Wk adecuadamente se consigue que a la larga (esto es k→ ∞), Xk ∼ ρ . Es decir,limk→∞

ρk(x) = ρ(x) (6.161)

en el sentido de valores esperados (convergencia débil).

Generalmente, se empieza con un caminante generado con una distribución ρ1 que no se parece aρ , por lo que hay que esperar un cierto número de pasos τ0 hasta que la distribución se termalice a lade equilibrio, ρ . Después de este periodo transitorio se tiene Xτ0 ∼ ρ . Los siguientes puntos tambiénestán distribuidos según ρ pero no son independientes de Xτ0 (el caminante no se han olvidado deesa posición) hasta pasado un cierto número de pasos τ , denominado tiempo de autocorrelación.Ese tiempo hay que dejarlo entre cada dos medidas para que los valores sean independientes.79 Deeste modo

〈A〉= 1N

N

∑j=1

A(Xτ0+τ j)±σA√

N. (6.162)

6.5.1 Condición de balance detallado

Para que a la larga el proceso markoviano muestree una ρ dada, hay dos condiciones claramentenecesarias:

78Cuando X es una variable continua Wk(y|x) es una densidad de probabilidad respecto de la variable y.79Usar N puntos seguidos no introduce un sesgo en el resultado (es decir, no modifica el valor esperado) pero como

sólo N/τ puntos son realmente independientes el error va como√

τ/N en vez de 1/√

N.

142

Page 143: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

a) La cadena markoviana ha de ser irreducible. Esto es, la función Wk(y|x) debe ser tal que enprincipio el caminante pueda ir (enlazando saltos) desde cualquier punto del soporte de w(x)a cualquier otro.

b) Si la distribución ya ha alcanzado el equilibrio, al aplicar un salto markoviano esta propiedadse debe mantener: ∫

Wk(y|x)ρ(x)dnx = ρ(y). (6.163)

Notablemente si la cadena markoviana es aperiódica estas dos condiciones también son suficientespara que se satisfaga (6.161) [6].80

Es fácil comprobar que cada paso markoviano acerca ρk a ρ:

‖ρk+1−ρ‖ :=∫

dny |ρk+1(y)−ρ(y)|=∫

dny∣∣∣∣∫ dnxWk(y|x)

(ρk(x)−ρ(x)

)∣∣∣∣≤∫

dny∫

dnxWk(y|x) |ρk(x)−ρ(x)|=∫

dnx |ρk(x)−ρ(x)|

= ‖ρk−ρ‖.

(6.164)

Pero por sí sólo esto no garantiza ‖ρk−ρ‖→ 0.

Una forma práctica de garantizar que Wk deja invariante ρ es imponer la condición de balancedetallado

Wk(y|x)ρ(x) =Wk(x|y)ρ(y), (6.165)

que implica (6.163) usando (6.159). La misma ecuación se puede escribir usando w(x) (el peso nonormalizado) y equivale a decir que la función

Sk(y,x)≡Wk(y|x)ρ(x), Sk(y,x) = Sk(x,y), (6.166)

es una función simétrica.

Se puede dar un argumento de porqué la condición de balance detallado lleva a la distribuciónde equilibrio. Supongamos que tenemos una colectividad de caminantes distribuidos según ρ . Si elbalance es detallado, los caminantes que saltan de x a y se compensan con los que saltan de ya x. (En un balance no necesariamente detallado la distribución se mantiene en equilibrio porque

80Una condición suficiente para que una cadena markoviana sea aperiódica es que Wk(x|x)> 0 en alguna regiónde Ω.

143

Page 144: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

los caminantes intercambian posiciones en cada paso, unos con otros pero no necesariamente porpares.) Si la distribución no está en equilibrio, sea N(x) el número de caminantes en x, ídem N(y).Después de un salto

N(y← x)−N(x← y) =W (y|x)N(x)−W (x|y)N(y)

= N(x)W (x|y)(

W (y|x)W (x|y)

− N(y)

N(x)

)= N(x)W (x|y)

(ρ(y)

ρ(x)− N(y)

N(x)

).

(6.167)

Por tanto, si N(y)

N(x)≷

ρ(y)

ρ(x)se tendrá N(x← y) ≷ N(y ← x). El flujo va de donde hay más

caminantes de los que debería a donde hay menos de modo que el equilibrio tiende a restablecerse.Cuando X ∼ ρ , N(x) ∝ ρ(x) y N(x← y) = N(y← x) por lo que el equilibrio se mantiene.

6.5.2 Algoritmo de Metropolis

El algoritmo de Metropolis fue inventado por Rosenbluth para aplicarlo a la distribución deBoltzmann y extendido a una distribución general por Hastings. Tiene la virtud de que es muyflexible ya que no requiere propiedades específicas de w(x), sólo saber calcular esta función en cadapunto que se pida (de hecho basta conocer el cociente de esta función en dos puntos cualesquiera).

Para aplicar el método se necesita una densidad de probabilidad auxiliar Qk(z|x) (no negativay normalizada respecto de z). Esta probabilidad dice cómo proponer un candidato z a la nuevaposición del caminante cuando éste se encuentra en x en tiempo k. No debe confundirse Qk(z|x)con la función Wk(y|x). Esta última se construye indirectamente mediante el algoritmo de Metropolisy no se necesita en forma explícita.

Dadas la funciones Qk(z|x) y w(x), el algoritmo de Metropolis para actualizar el valor de Xkal siguiente valor en la cadena markoviana, Xk+1, es:

1) Dado Xk se genera una propuesta Z con Qk(Z|Xk), y se genera un número aleatorio U ∼U(0,1).

2) Se actualiza la posición de acuerdo con la regla

Xk+1 =

Z , si w(Z)≥U w(Xk) (la propuesta es aceptada)Xk , si w(Z)<U w(Xk) (la propuesta es rechazada)

(6.168)

144

Page 145: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Efectivamente la probabilidad de aceptación q es

q = min(

1,w(Z)

w(Xk)

), (6.169)

Equivalentemente se puede decir que si w(Z)≥ w(Xk) (si Z es “más probable” que Xk) el nuevopunto se acepta inmediatamente, en caso contrario se acepta con probabilidad w(Z)/w(Xk).81 Porsupuesto, “más probable” es una forma de hablar, ya que la relación w(Z)≷ w(X), para los mismospuntos Z y X depende del sistema de coordenadas.

La función Qk(z|x) se puede elegir de muchas formas con tal de que satisfaga las dos condicionessiguientes:

a) (irreducibilidad) que la función Qk(x|z) sea tal que mediante saltos sucesivos se pueda llegara cualquier punto del soporte de la función w(x), y

b) (simetría) que la función Qk(x|z) sea simétrica

Qk(z|x) = Qk(x|z). (6.170)

Es decir, la probabilidad de proponer Z estando en X debe ser igual a la de proponer Xestando en Z.

Algunos casos patológicos quedan eliminados si se añade la condición de que Q(x|x) > 0 enalguna región, de modo que la cadena markoviana sea aperiódica.

El método descrito es el algoritmo de Metropolis usado más frecuentemente. Una generalizaciónse obtiene no requiriendo que la función Qk(z|x) sea simétrica, lo que da lugar al algoritmo deMetropolis-Hastings. En este caso la probabilidad de aceptación pasa a ser

q = min(

1,Qk(Xk|Z)

Qk(Z|Xk)

w(Z)

w(Xk)

), (6.171)

es decir, se acepta sii U < q (con U ∼ U(0,1)). Esta versión es covariante bajo cambios de coor-denadas (siendo w una densidad y Qk una densidad respecto de la primera variable y un escalar

81Es importante enfatizar que cuando el candidato es rechazado, el nuevo punto Xk+1 coincide con Xk. Esto noes lo mismo que volver a generar nuevos candidatos hasta que uno sea aceptado y tomarlo como el nuevo Xk+1 (quees lo que se haría en aceptación-rechazo). Esa otra prescripción no produce una cadena markoviana con X ∼ ρ, sinoque se termaliza a otra distribución de equilibrio ρ ′ que depende de la elección de Qk, y por tanto produce valoresesperados incorrectos.

145

Page 146: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

respecto de la segunda variable, bajo cambios de coordenadas). Obviamente este método incluye elde Qk simétrica como caso particular.

Vamos a hacer la demostración de que el método de Metropolis-Hastings satisface balancedetallado usando una notación discreta, que es interesante por sí misma. Notación discreta quieredecir que denotamos las posibles opciones como i, j, . . ., el peso del caso i-ésimo como wi y suprobabilidad (en equilibrio) como ρi:

wi = N ρi, ∑i

ρi = 1, ρi ≥ 0. (6.172)

Denotamos la probabilidad de transición j→ i en el proceso markoviano como W (k)i j , o simplemente

Wi j dejando implícita la etiqueta del paso k-ésimo. La condición de equilibrio es

∑j

Wi jρ j = ρi, (6.173)

y la condición de balance detallado es

Wi jρ j =Wjiρi (no hay suma de índices repetidos), (6.174)

o equivalentemente Wi jw j =Wjiwi. Igualmente Qi j denota la probabilidad de proponer un candidatoi si el estado actual es j. La probabilidad de aceptación será

q = min(

1,Q ji

Qi j

wi

w j

). (6.175)

Puesto que la condición de balance detallado es trivial si i = j, sólo consideramos el caso i 6= j (elcaminante cambia de sitio) y esto sólo ocurre si el candidato es aceptado. La probabilidad de j→ icon aceptación del candidato es qQi j (Qi j es la probabilidad de proponer i y q la de ser aceptado sies propuesto),

Wi j = qQi j = min(

1,Q ji

Qi j

wi

w j

)Qi j (i 6= j). (6.176)

Se deduce que (dado que Qi j, w j son positivos)

Wi jw j = min(Qi jw j,Q jiwi) (i 6= j), (6.177)

que es manifiestamente simétrico respecto de i j, de acuerdo con la condición de balance detallado.

Aunque no se necesite explícitamente, nótese que la probabilidad de transición j→ i se puedeexpresar como

Wi j = ∑k

Qk j

∫ 1

0du(Θ(Q jkwk−uQk jw j)δik +Θ(uQk jw j−Q jkwk)δi j

), (6.178)

146

Page 147: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

donde el primer sumando corresponde a aceptación (del candidato k) y el segundo a rechazo.Integrando u y sumando k en el término de aceptación se obtiene qQi j. El término de rechazo nocontribuye si i 6= j.

Volviendo a Metropolis puro, un ejemplo de función Qk(z|x) válida es un salto aleatorio unifor-memente distribuido dentro de una bola de radio R,82

Qk(z|x) ∝ Θ(R−‖z−x‖). (6.179)

La probabilidad de un salto ξ = z−x es independiente de x y los saltos ξ y −ξ son equiprobables.Otra elección válida es un salto gaussiano de tamaño R a elegir. Con cualquier elección, la funciónQk producirá un cierto salto típico ‖Z−X‖ ∼ R. Aunque teóricamente el método converge en todocaso, si el valor de R se toma demasiado pequeño, y el caminante está lejos de la zona relevante, loscandidatos serán aceptados pero el caminante tardará mucho en recorrer la distribución para podermuestrearla. Si por el contrario R es demasiado grande y el caminante ya está en la zona relevante,los candidatos serán casi siempre rechazados y el caminante se moverá poco, lo que también dificultaque explore la función w(x). Más importante, en ambos casos el tiempo de autocorrelación serágrande. Para la eficiencia del método es necesario que R se ajuste de modo que la proporciónde candidatos aceptados esté lejos de 0% o 100%. Un valor típico es ajustar la proporción deaceptación/rechazo al 50% (o a un valor más adecuado haciendo las pruebas necesarias para reducirel tiempo de autocorrelación).

En la práctica, cuando hay muchas variables, lo que suele hacerse es proponer un salto Metrópolispara una de las coordenadas, manteniendo las demás fijas, a continuación se toca otra coordenada,y así sucesivamente hasta hacer un barrido completo sobre todas las coordenadas en X. La elecciónde coordenada a actualizar puede hacerse de modo ordenado o bien de modo aleatorio, sorteandoentre todas las coordenadas.

Como ejemplo de Metropolis, supongamos una red unidimensional con nodos n = 1,2, . . . ,N encada uno de los cuales hay una grado de libertad (una variable) real ϕn. La energía de la configuraciónϕ= (ϕ1, . . . ,ϕn) es

E(ϕ) =N

∑n=1

(12(ϕn+1−ϕn)

2 +V (ϕn)

). (6.180)

Aquí suponemos condiciones de contorno periódicas: ϕN+1≡ϕ1, ϕ0≡ϕN . El peso de la configuraciónϕ a temperatura T es

w(ϕ) = e−βE(ϕ), ρ(ϕ) =1Z

w(ϕ), Z =∫

dnϕ w(ϕ), β ≡ 1

kT. (6.181)

82Sería absurdo usar exactamente este método, más cómodo es generar z dentro de un hipercubo, con un efectosimilar.

147

Page 148: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

ϕ ϕϕ1 2

ϕ3 N

Figura 14: Una configuración de ϕ. Por las condiciones periódicas ϕN+1 ≡ ϕ1. Las configuraciones con gran-des cambios en ϕ de un nodo al siguiente tienen más energía y por tanto son menos probables. Igualmentevalores de ϕk alejados del mínimo del potencial también están suprimidos.

Z no es conocido pero no se necesita para hacer el paseo markoviano. Para aplicar Metropolis, noes adecuado mover ϕ mucho ya que (si N es grande) el movimiento será rechazado con muchaprobabilidad. Lo usual es mover sólo uno de los ϕn para un n dado, luego actualizar otro, y asísucesivamente hasta completar un barrido de la red. Se aplica el número de barridos necesarios paraobtener un número suficiente de configuraciones ϕ independientes termalizadas al peso w.

Cada vez que se toca un n se hace una propuesta de candidato ϕ ′n que se acepta o se rechaza. Porejemplo ϕ ′n = ϕn +ξ donde ξ es una variable aleatoria independiente de ϕn y con una distribuciónsimétrica al cambiar ξ por −ξ (esto garantiza que las probabilidades de ϕn→ ϕ ′n y ϕ ′n→ ϕn seaniguales),

La probabilidad de aceptación requiere el cálculo del cociente

q≡ w(ϕ1, . . . ,ϕ′n, . . . ,ϕN)

w(ϕ1, . . . ,ϕn, . . . ,ϕN). (6.182)

Se genera U ∼U(0,1) y el candidato se acepta si U < q (obviamente si q > 1 no hace falta generarU).

Para un peso general el cálculo de q puede ser costoso (especialmente si N es grande), peroen nuestro caso la energía es local: cada ϕn sólo está conectada con ϕn±1 (interacción de vecinospróximos), por tanto las variables no acopladas a ϕn se cancelan en numerador y denominador:

q =e−β (V (ϕ ′n)+

12 (ϕn+1−ϕ ′n)

2+ 12 (ϕn−1−ϕ ′n)

2)

e−β (V (ϕn)+12 (ϕn+1−ϕn)2+ 1

2 (ϕn−1−ϕn)2)= e−βξ (2ϕn−ϕn+1−ϕn−1+ξ )e−β (V (ϕn+ξ )−V (ϕn)). (6.183)

Que la interacción sólo involucre nodos próximos entre sí (lo cual permite una gran simplificación)

148

Page 149: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

es la regla más que la excepción, ya que no es natural que haya acción a distancia entre los gradosde libertad de un sistema físico.

6.5.3 Baño térmico

También denominado muestreo de Gibbs. Es un proceso markoviano en el que en cada pasose elige un subconjunto de coordenadas de X y se actualizan sólo esas coordenadas de acuerdo consu probabilidad condicionada, manteniendo las otras variables congeladas. Posteriormente se tomaotro subconjunto y se procede igual. Los subconjuntos se pueden tomar de forma ordenada o bienaleatoria, con tal de que eventualmente se pase por todas las coordenadas. No se requiere conocerla normalización absoluta del peso.

Por ejemplo, si tenemos ρ(x1, . . . ,xd), para actualizar la coordenada n-ésima se genera yn segúnla probabilidad condicionada ρ(yn|x1, . . . , xn, . . . ,xd) y se actualiza xn→ yn. Es fácil ver que este pro-cedimiento satisface balance detallado: para simplificar suponemos d = 2 y actualizamos la primeravariable,

W (y1,y2|x1,x2)ρ(x1,x2) = ρ(y1|x2)δ (y2− x2)ρ(x1,x2) = δ (y2− x2)ρ(y1,x2)ρ(x1,x2)

ρ(x2)(6.184)

que es una función simétrica al cambiar xi con yi.

El baño térmico se aplica casi exclusivamente para variables sueltas o grupos de variables in-dependientes entre sí, y es eficiente cuando es posible generar yn de modo económico. Nótese queel nuevo valor de la coordenada xn es completamente independiente del valor anterior, aunque sídepende del valor de las otras coordenadas: xn se ha termalizado al valor de las otras coordenadasque forman el baño.

El baño térmico equivale a aplicar multi-hit en Metropolis, es decir, si se aplica Metropolis muchasveces a una misma coordenada antes de pasar a la siguiente. La variable queda distribuida segúnla probabilidad condicionada relativa a las demás variables.83 Por ello el baño térmico termaliza ladistribución en menos pasos que Metropolis, pero puede que cada paso sea demasiado costoso y nocompense. En este sentido la aplicación de baño térmico es más limitada (hay menos problemas alos que puede aplicarse) que Metropolis.

83El número de intentos no debe depender de los resultados individuales, ya que en otro caso se podría introducirun sesgo.

149

Page 150: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Como ilustración, en el ejemplo anterior, cuando V (ϕ) = 12kϕ2, la probabilidad condicionada es

una gaussiana y el muestreo de Gibbs es aplicable de modo eficiente.

Nota: La actualización (tanto en Metropolis como en el baño térmico) debe ser siempre secuen-cial: si las dos variables a actualizar x1 y x2 están acopladas (no son mutuamente independientes)debe actualizarse primero una de las dos y luego la otra (no importa el orden). Pero sería incorrectogenerar simultáneamente x′1 y x′2 usando los valores actuales de x1 y x2. Lo correcto es generardigamos x1→ x′1 usando (x1,x2) y a continuación x2→ x′2 usando (x′1,x2). Si, como es frecuente,las variables se dividen en pares e impares, de modo que las pares sólo interaccionan con las imparesy viceversa (por ejemplo ec. (6.180)), se pueden actualizar todas las variables pares a la vez y luegotodas las impares, en cada barrido.

6.5.4 Método de búsqueda de mínimos por enfriamiento

Es una técnica para obtener máximos o mínimos de una función que es útil cuando el númerode variables es grande. Por ejemplo, queremos minimizar una energía E(ϕ), ϕ ∈ Rd. Si se usa elmétodo de máxima pendiente la búsqueda puede acabar en un mínimo local, en cuya cuenca estéel valor inicial.

El método MC se aplica generando un paseo markoviano (por ejemplo Metropolis) con pesow(ϕ) = exp(−βE(ϕ)), para β = 1/kT > 0. Cuando β → ∞ (T → 0, enfriamiento), w seleccionalos valores mínimos de E(ϕ). Para que el proceso no se quede estancado en un mínimo local se usaT finita junto con el método markoviano y luego se baja lentamente la temperatura. Los teoremas deprocesos markovianos aseguran que para tiempos de simulación suficientemente grandes el caminanteexplora adecuadamente todas las zonas relevantes.

6.5.5 Termalización y tiempo de autocorrelación

Aunque los métodos markovianos son muy flexibles, tienen el inconveniente de que la variableXk sólo está distribuida según la distribución de equilibrio w(x) en el límite k→ ∞. Para k finitola distribución ρk(x) tiene un cierto sesgo y depende del punto inicial X0 así como del algoritmomarkoviano concreto. Un segundo problema es que no todos los Xk son independientes.

El acercamiento al equilibrio (termalización) desde una configuración inicial cualquiera es típi-camente de tipo exponencial. Se debe dejar un número τ0 de pasos suficiente de modo que Xk ∼ w,para k > τ0. Aunque la termalización nunca es perfecta puede llegarse a un punto en el que el sesgosea despreciable comparado con las fluctuaciones.

150

Page 151: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

0 10 20 30 40 50 60

-2

-1

0

1

2

3

4

5

k

A

Figura 15: Criterio de termalización basado en un observable A(Xk) empezando con configuraciones inicialesbien separadas. Se puede considerar que hay termalización para k ≥ τ0 = 35.

Un método usado frecuentemente es considerar varias simulaciones con muy distintos puntos departida X0 y esperar hasta que los valores esperados en las distintas simulaciones converjan (dentrode las fluctuaciones). Las configuraciones iniciales pueden ser por, ejemplo, con variables fijas aun valor común (inicio frío) y con variables tomando valores aleatorios (inicio caliente). No hay uncriterio universalmente aceptado para reconocer cuando ha transcurrido un tiempo de termalizaciónτ0 suficiente, en este sentido es preferible ser conservador para evitar confundir el equilibrio con unestado metaestable.

Una vez alcanzada la termalización, todos los valores sucesivos Xk, con k > τ0 están distribuidossegún la distribución de equilibrio w. El problema es que Xk condiciona los valores posterioresen la cadena markoviana: Xk y los valores posteriores Xm, m = k+ 1, . . . ,k+ τ no son variablesaleatorias independientes hasta que τ tiene un valor suficientemente grande, denominado tiempode autocorrelación.

El estimador84

f =1N

N

∑k=1

fk, fk ≡ f (Xk) (6.185)

no está sesgado (su valor esperado coincide con 〈 f 〉) ya que Xk ∼ w. Igualmente la varianza dela muestra, S2

f , de los fk es un estimador no sesgado de la varianza de f . Pero la cuestión es cuál

84Par simplificar la notación, después de alcanzar la termalización, desechamos las primeras τ0 configuraciones yponemos k = 1 otra vez.

151

Page 152: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

es la varianza de f . Para N variables independientes la dispersión en la media de la muestra seríaσ f /√

N, que se podría estimar como S f /√

N cuando la muestra es suficientemente grande. Ennuestro caso, sólo uno de cada τ puntos Xk es realmente independiente (siendo τ el tiempo deautocorrelación). Por tanto el número de puntos independientes es Nef = N/τ , y la dispersión de fserá aproximadamente S f /

√Nef. Es decir,

〈 f 〉= f ±√

τS f√

N(para N suficientemente grande). (6.186)

Hay que notar que Var( f ), al igual que 〈 f 〉, depende sólo de f (X) y de la distribución w,pero no del método de muestreo utilizado. Por la ley de los grandes números, eventualmente S2

fserá (probablemente) una estimación aceptable de Var( f ). Por tanto, para reducir la dispersión, losdetalles del método markoviano se deben disponer de modo que τ sea lo menor posible. En principioel tiempo de autocorrelación no depende del observable f (X) concreto (para observables genéricos),sino que es una propiedad de la cadena markoviana Xk, k = 1,2, . . .

Ejemplo. Si el proceso markoviano consiste en W (y|x) = ρ(y), siendo ρ la distribución deequilibrio, cada nuevo punto generado está distribuido de acuerdo con ρ y es independiente delvalor anterior en la cadena. Por tanto τ = 1 en este caso. Ahora modificamos el algoritmo de modoque en uno de cada τ pasos W (y|x) = ρ(y) pero para los otros τ − 1 pasos W (y|x) = δ (y−x)(el punto no se mueve). Como es fácil comprobar este algoritmo satisface balance detallado y esperfectamente válido. Simplemente hace que la cadena evolucione τ veces más despacio y el tiempode autocorrelación es τ . El valor medio y la dispersión de f (X) son los mismos que antes (casoτ = 1) (ya que son los mismos puntos). Sin embargo, la dispersión de f será

√τ veces mayor para

el mismo N:

Var( f ) = Var(

τ

N

(fτ + f2τ + · · ·+ fN

))=(

τ

N

)2 Nτ

Var( f ) = τVar( f )

N. (6.187)

Estimación del tiempo de autocorrelación mediante submuestras

Dada una cadena markoviana, un método usual para estimar la dispersión de f (siendo f (X)un observable cualquiera) es distribuir los N valores fk en K bloques de valores sucesivos cada unocon un tamaño L = N/K. A partir de los bloques se construye una muestra de tamaño K haciendocorresponder a cada bloque su media

Fj =1L

jL

∑k=( j−1)L+1

fk, j = 1, . . . ,K. (6.188)

152

Page 153: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para la muestra FjKj=1 podemos construir su media

F =1K

K

∑j=1

Fj = f . (6.189)

Por construcción la variable F coincide con f y por tanto tienen la misma media (a saber 〈 f 〉) ydispersión. La ventaja de usar FjK

j=1 es que si se toma el valor de L (tamaño de los bloques)suficientemente grande se tendrá que L τ de modo que los distintos bloques serán independientesunos de otros, y por tanto los K valores Fj serán variables independientes, lo cual permite escribir

〈 f 〉= F± σF√K. (6.190)

Por otro lado, si el valor de K es suficientemente grande, la ley de los grandes números implica quepodemos estimar la varianza de los Fj por la varianza de la muestra

Var(F)≈ S2F =

1K−1

K

∑j=1

(Fj− F)2 (K suficientemente grande) (6.191)

Finalmente obtenemos, teniendo en cuenta que los Fj son independientes,

〈 f 〉= F± SF√K. (6.192)

Comparando con la estimación naive que suponía que los N puntos eran independientes, 〈 f 〉=f ± S f√

N, se deduce que el tiempo de autocorrelación es

τ =S2

F

S2f

L. (6.193)

Puede entonces comprobarse si L es adecuado verificando que L τ .

Puesto que la estimación del error requiere a la vez L y K suficientemente grandes, y LK = N,hace falta que N sea grande y tomar un compromiso en la distribución entre L y K. Lo que suelehacerse es usar valores crecientes de K (por ejemplo, K = 2,4,8, . . .) de modo que inicialmente L esgrande (L = N/2,N/4,N/8, . . .) lo cual asegura L τ . Cuando K es suficiente para que se apliquela ley de los grandes números S2

F/K se estabiliza a τS2f /N (una magnitud independiente de L y K).

De aquí se puede extraer el valor de τ (S2f se obtiene de la muestra completa). El τ así determinado

153

Page 154: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

se mantiene constante para K mayores (plateau) mientras L τ . Todos estos valores de K y Lson aceptables y dan la misma estimación para el error en F . Si se tomara K mayor, el τ estimadoempezaría a disminuir respecto de su valor real, ya que S2

FS2

fL = 1 cuando K = N, L = 1. Para esos K

el error estaría subestimado ya que las fórmulas suponen que hay más Fj independientes de los querealmente hay.

Estimación del tiempo de autocorrelación por correladores

Un método más sofisticado y preciso (pero también más costoso) para la estimación de τ yel error se obtiene estudiando la correlación entre los datos. Definimos la función de correlaciónmediante

Ck = Cov( fi, fi+k) =C−k, C0 = Var( f ). (6.194)

Nótese que una vez en el equilibrio el proceso markoviano es estacionario, por tanto Cov( fi, fi+k)no depende de i. Podemos ahora calcular la dispersión en f a partir de la correlación

Var( f ) =1

N2 Var(N

∑i=1

fi) =1

N2

N

∑i, j=1

Cov( fi, f j) =1

N2

(NC0 +2

N

∑j=2

j−1

∑i=1

C j−i

)(6.195)

N

∑j=2

j−1

∑i=1

C j−i =N

∑j=2

j−1

∑k=1

Ck =N−1

∑k=1

(N− k)Ck (6.196)

Var( f ) =1N

(C0 +2

N−1

∑k=1

(1− k

N

)Ck

). (6.197)

Típicamente Ck cae exponencialmente, Ck ≈C0e−2k/τ , k 1. En este caso, k/N puede despreciarseya que los k > τ no contribuyen y N τ .

Var( f )≈ 1N

(C0 +2

N−1

∑k=1

Ck

)(N τ). (6.198)

Aquí se ve que la correlación entre puntos muestrales modifica la estimación usual Var( f ) =Var( f )/N, aumentando la dispersión ya que los Ck más importantes (k pequeño) son positivos,igual que C0.

154

Page 155: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Para ver la relación con el tiempo de autocorrelación, usamos τ 1 para aproximar la suma∑

N−1k=1 Ck por una integral, junto con la aproximación Ck ≈C0e−2k/τ :

Var( f )≈ 1N

C0 (1+ τ)≈ τVar( f )

N. (6.199)

La relación en ec. (6.198) es esencialmente correcta ya que en la práctica N τ , sin embargose refiere a los valores esperados exactos de la distribución. En realidad lo que se tiene son muestrasobtenidas con el proceso markoviano, éstas se utilizan para estimar Ck,

Ck ≡1

N− k−1

N−k

∑j=1

( f j− f )( f j+k− f ), C0 = S2f . (6.200)

Obtenemos una estimación de la varianza mediante

Var( f )≈ 1N

(C0 +2

L

∑k=1

Ck

). (6.201)

Nótese que la suma sobre k no llega hasta N − 1 sino hasta un cierto L a elegir. Ck decreceexponencialmente cuando k aumenta pero no llega a hacerse arbitrariamente pequeño sino que apartir de un cierto k = L toma valores pequeños pero fluctuantes. Se puede demostrar que la sumahasta N−1 de hecho no converge cuando N→∞. Debe cortarse la suma cuando Ck deja de decrecerpara pasar a fluctuar alrededor de cero.

Este método es más preciso que el basado en dividir la muestra en bloques, pero el cálculo deCk puede ser muy costoso computacionalmente en situaciones realistas.

155

Page 156: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

7 Problemas resueltos

7.1 Relación 1: Grupos de Lie

1. Enunciado:Consideremos un espacio-tiempo relativista con una dimensión temporal (t) y otra espacial(x). Los eventos tienen coordenadas (t,x) ∈ R2. Las transformaciones de Lorentz en 1+ 1dimensiones son de la forma (usamos unidades c = 1)(

tx

)7→

(t ′

x′

)= B(v)

(tx

)B(v) :=

(γ γvγv γ

), γ(v) :=

1√1− v2

,

donde el parámetro v es la velocidad y |v|< 1.

a) Demuéstrese que el conjunto G = B(v), |v|< 1 forma un grupo (el grupo de Lorentzen 1+1 dimensiones).85 Obténgase la ley de composición v12 = f (v1,v2). Esta es la leyrelativista de suma de velocidades. Muéstrese que el grupo es abeliano y conexo y nocompacto. ¿Es isomorfo a algún grupo conocido?

b) Las matrices B(v) definen una representación bidimensional de G. Se pide el generadorinfinitesimal, K, asociado a la coordenada v en esa representación.

c) Claramente v no es una coordenada canónica (¿por qué?). Obténgase la coordenadacanónica ξ = ξ (v) que coincide con v a nivel infinitesimal, es decir, ξ (v) = v+O(v2).

d) Puesto que el grupo es abeliano sus irreps (complejas) son unidimensionales. Hallar lareducción de la representación bidimensional B(v).

Solución:a) Multiplicamos las matrices para ver la ley de composición

B(v1)B(v2) = B(v12)(γ1 γ1v1

γ1v1 γ1

)(γ2 γ2v2

γ2v2 γ2

)= γ1γ2

(1+ v1v2 v1 + v2v1 + v2 1+ v1v2

)=

(γ12 γ12v12

γ12v12 γ12

)85Notar: 1) La propiedad asociativa es automática para producto de matrices y no hay que comprobarla. 2) Para

ver que es un grupo no basta obtener v12, también hay que verificar que γ12 = γ(v12) ya que sólo hay una coordenadaindependiente, v, y γ no es independiente.

156

Page 157: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

se deduceγ12 = γ1γ2(1+ v1v2), v12 =

v1 + v2

1+ v1v2.

Como puede comprobarse γ12 = γ(v12), por tanto GG ⊆ G (es cerrado bajo multiplicación).La propiedad asociativa es automática para el producto de matrices. El neutro es B(0) = 1(matriz identidad) y el inverso de B(v) es B(−v) como se deduce de la ley de composición.Esto confirma que G es un grupo.

v12 =v1 + v2

1+ v1v2

es la ley de composición. Puesto que v12 = v21 el grupo es abeliano. Cuando v varía entre]−1,1[ se obtienen todos los elementos del grupo, que entonces es conexo. No es compactoya que ]− 1,1[ es acotado pero no cerrado. O también, B(v) como subconjunto de R4 (4elementos de matriz reales) no es un conjunto compacto (no es acotado).86

Por cada álgebra de Lie sólo hay un grupo conexo y simplemente conexo. G es conexo ysimplemente conexo igual que (R,+) que tiene la misma álgebra (es abeliana), por tanto Ges isomorfo a (R,+).b) La expresión para el generador se obtiene tomando un elemento infinitesimal

B(δv) = 1− iδvK.

Desarrollando B(v) hasta primer orden se obtiene (notando que γ(v) = 1+O(v2))

B(δv) =(

1 δvδv 1

)y por tanto

K = i(

0 11 0

)= iσ1.

c) v no es una coordenada canónica ya que v12 no es v1 + v2. La coordenada canónica esaquella en la que ξ12 = ξ1 + ξ2 (y el isomorfismo entre G y (R,+) es manifiesto). Para lacoordenada canónica

B(v) = e−iξ K

y ésta es una forma simple de obtener la expresión de ξ (v) (teniendo en cuenta que σ21 = 1):

e−iξ K = eξ σ1 = cosh(ξ )+ senh(ξ )σ1 =

(cosh(ξ ) senh(ξ )senh(ξ ) cosh(ξ )

).

86Las representaciones de los grupos compactos son unitarias y B(v) no lo es.

157

Page 158: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Comparando con la expresión de B(v) se deduce que γ = cosh(ξ ) y

v =senh(ξ )cosh(ξ )

= tanh(ξ ).

Alternativamente se puede buscar la función ξ (v) tal que

ξ (v12) = ξ (v1)+ξ (v2), ξ (v) = v+O(v2).

Si tomamos v1 = v y v2 = δv (infinitesimal), desarrollando en δv hasta primer orden se tendrá

ξ (v12) = ξ ((v+δv)/(1+ vδv)) = ξ ((v+δv)(1− vδv)) = ξ (v+δv− v2δv)

= ξ (v)+ξ′(v)(1− v2)δv,

ξ (v1)+ξ (v2) = ξ (v)+δv.

Comparando las dos expresiones se deduce

ξ′(v) =

11− v2 , ξ (v) = atanh(v).

d) Lo más simple es reducir K. Sus autovalores son ±i y por tanto, en su base diagonal Kes diag(i,−i) y B es diag(eξ ,e−ξ ). e±ξ son las dos irreps unidimensionales que aparecen enla reducción. Los vectores propios son (1,±1). Estos dos subespacios unidimensionales soninvariantes Lorentz (forman el cono de luz).

2. Enunciado:Según la fórmula de Campbell-Hausdorff,

C = log(eAeB) = A+B+12[A,B]+ términos cúbicos.

Se pide verificar esta expresión hasta el orden indicado. Por ejemplo, desarrollando en serie lasexponenciales, expresar eAeB = 1+X y usar el desarrollo en serie de log(1+X).

158

Page 159: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Solución:C = log(eAeB),

eA = 1+A+A2

2+O(X3),

eAeB = (1+A+A2

2+O(X3))(1+B+

B2

2+O(X3))

= 1+A+B+A2

2+

B2

2+AB+O(X3) := 1+Y,

C = log(1+Y ) = Y − Y2+O(X3)

= A+B+A2

2+

B2

2+AB− 1

2(A+B)2 +O(X3)

= A+B+12(AB−BA)+O(X3).

3. Enunciado:Sea T (a,b) (a,b ∈R) el operador que actúa en L2(R) como ψ(x)→ ψ ′(x) = ψ(e−a(x−b)).Estos operadores forman un grupo (no se pide demostrarlo) que es isomorfo al de translacionesmás dilataciones en R, siendo a,b son las coordenadas de los elementos del grupo.a) Obtén los generadores infinitesimales asociados a las coordenadas a y b (que denotamos Dy P, respectivamente). ¿Son los operadores T unitarios? ¿Son D ó P operadores hermíticos?b) Usando los generadores hallados en el apartado anterior, obtén las relaciones de conmutacióndel álgebra de Lie del grupo.Solución:(T (a,b)ψ)(x) = ψ(e−a(x−b)).a) Por definición de D y P

T (δa,δb) = 1− iδaD− iδbP.

Tomando a y b infinitesimales

(T (δa,δb)ψ)(x)=ψ(e−δa(x−δb))=ψ((1−δa)(x−δb))=ψ(x−δb−δax)=ψ−(δb+δax)∂xψ.

Comparando con

(T (δa,δb)ψ)(x) = (1− iδaD− iδbP)ψ(x) = ψ− iδaDψ− iδbPψ

159

Page 160: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

se deduce−iD =−x∂x, −iP =−∂x,

es decir,P =−i∂x, D = xP.

P es hermítico correspondiendo a que las traslaciones ψ(x)→ ψ(x− b) definen un opera-dor unitario (conserva la norma). D no es hermítico (D† = Px = xP− i = D− i) porque lasdilataciones, ψ(x)→ ψ(e−ax)) no conservan la norma.b) La única relación de conmutación no trivial es [D,P]

[D,P] = [xP,P] = x[P,P]+ [x,P]P = 0+ iP = iP,

(usando que la operación [ ,A] es una derivación).

160

Page 161: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

7.2 Relación 2: Grupo de rotaciones

4. Enunciado:Sean A y B dos operadores vectoriales. Se pide comprobar que A ·B conmuta con J comodebe hacerlo un escalar y A×B como debe hacerlo un vector.Solución:Que A sea vectorial quiere decir que

[Ji,A j] = iεi jkAk.

Definimos S = AiBi (sumado sobre i). Entonces

[Ji,S] = [Ji,A jB j] = [Ji,A j]B j +A j[Ji,B j] = iεi jkAkB j +A jiεi jkBk

= iεik jA jBk + iεi jkA jBk = 0,(7.1)

por εik j =−εi jk.Igualmente definimos Ci = εi jkA jBk (C =A×B):

[Ji,C j] = [Ji,ε jabAaBb] = ε jab([Ji,Aa]Bb +Aa[Ji,Bb])

= ε jab(iεiakAkBb + iεibkAaBk).(7.2)

Usando la identidadεi jkεabk = δiaδ jb−δibδ ja,

se tiene

[Ji,C j] = i(δ jiδbk−δ jkδbi)AkBb− i(δ jiδak−δ jkδai)AaBk

= i(δ jiAkBk−A jBi)− i(δ jiAkBk−AiB j) = i(AiB j−A jBi).(7.3)

Por otro lado

iεi jkCk = iεi jkεkabAaBb = i(δiaδ jb−δibδ ja)AaBb = i(AiB j−A jBi).

Se deduce que C es un vector ya que [Ji,C j] = iεi jkCk.

161

Page 162: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

5. Enunciado:El espacio de Hilbert de una partícula con espín 1/2 es H = L2(R3)⊗C2. Es decir, susfunciones de onda son ψ(x,α) donde x ∈ R3 y α = 1,2 (ó ↑ y ↓). Se suele escribir en la

forma ψα(x) y se puede disponer en forma de biespinor, Ψ(x)=

(ψ1(x)ψ2(x)

). La base de estados

con posición y espín bien definido son |x,α〉, de modo que |ψ〉=∫

d3x ∑α=1,2

ψα(x)|x,α〉. El

grupo de rotaciones SO(3) actúa en este espacio como

U(R)|x,α〉= ∑β=1,2

D(1/2)βα

(R)|Rx,β 〉

donde D(1/2)(R) es la matriz de SU(2) que representa a R en la representación j = 1/2, asaber, D(1/2)(R) = exp(−iθ ·S) con S = 1

2σ. Se pide obtener la acción sobre los biespinoresy calcular los generadores infinitesimales J de esta representación.Solución:Para obtener la acción sobre la función de onda partimos de

|ψ〉=∫

d3y∑β

ψβ (y)|y,β 〉,

y aplicamos U(R):

|ψR〉=U(R)|ψ〉=∫

d3y∑β

ψβ (y)U(R)|y,β 〉=∫

d3y∑β ,α

ψβ (y)D(1/2)αβ

(R)|Ry,α〉,

Por otro lado|ψR〉=

∫d3x∑

α

ψRα(x)|x,α〉

Usando x= Ry y d3x = d3y, se deduce

ψRα(x) = D(1/2)

αβ(R)ψβ (R

−1x),

o en notación matricialΨ

R(x) = D(1/2)(R)Ψ(R−1x).

Para los generadores infinitesimales, sabemos que

D(1/2)(R) = e−iθ·S, φ(R−1x) = e−iθ·Lφ(x),

162

Page 163: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(con R = R(θ)), por tanto

ΨR(x) = e−iθ·Se−iθ·L

Ψ(x) = e−iθ·JΨ(x),

conJ = S+L,

o más explícitamente J = 1⊗S+L⊗1 en H = L2(R3)⊗C2.

6. Enunciado:Usando las propiedades de las matrices de Pauli, por ejemplo, σiσ j = δi j + iεi jkσk, probar larelación

(a ·σ)(b ·σ) = a ·b+ ia×b ·σ, a, b ∈ C3.

El grupo SU(2) se puede parametrizar mediante U(a) =√

1−a2− ia ·σ para a ∈ R3 y‖a‖ ≤ 1. Obtener la ley de composición en las coordenadas a. Verificar que estas coordenadasno son canónicas. Obtener la coordenada del elemento inverso.Solución:Identidad:

(a ·σ)(b ·σ) = aib jσiσ j = aib j(δi j + iεi jkσk) = aibi + iεi jkaib jσk = a ·b+ ia×b ·σ

Ley de composición:U(c) =U(a)U(b)

Usando la notación a0 =√

1−a2, ídem b0,

U(a)U(b) = (a0− ia ·σ)(b0− ib ·σ) = a0b0− i(a0b+b0a) ·σ−a ·σb ·σ= a0b0−a ·b− i(a0b+b0a+a×b) ·σ.

Comparando conU(c) = c0− ic ·σ

se deducec= a0b+b0a+a×b (ley de composición).

También puede comprobarse que√

1−c2 = c0 = a0b0−a ·b.Coordenadas canónicas: Si las coordenadas fueran canónicas f(a,a) = 2a y aquí se encuentraque c= f(a,a) = 2a0a.

163

Page 164: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Inverso: Puesto que U(a) es unitaria

U(a)−1 =U(a)† = (a0− ia ·σ)† = a0 + ia ·σ =U(−a).

Se deduce que las coordenadas del elemento inverso de a son −a. También se deduce de laley de composición ya que f(a,−a) = 0.

7. Enunciado:Probar que U(n)/SU(n)∼= U(1).Solución:Para todo homomorfismo de grupos f : G→ H, G/Ker f ∼= ran f .Como f tomamos la aplicación f (U)= det(U), U ∈U(n). Como U es unitaria su determinantees una fase y pertenece a U(1) (basta tomar el determinante en la base en la que U esdiagonal). Dado que det(AB) = det(A)det(B), esta aplicación es un homomorfismo de U(n)en U(1).La imagen de f son todos los determinantes de matrices unitarias, y estos son todos loselementos de U(1) ya que basta tomar U = diag(ω,1, . . . ,1) con ω ∈ U(1).El núcleo de f son los U con determinante 1 (el neutro de U(1)). Los U con determinante 1forman el grupo SU(n).Por tanto U(n)/SU(n)∼= U(1).

8. Enunciado:Derivar en detalle las relaciones de conmutación de J+, J− y J3 a partir de las de J1, J2 y J3.Comprobar que dichas relaciones se verifican aplicándolas sobre la base estándar | jm〉 (usandolas acciones de los operadores J±,J3 sobre | jm〉 obtenidas en clase).Solución:Relaciones de conmutación de J±,J3:

[J3,J±] = [J3,J1± iJ2] = iJ2± i(−iJ1) =±J1 + iJ2 =±(J1± iJ2) =±J±,[J+,J−] = [J1 + iJ2,J1− iJ2] =−i[J1,J2]+ i[J2,J1] =−i(iJ3)+ i(−iJ3) = 2J3.

Comprobación de las relaciones de conmutación en la base estándar:J3| j,m〉= m| j,m〉, J±| j,m〉= N±( j,m)| j,m±1〉,

N±( j,m) =√

j( j+1)−m(m±1) =√

( j∓m)( j±m+1)

164

Page 165: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Comprobamos las relaciones aplicándolas sobre la base:

[J3,J±]| j,m〉= (J3J±− J±J3)| j,m〉= N±( j,m)J3| j,m±1〉−mJ±| j,m〉= N±( j,m)(m±1)| j,m±1〉−mN±( j,m)| j,m±1〉=±N±( j,m)| j,m±1〉=±J±| j,m〉

[J+,J−]| j,m〉= (J+J−− J−J+)| j,m〉= N−( j,m)J+| j,m−1〉−N+( j,m)J−| j,m+1〉= (N−( j,m)N+( j,m−1)−N+( j,m)N−( j,m+1))| j,m〉= (N−( j,m)2−N+( j,m)2)| j,m〉= 2m| j,m〉= 2J3| j,m〉.

165

Page 166: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

7.3 Relación 3: Grupo de rotaciones

9. Enunciado:Calcular cuántos escalares y cuántos vectores independientes se pueden formar tensorialmentecon tres vectores.Solución:Usamos la serie de Clebsch-Gordan de SU(2):

D j1⊗D j2 =⊕ jMj= jmD j, jm = | j1− j2|, jM = j1 + j2.

AsíD1⊗D1 = D0⊕D1⊕D2,

con dos vectores (un vector cae en la representación j = 1) se puede construir un escalar( j = 0), un vector ( j = 1) y un tensor cuadrupolar ( j = 2). Si los vectores son A1 y A2, elescalar es A1 ·A2 y el vector es A1×A2.Con tres vectores

D1⊗D1⊗D1 = (D0⊕D1⊕D2)⊗D1 = (D0⊗D1)⊕ (D1⊗D1)⊕ (D2⊗D1)

= (D1)⊕ (D0⊕D1⊕D2)⊕ (D1⊕D2⊕D3)

= 1×D0⊕3×D1⊕2×D2⊕1×D3.

Se puede construir un escalar A1×A2 ·A3, y tres vectores87

(A1 ·A2)A3, (A1 ·A3)A2, (A2 ·A3)A1.

Análogamente desarrollando el producto de cuatro vectores se obtiene

D1⊗D1⊗D1⊗D1 = 3×D0⊕6×D1⊕6×D2⊕3×D3⊕1×D4.

Comprobación de dimensiones:

34 = 3×1+6×3+6×5+3×7+1×9.

87Más exactamente A j1A j

2Ai3, A j

1Ai2A j

3, Ai1A j

2A j3, ya que no debe suponerse que los A:i conmutan entre sí.

166

Page 167: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

10. Enunciado:Sea V1 un espacio que lleva una irrep j = 1 de SU(2) y denotemos los tres estados | j,m〉 =|1,1〉, |1,0〉, |1,−1〉 de su base estándar como α , β y γ , respectivamente. El espacio V =V1⊗V1 admite una base desacoplada αα,αβ ,αγ,βα, . . . ,γγ (nueve estados en total). Sidenotamos |J,M〉 (J = 0,1,2, M =−J, . . . ,J) los estados de la base acoplada, se tiene (estopuede usarse sin demostración)

|2,2〉= αα , |2,1〉=√

12

αβ +

√12

βα, |1,1〉=√

12

αβ −√

12

βα .

Se pide

(i) Probar que |2,0〉=√

16αγ +

√23ββ +

√16γα ,

(ii) Expresar el estado |1,0〉 en la base desacoplada,(iii) Lo mismo para |0,0〉.

Solución:Usando la expresión de los operadores escalera J±| j,m〉= N±( j,m)| j,m±1〉, tenemos

J−α =√

2β , J−β =√

2γ, J−γ = 0

(i) Para obtener |2,0〉 usamos la relación

J−|2,1〉=√

6|2,0〉.

Por otro lado, teniendo en cuenta que J = J (1)+J (2),

J−|2,1〉= (J(1)− + J(2)− )

√12(αβ +βα)

=

√12((J−α)β +(J−β )α +α(J−β )+β (J−α))

= ββ + γα +αγ +ββ

se deduce

|2,0〉=√

16

αγ +

√46

ββ +

√16

γα.

Nótese que este vector debe salir correctamente normalizado, y ésta es una comprobación delcálculo.

167

Page 168: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

(ii) Por un ladoJ−|1,1〉=

√2|1,0〉.

Por otro lado

J−|1,1〉= (J(1)− + J(2)− )

√12(αβ −βα)

=

√12((J−α)β − (J−β )α +α(J−β )−β (J−α))

= ββ − γα +αγ−ββ = αγ− γα

que implica

|1,0〉=√

12

αγ−√

12

γα.

(iii) El estado |00〉 es de la forma

|00〉= aαγ +bββ + cγα.

Por ortogonalidad con |20〉 y |10〉

|00〉 ∝ αγ−ββ + γα,

y por normalización

|00〉= eiϕ

√13(αγ−ββ + γα) .

La fase se fija por el convenio de que el primer vector de la base tenga un coeficiente posi-tivo. En este caso la base es αγ,ββ ,γα y el primer vector es αγ porque tiene m1 máximo.Finalmente

|00〉=√

13(αγ−ββ + γα) .

11. Enunciado:Se sabe que cierto espacio de Hilbert H de dimensión 4 soporta una representación del grupoSU(2), y por tanto admite una reducción H ∼=

⊕j n jVj, donde n j indica la multiplicidad de

la irrep j = 0,1/2,1,3/2, . . .

1) Enumera las 5 reducciones compatibles con dimH = 4.

168

Page 169: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

2) Al aplicar J+ sobre cualquier vector de H se obtiene siempre un múltiplo de un vector fijo,en otras palabras, el rango del operador J+ es 1.88 Selecciona las reducciones compatibles conesta nueva condición. ¿Cuál es ese vector fijo?Solución:1) Las particiones de 4 son: 4, 3+ 1, 2+ 2, 2+ 1+ 1 y 1+ 1+ 1+ 1, por tanto hay cincoreducciones posibles (teniendo en cuenta que para el grupo SU(2) cada dimensión correspondeexactamente a una irrep):a) H =Vj=3/2

b) H =Vj=1⊕Vj=0

c) H =Vj=1/2⊕Vj=1/2

d) H =Vj=1/2⊕Vj=0⊕Vj=0

e) H =Vj=0⊕Vj=0⊕Vj=0⊕Vj=0

2) Al aplicar J+ sobre | j,m〉 se obtiene | j,m+1〉 o cero si m = j, en consecuencia el rango deJ+ en un espacio Vj es 2 j. Por tanto los rangos para los casos a-e) son, respectivamente 3,2+0 = 2, 1+1 = 2, 1+0+0 = 1 y 0+0+0+0 = 0. Sólo el caso d) tiene rango 1 y el vectorque queda al aplicar J+ sobre un vector cualquiera de ese espacio es proporcional a |12

12〉.

12. Enunciado:El grupo SU(2) tiene una medida invariante normalizada que en coordenadas canónicas tomala forma

〈 f (U)〉SU(2) =∫ 2π

0dψ

∫S2

d2Ω

sen2(ψ/2)4π2 f (U(ψ)), ψ = ψn.

Calcular los caracteres de SU(2), χ j(U) = tr(D j(U)), correspondientes a j = 0, 12 ,1 y verificar

que son ortogonales entre sí (respecto de la medida invariante del grupo).Solución:El producto escalar asociado a la medida invariante es

〈ψ1|ψ2〉= 〈ψ∗1 (U)ψ2(U)〉SU(2).

Los caracteres sólo dependen de la clase de conjugación que a su vez sólo depende del ángulode rotación. Se puede elegir una rotación sobre el eje z. En este caso la matriz de rotación D j

88El rango de un operador es la dimensión de su espacio imagen.

169

Page 170: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

es diagonal ya que| j,m〉 → e−iψJ3| jm〉= e−iψm| jm〉,

por tanto D j = diag(· · · ,e−iψm, · · ·) con m = j, j−1, . . . ,− j. La traza es la suma de la dia-gonal, es una serie geométrica y se obtiene

χ j(ψ) =sen(nψ/2)sen(ψ/2)

, n = 2 j+1.

En particular para j = 1 (n = 3)

χ1(ψ) = e−iψ +1+ eiψ = 1+2cos(ψ),

que es lo mismo que se obtiene tomando la traza de

R(e3,ψ) =

cos(ψ) −sen(ψ) 0sen(ψ) cos(ψ) 0

0 0 1

,

(es la matriz de rotación en otra base y la traza no depende de la base).Para ver que los caracteres son ortogonales, calculamos (usando

∫d2Ω = 4π)

〈χ j1|χ j2〉=∫ 2π

0

πsen(n1ψ/2)sen(n2ψ/2).

Mediante la identidad cos(a±b)= cos(a)cos(b)±sen(a)sen(b) y el cambio de variable ψ = 2x

〈χ j1|χ j2〉=1π

∫π

0dx(

cos((n1−n2)x)− cos((n1 +n2)x)).

Como n1±n2 es entero se puede usar∫π

0cos(nx)dx =

1n sen(nπ) = 0 n 6= 0

π n = 0

= πδn,0,

y se tiene〈χ j1|χ j2〉= δn1−n2,0−δn1+n2,0.

Finalmente n1,2 = 1,2, . . . (por lo que n1 +n2 > 0) y

〈χ j1|χ j2〉= δ j1, j2.

170

Page 171: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

7.4 Relación 1 de problemas laboriosos.

1. Enunciado:El álgebra de Lie de dimensión 2 más general es [X1,X2] = iαX1 + iβX2, α,β ∈ R.i) Para toda álgebra de Lie, las propias constantes de estructura definen una representación(no necesariamente fiel) denominada representación adjunta. En esa representación los Xison matrices n× n con elementos de matriz (Xi)ab = icib

a. Construir las dos matrices de larepresentación adjunta para el álgebra bidimensional y comprobar que en efecto satisfacen lasrelaciones de conmutación.89

ii) Probar que haciendo el cambio de base apropiado, toda álgebra bidimensional adopta unade estas dos formas: a) [Y1,Y2] = 0 (abeliana) o b) [Y1,Y2] = iY1 (no abeliana).iii) Para [Y1,Y2] = iY1, se pide calcular la ley de composición del grupo en las coordenadascanónicas asociadas a Y1 e Y2.Solución:i) Para unas constantes de estructura cualesquiera se tiene (Xk)ab = ickb

a, donde a (primeríndice) es la fila y b (segundo índice) la columna:

Xk = i

ck1

1 ck21 · · · ckn

1

ck12 ck2

2 · · · ckn2

... ... ...ck1

n ck2n · · · ckn

n

, k = 1,2, . . . ,n.

De la relación de conmutación [X1,X2] = iαX1 + iβX2 (teniendo en cuenta además que ci jk

es antisimétrico en i j), se lee

c121 =−c21

1 = α, c122 =−c21

2 = β

y lo demás coeficientes se anulan. Por tanto

X1 = i(

0 α

0 β

), X2 = i

(−α 0−β 0

).

Comprobamos que cumplen las relaciones de conmutación

X1X2 =

(αβ 0β 2 0

), X2X1 =

(0 α2

0 αβ

)[X1,X2] =

(αβ −α2

β 2 −αβ

)= iαX1 + iβX2.

89Si se intenta hacer lo mismo en dimensiones mayores se encuentra que no cualquier elección de ci jk es aceptable.

Además de ser antisimétricas, las constantes de estructura deben satisfacer la identidad de Jacobi.

171

Page 172: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

ii) Si α = β = 0 el álgebra es abeliana (en cualquier base). En otro caso, supongamos porejemplo que α 6= 0 (el caso β 6= 0 es análogo):

iαX1 + iβX2 = [X1,X2]

i(X1 +β

αX2) = [X1,

X2] = [X1 +β

αX2,

X2]

que esiY1 = [Y1,Y2], con Y1 = X1 +

β

αX2, Y2 =

X2.

iii) La ley de composición c= f(a,b) se puede obtener de

e−ic1Y1−ic2Y2 = e−ia1Y1−ia2Y2e−ib1Y1−ib2Y2 ,

usando cualquier representación fiel del álgebra. Podemos usar la representación adjunta y lasmatrices de Y1,2 son las del apartado i) con α = 1 y β = 0

−iY1 =

(0 10 0

), −iY2 =

(−1 00 0

).

Definimos A =−ia1Y1− ia2Y2, ídem B y C de modo que eC = eAeB.

A =

(−a2 a1

0 0

), A2 =

(a2

2 −a1a20 0

)=−a2A.

Se deduceAn =

1, n = 0

(−a2)n−1A, n > 0

,

lo cual permite calcular la exponencial en forma cerrada (separando el término n = 0)

eA =∞

∑n=0

An

n!= 1+

∑n=1

An

n!= 1+

∑n=1

(−a2)n−1

n!A = 1− 1

a2

∑n=1

(−a2)n

n!A

= 1− 1a2

(e−a2−1)A

es decir

eA =

(e−a2 1−e−a2

a2a1

0 1

).

172

Page 173: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Multiplicando matrices(e−c2 1−e−c2

c2c1

0 1

)=

(e−a2 1−e−a2

a2a1

0 1

)(e−b2 1−e−b2

b2b1

0 1

)=

(e−a2−b2 1−e−a2

a2a1 +

1−e−b2b2

e−a2b1

0 1

),

de donde

c2 = a2 +b2, c1 =

(1− e−a2

a2a1 +

1− e−b2

b2e−a2b1

)a2 +b2

1− e−a2−b2.

La ley de composición es algo más simple en coordenadas auxiliares

eA =

(1−α2 α1

0 1

), ídem eB,eC con β1,2 y γ1,2 respectivamente:

(1− γ2 γ1

0 1

)=

(1−α2 α1

0 1

)(1−β2 β1

0 1

)=

(1−α2−β2 +α2β2 α1 +β1−α2β1

0 1

).

γ1 = α1 +β1−α2β1, γ2 = α2 +β2−α2β2.

La ley de composición en coordenadas canónicas se obtiene invirtiendo la relación entre coor-denadas a y α :

a2 =− log(1−α2), a1 =−α1log(1−α2)

α2.

2. Enunciado:Usando la expresión explícita de las rotaciones,

R(n,θ)x= x‖+ cos(θ)x⊥+ sin(θ)n×x⊥, x= x‖+x⊥, x‖ ‖ n⊥ x⊥,

se pide verificar que los elementos de matriz de R dependen analíticamente de θ = θ n =(θ1,θ2,θ3). Esto quiere decir que admiten desarrollo en serie de Taylor en potencias de θ1,θ2, y θ3. [Sabemos que tiene que ser así por R(n,θ) = exp(−iθ ·J), siendo J tres matrices3×3, (Ji) jk =−iεi jk, pero se pide probarlo usando sólo la expresión explícita de R(n,θ)x.]Solución:Función analítica (real) de θ quiere decir

f (θ) =∞

∑n1,n2,n3=0

fn1n2n3θn11 θ

n22 θ

n33 = f000 + f100θ1 + f010θ2 + f001θ3 + · · · ,

173

Page 174: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

y con radio de convergencia no nulo.

θ es una función analítica y lo mismo θ 2 = θ 21 +θ 2

2 +θ 23 , pero θ =

√θ 2

1 +θ 22 +θ 2

3 ó n= θ/θ

no lo son. x es analítico (ya que es constante respecto de θ).El problema consiste en probar que Rx puede expresarse usando funciones analíticas de θ (yen particular de θ 2).El último término de Rx es analítico por sí mismo:

sin(θ)n×x⊥ =sin(θ)

θθ×x= (1− θ 2

3!+ · · ·)θ×x, ,

es analítico porque sen(θ)/θ sólo tiene potencias pares de θ .Para los otros dos términos

x‖+ cos(θ)x⊥ = (1− cos(θ))x‖+ cos(θ)x.

El segundo sumando es analítico (cos(θ) es par en θ ). El término restante

(1− cos(θ))x‖ = (1− cos(θ))(n ·x)n=1− cos(θ)

θ 2 (θ ·x)θ = (12!− 1

4!θ

2 + · · ·)(θ ·x)θ

también es regular.Todas las series involucradas tienen radio de convergencia infinito.

174

Page 175: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

7.5 Relación 4: Monte Carlo

15. Enunciado:Sean X e Y dos variables aleatorias independientes uniformemente distribuidas en [0,1]. Sepide calcular la densidad de probabilidad de Z = X/Y , y calcular 〈Zα〉 para |α|< 1.Solución:La distribución conjunta de X e Y es

pX ,Y (a,b) = Θ(0 < a < 1)Θ(0 < b < 1) =

1 a,b ∈ [0,1]0 en otro caso

Una opción es usar deltas de Dirac:

pZ(c) = 〈δ (c−Z)〉=∫

dadb pX ,Y (a,b)δ (c−a/b) =∫[0,1]×[0,1]

δ (c−a/b)dadb

Usamos la identidad

δ ( f (x)) = ∑xi

δ (x− xi)

| f ′(xi)|, siendo xi los ceros de f (x): f (xi) = 0.

En nuestro caso f = c−a/b como función de a:

δ (c−a/b) = bδ (a− cb) (b > 0),

y obtenemos

pZ(c) =∫ 1

0dbb

∫ 1

0daδ (a−bc).

Aquí usamos la identidad∫ b

adxδ (x− x0) f (x) = f (x0)Θ(a≤ x0 ≤ b) (a≤ b)

para obtener

pZ(c) =∫ 1

0dbbΘ(1−bc) =

∫ min(1,1/c)

0dbb =

12

min(1,1/c)2.

Equivalentemente

pZ(c) =12

Θ(1− c)+12

1c2 Θ(c−1) =

12 c≤ 1

12

1c2 c > 1

.

175

Page 176: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

En particular Prob(Z > 1) = 1/2.Alternativamente se puede obtener pZ(c) por la propiedad (para f (x) cualquiera)

〈 f (Z)〉=∫

dc pZ(c) f (c).

Expresando el valor esperado en términos de X e Y

〈 f (Z)〉=∫[0,1]×[0,1]

f (a/b)dadb.

La idea es hacer un cambio de variable eliminando a en favor de c = a/b (para b fijo) yda = bdc. Sin embargo es conveniente pasar primero los límites de integración al integrando

〈 f (Z)〉=∫

0db∫

0daΘ(1−b)Θ(1−a) f (a/b) =

∫∞

0db∫

0dcbΘ(1−b)Θ(1−bc) f (c).

Comparando con la expresión de más arriba y teniendo que f (c) es arbitraria,

pZ(c) =∫

0dbbΘ(1−b)Θ(1−bc).

Esta expresión es equivalente a la obtenida anteriormente usando la delta de Dirac y da elmismo resultado.El valor esperado de Zα se puede obtener equivalentemente usando (X ,Y ) ó Z:

〈Zα〉=∫ 1

0da∫ 1

0db(a/b)α =

∫ 1

0daaα

∫ 1

0dbb−α =

11+α

11−α

.

〈Zα〉=∫

0dc pZ(c)cα =

12

∫ 1

0dccα +

12

∫∞

1dccα−2 =

12

(1

α +1− 1

α−1

)=

11−α2 .

16. Enunciado:Sean X ,Y dos variables aleatorias reales con densidad de probabilidad pX ,Y (x,y) proporcionala 1/(1+ x2 + y2)2. Se pide especificar sendas funciones f1 y f2 tales que X = f1(u1, . . .) eY = f2(u1, . . .) sigan la distribución pedida (siendo las ui uniformemente distribuidas en (0,1)e independientes). De la covarianza de X e Y ¿se deduce que son variables independientes?Solución:

176

Page 177: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Calculemos la normalización, usando coordenadas polares,∫R2

dxdy1

(1+ x2 + y2)2 =∫ 2π

0dφ

∫∞

0drr

1(1+ r2)2 = 2π

∫∞

0dξ

12

1(1+ξ )2

= π

∫ξ=0

ξ=∞

d1

1+ξ= π.

Así la probabilidad normalizada es

pX ,Y (x,y) =1π

1(1+ x2 + y2)2 .

Para generar X e Y usamos coordenadas polares basándonos en la relación (para f arbitraria)

〈 f (X ,Y )〉=∫

dxdy pX ,Y (x,y) f (x,y)

=1π

∫ 2π

0dφ

∫∞

0drr

1(1+ r2)2 f =

∫ 2π

0d(

φ

2π)∫ r=0

r=∞

d(1

1+ r2 ) f

=∫ 1

0duφ

∫ 1

0dur f .

Por tanto el par (r,φ) se puede obtener con

r =

√1ur−1, φ = 2πuφ

siendo ur,uφ dos variables independientes uniformemente distribuidas en [0,1]. X , Y se obtie-nen a partir de r y φ .La covarianza de las variables X e Y se anula

Cov(X ,Y ) = 〈∆X∆Y 〉= 〈XY 〉= 0

usando que 〈X〉 = 〈Y 〉 = 〈XY 〉 = 0 porque la distribución PX ,Y (x,y) es par bajo X →−X yY → −Y por separado. Que la covarianza se anule es condición necesaria para que X e Ysean independientes, pero no es suficiente. Las variables X ,Y no son independientes porquePX ,Y (x,y) no es separable.

177

Page 178: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

18. Enunciado:Queremos aplicar el método de aceptación-rechazo para hacer un muestreo del peso w(x) = x2

con 0≤ x≤ 1. Disponemos de generadores para tres distribuciones de probabilidad auxiliares:i) q1(x) ∝ Θ(0≤ x≤ 1),ii) q2(x) ∝ xΘ(0≤ x≤ 1),iii) q3(x) ∝ xΘ(0≤ x≤ 2).Explicar cómo se aplica el método en cada uno de los tres casos y determinar cuál de ellos esmás eficiente (suponiendo que cuesta lo mismo generar cualquiera de esas variables aleatorias).Solución:i) La distribución normalizada es

q1(x) = Θ(0≤ x≤ 1).

Queremos un K tal que Kq1(x)≥ w(x) para todo x, lo cual implica K ≥ 1 en nuestro caso. Elmétodo es1) generar un x de acuerdo con q1(x) (tenemos el generador),2) generar u uniformemente en [0,1], y3) aceptamos x si

u≤ w(x)Kq1(x)

=x2

K,

en otro caso volvemos a 1).La probabilidad de aceptación es N /K donde, para nuestra w,

N =∫

dxw(x) =∫ 1

0dxx2 =

13.

Para maximizar la probabilidad de aceptación tomamos el K mínimo: K1 = 1 y la probabilidadde aceptación es 1/3, es decir, de cada tres candidatos se acepta uno, en promedio.90

ii) En este caso, después de normalizar,

q2(x) = 2xΘ(0≤ x≤ 1).

90Demuéstrese explícitamente que 〈n〉 = 1/p siendo n el orden del candidato aceptado en un experimento conprobabilidad de aceptación p.

178

Page 179: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

La condición Kq2 ≥ w requiere K ≥ 1/2. La elección óptima es K2 = 1/2, y la probabilidadde aceptación es 2/3. Se aceptan 2 candidatos de cada 3 propuestos. Si costara lo mismogenerar con q1 o con q2 el segundo método sería más eficiente.iii) En este caso

q3(x) =12

xΘ(0≤ x≤ 2)

x se va a generar en [0,2] en vez de [0,1]. Obviamente todos los candidatos con x > 1 sevan a rechazar (ya que w se anula en ese caso). El K óptimo es K3 = 2 y la probabilidad deaceptación baja a 1/6. De los 5/6 rechazados, 3/4 son los generados en el intervalo [1,2], del1/4 restante (generados en [0,1]), se rechaza 1/3, igual que en el caso ii).

19. Enunciado:Cierto sistema puede hallarse en dos estados 1 y 2, con probabilidades p1 y p2 (p1+ p2 = 1).Queremos simularlo usando Metropolis y para hacer las propuestas se usa una probabilidadauxiliar Q(1|2) = Q(2|1) = q y Q(1|1) = Q(2|2) = 1−q siendo q un parámetro entre 0 y 1.Se pide obtener la probabilidad W (i| j) asociada y verificar que satisface balance detallado(para concretar supóngase que p1 ≥ p2). Probar que la vida media para llegar al equilibrio esτ =−1/ log |1−q/p1|.Solución:Es conveniente escribir las probabilidades de transición en forma de matriz:

W (i| j) =Wi j, Q(i| j) = Qi j

En nuestro caso son matrices 2×2, y

Q=

(1−q q

q 1−q

)Dado que ∑i Q(i| j) = 1, la suma por columnas de las matrices de transición debe ser 1 encada columna, como efectivamente ocurre. Lo mismo para Wi j.De esta observación se deduce que basta calcular W (i| j) para i 6= j. De acuerdo con elalgoritmo de Metropolis i 6= j sólo puede ocurrir si se propone un candidato i distinto delestado actual j y además se acepta. La probabilidad de que el candidato sea el otro estado esq y la probabilidad de aceptación es min(1, pi/p j):

(i 6= j) W (i| j) = qmin(1,pi

p j) =

q (i, j) = (1,2)

q p2p1

(i, j) = (2,1) ,

179

Page 180: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

teniendo en cuenta que p1 ≥ p2. Completando W (i|i) para que la suma sobre estados finalessea 1, tenemos

W =

(1−q p2

p1q

q p2p1

1−q

).

Obsérvese que si q = 1 y además p1 = p2 = 12 , W no es aperiódico y el método no va a

converger.Balance detallado requiere

Wi j p j =Wji pi, i, j = 1,2

El único caso no trivial es i 6= j

W12 p2−W21 p1 = qp2−qp2

p1p1 = 0.

También se comprueba que (p1, p2) es una solución de equilibrio del proceso:

∑j

W (i| j)p j = pi, i = 1,2

o en notación matricialWp= p, p=

(p1p2

).

Para ver el tiempo que tarda en llegar al equilibrio desde una configuración genérica (ρ1,ρ2),notemos que cada paso markoviano equivale a aplicar la matriz W sobre el vector ρ(k) delpaso k-ésimo:

ρ(k+1)i = ∑

jW (i| j)ρ(k)

j , ρ(k+1) =Wρ(k).

La matriz W tiene dos vectores propios |0〉 y |1〉 con valores propios λ0 y λ1, que forman unabase,

W |α〉= λα |α〉, ρ= c0|0〉+ c1|1〉

y en cada paso markovianoWρ= c0λ0|0〉+ c1λ1|1〉.

Después de N pasosW Nρ= c0λ

N0 |0〉+ c1λ

N1 |1〉.

Los |λα | < 1 tienden a desaparecer para N grande. (Por el contrario un autovalor |λα | > 1explotaría y no se podría llegar al equilibrio.)

180

Page 181: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Por construcción p es justamente un autovector |0〉 con autovalor λ0 = 1. El otro autovalorse puede obtener de la ecuación característica, o más fácilmente de la traza de W :

1+λ1 = ∑α

λα = tr(W ) = 2−q−qp2

p1= 2− q

p1,

es decir,λ1 = 1−q/p1.

Casos patológicos son: 1) λ1 = 1, (si q = 0), la cadena no es irreducible, y 2) λ1 = −1 querequiere q = 1, p1 = 1/2, la cadena no es aperiódica. En estos casos no se llega al equilibrioa partir de una situación genérica. En los demás casos |λ1|< 1. La evolución queda91

W Nρ= c0p+ c1λN1 |1〉,

y la componente transitoria desaparece a un ritmo |λ1|N . Si se escribe en forma decaimientoexponencial, siendo N el tiempo,

|λ1|N = e−N/τ ,1τ=− log |λ1|, τ =− 1

log(|1−q/p1|).

91De hecho c0 = 1 necesariamente (eligiendo |0〉 = p) ya que |1〉 no contribuye a la normalización, su suma porcolumnas se anula.

181

Page 182: FÍSICA MATEMÁTICA. Grupos de Lie, rotaciones, unitarios ...

Referencias

[1] A. O. Barut y R. Raczka, Theory of group representations and applications, World ScientificPublishing, 1986.

[2] S. Coleman, Aspects of Symmetry, Cambridge University Press, 1985.

[3] K. S. Lam, Topic in Contemporary Mathematical Physics, World Scientific, 2003.

[4] L. L. Salcedo, Grupos continuos, http://www.ugr.es/local/salcedo/public/mt3/curso.pdf

[5] W-K. Tung, Group Theory in Physics, World Scientific, 1985.

[6] N. Madras, Lectures on Monte Carlo Methods, The Fields Institute for Research in Mathema-tical Sciences, American Mathematical Society, 2002.

[7] J. I. Illana, Métodos Monte Carlo, http://www.ugr.es/local/jillana/Docencia/FM/mc.pdf

[8] K. Rummukainen, Monte Carlo simulation methods,http://www.helsinki.fi/∼rummukai/lectures/montecarlo_oulu/lectures/mc_notes1.pdf

[9] S. Weinzierl, Introduction to Monte Carlo methods,http://arxiv.org/pdf/hep-ph/0006269.pdf

[10] L. L. Salcedo, Integral de caminos, http://www.ugr.es/local/salcedo/public/mc2/curso.pdf

[11] http://csrc.nist.gov/groups/ST/toolkit/rng/

[12] https://gcc.gnu.org/onlinedocs/gfortran/RANDOM_005fNUMBER.html

[13] http://www.ugr.es/local/salcedo/public/fm/random_main.f

[14] L. L. Salcedo, “Existence of positive representations for complex weights,” J. Phys. A 40 (2007)9399 [arXiv:0706.4359 [hep-lat]].

182