Introdu¸cão à Otimiza¸cão - Matemática - UFSCjuliano/emalca/curso_emalca2sh.pdf ·...

Introducao a Otimizacao

Juliano B. Francisco

Universidade Federal de Santa Catarina

Departamento de Matematica

- EMALCA -

Outubro de 2007

Programa:

1. Introducao ao problema de otimizacao: Notacao, definicoes e resultados fun-damentais. Classificacao dos problemas de otimizacao.

2. Condicao de otimalidade: Condicoes necessarias e suficiente de 1a e 2a or-dem. Condicoes de Karush-Kuhn-Tucker (KKT). Dualidade em problemasde otimizacao.

3. Sistemas de equacoes nao-lineares: Metodo de Newton. Metodo Quase-Newton. Metodo de Newton inexato. Propriedades de convergencia.

4. Minimizacao irrestrita: Busca linear e backtracking. Metodos tradicionais deotimizacao (Maxima descida, Newton, Quase-Newton e Newton Inexato).

5. O metodo do gradiente-conjugado.

6. Minimizacao restrita: Metodo de barreira. Penalidade externa. Lagrangeanoaumentado.

1

Unidade I - Introducao ao problema de otimizacao

2

Notacoes:

• f : Rn → R e x =

⎛⎝ x1

...xn

⎞⎠ ∈ Rn �

∇f(x) =

⎛⎜⎝

∂f(x)∂x1...

∂f(x)∂xn

⎞⎟⎠ e ∇2f(x) =

⎛⎜⎝

∂2f(x)∂x2

1

· · · ∂2f(x)∂x1xn

... . . . ...∂2f(x)∂xnx1

· · · ∂2f(x)∂x2

n

⎞⎟⎠

• Sendo h : Rn → Rm dada por h(x) =

⎛⎝ h1(x)

...hm(x)

⎞⎠,

definimos h′(x) =

⎛⎜⎝

∂h1(x)∂x1

· · · ∂h1(x)∂xn... . . . ...

∂hm(x)∂x1

· · · ∂hm(x)∂xn

⎞⎟⎠

m×n

, denominado Jacobiano.

• Dado xk ∈ Rn �

fk ≡ f(xk), ∇fk ≡ ∇f(xk), ∇2fk ≡ ∇2f(xk), hk ≡ h(xk)

3

• A > 0 � S e simetrica definida positiva (SDP).

• A ≥ 0 � S e simetrica semi-definida positiva.

• Dado M ⊆ Rn � Ck(M) : conjunto das funcoes k vezes continuamentediferenciaveis em M.

Exemplo: f ∈ C2(Rn) � f , f ′ e f ′′ sao contınuas em Rn

• Dado x =

⎛⎝ x1

...xn

⎞⎠ � ‖x‖ ≡ ‖x‖2 =

√∑ni=1 x2

i , ‖x‖1 =∑n

i=1 |xi|

‖x‖∞ = max{|xi|, com i = 1, . . . , n}

• Dado z ∈ Rn � B(z, ε) = {x ∈ Rn tal que ‖x − z‖ < ε} (Vizinhanca aberta)

• Ω ⊆ Rn � Int(Ω) denota interior de Ω

4

O problema de otimizacao e definicoes:

Sejam Ω ⊆ Rn e f : Ω → R � Problema geral:

Minimizar f(x)sujeito a x ∈ Ω

(1)

f : Funcao objetivoΩ: Conjunto viavel (ou factıvel)x ∈ Ω: Ponto viavel (ou factıvel)

Vamos colocar algumas definicoes:

5

Definicao 1 (Mınimo global). x∗ e minimo global de (1) se f(x∗) ≤ f(x) ∀ x ∈ Ω.

Definicao 2 (Mınimo local). x∗ e minimo local de (1) se existe ε > 0 tal quef(x∗) ≤ f(x) ∀ x ∈ B(x∗, ε) ∩ Ω.

Mınimo local estrito � f(x∗) < f(x) ∀ x ∈ B(x∗, ε) ∩ Ω

6

• Relembrando... Ω ⊂ Rn compacto ⇔ fechado e limitado.

Teorema 1 (Bolzano-Weierstrass). Suponha Ω compacto e f : Ω → R contınua.Entao f admite minimizador global.

• De acordo com a geometria de Ω, o problema recebe nome especial!

7

Principal classificacao dos problemas de otimizacao:

Ω Problema

Rn minimizacao sem restricoes{x ∈ Rn | l ≤ x ≤ u} minimizacao em caixas{x ∈ Rn | Ax = b, A ∈ Rm×n} minimizacao com restricoes

lineares de igualdade{x ∈ Rn | Ax = b, Cx ≤ d} minimizacao com restricoes

lineares{x ∈ Rn | h(x) = 0, h : Rn → Rm} minimizacao com restricoes

de igualdade{x ∈ Rn | h(x) = 0, h : Rn → Rm problema geral dee g(x) ≤ 0, g : Rn → Rp} programacao nao linear

8

Unidade II - Condicoes de Otimalidade

9

• Mais algumas definicoes:

Definicao 3. Seja x∗ ∈ Ω. Uma funcao γ : [0, ε] → Ω (ε > 0) contınua tal queγ(0) = x∗ e denominada curva em Ω partindo de x∗.

Definicao 4. x∗ ∈ Ω. Uma funcao γ : [0, ε] → Ω (ε > 0) tal que γ(0) = x∗ eγ ∈ Ck(I) (I ⊇ [0, ε]) e denominada curva em Ω de classe Ck partindo de x∗.

10

Teorema 2 (Condicoes de otimalidade de primeira ordem - caso geral). Sejam x∗ ∈Ω um mınimo local de (1) e γ uma curva em Ω de classe C1 partindo de x∗. Entao∇f(x∗)Tγ′(0) ≥ 0.

Prova:

Corolario 3. Suponha Ω = Rn e x∗ ∈ Rn um mınimo local. Entao ∇f(x∗) = 0.

Prova: Exercıcio

11

Teorema 4 (Condicao necessaria de segunda ordem - caso geral). Suponha f ∈C2(Ω) e tome x∗ mınimo local de (1). Entao:

(i) ∀ γ de classe C2 partindo de x∗ tem-se que ∇f(x∗)Tγ′(0) ≥ 0.

(ii) Se ∇f(x∗)Tγ′(0) = 0, entao ϕ′′(0) ≥ 0, onde ϕ(t) = f(γ(t))).

Prova: Taylor � ϕ(t) = ϕ(0) + ϕ′(0)t + 12ϕ′′(0)t2 + o(t2)...

Definicao 5. Dado x ∈ Ω. Uma funcao γ : [−ε, ε] → Ω (ε > 0) tal que γ(0) = x eγ ∈ Ck(I) (I ⊇ [0, ε]) e denominada curva em Ω de classe Ck passando por x.

12

Teorema 5. x∗ minimizador local de (1) e γ curva de classe C1 passando por x∗.Entao ∇f(x∗)Tγ′(0) = 0.

Prova:

Corolario 6 (Condicoes necessarias de segunda ordem para x ∈ Int(Ω)). Seja x∗ ∈Int(Ω) minimizador local de (1) e f com derivadas segundas contınuas numa viz-inhanca de x∗. Entao ∇f(x∗) = 0 e ∇2f(x∗) ≥ 0.

13

Teorema 7 (Condicoes suficientes de segunda ordem para x ∈ Int(Ω)). Suponha

f ∈ C2(Ω) e seja x∗ ∈ Int(Ω) tal que ∇f(x∗)Tγ′(0) = 0 e ∇2f(x∗) > 0. Entao x∗ emınimo local de (1).

Prova: Taylor: f(x) = f(x∗) + 12(x − x∗)T∇2f(x∗)(x − x∗) + o(‖x − x∗‖2). Como

∇2f(x∗) > 0, existe a > 0 tal que

(x − x∗)T∇2f(x∗)(x − x∗) ≥ a‖x − x∗‖2.

Entao f(x) ≥ f(x∗)+a2‖(x−x∗)‖2+o(‖x−x∗‖2). Mas, como lim o(‖x − x∗‖2)/‖x − x∗‖ = 0,

existe ε > 0 tal que ∀x ∈ B(x∗, ε)

f(x) − f(x∗)‖x − x∗‖2

≥ a

4> 0,

isto e, f(x) ≥ f(x∗) ∀x ∈ B(x, ε). �

14

Restricoes de Igualdade:

Seja h : Rn → Rm e considere o problema

Minimizar f(x)sujeito a h(x) = 0

Aqui, Ω = {x ∈ Rn | h(x) = 0}.

Definicao 6. O conjunto tangente a Ω em x:

M(x) = {v ∈ Rn | v = γ′(0), para alguma curva γ em Ω passando por x}.

Lema 8. Para todo x ∈ Ω, M(x) ⊆ ker(h′(x)) . (ker(A) ≡ nucleo de A).

• A recıproca nao vale!

Exemplo: h(x1, x2) = x1x2 e x = (0,0).

M(x) = {(v1, v2) | v1v2 = 0} e h′(x) = 0. Assim, ker(h′(x)) = R2.

15

Definicao 7 (Condicao LICQ). x ∈ Ω e regular se h′(x) tem posto m (completo)({∇h1(x), . . . ,∇hm(x)} e linearmente independente).

Teorema 9. Se h ∈ C1(Ω) e x ∈ Ω e um ponto regular entao M(x) = ker(h′(x))

Prova:

Relembrando... Seja A ∈ Rm×n:

• ker(A) ⊥ R(AT) onde R(AT) = {ATx | x ∈ Rm}Assim, se v ⊥ ker(A) entao v ∈ R(AT)

16

Teorema 10. Seja x∗ ∈ Ω mınimo local regular. Entao ∇f(x∗) ⊥ ker(h′(x∗)).

Prova:

Teorema 11 (Multiplicadores de Lagrange). Seja x∗ ∈ Ω um mınimo localregular. Entao existe unico λ∗ ∈ Rm tal que ∇f(x∗) + h′(x∗)Tλ∗ = 0.

Prova:

• Se λ =

⎛⎝ λ1

...λm

⎞⎠, λi e denominado multiplicadores de Lagrange.

17

Portanto � candidatos a minizadores locais de


sao solucoes (x, λ) ∈ Rm+n do sistema de equacoes nao-lineares com m + nequacoes:

∇f(x) + h′(x)Tλ = 0h(x) = 0.

• Se (x∗, λ∗) ∈ Ω × Rm satisfaz as equacoes acima � x∗ e denominado pontoestacionario.

18

A funcao Lagrangena:

Definicao 8. Vamos definir � : Rn × Rm por

�(x, λ) = f(x) + h(x)Tλ,

denominada funcao Lagrangena ou Lagrangeano do problema

Minimizar f(x)sujeito a h(x) = 0.

(2)

• Note que se (x∗, λ∗) e um minimizador local de � entao

∇x�(x∗, λ∗) = ∇f(x∗) + h′(x∗)Tλ∗ = 0∇λ�(x∗, λ∗) = h(x∗) = 0

� Neste caso, x∗ e um ponto estacionario de (2).

(Cond. necessaria de primeira ordem para (2)).

19

� Condicoes necessarias de segunda ordem - restricoes de igualdade:

Teorema 12. Supor f, h ∈ C2(Ω). Seja x∗ mınimo local de (2) regular. Se λ∗e o vetor com os multiplicadores de lagrange entao vT∇2

xx�(x∗, λ∗)v ≥ 0, ∀ v ∈

ker(h′(x∗)).

Prova: x∗ e regular, entao M(x) = ker(h(x∗)). Seja v ∈ ker(h′(x∗)). Assim, tomeγ em Ω passando por x∗ tal que v = γ′(0). Defina ϕ(t) = f(γ(t)) e entao ϕ′′(0) =γ′(0)T∇2f(x∗)γ′(0) +∇f(x∗)Tγ′′(0) ≥ 0. Agora, definindo φi(t) = −λihi(γ(t)) ≡ 0,temos que

m∑i=1

φ′′i (0) =

m∑i=1

λiγ′(0)T∇2hi(x

∗)γ′(0) + λih′i(x

∗)γ′′(0) = 0.

Somando as duas ultimas equacoes e usando que ∇x�(x∗, λ∗) = 0, obtemos

γ′(0)T [∇2f(x∗) +m∑

i=1

λi∇2hi(x∗)]γ′(0) ≥ 0. �

� Observacao:

∇2xx�(x

∗, λ∗) = ∇2f(x∗) +m∑

i=1

λi∇2hi(x∗)

20

� Condicoes suficientes de segunda ordem - restricoes de igualdade:

Teorema 13. Supor f, h ∈ C2(Ω). Seja x∗ ∈ Ω tal que ∇x�(x∗, λ∗) (ponto esta-cionario) e vT∇2

xx�(x∗, λ∗)v > 0, ∀ v ∈ ker(h′(x∗)) . Entao x∗ e mınimo local estrito

de (2).

21

Restricoes de Desigualdade:

Seja c : Rn → Rp e considere o problema

Minimizar f(x)sujeito a c(x) ≤ 0.

• Aqui, Ω = {x ∈ Rn | c(x) ≤ 0}.

Chamamos:

• Restricoes Ativas em x � restricoes tal que ci(x) = 0

Denotamos I(x) = {i = 1, . . . , p | ci(x) = 0}.• Restricoes Inativas em x � restricoes tal que ci(x) < 0

• Ponto Regular � gradiente das restricoes ativas sao linearmente indepen-dentes (condicao LICQ).

22

• Fato: Se x∗ e mınimo local de

Minimizar f(x)sujeito a c(x) ≤ 0,

(3)

entao x∗ e mınimo local de

Minimizar f(x)sujeito a ci(x) = 0, para i ∈ I(x∗).

� Problema com restricoes de igualdade.

23

� Se x∗ mınimo local de (5) e {∇ci(x∗)}i∈I(x∗) e um conjunto linearmenteindependente, entao, para cada i ∈ I(x∗), existe μi ∈ R tal que

∇f(x∗) +∑

i∈I(x∗)

μi∇ci(x∗) = 0.

� Os multiplicadores μi apresentam uma outra propriedade!

24

• Condicoes de Karush-Kuhn-Tucker - KKT : Na equacao anterior � μi ≥ 0.

Teorema 14. x∗ mınimo local de (5) e {∇ci(x∗)}i∈I(x∗) e um conjunto linearmenteindependente, entao, para cada i ∈ I(x∗), existem unicos μi ∈ R, com μi ≥ 0 talque

∇f(x∗) +∑

i∈I(x∗)

μi∇ci(x∗) = 0.

• Ou tambem:

∇f(x∗) + c′(x∗)Tμ = 0, μ ∈ Rp,μTc(x∗) = 0, (complementariedade)

c(x∗) ≤ 0,μ ≥ 0.

25

O problema geral:

Sejam h : Rn → Rm e c : Rn → Rp e considere:


c(x) ≤ 0.(4)

Agora, Ω = {x ∈ Rn | h(x) = 0 e c(x) ≤ 0}.

Se x∗ e minimo local do problema acima � e tambem mınimo local de


ci(x) ≤ 0 para i ∈ I(x∗).

26

Condicoes KKT para o problema (4): Se x∗ e mınimo local e {∇h1(x∗), . . . ,∇hm(x∗)}∪{∇ci(x∗)}i∈I(x∗) e um conjunto linearmente independente (regular), entao existemunicos {λ}m

i=1 e {μi}i∈I(x∗) tais que

∇f(x∗) +m∑

i=1

λi∇hi(x∗) +

∑i∈I(x∗)

μi∇ci(x∗) = 0.

Ou tambem (condicoes KKT):

∇f(x∗) + h′(x∗)Tλ + c′(x∗)Tμ = 0, λ ∈ Rm e μ ∈ Rp,μTc(x∗) = 0, (complementariedade)

h(x∗) = 0c(x∗) ≤ 0,

μ ≥ 0.

• Solucao desse sistema � pontos estacionarios.

27

• Vamos definir a funcao lagrangena para (4):

�(x, λ, μ) = f(x) + h(x)Tλ + c(x)Tμ.

• Seja x∗ ∈ Ω e considere A∗ a matriz com linhas formadas por ∇hi(x∗), i =1, . . . , m, e os ∇ci(x∗), i ∈ I(x∗), excluindo os gradientes onde μj = 0.

Assim, temos os resultados:

28

� Condicoes necessarias de segunda ordem: Se x∗ ∈ Ω e mınimo local de (4)com multiplicadores λ ∈ Rm e μ ∈ Rp, entao

yT∇2xx�(x

∗, λ, μ)y ≥ 0 ∀ y ∈ ker(A∗).

� Condicoes suficientes de segunda ordem: Se x∗ satisfaz as condicoes KKTcom multiplicadores λ ∈ Rm e μ ∈ Rp, e ainda

yT∇2xx�(x

∗, λ, μ)y > 0 ∀ y ∈ ker(A∗),

entao x∗ e um mınimo local de (4).

� Observacao:

∇2xx�(x

∗, λ, μ) = ∇2f(x∗) +m∑

i=1

λi∇2hi(x∗) +

p∑i=1

μi∇2ci(x∗).

29

30

Dualidade em problemas de Otimizacao:

Considere o problema (Primal):


ci(x) ≤ 0 para i ∈ I(x∗).

• Funcao Lagrangenana: �(x, λ, μ) = f(x) + h(x)Tλ + c(x)Tμ.

Definimos o Problema Dual do problema acima como:

Maximizar �(x, λ, μ)sujeito a ∇x�(x, λ, μ) = 0,

μ ≥ 0 e λ ∈ Rm.

31

Exemplo: c ∈ Rn, A ∈ Rm×n e b ∈ Rm.

� Problema Primal:

Minimizar cTxsujeito a Ax ≤ b.

� Problema Dual:

Maximizar bTysujeito a ATy = c

y ≤ 0.

32

Definicao 9 (Conjunto Convexo). K ⊆ Rn e convexo se , ∀ x, y ∈ K e ∀ λ ∈ [0,1],

λx + (1 − λ)y ∈ K.

Definicao 10 (Funcao Convexa). K ⊆ Rn convexo. f : K → R e chamada convexase ,∀ x, y ∈ K e ∀ λ ∈ [0,1],

f(λx + (1 − λ)y) ≤ λf(x) + (1 − λ)f(y).

33

Teorema 15. Suponha que f, c sao convexas em Rn e x∗ um ponto KKT commultiplicadores de Lagrange λ∗ ∈ Rm e μ∗ ∈ Rp. Entao, (x∗, λ∗, μ∗) e solucao doDual e

f(x∗) = �(x∗, λ∗, μ∗)

34

Unidade III - Sistemas de Equacoes Nao-Lineares

35

• Seja F : Rn → Rm, com F ∈ C1(Rn).

• Objetivo: Encontrar x ∈ Rn tal que F (x) = 0 (x � zero de F ).

• Aqui,

F (x) =

⎛⎝ f1(x)

...fn(x)

⎞⎠

• Notacao:

J(x) = F ′(x) =

⎛⎝ − ∇f1(x)T −

...− ∇fn(x)T −

⎞⎠

36

Metodo de Newton:

� Taylor:

F (x) ≈ Lk(x) = F (xk) + J(xk)(x − xk)

� Escolher xk+1 solucao de Lk(x) = 0. Assim, tem-se o processo:

J(xk)sk = −F (xk)xk+1 = xk + sk

37

Metodo Quase-Newton:

• Iteracao do Newton � avaliar o Jacobiano e J(xk)sk = −F (xk) � caro!

� Substituir J(xk) por uma aproximacao Bk:

Bksk = −F (xk)xk+1 = xk + sk

• Note que sk = −B−1k F (xk) � escolher Bk tal que seja facil de inverter.

38

• Metodo de Quase-Newton pratico � Bk+1 construıdo facilmente de Bk.

• O mais simples: Bk = J(x0) para todo k � Newton estacionario

• Quase-Newton mais conhecido e usado � Metodos secantes

Ideia dos secantes:

• No passo k � conhecendo xk ∈ Rn e Bk ∈ Rn×n, aproximar F (x) por

Lk(x) = F (xk) + Bk(x − xk)

39

No passo k + 1, supor Bk+1 tal que

Lk+1(x) = F (xk+1) + Bk+1(x − xk+1)

� Impor que interpole xk e xk+1:

(i) Lk+1(xk+1) = F (xk+1) � OK!

(ii) Lk+1(xk) = F (xk)

De (ii) � definindo sk = (xk+1 − xk) e yk = F (xk+1) − F (xk)

Bk+1sk = yk (Equacao secante)

40

• Escolher Bk+1 que satisfaca a equacao secante � sistema com mais incognitasdo que equacoes

Varias escolhas possıveis para Bk � Diferentes metodos secantes!

Exemplo: Supor Bk+1 = Bk + ΔBk, com ΔBk de posto 1 � wk ∈ Rn

ΔBk =(yk − Bksk)wT

k

wTk sk

(wTk sk �= 0)

� cada escolha de wk um metodo diferente!

� wk = sk � 1o¯ Metodo de Broyden

� wk = yk − Bksk � Correcao simetrica de posto um

41

Vantagens: ΔBk tem posto um � Shermann-Morrison:

(A + uvT)−1 = A−1 − A1uvTA1

1 + vTA−1u.

Conclusao: Se Conhecemos B−1k �

Calcular o passo sk+1 = −B−1k+1F (xk) e facil! � O(n2) operacoes.

Denotando Hk = B−1k , wk = sk e usando Shermann-Morrinson �

Hk+1 = Hk +(sk − Hkyk)yT

k

yTk yk

(2o¯ Metodo de Broyden)

42

Metodo de Newton-Truncado ou Newton Inexato:

• Problema de grande porte � Newton inviavel

Ideia: Usar metodo iterativo para

J(xk)sk = −F (xk)

ate que

‖J(xk)sk + F (xk)‖ ≤ εk

fazendo εk → 0 � melhorando a precisao a cada passo.

43

• Se J(xk) > 0 � sistema linear, J(xk)sk = −F (xk), e equivalente a

Minimizar 12sTJ(xk)s + F (xk)Ts, s ∈ Rn

• Se J(xk) nao e simetrica e nao-singular entao e equivalente a

Minimizar 12‖J(xk)s + F (xk)‖2

44

Criterio de Dembo-Eisenstat e Steihaug - DES

• εk = ηk‖F (xk)‖ � Encontrar sk tal que

‖J(xk)sk + F (xk)‖ ≤ ηk‖F (xk)‖

com ηk ∈ (0,1) (ηk pode ser fixo).

� Um passo do Newton-Inexato: Dado xk ∈ Rn, encontrar sk tal que

‖J(xk)sk + F (xk)‖ ≤ ηk‖F (xk)‖

xk+1 = xk + sk

45

Propriedade de Convergencia dos Metodos

46

Tipos de convergencia: Seja {xk}k∈N ⊂ Rn com xk → x∗

• Convergencia linear: ∃ c ∈ (0,1) e k0 ∈ N tal que, ∀k ≥ k0

‖xk+1 − x∗‖ ≤ c‖xk − x∗‖.

• Convergencia superlinear: ∃ {ck} ⊂ (0,∞) com ck → 0 e k0 ∈ N tal que, ∀k ≥ k0

‖xk+1 − x∗‖ ≤ ck‖xk − x∗‖.

• Convergencia quadratica: ∃ M > 0 e k0 ∈ N tal que, ∀k ≥ k0

‖xk+1 − x∗‖ ≤ M‖xk − x∗‖2.

47

Convergencia de Algoritmos:

� Comecando com z0, o algoritmo gera {zk}k∈N ⊂ Rn (sequencia de iterados).

• Convergencia local para z∗: ∃ ε > 0 tal que, se z0 ∈ B(z∗, ε) entao zk → z∗

• Convergencia global para z∗: para qualquer z0 ∈ Rn tem-se que zk → z∗(independe de z0).

48

Hipotese: Sempre supor:

• H1 - F : Ω → Rn (Ω aberto e convexo) com F ∈ C1(Ω). Assim

limh→0

‖F (x + h) − F (x) − J(x)h‖‖h‖ = 0

• H2 - J(x) = F ′(x) e lipschitz na vizinhanca de x∗ �

‖J(x) − J(x∗)‖ ≤ L‖x − x∗‖ ∀ x ∈ B(x∗, ε)

49

• Vamos assumir x∗ ∈ Rn tal que F (x∗) = 0 e J(x∗) nao-singular.

• {xk}k∈N sequencia gerada por

Bksk = −F (xk)xk+1 = xk + sk,

para alguma sequencia {Bk}k∈N

Teorema 16 (Teorema das duas vizinhancas). Seja r ∈ (0,1). Entao existeε, δ > 0 tal que se ‖x0 − x∗‖ ≤ ε e ‖Bk − J(x∗)‖ ≤ δ para todo k ∈ N, entao asequencia esta bem definida (B−1

k existe) e

‖xk+1 − x∗‖ ≤ r‖xk − x∗‖ (convergencia linear)

50

Para demonstrar o teorema das duas vizinhancas � 3 Lemas.

Lema 17 (Lema de Banach). A ∈ Rn×n inversıvel e ‖A‖ ≤ 1. Entao (I − A) einversıvel e

1

1 + ‖A‖ ≤ ‖(I − A)−1‖ ≤ 1

1 − ‖A‖

Lema 18. Se B ∈ Rn×n satisfaz ‖B − J(x∗)‖ ≤ 1

2‖J(x∗)−1‖, entao B−1 e inversıvel

e ‖B−1‖ ≤ 2‖J(x∗)−1‖.

Lema 19 (duas vizinhancas). Para cada x ∈ Ω e B ∈ Rn×ndefina φ(x, B) =x − B−1F (x). Dado r ∈ (0,1), ∃ ε ≡ ε(r) e δ ≡ δ(r) tais que se

‖x − x∗‖ ≤ ε e ‖B − J(x∗)‖ ≤ δ,

entao φ esta bem definida e ‖φ(x, B) − x∗‖ ≤ r‖x − x∗‖.

51

Consequencias do Teorema das Duas Vizinhancas:

� Convergencia linear do Newton-estacionario:

Se � ‖x0 − x∗‖ ≤ ε e ‖J(x0) − J(x∗)‖ ≤ δ � xk → x∗

� Convergencia linear do Newton: Segue da continuidade de J �

Dado δ1 > 0, ∃ ε1 > 0 tal que se ‖y − x∗‖ ≤ ε1 ⇒ ‖J(y) − J(x∗)‖ ≤ δ1.

52

Convergencia quadratica do Metodo de Newton:

Lembrando.... � Newton: xk+1 = xk − J(xk)−1F (xk)

Teorema 20. ∃ ε, M > 0 tais que se ‖x0 − x∗‖ ≤ ε, entao a sequencia {xk}k∈N estabem definida (∃ J(xk)−1) e ‖xk+1 − x∗‖ ≤ M‖xk − x∗‖2 (conv. quadratica).

53

Convergencia do Quase-Newton:

Lembrando....

� Bk ≈ J(xk): xk+1 = xk − B−1k F (xk)

� Teorema das Duas vizinhancas:∃ δ, ε > 0 tais que se ‖x0 − x∗‖ ≤ ε e ‖Bk − J(x∗)‖ ≤ δ ⇒ Conv. linear.

Se ‖Bl − J(x∗)‖ > δ para algum l ∈ N � sem garantia de convergencia

• Atualizacao de Bk+1 a partir de Bk � garantir ‖Bk − J(x∗)‖ ≤ δ, ∀k.

54

Princıpio da deterioracao limitada - PDL: Supor ∃ c > 0 tal que Bk+1 satisfaz

‖Bk+1 − J(x∗)‖ ≤ ‖Bk − J(x∗)‖ + c‖xk − x∗‖

Teorema 21. Seja r ∈ (0,1). ∃ ε, δ > 0 tais que se ‖x0−x∗‖ ≤ ε e ‖B0 − J(x∗)‖ ≤ δ,entao {xk}k∈N de Quase-Newton esta bem definida (∃ B−1

k ) e

‖xk+1 − x∗‖ ≤ r‖xk − x∗‖.

1o¯ Metodo de Broyden satisfaz o Princıpio da Deterioracao Limitada?

Metodo de Broyden:

Bk+1 = Bk +(yk − Bksk)

sTk sk

55

• ‖Bk+1 − Bk‖ ≤ ‖B − Bk‖ ∀ B ∈ Rn×n tal que Bsk = yk.

• Infelizmente J(x∗) nao satisfaz a equacao secante. Mas,

Bk =

∫ 1

0J(xk − t(xk − xk+1))dt

satisfaz Bksk = yk.

Assim,

‖Bk+1 − Bk‖ ≤ ‖Bk − Bk‖.

Portanto,

‖Bk+1 − J(x∗)‖ ≤ ‖Bk − J(x∗)‖ + 2L‖xk − x∗‖

� Satisfaz Princıpio da Deterioracao Limitada � Conv. Linear.

56

Convergencia superlinear do Quase-Newton - Condicao de Dennis-More:

limk→∞

‖(Bk − J(x∗))sk‖‖sk‖

= 0.

Teorema 22. {xk} sequencia do Quase-Newton. Se xk → x∗ e {Bk} satisfaza Condicao de Dennis-More entao a convergencia e superlinear (‖xk+1 − xk‖ ≤rk‖xk − x∗‖ para k ≥ k0).

Observacao: Condicao de Dennis-More tambem e condicao suficiente para con-vergencia superlinear.

� Se {Bk} satisfaz a condicao de Dennis-More � Convergencia superlinear!!

57

Uma condicao sobre Bk’s para satisfazer Dennis-More:

‖(Bk − J(x∗))sk‖‖sk‖

≤ ‖Bk+1 − Bk‖ + Lmax{‖xk+1 − x∗‖, ‖xk − x∗‖}

Portanto, no quase-Newton secante, se

� xk → x∗ e

� ‖Bk+1 − Bk‖ → 0

� Convergencia superlinear.

Observacao: Prova-se que 1o¯ Metodo de Broyden satisfaz ‖Bk+1 − Bk‖ → 0 �

Conv. superlinear!!

58

Convergencia do Newton Inexato:

xk+1 = xk + pk

onde

‖J(xk)pk + F (xk)‖ ≤ ηk‖F (xk)‖

Teorema 23 (Dembo-Eisenstat-Steighaug (DES)). Seja {xk} sequencia do New-ton Inexato. Entao, ∃ ε > 0 tal que se ‖x0 − x∗‖ ≤ ε, tem-se:

(i) Se ηk ∈ [0, η], com η suficientemente pequeno ⇒ Convergencia Linear

(ii) Se ηk → 0 ⇒ Convergencia Superlinear

(iii) Se ηk ≤ M‖F (xk)‖2 ⇒ Convergencia Quadratica

59

Unidade IV - Minimizacao Irrestrita

60

Problema: f : Rn → R com f ∈ C1(Rn)

Minimizar f(x), sujeito a x ∈ Rn

• Encontrar o minimizador global � Difıcil!

� Procurar entao por mınimos locais.

Candidatos: x ∈ Rn tal que ∇f(x) = 0 � sistema nao-linear

• x∗ ∈ Rn onde ∇f(x∗) = 0: chamamos Ponto Estacionario

61

Definicao 11. d ∈ Rn e uma direcao de descida a partir de xk ∈ Rn se ∃ε > 0 talque

f(xk + td) < f(xk) ∀t ∈ (0, ε].

Lema 24. Se ∇f(xk)Td < 0 ⇒ d e direcao de descida a partir de xk

• Algumas direcoes de descida a partir de um xk ∈ Rn:

� d = −∇f(xk) � direcao de maxima descida ou Cauchy

� d = −B−1∇f(xk), com B > 0 �.

Direcao de maxima descida: d =−ε∇f(xk)

‖∇f(xk)‖e solucao de

Minimizar ∇f(xk)Td, sujeito a ‖d‖ ≤ ε

62

Poderıamos pensar no Algoritmo:

Algoritmo 1. k ← 0.

Passo1. Dado xk ∈ Rn com ∇fk �= 0, escolher dk (direcao de descida), tk > 0 talque

f(xk + tkdk) < f(xk).

Passo2. Fazer xk+1 = xk + tkdk e k ← k + 1 e voltar para o Passo 1.

� Reducao em f e modesta! � Nao garante nenhum tipo de convergencia

Exemplo: f(x) = x2 e xk = 1 +1

k

63

Condicao de Armijo:

Teorema 25. Dados xk, d ∈ Rn, com ∇f(xk)Td < 0, e α ∈ (0,1). Entao existeε > 0 tal que

f(xk + td) ≤ f(xk) + tα∇f(xk)Td, ∀ t ∈ (0, ε] (Condicao de Armijo).

64

� Trocar no Algoritmo anterior f(xk + tdk) < f(xk) pela condicao de Armijo aindanao e suficiente para garantir convergencia

Evitar ainda:

� ‖dk‖ → 0 precipitadamente;

� ∇f(xk)Tdk → 0 rapidamente

Entao, encontrar dk tal que:

(i) ‖dk‖ ≥ β‖∇fk‖, β > 0 � Evita passos pequenos

(ii) ∇fTk dk ≤ −θ‖∇fk‖‖dk‖, θ ∈ (0,1) � Evita ortogonalidade

• Armijo + (i) + (ii) � Algoritmo globalmente convergente!

65

Como obter tk ∈ (0,1] que satisfaca Armijo?

Backtracking (ou Busca Linear:)

Comecando com t = 1, reduzir gradativamente t ate encontrar tk ∈ (0,1] tal que

f(xk + td) ≤ f(xk) + tα∇f(xk)Td

• Lembrando....α ∈ (0,1)

Algoritmo 2 (Backtracking). xk, dk ∈ Rn tal que ∇f(xk)Td < 0, α, γ ∈ (0,1).Escolha t ← 1.

Passo1. Enquanto f(xk + td) > f(xk) + tα∇fTk d, faca t ← γt

Passo2. tk ← t.

66

Algoritmo 3 (Descida com Backtracking). x0 ∈ Rn, α ∈ (0,1), β > 0 e θ ∈ (0,1).k ← 0.

Para k = 0,1,2, . . .

Passo1. Escolher dk ∈ Rn tal que

‖dk‖ ≥ β‖∇f(xk)‖∇f(xk)

Tdk ≤ −θ‖∇f(xk)‖‖dk‖

Passo2. Encontre tk ∈ (0,1] pelo Backtracking e faca xk+1 = xk + tkdk

Escolhas praticas: α = 10−4 ou 10−1; θ = 10−6.

β: depende do problema

67

Observacao: O algoritmo esta bem definido: O Passo 2 termina depois de umnumero finito de passos.

• Se Bk ∈ Rn×n e SDP e dk = −B−1k ∇f(xk), entao:

(i) dTk∇f(xk) < 0 � Direcao de descida

(ii) ‖dk‖ ≥ 1‖Bk‖‖∇f(xk)‖

(iii) ∇f(xk)Tdk ≤ − 1‖Bk‖‖B−1

k ‖‖∇f(xk)‖‖dk‖.

� Portanto, se ‖Bk‖ ≤ M e ‖Bk‖‖B−1k ‖ ≤ c, temos:

� ‖dk‖ ≥ 1M‖∇f(xk)‖ (β = 1

M)

� ∇f(xk)Tdk ≤ −1c‖∇f(xk)‖‖dk‖ (θ = 1

c)

• dk = −∇f(xk) tambem satisfaz as duas condicoes.

68

Propriedade do Algoritmo de descida com backtracking:

Teorema 26. x∗ ponto de acumulacao da sequencia {xk} gerada pelo algoritmo.Entao ∇f(x∗) = 0 (ponto estacionario).

69

Metodos Tradicionais para Minimizacao Irrestrita:

� No Algoritmo de Descida com Backtracking � Escolher direcao dk

Metodo de Maxima Descida: Escolher dk = −β∇f(xk) � condicao β e θ:

‖dk‖ ≥ β‖∇f(xk)‖∇f(xk)

Tdk ≤ −θ‖∇f(xk)‖‖dk‖

Resultado: Convergencia global � independe do chute inicial x0.

Desvantagem: Convergencia geralmente lenta.

70

Metodo de Newton

• Solucao x∗ de

Minimizar f(x), sujeito a x ∈ R

satisfaz ∇f(x∗) = 0.

� Procurar por mınimos locais ou pontos estacionarios � x tal que ∇f(x) = 0� Newton para resolver este sistema nao-linear.

Ideia: Gerar sequencia {xk} de maneira que {f(xk)} seja monotona decrescente.

71

Aplicar Newton em ∇f(x) = 0: A partir de xk �

∇2f(xk)dk = −∇f(xk) (dk � Direcao de Newton)

Metodo de Newton puro: xk+1 = xk + dk

Se ∇2f(xk) > 0 � dk direcao de descida

Infelizmente nem sempre ∇2f(xk) > 0 � Solucao: encontrar μk > 0 tal que

∇2f(xk) + μkI > 0

72

Uma versao do Metodo de Newton: x0 ∈ Rn

� Se ∇2f(xk) > 0, encontre dk: ∇2f(xk)dk = −∇f(xk).

Senao, escolha μk > 0 tal que (∇2f(xk) + μkI) > 0 e encontre dk por

(∇2f(xk) + μkI)dk = −∇f(xk)

� Obter tk por Backtracking na direcao de dk e fazer xk+1 = xk + tkdk.

• Observacao: dk = −(∇2f(xk) + μkI)−1∇f(xk) → −c∇f(xk) quando μk → ∞.

� Usar dk no algoritmo de descida com backtracking: cuidar para satisfazercondicoes β e θ

73

Algoritmo 4 (Newton com Backtracking). α, θ ∈ (0,1), β > 0 e x0 ∈ Rn.

Para k = 0,1,2, . . .

Passo1. Se ∇2f(xk) > 0, escolha encontre dk: ∇2f(xk)dk = −∇f(xk).

Senao, escolha μk > 0 tal que (∇2f(xk) + μkI) > 0 e encontre dk por

(∇2f(xk) + μkI)dk = −∇f(xk)

Passo2. Se ∇f(xk)Tdk > −θ‖∇f(xk)‖‖dk‖ entao aumentar μk e repetir Passo 1.

Passo3. Se ‖dk‖ < β‖∇f(xk)‖ faca dk ← β‖∇f(xk)‖‖dk‖ dk.

Passo4. Obter tk > 0 por Backtracking tal que

f(xk + tkdk) ≤ f(xk) + αtk∇f(xk)Tdk

e fazer xk+1 = xk + tkdk.

74

Observacoes: Se eventualmente tk = 1 ∀k ≥ k0:

� Newton com Backtracking torna-se Newton para sistema nao-lineares

� convergencia quadratica para k ≥ k0

� Felizmente, sob certas hipoteses isso acontece!!

75

Teorema 27. Seja {xk} sequencia gerada pelo Newton com Backtracking:

� Todo ponto de acumulacao de {xk} e estacionario.

� Se f ∈ C3(Rn), x∗ ponto de acumulacao com ∇2f(x∗) > 0, β e θ pequenos ⇒convergencia quadratica a partir de algum k0 ∈ N.

76

Metodo de Quase-Newton:

Algumas vezes:

� Calcular a Hessina pode ser caro

� Ser inviavel resolver ∇2f(x)dk = −∇f(xk)

Ideia: Usar uma aproximacao da Hessian � Quase-Newton

Quase-Newton para o sistema nao-linear: ∇f(x) = 0 � Jacobiano aqui ∇2f(x).

77

O Quase-Newton: xk+1 = xk − tkB−1k ∇f(xk)

Equacao secante: yk = ∇f(xk+1) −∇f(xk) e sk = xk+1 − xk

Bk+1sk = yk

� Atualizar Bk+1 a partir de Bk.

• Para evitar resolver Bkdk = −∇f(xk) � Atualizar Hk+1 = B−1k+1 a partir de

Hk = B−1k

Assim:

xk+1 = xk − tkHk∇f(xk)

Observacao: Nesse caso � Equacao Secante Dual:

Hk+1yk = sk

78

Algoritmo 5 (Quase-Newton com Backtracking). β, θ ∈ (0,1), β > 0, B0 ∈Rn×n (ou H0), x0 ∈ Rn

Para k = 0,1,2, . . .

Passo1. Encontrar dk = −B−1k ∇f(xk) (ou dk = −Hk∇f(xk))

Passo2. Testar se

‖dk‖ ≥ β‖∇f(xk)‖ e ∇f(xk)Tdk ≤ −θ‖∇f(xk)‖‖dk‖,

corrigindo se necessario.

Passo3. Obter tk por Backtracking na direcao dk:

f(xk + tkdk) ≤ f(xk) + αtk∇f(xk)Tdk

Passo4. xk+1 = xk + tkdk e atualize Bk+1 (ou Hk+1) satisfazendo Bk+1sk = yk

79

Algumas atualizacoes de Bk+1:

Supor Bk+1 = Bk + ΔBk, com ΔBk = αuvT u, v ∈ Rn:

Bk+1 = Bk +(yk − Bksk)vT

sTk v

, v ∈ Rn

Cada v � Um metodo diferente

� v = sk � 1o¯ Metodo de Broyden

� v = yk − Bksk � Atualizacao Simetrica de Posto 1 (SR1)

80

No SR1:

Bk+1 = Bk +(yk − Bksk)(yk − Bksk)T

sTk (yk − Bksk)

Usando Shermann-Morrinson para posto 1: (A + uvT)−1 = A−1 − A−1uvTA−1

1 + vTA−1u

� Aplicando no SR1:

B−1k+1 = B−1

k +(sk − B−1

k yk)(sk − B−1k yk)T

yTk (sk − B−1

k yk)

81

A atualizacao BFGS (Broyden,Fletcher, Goldfarb, Shanno):

Tentar melhorar a atualizacao � posto 2 em vez de posto 1:

Bk+1 = Bk + ΔBk + ΔBk

com ΔBk e ΔBk matrizes simetricas de posto 1

� Impor equacao secante e supor ΔBksk = yk e ΔBksk = −Bksk �

Bk+1 = Bk +yky

Tk

sTk yk

− BksksTk Bk

skBksk

(BFGS)

82

Usando Shermann-Morrinson geral:

(A + UV T)−1 = A−1 − A−1U(I + V TA−1U)−1V TA−1

B−1k+1 = B−1

k +(sk − B−1

k yk)sTk + sk(sk − B−1

k yk)T

sTk yk

− (sk − B−1k yk)Tyksks

Tk

(yTk sk)2

A Atualizacao BFGS apresenta propriedades interessantes!

Teorema 28. Bk e simetrica definida positiva (SDP) e yTk sk > 0 ⇒ Bk+1 e SDP.

Prova:

83

O significado de sTk yk > 0:

Defina φ(t) = f(xk + tsk) � φ′(t) = ∇f(xk + tsk)Tsk.

Portanto, φ′(1) > φ′(0)

� f e convexa na direcao de sk ≡ tkdk.

� Se f e convexa � condicao satisfeita automaticamente

84

A convergencia do Quase-Newton com Backtracking:

Teorema 29. Seja x∗ um ponto de acumulacao da sequencia {xk} do Quase-Newton. Suponha que ∇f(x∗) = 0, ∇f(x∗) > 0 e as matrizes Bk’s satisfazem acondicao de Dennis-More:

limk→∞

‖(Bk −∇2f(x∗))sk‖‖sk‖

= 0.

entao xk → x∗ superlinearmente.

Observacao: Se limk→∞

‖Bk+1−Bk‖ → 0, entao Bk’s satisfazem a condicao de Dennis-

More.

� BFGS � convergencia superlinear

85

Metodo de Newton-Inexato:

Sistema de Newton:

∇2f(xk)dNk = −∇f(xk)

impraticavel quando ∇2f(xk) e de grande porte e esparsa

Alternativa: Aproximar por um Metodo Iterativo � Ideia do Newton-Inexato.

� Resıduo: rk = ∇2f(xk)dNk + ∇f(xk)

� Newton Inexato:

‖rk‖ = ‖∇2f(xk)dNk + ∇f(xk)‖ ≤ ηk‖∇f(xk)‖

86

Tecnicas mais eficiente que Backtracking no Newton-Inexato � Regiao de Confianca.

Algoritmo 6 (Newton-Inexato puro). x0 ∈ Rn, {ηk} ⊂ (0,1).

Para k = 0,1,2, . . .

Passo1. Encontra dk ∈ Rn ate que

‖∇2f(xk)dNk + ∇f(xk)‖ ≤ ηk‖∇f(xk)‖

Passo2. xk+1 = xk + dk

Teorema 30. Seja {xk} sequencia Newton-Inexato e x∗ ponto de acumulacaocom ∇f(x∗) = 0 e ∇2f(x∗) > 0. Entao

� Se ηk → 0 � Convergencia superlinear

� Se ηk ≤ K‖∇f(xk)‖ � Convergencia quadratica

87

Unidade V - Metodo do Gradiente Conjugado

88

• Seja H ∈ Rn×n SDP e considere

Minimizar Q(x) = cTx +1

2xTHx

Solucao x∗ resolve o sistema linear

∇Q(x∗) = Hx∗ + c = 0.

ou seja, queremos resolver

Hx∗ = −c

� Um passo de Newton resolve o problema

• Pode ser caro resolver o sistema linear por um metodo direto � aproveitara positividade de H.

89

Metodo do Gradiente (globalizado) para Q(x):

Algoritmo 7 (Gradiente para Q). Tome x0 ∈ Rn

Para k = 0,1,2, . . .

Passo1. rk = Hxk + c

Passo2. αk = argminQ(xk + αrk), com α ∈ R

Passo3. xk+1 = xk + αkrk

� Formula analıtica para αk:

αk = − rTk rk

rTk Hrk

Gradiente � Convergencia lenta, principalmente no caso mal condicionado(elipsoides alongados)

� Propriedade: rTk+1rk = 0 (Prove isto!)

• Desvantagem: Nao resolve o problema em um numero finito de iteracoes.

90

O Metodo do Gradiente Conjugado para sistemas lineares

Definicao 12. Dizemos que os vetores nao-nulos d0, d1, . . . , dk sao H-conjugadosse dT

i Hdj = 0 para i �= j.

Lema 31. Se d0, d1, . . . , dk sao H-conjugados ⇒ sao linearmente independentes.

Algoritmo 8 (Direcoes Conjugadas para Q). Tome x0 ∈ Rn e d0, d1, . . . , dn−1

direcoes H-conjugadas.

Para k = 0,1,2, . . .

Passo1. αk = argminQ(xk + αdk) = − dTk rk

dTk Hdk

,

Passo2. xk+1 = xk + αkdk

� Propriedade de convergencia importante

91

Teorema 32. Para qualquer x0 ∈ Rn o algoritmo de direcoes conjugadas convergepara a solucao x∗ de Q (Hx∗ = −c) em no maximo n iteracoes

Observacao:

� Se H e diagonal entao as direcoes H-conjugadas sao {e1, e2, . . . , ...en}

� Se H nao e diagonal � fazer mudanca de variavel (autovetores) e obterdirecoes H-conjugadas. Porem e computacionalmente caro.

� Pensar em algo mais inteligente....

92

• Defina L(d0, d1, . . . , dk) = span{d0, d1, . . . , dk}

Teorema 33. Seja {xk} sequencia do algoritmo de direcoes conjugadas. Entao

rTk di = 0, para i = 1, . . . , k − 1.

e xk minimiza Q em x0 + L(d0, d1, . . . , dk).

� Ate agora supomos que conhecemos direcoes H-conjugadas d0, d1, . . . , dk.

� Desenvolver procedimento para ir construindo as direcoes a cada passo

93

Ideia: Comecando de d0 � gerar dl a partir de dl−1, para k = 1,2, . . . , k

� Exigir pouco amazenamento e poucas contas

• Dado dk−1, contruir dk da forma

dk = −rk + βkdk−1

• Queremos dTk−1Hdk = 0 ⇒ βk =

dTk−1Hrk

dTk−1Hdk−1

� E conveniente escolher d0 = −r0 para obter direcao de descida � Algoritmodo Gradiente Conjugado

94

Algoritmo 9 (Gradiente Conjugado - Versao 1). Escolha x0 ∈ Rn e faca r0 =Hx0 + c, d0 = −r0

Para k = 0,1,2, . . .

Passo1. αk = − rTk dk

dTk Hdk


Passo3. βk+1 = −rTk+1Hdk

dTk Hdk

Passo4. dk+1 = −rk+1 + βk+1dk

Um outro resultado importante � Para isso vamos definir

K(r0, k) = span{r0, Hr0, H2r0, . . . , H

kr0} (Subespaco de Krylov de ordem k)

95

Teorema 34. Se na k-esima iteracao xk nao e solucao, entao:

(i) rTk ri = 0 para i = 1, . . . , k − 1

(ii) span{r0, r1, . . . , rk} = K(r0, k)

(iii) span{d0, d1, . . . , dk} = K(r0, k)

(iv) dTk Hdi = 0, para i = 1, . . . , k − 1.

• A partir desses resultados � melhorar o Algoritmo do Gradiente Conjugado.

96

• Do Fato que dk = −rk + βkdk−1 e rTk dk−1 = 0 temos que

rTk dk = −‖rk‖2 ⇒ αk = − rT

k dk

dTk Hdk

=‖rk‖2

dTk Hdk

• Tambem, do fato que

dk+1 = −rk+1+βk+1dk, rk+1 = rk+αkHdk, rTk+1rk = 0 e rT

k+1dk = 0

temos:

� rTk+1dk+1 = −‖rk+1‖2

� dTk+1rk = −‖rk+1‖2

Portanto, βk+1 =‖rk+1‖2

‖rk‖2

97

� Uma versao mais economica do Gradiente Conjugado:

Algoritmo 10 (Gradiente Conjugado - Versao 2). Escolha x0 ∈ Rn e facar0 = Hx0 + c, d0 = −r0

Para k = 0,1,2, . . .

Passo1. αk =‖rk‖2

dTk Hdk


Passo3. βk+1 =‖rk+1‖2

‖rk‖2

Passo4. dk+1 = −rk+1 + βk+1dk

� Excelente metodo para resolver Hx = b quando H > 0.

98

O metodo do Gradiente Conjugado nao-linear

Ate agora minimizamos uma quadratica convexa � Estender o algortimo GCpara minimizar f : Rn → R nao-linear qualquer

• Neste caso

αk+1 = argmin f(xk + αdk), com α ∈ R

βk+1 =‖∇f(xk+1)‖2

‖∇f(xk)‖2e dk+1 = −∇f(xk+1) + βk+1dk

� Algoritmo Fletcher-Reeves

99

Algoritmo 11 (Fletcher-Reeves). Escolha x0 ∈ Rn. Calcule ∇f(x0), f(x0) efaca d0 = −∇f(x0)

Para k = 0,1,2, . . .

Passo1. αk = argmin f(xk + αdk), α ∈ R


Passo3. βFRk+1 =

‖∇f(xk+1)‖2

‖∇f(xk)‖2

Passo4. dk+1 = −∇f(xk+1) + βFRk+1dk

Observacoes:

αk = argmin f(xk + αdk) ⇒ ∇f(xk+1)Tdk+1 = −‖∇f(xk+1)‖2 < 0

� Em geral, nao tem convergencia em numero finito de iteracoes.

100

• Outros metodos mudam a apenas a escolha de βk+1

� Polak-Ribiere:

βPRk+1 =

∇f(xk+1)T(∇f(xk+1) −∇f(xk))

‖∇f(xk)‖2

Alguns resultados:

� Com algumas suposicoes � convergencia globalizada de Fletcher-Reeves.

� Se f e quadratica convexa e a busca de αk e exata � Fletcher-Reeves ePolak-Ribiere sao iguais.

� Vantagem: Nao precisa da Hessiana

101

Unidade VI - Minimizacao Restrita

102

Metodo de Barreira

Considere o problema:

Minimizar f(x),sujeito a c(x) ≥ 0

(5)

em que f, c sao contınuas, f : Rn → R e c : Rn → Rm

• Vamos definir

Ω = {x ∈ Rn | g(x) ≥ 0} e Ωo = {x ∈ Rn | g(x) > 0}

� Supor Ω limitado

� Ideia: Resolver (5) por subsequencia de subproblemas irrestritos.

103

Seja B : Ωo → R tal que

� B(x) esta definida e contınua em Ωo B(x) ∈ C2(Ωo);

� B(x) ≥ 0 ∀ x ∈ Ωo

� Se {xk} ⊆ Ωo e limk→∞ c(xk) = 0 ⇒ B(xk) → ∞

� B(x) e denomina Funcao Barreira

Metodo de Barreira: dado t > 0, resolver o problema por uma sequencia:

Minimizar f(x) + tB(x), sujeito ax ∈ Rn

• Q(x, t) = f(x) + tB(x) � Funcao minimizada no subproblema

104

Algoritmo 12 (Barreira). t1 > 0, xs0 ∈ Ωo

Para k = 1,2, . . .

Passo1. Calcular xk ≡ xk(tk) solucao (global) de

Minimizar f(x) + tkB(x), sujeito ax ∈ Rn

usando chute inicial xsk−1

Passo2. Escolher xsk e tk+1 ∈ (0, tk) (tk+1 ← tk/10).

Observacoes:

(a) Passo 2 � Algoritmo de minimizacao irretrita

(b) Para cada t > 0 � x(t) define curva em Ωo

(Caminho Central ou Trajetoria Central)

105

Exemplos de funcoes barreiras:

� Funcao Barreira inversa � B(x) =m∑

i=1

1

c(x)

� Funcao Barreira logaritmica � B(x) = −m∑

i=1

log(ci(x))

Observacao: Note que B(x) = −m∑

i=1

log(ci(x)) nao satisfaz B(x) ≥ 0 ∀ x ∈ Ωo

• Mas no caso que Ω e limitado esta condicao nao faz diferenca!

� ∃ M > 0 tal que B(x) = −m∑

i=1

log(ci(x)) − M > 0 ∀ x ∈ Ωo

106

� B e uma funcao barreira

• Assim, fixado t > 0,

Minimizar f(x) + tB(x) ≡ Minimizar f(x) − t

m∑i=1

log(ci(x))

Lembrando....

xk = argmin f(x) + tkB(x) ≡ Q(x, tk)

107

Exemplos:

Minimizar x,sujeito a x ∈ [0,1].

Funcao (Q(x, t) = x−t(log(x)+log(1−x))) para t = 1, t = 0.4, t = 0.1 e t = 0.01

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

5

6Parametro de barreira = 1, 0.4, 0.1, 0.01

108

Minimizar (x1 + 0.5)2 + (x2 − 0.5)2,sujeito a x1, x2 ∈ [0,1].

Funcao (Q(x, t) = (x1 + 0.5)2 + (x2 − 0.5)2 − t(log(x1) + log(1 − x1) + log(x2) +log(1 − x2)))

Problema • Para t = 1

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Parametro de barreira = 1

109

• Para t = 0.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Parametro de barreira = 0.1

0 0.2 0.4 0.6 0.8 1

00.2

0.40.6

0.81

0.5

1

1.5

2

2.5

3

3.5

Superficie: Parametro de barreira = 0.1

110

• Para t = 0.01

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Parametro de barreira = 0.01

111

Propriedades do Metodo de Barreira:

Lema 35. Seja {xk} sequencia gerada pelo algoritmo de barreira. Entao

(i) Q(xk+1, tk+1) ≤ Q(xk, tk)

(ii) B(xk) ≤ B(xk+1)

(iii) f(xk+1) ≤ f(xk)

Teorema 36. Se limk→∞

tk = 0 e x∗ ponto limite de {xk}, entao x∗ e mınimo global.

Observacao: Calcular o mınimo global em cada subproblema e uma tarefa difıcil!

� Se xk e estacionario de Q(x, tk) � pode-se provar que o ponto de acumulacaox∗ e estacionario do problema original.

112

Desvantagens:

• Considere Q(x, tk) = f(x) − tk

∑mi=1 log(ci(x))

� ∇Q(xk, tk) = ∇f(xk) −∑m

i=1tk

ci(xk)∇ci(xk)

� tk

ci(x)faz papel dos multiplicadores

� Prova-se que tk

ci(xk)→ μ∗

i (multiplicador)

Assim,

∇xxQ(xk, tk) = ∇2f(xk) −m∑

i=1

tk

ci(xk)∇2ci(xk)︸︷︷︸

≈ ∇2xx�(x,λ∗)

+n∑

i=1

tk

ci(xk)︸︷︷︸≈ λ∗

i

1

ci(xk)∇ci(xk)∇ci(xk)

T

Quando ci(xk) → 0 o segundo somatorio domina � ∇xxQ(xk, tk) torna-semal condicionada

113

Metodo de Penalizacao Externa:

• Usado tanto com restricoes de igualdade como desigualdade, mas vamos con-siderar somente igualdade.

Sejam f : Rn → Rm e h : Rn → Rm e considere o problema:


• Definimos Ω = {x ∈ Rn | h(x) = 0}

Funcao de Penalidade: P : Rn → R satisfazendo

P (x) =

{0, se x /∈ Ω

> 0, se x ∈ Ω

114

Ideia: Dado ρ > 0 � Resolver o problema por uma sequencia de subproblemas:

Minimizar f(x) + ρP (x), sujeito a x ∈ Rn

• ρ: parametro de penalidade � vai aumentando gradativamente

Funcao de penalidade mais usada: P (x) = 12‖h(x)‖2

� O subproblema temos que resolver

Minimizar f(x) +ρk

2‖h(x)‖2

115

Exemplo: Minimizar x1 + x2 sujeito a x21 + x2

2 − 2 = 0

Funcao de Penalizada Quadratica: Q(x, ρ) = x1 + x2 + ρ2(x2

1 + x22 − 2)2

Problema • ρ = 1

−3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5Parametro penalidade = 1

116

• ρ = 10 • Funcao penalizada

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5Parametro penalidade = 0.1

117

Algoritmo 13 (Penalidade Externa). Tome ρ1 > 0 e x0 ∈ Rn

Para k = 1,2, . . .

Passo1. Comecando com chute xk−1, encontrar xk ≡ xk(ρ) solucao (global) de

Minimizar f(x) + ρkP (x)

Passo2. Escolher ρk+1 ≥ ρk

118

Resultados teoricos:

Defina Q(x, ρ) = f(x) + ρP (x)

Lema 37. Seja {xk} sequencia gerada pelo algoritmo de penalizacao. Suponhaque xk solucao global do subproblema. Entao

(i) Q(xk, ρk) ≤ Q(xk+1, ρk+1)

(ii) P (xk+1) ≤ P (xk)

(iii) f(xk+1) ≤ f(xk)

Lema 38. Se x∗ solucao global do problema original, entao ∀ k

f(xk) ≤ Q(xk, ρk) ≤ f(x∗)

Corolario 39. Se xk ∈ Ω (viavel) ⇒ xk e solucao do problema.

119

Teorema 40. Seja {xk} sequencia do algoritmo de penalizacao, com cada xk

mınmo global do subproblema. Suponha que ρk → ∞ e x∗ ponto de acumulacaode {xk}. Entao x∗ e mınimo global do problema.

120

Algumas consideracoes:

• Se Q(xk, ρk) = f(xk) + ρk

2‖h(xk)‖2

� ∇xQ(xk, ρk) = ∇f(xk) + h′(xk)T(ρkh(xk))

Por outro lado:

∇x�(xk, λk) = ∇f(xk) + h′(xk)Tλk

� ρkh(xk) faz o papel dos multiplicadores de Lagrange

Resultado que pode ser provado: Se h ∈ C1(R), {xk} → x∗ (solucao global) eh′(x∗) tem posto completo ⇒ ρkh(xk) → λ∗, que e o vetor de multiplicadoresassociado a x∗.

121

Problemas da penalizacao:

Temos que

∇xxQ(xk, ρk) = ∇2f(xk) +m∑

i=1

ρkhi(xk)∇2hi(xk) +m∑

i=1

ρk∇hi(xk)∇hi(xk)T

Entao,

∇xxQ(xk, ρk) = ∇2xx�(xk, ρkhi(xk)) + ρkh

′(xk)Th′(xk)

• Quando ρk torna-se grande � h′(xk)Th′(xk) (singular) domina ⇒ ∇xxQ(xk, ρk)torna-se mal condicionada.

122

Metodo de Lagrangeano Aumentado

• Contornar mal condicionamento do metodo de penalidade quadratica.

Considere o problema


(≡ Minimizar �(x, λ)

sujeito a h(x) = 0

)

Ideia: Em vez de penalizar f(x), penaliza-se �(x, λ) � Defina

�A(x, λ, ρ) = f(x) + λTh(x) +ρ

2‖h(x)‖2 (Funcao Lagrangeana Aumentada)

Observacao: ∇x�A(x, λ, ρ) = ∇f(x) + h′(x)(λ + ρh(x))

� (λ + ρh(x)) faz o papel dos multiplicadores de Lagrange.

123

• Se xk aproximacao da solucao e λk aproximacao dos multiplicadores

∇xx�A(xk, λk, ρk) = ∇2f(xk) +m∑

i=1

(λk + ρkhi(xk))∇2hi(xk)︸︷︷︸∇xx�(xk,λk+ρkh(xk),ρk)

+ρkh′(xk)

Th′(xk)

� λk+1 = λk + ρkh(xk) e uma nova aproximacao para os multiplicadores

Ideia do algoritmo: Dados xk−1, λk e ρk > 0, encontrar xk solucao de

Minimizar �A(x, λk, ρk), sujeito a x ∈ Rn

e atualizar λk+1 = λk + ρkh(xk)

124

Exemplo: Minimizar x1 + x2 sujeito ax21 + x2

2 − 2 = 0 (λ∗ = 0.5)

Funcao Lagrangeana Aumentada: �A(x, λk, ρk) = x1+x2+λk(x21+x2

2−2)+ 12ρ(x2

1+

x22 − 2)2

• λk = 0.4 e ρ = 1 • λk = 0.4 e ρ = 10

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5Parametro de Lagrangeano aumentado = 1 e lambda = −0.4

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5Parametro de Lagrangeano aumentado = 0.1 e lambda = −0.4

125

Algoritmo 14 (Lagrangeano Aumentado). Tome x0 ∈ Rn, λ1 ∈ Rm e ρ1 > 0

Para k = 1,2, . . .

Passo1. Comecando com xk−1, encontrar xk solucao de

Minimizar f(x) + λTk h(x) +

ρk

2‖h(x)‖2, sujeito a x ∈ R

n

Passo2. Faca xk+1 = xk, escolha ρk+1 ≥ ρk e atualize λk+1 = λk + ρkh(xk)

� As propriedades de convergencia dos Lagrangeano Aumentado sao as mesmasda Penalizacao quadratica

126

- FIM -

127

Introdu¸cão à Otimiza¸cão - Matemática - UFSCjuliano/emalca/curso_emalca2sh.pdf ·...

Documents

Transcript of Introdu¸cão à Otimiza¸cão - Matemática - UFSCjuliano/emalca/curso_emalca2sh.pdf ·...