[go: up one dir, main page]

0% encontró este documento útil (0 votos)
30 vistas142 páginas

Apunte 2ed

Este documento presenta un apunte sobre optimización no lineal. Cubre temas como existencia de soluciones, caracterizaciones de estas, y métodos iterativos para aproximar soluciones óptimas. También incluye ejemplos de problemas de optimización relevantes y funciones con valores en el conjunto extendido de los reales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
30 vistas142 páginas

Apunte 2ed

Este documento presenta un apunte sobre optimización no lineal. Cubre temas como existencia de soluciones, caracterizaciones de estas, y métodos iterativos para aproximar soluciones óptimas. También incluye ejemplos de problemas de optimización relevantes y funciones con valores en el conjunto extendido de los reales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 142

U NIVERSIDAD T ÉCNICA F EDERICO S ANTA M AR ÍA

A PUNTE M AT 279
curso obligatorio de la carrera
I NGENIER ÍA C IVIL M ATEM ÁTICA

O PTIMIZACI ÓN NO L INEAL .


2da Edición

. Luis BRICEÑO • Cristopher HERMOSILLA .

Departamento de Matemática
Diciembre 2021
Prefacio

Este apunte ha sido redactado con la finalidad de proveer a estudiantes de los programas de In-
genierı́a de la Universidad Técnica Federico Santa Marı́a con herramientas básicas de Optimización
No Lineal1 . Estas notas cubren aspectos generales de la optimización en espacio abstracto, ası́ como
resultados más especı́ficos para espacios vectoriales normados. Los contenidos cubren resultados de
existencia de soluciones, caracterizaciones de estas, criterios analı́ticos para encontrarlas (condicio-
nes de optimalidad) y también métodos iterativos para aproximar soluciones óptimas.
Las notas aquı́ presentadas fueron organizadas de forma tal de cubrir los contenidos del curso
Optimización No Lineal (MAT279) que imparte regularmente el Departamento de Matemática de la
Universidad Técnica Federico Santa Marı́a. Este curso es parte de la malla de la carrera Ingenierı́a
Civil Matemática, y como tal requiere herramientas abstractas de Análisis. Sin embargo, todos los
resultados expuestos en el apunte han sido escritos de forma general, por lo cual cualquier estudiante
de ingenierı́a con un conocimiento básico en Análisis en Rn y Álgebra Lineal puede comprender el
material expuesto en estas notas.
Esta es la segunda versión del apunte, y pese a que muchos errores tipográficos fueron corregidos,
aún pueden quedar algunos. Todo posible error que el lector pueda encontrar en las notas es de nuestra
exclusiva responsabilidad. Agradecemos hacer llegar comentarios y observaciones a cualquiera de
los autores.

Luis BRICEÑO Cristopher HERMOSILLA


Campus San Joaquı́n • Casa Central
Santiago Valparaı́so

1 El término No Lineal debe ser entendido en este contexto como No Necesariamente Lineal.

I
Notación básica

Conjuntos básicos
R Números Reales.
Rn Conjunto de n-tuplas de Números Reales.
R ∪ {+∞} Números Reales (superiormente) extendidos.
N Números Naturales
Mn×m (R) Matrices a coeficientes reales de dimensión n × m
Sn Matrices reales simétricas de dimensión n
Sn+ (R) Matrices reales simétricas semi-definidas positivas de dimensión n
Sn++ (R) Matrices reales simétricas definidas positivas de dimensión n

Conjuntos Genéricos
X Espacio ambiente
S Conjunto de restricciones
BX (x, r) Bola cerrada de radio r > 0 y centro x ∈ X de un espacio métrico (X, d)
BX Bola cerrada unitaria de un espacio vectorial normado (X, k · k)
int S interior de S
S adherencia de S

Conjuntos Especiales
dom( f ) Dominio efectivo de f : X → R ∪ {+∞}
epi( f ) Epı́grafo de f : X → R ∪ {+∞}
Γγ ( f ) Conjunto de subnivel de f : X → R ∪ {+∞} y parámetro γ ∈ R
arg mı́nX ( f ) Conjunto de mı́nimos de f : X → R ∪ {+∞}

Normas
s y productos internos
n
|x| = ∑ xi2 Norma Euclideana de x = (x1 , . . . , xn ) ∈ Rn
i=1
k·k Norma de un espacio vectorial arbitrario X
n
x> y = ∑ xi yi Producto interno de x = (x1 , . . . , xn ) ∈ Rn e y = (y1 , . . . , yn ) ∈ Rn
i=1
h·, ·i Producto interno de un espacio Euclideano arbitrario X

Operadores funcionales
∇f Gradiente de f : X → R ∪ {+∞}
D f (x)(·) Diferencial de Gâteaux de f : X → R ∪ {+∞} en x ∈ X
∇2 f Matriz Hessiana de f : Rn → R ∪ {+∞}
D2 f (x)(·, ·) Segundo Diferencial de Gâteaux de f : X → R ∪ {+∞} en x ∈ X

III
Índice general

Prefacio I

Notación básica III

Índice General V

1. Introducción a la Optimización 1
1.1. Clases de problemas de optimización destacados . . . . . . . . . . . . . . . . . . . 2
1.1.1. Programación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. Programación semidefinida . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3. Optimización Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.4. Control Óptimo en tiempo discreto . . . . . . . . . . . . . . . . . . . . . . 3
1.1.5. Cálculo de Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.6. Control Óptimo en tiempo continuo . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Problemas industriales de actualidad . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Compresión y recuperación de imágenes . . . . . . . . . . . . . . . . . . . 4
1.2.2. Mercado de uso de suelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Funciones a valores en R ∪ {+∞} . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1. Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2. Convenciones algebraicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Semicontinuidad inferior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. Existencia de mı́nimos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1. Caso especial: Espacios Métricos . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.2. Caso especial: Espacios Vectoriales Normados . . . . . . . . . . . . . . . . 16
1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

I Optimización No Lineal: Teorı́a Global 23


2. Teorı́a general 25
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. Ejemplos de problemas convexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Problemas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.2. Problema lineal cuadrático - tiempo discreto . . . . . . . . . . . . . . . . . . 26
2.2.3. Problema lineal cuadrático - tiempo continuo . . . . . . . . . . . . . . . . . 26
2.3. Minimización convexa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1. Funciones convexas y semi-continuidad inferior . . . . . . . . . . . . . . . . 27
2.3.2. Unicidad de minimizadores . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

V
Índice General

3. Optimización convexa diferenciable 35


3.1. Criterios de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1. Comentarios sobre la diferenciabilidad en el sentido de Gâteaux . . . . . . . 37
3.2. Criterios de orden superior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3. Regla de Fermat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1. Aplicación a problemas cuadráticos . . . . . . . . . . . . . . . . . . . . . . 41
3.4. Principio Variacional de Ekeland . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5. Métodos de descenso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.1. Método del Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.2. Método del Gradiente conjugado . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.3. Método de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4. Optimización convexa no diferenciable 59


4.1. Subdiferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.1. Cono Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.2. Relación con diferenciabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.1.3. Reglas de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2. Condiciones de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.1. Aplicación a la Programación Convexa . . . . . . . . . . . . . . . . . . . . 70
4.3. Aproximación de Moreau-Yosida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.1. Método de Punto Proximal . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4. Método del Gradiente Proximal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

II Optimización No Lineal: Teorı́a Local 85


5. Optimización irrestricta 87
5.1. Mı́nimos locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Condiciones necesarias de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1. Condiciones de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.2. Condiciones de segundo orden . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.3. Condiciones suficientes de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4. Métodos de Direcciones de Descenso . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.4.1. Direcciones de descenso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4.2. Reglas de Búsqueda Lineal inexactas . . . . . . . . . . . . . . . . . . . . . 94
5.4.3. Convergencia del Método de Direcciones de Descenso . . . . . . . . . . . . 98
5.4.4. Método de Newton-Raphson y Quasi-Newton . . . . . . . . . . . . . . . . . 99
5.4.5. Fórmula explı́citas para Quasi-Newton . . . . . . . . . . . . . . . . . . . . . 105
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6. Optimización restricta 109


6.1. Problema de Optimización No Lineal General . . . . . . . . . . . . . . . . . . . . . 109
6.1.1. Condiciones de Optimalidad de primer orden . . . . . . . . . . . . . . . . . 110

VI
Índice General

6.2. Programación Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111


6.2.1. Cono Linealizante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.2.2. Condiciones de Calificación . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.2.3. Teorema de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . . 117
6.2.4. Condiciones de Segundo Orden . . . . . . . . . . . . . . . . . . . . . . . . 118
6.3. Métodos de Penalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.3.1. Lagrangiano Aumentado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.3.2. Barrera Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

VII
CAPÍTULO 1
Introducción a la Optimización

El objetivo central de este curso es estudiar problemas de optimización:

(P) Minimizar f (x) sobre todos los x ∈ X que satisfacen la restricción x ∈ S.

En nuestro contexto X será un espacio dotado con alguna topologı́a T , la función f : X → R será
un criterio a minimizar, el cual llamaremos función objetivo y el conjunto S ⊆ X representará las
restricciones impuestas sobre el problema de interés.
El valor numérico que toma el problema (P) está dado por

val (P) = ı́nfS ( f ) := ı́nf { f (x) | x ∈ S},


x∈X

el cual queda bien definido si adoptamos la convención val (P) = +∞ := sup{R} para el caso S = 0. /
Por otra parte, una solución del problema (P) será llamada óptimo o mı́nimo, y corresponderá a un
punto x̄ ∈ X que verifique la condición

f (x̄) ≤ f (x) para todo x ∈ X tal que x ∈ S.

Una solución óptima del problema (P) se dirá estricto si la condición anterior se tiene con desigualdad
estricta para todos los puntos diferentes al mı́nimo, es decir

f (x̄) < f (x) para todo x ∈ X tal que x ∈ S \ {x̄}.

En caso de haber un óptimo, y para para enfatizar la existencia de éste, el valor numérico que
toma el problema (P) se escribirá

val (P) = mı́nS ( f ) := mı́n{ f (x) | x ∈ S}.


x∈X

El conjunto de soluciones del problema (P) se denotará por

sol (P) = arg mı́nS ( f ) := {x ∈ S | f (x) = val (P)}.

En este capı́tulo nos enfocaremos en la existencia de mı́nimos para el problema (P) en un contexto
abstracto, es decir, en criterios para determinar que el conjunto sol (P) sea no vacı́o. En particular,
estudiaremos la noción de semicontinuidad inferior y algunas nociones de compacidad.

Observación 1.1. Notemos que supS ( f ) := supx∈X { f (x) | x ∈ S} = −ı́nfS (− f ). Por lo tanto la
teorı́a que desarrollaremos en este curso puede ser igualmente aplicada a problemas donde se busca
maximizar la función objetivo en vez de minimizarla, tomando en cuenta el cambio de signo descrito
anteriormente. Formulaciones del tipo maximización aparecen tı́picamente en Economı́a.

1
Clases de problemas de optimización destacados Capı́tulo 1

1.1. Clases de problemas de optimización destacados


Antes de continuar con la teorı́a, revisaremos algunos problemas de optimización cuyas estruc-
turas los hacen fácilmente reconocibles.

1.1.1. Programación lineal


Esta clase de problemas busca minimizar una función objetivo lineal sobre el espacio X = Rn
n
f (x) = c> x = ∑ ci xi
i=1
donde c ∈ Rn , y sujeto a un conjunto de restricciones que se pueden escribir como poliedros
S = {x ∈ Rn | Ax ≤ b, x ≥ 0},
con A ∈ Mn×m (R), una matriz a coeficientes reales de dimensión n × m, y b ∈ Rm .
Problemas de este estilo aparecen frecuentemente en economı́a, donde la función objetivo repre-
senta un costo o bien una utilidad (visto como problema de maximización).

1.1.2. Programación semidefinida


Esta clase de problemas es el análogo de la programación lineal sobre el espacio vectorial de
matrices simétricas de dimensión n, que denotamos por Sn (R). Se busca minimizar una función
objetivo lineal
n
f (X) = tr(CX) = ∑ Ci j Xi j
i, j=1
con C ∈ Sn (R) sujeto a un conjunto de restricciones que se pueden escribir como
S = {X ∈ Sn (R) | tr(Ai X) = bi , i = 1, . . . , m, X  0},
con A1 , . . . , Am ∈ Sn (R), matrices dadas y b1 , . . . , bm ∈ R. La notación X  0 para X ∈ Sn (R) significa
que X es semi-definida positiva.

1.1.3. Optimización Espectral


Muchas veces, cuando se trabaja con matrices, es más importante conocer sus valores propios
que la matriz misma. La optimización espectral corresponde a problemas donde la función objetivo
depende de los valores propios de una matriz y no directamente de la matriz. Al igual que en el caso
anterior, el problema se plantea sobre el espacio Sn (R). Recordemos que si X ∈ Sn (R), entonces sus
n valores propios son Reales. Esto permite definir la función espectral λ : Sn (R) → Rn por
λ(X) = (λ1 (X), . . . , λn (X))
donde λ1 (X) ≥ . . . ≥ λn (X) son valores propios de X ordenados de forma decreciente. Luego un
problema de optimización espectral corresponde a minimizar una función objetivo del tipo
f (X) = g ◦ λ(X) = g(λ(X)) = g(λ1 (X), . . . , λn (X))
con g : Rn → R alguna función dada.

2
Capı́tulo 1 Introducción a la Optimización

1.1.4. Control Óptimo en tiempo discreto


Esta clase de problemas, el primero en dimensión infinita que mencionaremos, consiste en mini-
mizar un funcional cuyo argumento es una sucesión generada por una regla de recurrencia inductiva
xk+1 = φ(xk , uk ), ∀k ∈ N,
donde φ : Rn × Rm → Rn es un campo vectorial dado. El problema consiste en minimizar, para un
cierto costo g : Rn × Rm y factor de descuento λ ≥ 0, un funcional del tipo

f ({xk }, {uk }) = ∑ e−λk g(xk , uk )
k=1

En este caso, los espacio naturales para estudiar el problema son X = ` p (Rn )×`q (Rm ), donde `r (RN )
es el espacio de la sucesiones {ak } en RN tales que la siguiente serie converge

∑ |ak |r < +∞.
k=0

1.1.5. Cálculo de Variaciones


Esta clase de problemas, también de dimensión infinita, consiste en minimizar un funcional cuyo
argumento es una curva en el espacio x : [a, b] → Rn :
Z b
f (x) = L(t, x(t), ẋ(t))dt,
a
donde L : [a, b] × Rn × Rn es una función llamada Lagrangiano. El espacio natural para plantear tales
problemas es X = ACn [a, b], el espacio espacio de la curvas absolutamente continuas, es decir las
funciones x : [a, b] → Rn que satisfacen, para ciertos ξ1 , . . . , ξn ∈ R y v1 , . . . , vn ∈ L1 [a, b]
Z t
xi (t) = ξi + vi (s)ds, ∀t ∈ [a, b], ∀i = 1, . . . , n.
a
Problemas de Cálculo de Variaciones, tı́picamente buscan minimizar el costo integral descrito
anteriormente, sujeto a que los puntos extremos de las trayectorias están previamente prescritos, es
decir, para ciertos α, β ∈ Rn , el conjunto de restricciones está dado por
S = {x ∈ ACn [a, b] | x(a) = α, x(b) = β}.
Esta clase de problemas de optimización aparecen muchas veces en mecánica, donde x representa la
trayectoria de una partı́cula en el espacio y ẋ su velocidad.
Mencionamos también una clase particular de problemas de Cálculo de Variaciones, donde además
de la restricción sobre los puntos extremos de la trayectoria, se considera una restricción integral del
estilo Z b
g(t, x(t), ẋ(t)) = c.
a
Estos problemas se conocen como problemas isoperimétricos y su nombre está motivado por proble-
mas en el plano R2 donde el largo de la curva está fijo, es decir:
Z bq
(ẋ1 (t))2 + (ẋ2 (t))2 dt = c.
a

3
Problemas industriales de actualidad Capı́tulo 1

1.1.6. Control Óptimo en tiempo continuo


Esta clase de problemas son una extensión de los problemas de Cálculo de Variaciones y co-
rresponden a problemas donde la velocidad de las trayectorias están determinada por una ecuación
diferencial ordinaria que dependen de un parámetro (el control). Más aún, el funcional a ser minimi-
zado puede considerar costos explı́citos sobre los puntos extremos, es decir, en Control Óptimo se
busca minimizar un funcional del tipo
Z b
L (t, x(t), u(t))dt + g(x(a), x(b))
a

sujeto a una restricción dinámica sobre la velocidad

ẋ(t) = φ(t, x(t), u(t)), y u(t) ∈ U ⊆ Rm c.t.p t ∈ [a, b]

donde u : [a, b] → Rm es una función medible, llamada control o input. En este caso tenemos que
L : [a, b] × Rn × Rm → R es una función de costo acumulativa mientras que g : Rn × Rn → R es una
función de costo sobre los puntos extremos de la trayectoria.
Bajo condiciones estándar, la ecuación diferencial está bien puesta, en el sentido que cada función
medible u : [a, b] → Rm produce una única solución si la condición inicial está dada. Lo que implica,
en principio, que el espacio natural para buscar mı́nimos es el conjunto de funciones medibles valores
en el conjunto U ⊆ Rm . Este espacio tiene pocas propiedades topológicas favorables, lo cual no lo
hace un buen candidato para plantear los problemas de control. En cursos más avanzados se verá que
tal dificultad puede ser salvada usando teoremas de selección y una formulación equivalente sobre el
espacio X = ACn [a, b].

1.2. Problemas industriales de actualidad


Ahora mencionaremos algunos problema de optimización que son actualmente utilizados en apli-
caciones industriales de interés práctico. Estos problemas serán en particular nuestra principal moti-
vación para estudiar métodos numéricos en capı́tulos más avanzados.

1.2.1. Compresión y recuperación de imágenes


Consideremos una imagen de n × m pixeles (con N = nm grande) en escala de grises representada
por una matriz X̄ ∈ Mn×m ([0, 255]), donde para todo i ∈ {1, . . . , n} y j ∈ {1, . . . , m}, la componente
(i, j) de la matriz X̄, denotada X̄i j representa la intensidad de luminosidad del pixel (i, j), que puede
variar entre 0 (negro) y 255 (blanco).
La imagen se quiere comprimir a través de una matriz conocida A ∈ M p×N (R) de modo que
z := Ax̄ ∈ R p es la imagen comprimida (p  N), donde x̄ ∈ RN es un vector que representa a la
matriz X̄ via la relación

x̄n( j−1)+i = X̄i j , ∀i ∈ {1, . . . , n}, j ∈ {1, . . . , m}.

Luego el problema de recuperación de imágenes consiste en encontrar una buena aproximación de x̄,
conociendo z, bajo supuestos a priori sobre x̄.

4
Capı́tulo 1 Introducción a la Optimización

Se dice que la imagen original es parsimoniosa (sparse en inglés) en alguna base ortonormal
v1 , . . . , vN (llamada wavelet), si x̄ = ∑N
i=1 yi vi , pocos yi no nulos. Muchas imágenes son parsimoniosas
en algunas bases de wavelets, lo que indica que la imagen puede ser muy bien representada a través
de pocos elementos de la base. Notar que si F ∈ MN×N (R) es la matriz cuadrada que tiene como
columnas los vectores ortonormales v1 , . . . , vN , se tiene que x̄ = Fy, con y = (y1 , . . . , yN ) y F > = F −1 ,
de donde y = F > x̄.
Si suponemos que la imagen x̄ es parsimoniosa con respecto a v1 , . . . , vN , entonces el vector
y = F > x̄ tiene muchas componentes nulas lo que significa que
kyk0 := |{i ∈ {1, . . . , N} : yi 6= 0}|
es un número pequeño. Por lo tanto, una manera de aproximar x̄ es considerar el problema
Minimizar kF > xk0 sobre todos los x ∈ RN que satisfacen la restricción Ax = z.
Como la función x 7→ kxk0 tiene malas propiedades, una relajación ampliamente usada en restau-
ración de imágenes consiste en usar la norma kyk1 = ∑N
i=1 |yi |, de donde se obtiene el problema

Minimizar kF > xk1 sobre todos los x ∈ RN que satisfacen la restricción Ax = z.


A su vez, una forma de aproximar el problema anterior es usar penalización del tipo
1
Minimizar kF > xk1 + |Ax − z|2 sobre todos los x ∈ RN .
λ
donde λ > 0 es un parámetro que modela cuánta preferencia al ajuste Ax = z se tiene sobre la parsi-
monia de F > x. La ventaja de este último problema es que no tiene restricciones adicionales.

1.2.2. Mercado de uso de suelo


Consideremos una ciudad con n zonas y m tipos de hogares que buscan localizarse, indexados
por i ∈ {1, . . . , n} y h ∈ {1, . . . , m}, respectivamente. Para cada zona i ∈ {1, . . . , n} y tipo de hogar
h ∈ {1, . . . , m}, denotamos Si la oferta inmobiliaria en la zona i y Hh el número de hogares de tipo h
que buscan localizarse. Por simplicidad, supondremos que el mercado está en equilibrio, es decir, que
hay tantas casas disponibles como hogares a localizarse en la ciudad. Esto se representa en términos
matemáticos como sigue:
n m
∑ Si = ∑ Hh,
i=1 h=1
Por otra parte, supondremos que se conocen las preferencias de cada tipo de hogar en cada zona.
Más precisamente, tenemos acceso a Chi que es una medida de utilidad percibida por un hogar tipo
h ∈ {1, . . . , m} en la zona i ∈ {1, . . . , n}. En este problema se busca una localización de hogares en
zonas tal que se maximice la utilidad total de los hogares y se satisfagan las restricciones de oferta y
demanda. Más precisamente, el problema es
 n m


 Maximizar ∑ ∑ Chi Xhi sobre los X ∈ Mm×n (R)


 i=1 h=1
tales que ∑ni=1 Xhi = Hh , ∀h = 1, . . . , m
∑mh=1 Xhi = Si , ∀i = 1, . . . , n





Xi j ≥ 0, ∀i = 1, . . . , n, , ∀h = 1, . . . , m.

5
Funciones a valores en R ∪ {+∞} Capı́tulo 1

La componente Xhi de la matriz X ∈ Mm×n (R) representa en este caso la cantidad de hogares
tipo h que se localizan en la zona i. Este es problema se puede formular como un problema de
programación lineal y puede ser resuelto por el método simplex. Las soluciones de este tipo de
problemas se encuentran en los extremos del poliedro que generan las restricciones lineales y son
altamente sensibles a los valores de las utilidades de la matriz C, pudiendo pasar Xhi de 0 a Hh si
Chi pasa de no ser el máximo valor entre Ch1 , . . . ,ChN a serlo, por ejemplo. En el caso en que existe
incertidumbre en la estimación de las utilidades, en la literatura es ampliamente utilizado agregar una
penalización entrópica, obteniendo el problema
 n m
1
Maximizar ∑ ∑ ChiXhi + λ Xhi(log(Xhi) − 1) sobre los X ∈ Mm×n(R)




i=1 h=1

 tales que ∑ni=1 Xhi = Hh , ∀h = 1, . . . , m
∑m

h=1 Xhi = Si , ∀i = 1, . . . , n

La función X 7→ − ∑ni=1 ∑m h=1 Xhi (log(Xhi ) − 1) está muy relacionada con la entropı́a de Shannon
que mide el nivel de incertidumbre de variables aleatorias. Esta modificación permite evitar grandes
cambios de la solución a modificaciones menores de las variables Chi . Este problema será objeto de
estudio en este curso.

1.3. Funciones a valores en R ∪ {+∞}


En el análisis que llevaremos a cabo en la primera parte del curso será conveniente considerar
funciones cuyos valor pertenecen a la recta Real (superiormente) extendida R ∪ {+∞} = (−∞, +∞]
y no solamente en R = (−∞, +∞). La principal ventaja de hacer esto se describe a continuación:
Definamos δS : X → R ∪ {+∞}, la función indicatriz del conjunto S, via
(
0 x ∈ S,
δS (x) :=
+∞ x ∈ / S.

Usando la convención
α + (+∞) = (+∞) + α = +∞, ∀α ∈ R
tenemos que
val (P) = ı́nf { f (x) + δS (x)}.
x∈X

De esta manera, el problema (P) se puede formular como un problema sin restricciones, pero con una
función objetivo a valores en la recta Real extendida. Esto permite tratar problemas de optimización
abstracta de una forma unificada, independiente del conjunto de restricciones S, cuya información
estará incluida implı́citamente en la función objetivo.

1.3.1. Definiciones básicas


El estudio de problemas de optimización con funciones objetivo a valores en la recta Real ex-
tendida debe ser manejado con cuidado. En particular, nuevas definiciones y convenciones tienen

6
Capı́tulo 1 Introducción a la Optimización

que ser introducidas. Por ejemplo, dada una función f : X → R ∪ {+∞}, su dominio efectivo es el
conjunto
dom( f ) := {x ∈ X | f (x) < +∞}.
Además, diremos que f : X → R ∪ {+∞} es propia si dom( f ) 6= 0./
En lo que sigue, y a menos que se diga otra cosa, asumiremos que la función objetivo tiene
valores sobre la recta Real extendida, es decir, f : X → R ∪ {+∞}. Además, obviaremos la presencia
de restricciones, las cuales asumiremos se encuentran implı́citamente definidas en la estructura de la
función objetivo via la relación
S = dom( f ).
Bajo estas circunstancias tendremos que

ı́nfX ( f ) := val (P) = ı́nf { f (x) | x ∈ dom( f )} y arg mı́nX ( f ) := sol (P).
x∈X

1.3.2. Convenciones algebraicas


Dados α > 0 y funciones f , g : X → R ∪ {+∞}, para darle sentido a la expresión f + αg introdu-
cimos la siguientes reglas algebraicas en R ∪ {+∞} que generalizan las conocidas en R:

1. (+∞) + α = α + (+∞) = +∞, para todo α ∈ R ∪ {+∞}.

2. α · (+∞) = (+∞) · α = +∞, para todo α > 0.

3. 0 · (+∞) = (+∞) · 0 = 0.

Observación 1.2. Bajo estas condiciones el producto no es continuo en el sentido que si αk → α


and βk → β, con α, β ∈ R ∪ {+∞}, uno no tiene necesariamente que αk βk → αβ.

1.4. Semicontinuidad inferior


Hasta el momento no hemos necesitado mayor estructura sobre el espacio X, pero a partir de
este punto si lo haremos. Como mencionamos al comienzo, trabajaremos inicialmente en el contexto
abstracto de espacios topológicos. Más tarde nos enfocaremos a espacios vectoriales normados.
Recuerdo: Espacios topológicos

Una colección T de subconjuntos de X es una topologı́a (sobre X) si: X, 0/ ∈ T y además


verifica las siguientes propiedades:

A1 , A2 ∈ T =⇒ A1 ∩ A2 ∈ T .
[
∀α ∈ Λ, Aα ∈ T =⇒ Aα ∈ T .
α∈Λ

En tal caso, llamamos a los elementos de T abiertos y al par (X, T ) un espacio topológico.
Los conjuntos que son el complemento de un abierto son los llamados cerrado de T .

7
Semicontinuidad inferior Capı́tulo 1

Consideremos una función a valores en la recta Real extendida f : X → R ∪ {+∞}, el conjunto


de nivel inferior (o subnivel) de parámetro γ ∈ R está dado por

Γγ ( f ) := {x ∈ X | f (x) ≤ γ}.

Definición 1.1. Sea (X, T ) un espacio topológico. Una función f : X → R ∪ {+∞} se dice semicon-
tinua inferior respecto a la topologı́a T (abreviado T -s.c.i. o simplemente s.c.i. si la topologı́a es
clara del contexto) si y sólo si todos sus conjuntos de nivel inferior son cerrados, es decir,

Γγ ( f ) es cerrado para la topologı́a T , ∀γ ∈ R.

La semicontinuidad inferior se estudia en ciertos cursos usando un enfoque puntual, es decir, se


define para cada punto; esto contrasta con Definición 1.1 que está escrita como propiedad global de
la función. En particular, puede ser familiar al lector la siguiente definición para funciones definidas
sobre los números reales: f : R → R es semicontinua inferior en x ∈ R si y sólo si

f (x) ≤ lı́m inf f (y) := sup ı́nf { f (x) | y ∈ (x − ε, x + ε)} .


y→x ε>0 y∈R

Veremos ahora que este criterio, y otros más, son definiciones equivalentes para la semicontinuidad
inferior de una función. Definimos el epı́grafo de una función a valores sobre la recta Real extendida
f : X → R ∪ {+∞} como el subconjunto de X × R dado por

epi( f ) := {(x, λ) ∈ X × R | f (x) ≤ λ}.

R +∞ +∞

epi(f )

Γγ (f )

X
dom f

Figura 1.1: Subniveles y epı́grafo de una función

8
Capı́tulo 1 Introducción a la Optimización

Usando un poco de abuso de notación, dado un espacio topológico (X, T ), denotamos por Tx la
familia de vecindades abiertas que contiene a un punto x ∈ X, es decir

A ∈ Tx ⇐⇒ A ∈ T ∧ x ∈ A.

Proposición 1.1. Sea (X, T ) un espacio topológico y f : X → R ∪ {+∞} una función dada. Las
siguientes afirmaciones son equivalentes:
(i) f es T -s.c.i. .

(ii) ∀γ ∈ R, {x ∈ X | f (x) > γ} ∈ T .

(iii) ∀x ∈ X, f (x) ≤ lı́m inf f (y) := sup ı́nf f (y)


y→x A∈Tx y∈A

(iv) ∀x ∈ X, ∀γ < f (x), ∃Aγ ∈ Tx tal que ∀y ∈ Aγ tenemos que f (y) > γ.

(v) epi( f ) es cerrado para la topologı́a T × TR , donde TR es la topologı́a usual de R.


Demostración. La demostración se descompone en varias partes:
(i) ⇐⇒ (ii) Trivial, por definición.

(ii) =⇒ (iii) Sea x ∈ X y γ ∈ (−∞, f (x)) tenemos que A = {y ∈ X | f (y) > γ} ∈ Tx ya que
A ∈ T por (ii) y x ∈ A. De este modo γ ≤ lı́m infy→x f (y). Como lo anterior es válido para todo
γ < f (x), hacemos γ → f (x) y concluimos el resultado.

(iii) =⇒ (iv) Sea x ∈ X y γ ∈ (−∞, f (x)). Por (iii), tenemos que γ < sup ı́nf f (y). Usando la
A∈Tx y∈A
definición del supremo tenemos que existe A ∈ Tx tal que γ < ı́nf f (y), de donde concluimos
y∈A
fácilmente.

(iv) =⇒ (v) Tomemos (x, λ) ∈ / epi( f ), lo que equivale a λ < f (x). Consideremos γ ∈ R tal que
λ < γ < f (x). Luego (iv) implica la existencia de Aγ ∈ Tx tal que ∀y ∈ Aγ , f (y) > γ, de modo
que (y, γ) ∈
/ epi( f ). Se sigue que Aγ × (−∞, γ) y epi( f ) son disjuntos, y como Aγ × (−∞, γ) es
un abierto para la topologı́a T × TR que contiene al punto (x, λ), concluimos que X \ epi( f ) es
abierto, y por lo tanto epi( f ) es cerrado.

(v) =⇒ (i) Como Γγ ( f ) × {γ} se puede escribir como la intersección de epi( f ) con X × {γ},
deducimos que Γγ ( f ) × {γ} es cerrado en X × R, y de aquı́ que Γγ ( f ) es cerrado.

Ejemplo 1.4.1. Consideremos la función f : R → R ∪ {+∞} definida por


(
0 si x ∈ [−1, 1]
f (x) =
+∞ si no

Notemos que epi( f ) = [−1, 1] × [0, +∞), este último siendo un conjunto cerrado de R2 , implica que
f es s.c.i.. Notemos además que Γγ ( f ) = [−1, 1] si γ ≥ 0 y Γγ ( f ) = 0/ si γ < 0, siendo en ambos casos
conjuntos cerrados de R.

9
Existencia de mı́nimos Capı́tulo 1

1.5. Existencia de mı́nimos


Junto con la semicontinuidad inferior, el segundo ingrediente básico para la existencia de mı́ni-
mos en los problemas de minimización abstracta es una propiedad conocida como inf-compacidad.
Recuerdo: Conjuntos compactos

Sea (X, T ) un espacio topológico. Un conjunto K ⊆ X se dice compacto si cualquier recubri-


miento abierto de K admite un sub-recubrimiento finito, es decir, si {Aα }α∈Λ es una colección
de conjuntos abiertos de X tenemos

[ n
[
K⊆ Aα =⇒ ∃α1 , . . . , αn ∈ Λ tal que K ⊆ A αk .
α∈Λ k=1

Una manera equivalente de enunciar la compacidad es a través de la propiedad de intersección


finita (FIP por sus siglas en inglés). Se dice que una familia de conjuntos F = (Fα )α∈Λ satis-
face la FIP si y sólo si para todo subconjunto finito de ı́ndices I ⊂ Λ se tiene ∩α∈I Fα 6= 0.
/ Se
puede probar que K es compacto si y sólo si toda familia de subconjuntos cerrados de K que
satisfacen la FIP tiene intersección no vacı́a, i.e.,
(
(∀(Fα )α∈Λ subconjuntos cerrados de K)
(1.1) K es compacto ⇔
[(∀I ⊂ Λ finito) ∩α∈I Fα 6= 0/ ⇒ ∩α∈Λ Fα 6= 0]./

En espacios de dimensión finita el Teorema de Heine-Borel da un criterio simple para la com-


pacidad
K ⊆ Rn es compacto ⇐⇒ K es cerrado y acotado.
Este criterio se mantiene en espacios de Banach de dimensión infinita pero para las topologı́as
débiles. El criterio falla para las topologı́as generadas por normas.

Definición 1.2. Sea (X, T ) un espacio topológico. Una función f : X → R ∪ {+∞} se dice T -inf-
compacta (o simplemente inf-compacta si la topologı́a es clara del contexto) si todos sus conjuntos
de nivel inferior son relativamente compactos para la topologı́a T , es decir,

∀γ ∈ R, Γγ ( f ) es compacto en X para la topologı́a T .

Notemos que si f : X → R ∪ {+∞} es T -s.c.i. entonces que la función sea inf-compacta para la
topologı́a T equivale a requerir que cada Γγ ( f ) sea compacto.
Con estas definiciones en mano podemos enunciar el teorema básico de existencia de mı́nimos.
Teorema 1.1 (Weierstrass-Hilbert-Tonelli I). Sea (X, T ) un espacio topológico, f : X → R ∪ {+∞}
una función propia T -s.c.i. y T -inf-compacta. Entonces, ı́nfX ( f ) ∈ R y arg mı́nX ( f ) 6= 0.
/
Demostración. Sea v̄ = ı́nfX ( f ). Notemos que v̄ ∈ R ∪ {−∞}, puesto que dom( f ) es no vacı́o. Sea
x0 ∈ dom( f ) y definamos γ0 = f (x0 ). Luego tenemos que v̄ ≤ γ0 y además
\ \
arg mı́nX ( f ) = Γγ ( f ) = Γγ ( f )
γ∈(v̄,+∞) γ∈(v̄,γ0 )

10
Capı́tulo 1 Introducción a la Optimización

pues Γα ( f ) ⊆ Γβ ( f ), si α ≤ β. Como f es T -s.c.i., Γγ ( f ) es compacto por la inf-compacidad de f .


En particular, por la definición de v̄ como ı́nfimo tenemos que {Γγ ( f )}v̄<γ<γ0 es una familia de sub-
conjuntos compactos y no vacı́os del compacto Γγ0 ( f ). Más aún, esta familia satisface la propiedad
de intersecciones finitas. En efecto, dados γ1 , ..., γn ∈ R, con γ = mı́n{γ1 , ..., γn } > v̄ tenemos que

n
\
Γγi ( f ) = Γγ ( f ) 6= 0.
/
i=1

Γγ ( f ) 6= 0.
T
Por compacidad concluimos la demostración puesto que tenemos entonces que /
γ∈(v̄,γ0 )

Observación 1.3. El Teorema 1.1 de Weierstrass-Hilbert-Tonelli se conoce también como Teorema


de Minimización de Weierstrass y sigue siendo válido si en lugar de la T -inf-compacidad suponemos
que ∃γ0 > ı́nfX ( f ) tal que Γγ0 ( f ) es relativamente compacto. Por ejemplo, definamos f : R → R por
x2
f (x) = 1+x 2 . Es fácil ver que Γγ ( f ) es compacto si y sólo si γ < 1 y Γ1 ( f ) = R de modo que no es
inf-compacta pero sı́ tiene un mı́nimo (x̄ = 0). Ver Figura 1.2.

y=1
f (x) = γ < 1
Γγ (f )

Figura 1.2: Función de asociada a Observación 1.3

1.5.1. Caso especial: Espacios Métricos

Veremos una versión especializada para espacios métricos del teorema de Weierstrass-Hilbert-
Tonelli. Más aún, mostraremos una nueva técnica para demostrar dicho teorema conocida como
Método Directo, que fue iniciada por Hilbert y luego desarrollada por Tonelli.
Primero que todo, veamos que la semicontinuidad inferior, al igual que la continuidad, puede ser
caracterizada usando sucesiones.

11
Existencia de mı́nimos Capı́tulo 1

Recuerdo: Espacio métricos y conjuntos cerrados

Una métrica sobre un conjunto X es una función d : X × X → [0, +∞) que satisface:

d(x, y) = 0 si y sólo si x = y, para cada x, y ∈ X.

d(x, y) = d(y, x) para cada x, y ∈ X.

d(x, y) ≤ d(x, z) + d(z, y) para cada x, y, z ∈ X.

En tal caso, el par (X, d) se dice espacio métrico, el cuál es también un espacio topológico. La
topologı́a canónica inducida por la métrica, denotada Td , viene dada por

A ∈ Td ⇐⇒ ∀x ∈ A, ∃ε > 0 tal que BX (x, ε) ⊆ A,

donde BX (x, ε) := {y ∈ X | d(x, y) < ε} es la bola abierta de centro x ∈ X y radio ε > 0.


Los conjuntos cerrado en espacio métrico se pueden caracterizar fácilmente usando sucesio-
nes. En efecto, si (X, d) es un espacio métrico, tenemos que

B ⊆ X es cerrado ⇐⇒ ∀{xk } ⊆ B tal que xk → x, se tiene que x ∈ B,

donde xk → x significa que para todo ε > 0 existe k0 ∈ N tal que xk ∈ BX (x, ε) para cada k ≥ k0 .

Proposición 1.2. Sea (X, d) un espacio métrico y Td la topologı́a generada por la métrica. Sea
f : X → R ∪ {+∞} una función dada. Luego, f es Td -s.c.i. si y sólo si

∀x ∈ X, ∀{xk } ⊆ X : xk → x =⇒ f (x) ≤ lı́m inf f (xk ) := sup ı́nf f (xl ).


k→+∞ k∈N l≥k

Demostración. Sea x ∈ X y A ∈ Tx . Luego existe ε > 0 tal que BX (x, ε) ⊆ A y por lo tanto, dada una
sucesión {xk } ⊆ X tal que xk → x, tenemos que existe k0 ∈ N para el cual lo siguiente es cierto

ı́nf f (y) ≤ ı́nf f (y) ≤ ı́nf f (xl ) ≤ sup ı́nf f (xl ) = lı́m inf f (xk )
y∈A y∈BX (x,ε) l≥k0 k∈N l≥k k→+∞

Como el lado derecho no depende de A ∈ Tx , podemos tomar supremo sobre estos conjuntos para
obtener
lı́m inf f (y) ≤ lı́m inf f (xk ).
y→x k→+∞

Luego si f es Td -s.c.i., por Proposición 1.1, obtenemos la condición necesaria. Para la otra implican-
cia demostremos que epi( f ) es cerrado en X × R para la topologı́a Td × TR , la cual también tiene la
estructura de espacio métrico. La conclusión entonces estará dada por la Proposición 1.1.
Sea {(xk , λk )} ⊆ epi( f ) tal que xk → x ∈ X y λk → λ ∈ R. Sigue que

(∀k ∈ N) f (xk ) ≤ λk ,

y el resultado se sigue de tomar lı́m infk→+∞ a ambos lados de la desigualdad y usar la hipótesis.

12
Capı́tulo 1 Introducción a la Optimización

Usando la caracterización de semicontinuidad inferior para espacios métricos vista recientemente


podemos presentar una nueva demostración del Teorema de Weierstrass-Hilbert-Tonelli, especializa-
da para este caso. Esta técnica es lo que se conoce como el método directo en optimización y se basa
en el hecho que la compacidad en espacios métricos puede ser caracterizada a través de subsucesio-
nes y puntos de acumulación.
Recuerdo: Espacios secuencialmente compactos

Sea (X, T ) un espacio topológico. Un subconjunto K ⊆ X se dice secuencialmente compacto


si toda sucesión {xk } ⊆ K tiene un punto de acumulación en K, es decir, existe una subsucesión
de {xk } que converge a un punto en K. En el caso X = Rn , el Teorema de Bolzano-Weierstrass
establece una relación entre la compacidad y la compacidad secuencial:

∀K ⊆ Rn : K es compacto ⇐⇒ K es secuencialmente compacto.

Un importante resultado en análisis es que el teorema de Bolzano-Weierstrass puede ser gene-


ralizado a espacio métrico, es decir, al caso que T es una topologı́a inducida por una métrica.

Teorema 1.2 (Weierstrass-Hilbert-Tonelli II). Sea (X, d) un espacio métrico, Td la topologı́a gene-
rada por la métrica y f : X → R ∪ {+∞} una función Td -s.c.i.. Supongamos que ∃γ0 > ı́nfX ( f ) tal
que Γγ0 ( f ) es relativamente compacto. Entonces, ı́nfX ( f ) ∈ R y arg mı́nX ( f ) 6= 0.
/

Demostración. Construimos primero una sucesión {xk } minimizante para f , es decir, una sucesión
tal que f (xk ) → ı́nfX ( f ) con xk ∈ Γγ0 ( f ) para todo k ∈ N. Como ı́nfX ( f ) > −∞, la definición de
ı́nfimo implica la existencia de una sucesión (xk )k∈N de X tal que

γ0 − ı́nfX ( f )
(∀k ∈ N) ı́nf( f ) ≤ f (xk ) ≤ ı́nfX ( f ) + .
X k+1
Por otra parte, si ı́nfX ( f ) = −∞ tomamos xk ∈ X tal que f (xk ) ≤ mı́n{−k, γ0 } (a posteriori veremos
que este caso no puede ocurrir). Notemos que el caso ı́nfX ( f ) = +∞ está descartado pues
dom( f ) es no vacı́o. Luego, tenemos que xk ∈ X,

f (xk ) → ı́nfX ( f ) y además f (xk ) ≤ γ0 .

En particular, xk ∈ Γγ0 ( f ), que es relativamente compacto. Se sigue que, por el Teorema de Bolzano-
Weiertrass, podemos extraer una subsucesión de {xkl } que converge (en la topologı́a Td ) a algún
punto x̄ ∈ X. Además, notemos que f (xkl ) → ı́nfX ( f ) y por la semicontinuidad inferior tenemos

ı́nfX ( f ) ≤ f (x̄) ≤ lı́m f (xkl ) = ı́nfX ( f ).


l→∞

De aquı́ concluimos que ı́nfX ( f ) > −∞ y f (x̄) = ı́nfX ( f ).

Caso particular de las topologı́as débiles


Unos casos importantes de mencionar donde el método directo funciona sin necesidad de que el
espacio (X, T ) sea metrizable es cuando (X, k · k) es un espacio de Banach, pero la topologı́a usada

13
Existencia de mı́nimos Capı́tulo 1

para la semicontinuidad inferior y la inf-compacidad es una topologı́a con menos abiertos que la
generada por la norma (una topologı́a débil).

Recuerdo: Espacios de Banach

Un X espacio vectorial sobre R, se dice normado si (X, d) es un espacio métrico para alguna
métrica, y esta última satisface d(x, y) = kx − yk para cada x, y ∈ X, donde k · k : X → [0, +∞)
es una función llamada norma que verifica los siguientes axiomas:

kxk = 0 si y sólo si x = 0.

kλxk = |λ|kxk para cada x ∈ X y λ ∈ R.

kx − yk ≤ kx − zk + kz − yk para cada x, y, z ∈ X.

En tal caso, el par (X, k · k) se dice espacio vectorial normado. Además, (X, k · k) será un espa-
cio de Banach si X es un espacio completo, es decir, toda sucesión de Cauchy en X converge.

Los casos de interés mencionados anteriormente son cuando la topologı́a sobre X es: (i) la to-
pologı́a débil inducida por un espacio de Banach reflexivo, o bien, (ii) la topologı́a débil-? sobre X
visto como el dual topológico de otro espacio de Banach.

Recuerdo: Dual topológico y reflexividad

El dual topológico de un espacio de Banach (X, k · k), denotado X∗ , es el espacio vectorial de


los funcionales lineales continuos definidos sobre X a valores en R. Este espacio es a su vez
un espacio de Banach dotado de la norma dual

kx∗ k∗ = sup{|hx∗ , xi| | kxk ≤ 1},


x∈X

con hx∗ , xi = x∗ (x) siendo el producto de dualidad usual entre X y X∗ .


Sea X∗∗ el dual topológico de X∗ y consideremos J : X → X∗∗ definido via

J(x)(x∗ ) = hx∗ , xi, ∀x ∈ X, ∀x∗ ∈ X∗ .

El funcional J es la inyección canónica de X en X∗∗ (es de hecho una isometrı́a inyectiva).


Un espacio de Banach se dice reflexivo si J es sobreyectivo en X∗∗ , es decir, si X y X∗∗ son
isométricamente isomorfos (X ∼= X∗∗ ) a través de la inyección canónica.

Topologı́a débil: Recordemos las definiciones de la topologı́a débil y de espacios separables.

14
Capı́tulo 1 Introducción a la Optimización

Recuerdo: Topologı́as débiles y Teorema de Kakutani

Consideremos un espacio de Banach (X, k · k). La topologı́a débil en X, denotada σ(X, X∗ ),


es la topologı́a menos fina (con menos abiertos) que mantiene la continuidad de la familia de
funciones (h x∗ , · i)x∗ ∈X∗ . Se puede probar que A ∈ σ(X, X∗ ) si y sólo si

∀x ∈ A, ∃x1∗ , . . . , xn∗ ∈ X∗ , ∃ε > 0, {y ∈ X | |hxi∗ , y − xi| < ε, ∀i = 1, . . . , n} ⊆ A.

Una sucesión {xk } en X converge débilmente a x ∈ X si

xk −−−* x ⇐⇒ hx∗ , xk i −−−→ hx∗ , xi, ∀x∗ ∈ X∗ .


k→∞ k→∞

Lema 1.1 (Teorema de Kakutani). Sea (X, k · k) un espacio de Banach. X es reflexivo si y sólo
si BX es compacta en la topologı́a débil de X.

Recuerdo: Separabilidad

Un espacio topológico (X, T ) se dice separable si existe un subconjunto numerable D ⊆ X tal


que D es denso en X, es decir, la cerradura de D coincide con X.

Cabe señalar que, en el caso en que X es de dimensión finita, la topologı́a débil y la topologı́a de
la norma (o fuerte) son equivalentes. En efecto, la inclusión σ(X, X∗ ) ⊂ Tk·k es clara de la definición
pues con Tk·k la familia de funcionales lineales continuos es continua y σ(X, X∗ ) es la topologı́a con
menos abiertos que logra lo mismo. Para la inclusión recı́proca, supongamos por simplicidad y sin
perder generalidad que X = Rn y k·k = k·k∞ : x 7→ máxi=1,...,n |xi | (pues las normas son equivalentes),
sea A ∈ Tk·k y sea x ∈ A. Como las bolas son una base de Tk·k , existe ε > 0 tal que BRn (x, ε) ⊂ A.
Fijando x1∗ , . . . , xn∗ como los vectores canónicos de Rn , se tiene que si y ∈ Rn cumple
(1.2) (∀i ∈ {1, . . . , n}) |yi − xi | = |h xi∗ , y − x i| < ε,
se tiene y ∈ BRn (x, ε) ⊂ A y luego A ∈ σ(X, X∗ ). Notemos que la última inclusión es sólo válida en
dimensión finita, ya que si la dimensión de X fuese infinita, no se puede incluir en una bola una
intersección finita de “franjas” del tipo
∩ni=1 {y ∈ X | |hxi∗ , y − xi| < ε},
ya que es un conjunto no acotado.
Supongamos que (X, k · k) es un espacio de Banach reflexivo. En dimensión infinita, sabemos
la topologı́a débil σ(X, X∗ ) no es metrizable. Sin embargo, aún podemos extraer una subsucesión
convergente de una sucesión acotada. Basta considerar Y = Y0 con Y0 el espacio vectorial generado
por la sucesión {xk }. Es fácil ver que Y también es un espacio de Banach reflexivo y con lo cual
BY := {y ∈ Y | kyk ≤ 1}, la bola unitaria cerrada en Y, es compacta para la topologı́a débil gracias al
Teorema de Kakutani. Más aún, como Y es separable y reflexivo, su dual topológico Y∗ es separable
y reflexivo, por lo que, BY es metrizable.

Topologı́a débil-?: En este caso algo similar a lo anterior sucede. Sin embargo, la separabilidad
del espacio es fundamental. Supongamos que (X, k · k) es un espacio de Banach, no necesariamente

15
Existencia de mı́nimos Capı́tulo 1

reflexivo. La afirmación anterior es una consecuencia del Teorema de Banach-Alaoglu y del hecho
que la bola unitaria dual es metrizable si y sólo si X es separable. En particular, si X es separable,
entonces cada sucesión acotada en X∗ admite una subsucesión convergente débilmente-?.
Recuerdo: Topologı́as débiles-? y Teorema de Banach-Alaoglu

Sea (X, k · k) un espacio de Banach y X∗ su dual topológico. La topologı́a débil-? en X∗ ,


denotada σ(X∗ , X), es la colección de subconjuntos A ⊆ X∗ que satisfacen la propiedad

∀x∗ ∈ A, ∃x1 , . . . , xn ∈ X, ∃ε > 0, {y∗ ∈ X | |hy∗ − x∗ , xi i| < ε, ∀i = 1, . . . , n} ⊆ A.

Una sucesión {xk∗ }n∈N en X∗ converge débilmente-? a x∗ ∈ X∗ si


?
xk∗ −−−* x∗ ⇐⇒ hxk∗ , xi −−−→ hx∗ , xi, ∀x ∈ X.
k→∞ k→∞

Lema 1.2 (Teorema de Banach-Alaoglu). Sea (X, k·k) un espacio de Banach. La bola unitaria
del espacio dual X∗
BX∗ := {x∗ ∈ X∗ | kx∗ k∗ ≤ 1}
es compacta en la topologı́a débil-? en X∗ .

1.5.2. Caso especial: Espacios Vectoriales Normados


Veremos ahora un criterio válido en espacios vectoriales normados para la inf-compacidad de
una función dada.

Definición 1.3. Sea (X, k · k) un espacio vectorial normado. Una función f : X → R ∪ {+∞} se dice
coerciva si y sólo si para todo λ > 0 existe r > 0 tal que para todo x ∈ X con kxk > r tenemos que
f (x) > λ, es decir,
lı́m f (x) = +∞.
kxk→∞

Ejemplo 1.5.1. Consideremos p ∈ N y la función f p : R → R dada por

f p (x) = x p , ∀x ∈ R

Luego, tenemos que f p es coerciva si y sólo si p es par y p 6= 0. En efecto, si p = 0, entonces f p (x) = 1


para todo x ∈ R y por lo tanto no puede ser coerciva. Por otro lado, si p > 0 es par, entonces

f p (x) = x p = |x| p ≥ |x|, ∀x ∈ R tal que |x| ≥ 1.

Finalmente, si p > 0 es impar tenemos que p − 1 es par

f p (x) = x p = |x| p−1 x, ∀x ∈ R.

De aquı́ obtenemos que f p no puede ser coerciva pues

lı́m f p (x) = −∞.


x→−∞

16
Capı́tulo 1 Introducción a la Optimización

Caso dimension finita


Si (X, k · k) es de dimensión finita, entonces que una función f : X → R ∪ {+∞} sea inf-compacta
es equivalente a que la función f sea coerciva. Esto es consecuencia del Teorema de Riesz que dice
que todo subconjunto acotado en un espacio vectorial normado es relativamente compacto si y sólo
si el espacio es de dimensión finita.

Caso dimension infinita


En el caso de la dimensión infinita, las topologı́as que están asociadas a la coercividad son las
débiles, ya sea σ(X, X∗ ) o bien σ(X∗ , X), según corresponda.
Veamos ahora algunos casos:

Supongamos que (X, k · k) se puede identificar con el dual topológico de algún espacio de
Banach (Y, k · kY ), es decir, X ∼
= Y∗ y

kxk = sup{hy, xi | kykY ≤ 1}


y∈Y

donde h·, ·i : Y × X → R es el producto de dualidad entre Y y su dual topológico. Entonces la


coercividad de f : X → R ∪ {+∞} será equivalente a la inf-compacidad de f para σ(Y∗ , Y),
la topologı́a débil-? inducida en X como espacio dual. Esto es consecuencia del teorema de
Banach-Alaouglu. Ejemplos interesantes de este caso son X = L∞ [a, b] ∼ = (L1 [a, b])∗ o bien
∼ ∗
X = M [a, b] = (C [a, b]) , el espacio vectorial formado por las medidas de Radon sobre [a, b].

Supongamos ahora que (X, k·k) es un espacio de Banach reflexivo. Tendremos en este caso que
la coercividad de f : X → R ∪ {+∞} será equivalente a la inf-compacidad de f para σ(X, X∗ ),
la topologı́a débil inducida en X. Esto es consecuencia del teorema de Kakutani. Ejemplos de
este caso son problemas en X = ` p (Rn ) o X = L p [a, b] con p ∈ (1, +∞).

17
Ejercicios Capı́tulo 1

1.6. Ejercicios
1. P ROBLEMA DE MODELAMIENTO MATEM ÁTICO
Una fábrica realiza 3 componentes A, B y C usando la misma manera de producir para cada
uno de ellos. Una unidad de A toma 1 hora en producirse, una unidad de B toma 0.75 horas en
producirse y una unidad de C toma 0.5 horas. Además C debe ser terminado a mano tomando
0.25 horas por unidad. Cada semana la producción no a mano no debe sobrepasar las 300 horas
y la hecha a mano no debe superar las 45 horas. Las componentes son finalmente juntadas para
hacer 2 productos finales. Un producto consiste de 1 unidad de A y 1 de C, y se vende a $ 30,
mientras que el otro producto consiste en 2 unidades de B y una de C, y se vende a $ 45. A
lo más 130 unidades del primer producto y 100 del segundo se pueden vender cada semana.
Plantee el problema de programación lineal en 2 variables y resuélvalo gráficamente.

2. P ROGRAMACI ÓN LINEAL EN ESPACIOS DE MEDIDA


Supongamos que X = Rn , S ⊆ Rn es un compacto no vacı́o y que f : X → R es continua. Sea
M (S) el conjunto de las medidas de Borel sobre S y considere el problema
Z
(Pm ) Minimizar f dµ sobre todos las medidas µ ∈ M (S) con µ ≥ 0.
S

Muestre que val (Pm ) = val (P), es decir, (P) se puede escribir de forma equivalente como un
problema de programación lineal de dimensión infinita.

3. P ROBLEM M AX - CUT Y LA PROGRAMACI ÓN SEMI - DEFINIDA


Dado un grafo G = (V, E) con pesos positivos en los arcos, el problema consiste en encontrar
una colección de nodos W ⊆ V , de forma tal que la suma de los pesos de los arcos que tienen
un extremo en W y el otro en V \W sea máxima.
Sea V = {v1 , . . . , vn } y supongamos que los pesos en los arcos del grafo están representadas
por una matriz C ∈ Mn×n (R) que satisface
(
Ci j > 0 si (vi , v j ) ∈ E
Ci j = 0 si no

Dado que la condición (vi , v j ) ∈ E es equivalente a (v j , vi ) ∈ E, tenemos que C es una matriz


simétrica. Supongamos ahora que tenemos una colección de nodos W ⊆ V , luego la suma de
los pesos de los arcos que tienen un extremo en W y el otro en V \W
Consideremos ahora la variable de decisión que representa a la colección de nodos W ⊆ V
(
1 si vi ∈ W,
xi = ∀i = 1, . . . , n.
−1 si vi ∈ V \W,

Notemos que xi x j = −1 si y sólo si

(vi ∈ W ∧ v j ∈ V \W ) ∨ (vi ∈ V \W ∧ v j ∈ W ).

18
Capı́tulo 1 Introducción a la Optimización

El problema se formula como sigue


n 
1 − xi x j

(P) Maximizar ∑ Ci j sobre los x ∈ Rn tales que xi2 = 1, ∀i = 1, . . . , n.
i, j=1 2

Este problema es NP-duro (es decir, es muy difı́cil de resolver y no se sabe si se puede resolver
en tiempo polinomial), por esta razón muchas veces se prefiere resolver un problema relajado.
Para esto se considera que las variables x1 , . . . , xn ahora son vectores (no números reales)

!
n 1 − xi> x j
(Pn ) Maximizar ∑ Ci j sobre los x ∈ Rn tales que kxi k2 = 1, ∀i = 1, . . . , n.
i, j=1 2

El problema (Pn ) parece igual de difı́cil que (P), pero esto no es ası́. De hecho, (Pn ) se puede
resolver en tiempo polinomial (en general de forma eficaz). En efecto este problema se pue-
de escribir como un problema de programación lineal en el espacio Sn+ (R), de las matrices
simétricas y semi-definidas positivas de dimensión n, es decir, un problema de programación
semi-definida.

a) Denotemos por Sn el espacio de matrices simétricas de dimensión n. Muestre que la


función h·, ·i : Sn × Sn → R definida por
hA, Bi = tr(AB), ∀A, B ∈ Sn
es un producto interno sobre Sn y que por lo tanto (Sn , h·, ·i) es un espacio de Hilbert.
b) Considere la matriz de Gram asociada a una colección de vectores {x1 , . . . , xn }
P ∈ Mn×n (R) con Pi j = xi> x j .
Muestre que P ∈ Sn+ (R), con P = X > X, donde X = [x1 . . . xn ] ∈ Mn×n (R).
c) Formular el problema (Pn ) como un problema de programación semi-definida.

4. P ROPIEDADES DE FUNCIONES S . C . I .
Sea (X, T ) un espacio topológico y { fα }α∈Λ una familia arbitraria no vacı́a de funciones T -
s.c.i. definidas sobre X, es decir, para cada α ∈ Λ tenemos que fα : X → R ∪ {+∞} es T -s.c.i..
a) Pruebe que sup ( fα ) es T -s.c.i., donde
α∈Λ

sup ( fα )(x) := sup{ fα (x) | α ∈ Λ}, ∀x ∈ X.


α∈Λ
\
Indicación: Demuestre que epi(sup fα ) = epi( fα ).
α∈Λ α∈Λ
b) Suponga que Λ = {α1 , . . . , αn } con n ∈ N dado. Demuestre que mı́n fαi y ∑ni=1 fαi son
i=1,...,n
ambas T -s.c.i., donde
mı́n ( fαi )(x) := mı́n{ fα1 (x), . . . , fαn (x)}, ∀x ∈ X.
i=1,...,n

19
Ejercicios Capı́tulo 1

5. C ONTINUIDAD Y SEMI - CONTINUIDAD INFERIOR


Sea (X, T ) un espacio vectorial topológico. Sea f : X → R una función continua, es decir,

∀x ∈ X, ∀ε > 0, ∃A ∈ T con x ∈ A tal que | f (x) − f (y)| < ε, ∀y ∈ A.

Suponga ahora que (X, k · k) e (Y, k · kY ) son dos espacios vectoriales normados y A : X → Y
es un funcional lineal continuo. Demuestre que x 7→ kAx − bkY es semicontinuo inferior en X
para la topologı́a de la norma.

20
Introducción a la Optimización Capı́tulo 1, Section 1.6

22
PARTE I
TEORÍA GLOBAL DE OPTIMIZACIÓN
Caso Convexo

Resumen. En esta parte del curso nos enfocaremos problemas de optimización conve-
xa, es decir, donde todos los elementos que determinan el problema de interés (función
objetivo y restricciones) satisfacen una propiedad estructural llamada convexidad. La
optimización convexa tiene el mismo status dentro de la teorı́a general de optimización
que las ecuaciones diferenciales lineales tienen en la teorı́a general de ecuaciones di-
ferenciales, pues es la base para muchas aplicaciones ya que incluye en particular la
programación lineal y los problemas cuadráticos.

23
CAPÍTULO 2
Teorı́a general

Abstract. En este capı́tulo introduciremos formalmente la definición de una función con-


vexa y conjunto convexo. Presentaremos problemas clásicos y actuales de optimización
convexa tanto en dimensión finita como infinita.

2.1. Introducción
Comenzamos esta parte del curso recordando la definición de un conjunto convexo. Para dar
sentido a la exposición y por simplicidad asumiremos en la mayor parte de lo que sigue que (X, k · k)
es un espacio de Banach. Note que gran parte de la discusión podrı́a hacerse simplemente sobre
espacio vectoriales topológicos localmente convexos, sin alterar mayormente las técnicas usadas.
Un conjunto S ⊆ X se dice convexo si y sólo si

λx + (1 − λ)y ∈ S, ∀x, y ∈ S, ∀λ ∈ [0, 1].

Además se tiene el siguiente lema de accesibilidad que se demuestra en MAT410.

Proposición 2.1. Sea X un espacio vectorial normado y § ⊂ X un conjunto convexo. Entonces, para
todo x ∈ int S e y ∈ S, se tiene

(∀λ ∈ ]0, 1]) λx + (1 − λ)y ∈ int S.

En particular, int S y S son conjuntos convexos.

Una función f : X → R ∪ {+∞} se dirá convexa si y sólo si

f (λx + (1 − λ)y) ≤ λ f (x) + (1 − λ) f (y), ∀x, y ∈ X, ∀λ ∈ [0, 1].

De esta desigualdad es directo que, si f : X → R ∪ {+∞} es convexa entonces dom( f ) es un conjunto


convexo de X. La clase de funciones convexas es cerrada para la suma y la multiplicación por escala-
res positivos, y el supremo de funciones convexas es convexo (ver Ejercicio 1). Otras operaciones que
preservan la convexidad pueden verse en los ejercicios del capı́tulo (ver, por ejemplo, Ejercicio 2).
A continuación listamos otras propiedades esenciales de funciones convexas.

Proposición 2.2. Sea X un espacio vectorial y f : X → R ∪ {+∞} una función dada. Luego f es
convexa si y sólo si epi( f ) es un conjunto convexo de X × R. Además, si f es convexa, entonces se
tiene que dom( f ) y Γγ ( f ) son conjuntos convexos para cualquier γ ∈ R.

25
Teorı́a general Capı́tulo 2, Section 2.2

Demostración. Sean (x, µ) y (y, η) en epi( f ) y sea λ ∈ [0, 1]. Como f es convexa, se tiene f (λx+(1−
λ)y) ≤ λ f (x) + (1 − λ) f (y) ≤ λµ + (1 − λ)η, donde la última desigualdad proviene de la definición
de epi( f ). Para la recı́proca, basta notar que (x, f (x)) y (y, f (y)) están en epi( f ), por lo que de la
definición de conjunto convexo en X × R se deduce la desigualdad de convexidad. La convexidad de
Γγ ( f ) es directa de la definición (ejercicio).

Como mencionado anteriormente, en esta parte del curso nos centraremos en problemas de opti-
mización convexa. Nuestro problema modelo de optimización

(P) Minimizar f (x) sobre todos los x ∈ X que satisfacen la restricción x ∈ S

se dirá convexo si S es un subconjunto convexo de X y la función f : X → R ∪ {+∞} es convexa.

2.2. Ejemplos de problemas convexos


2.2.1. Problemas lineales
El problema de programación lineal y programación semi-definida son ejemplos de problemas
convexos. En efecto, los costos, al ser funciones lineales son también funciones convexas. Además,
el conjunto de restricciones son poliedros convexos en Rn y Sn , respectivamente.

2.2.2. Problema lineal cuadrático - tiempo discreto


Esta clase de problemas, el primero en dimensión infinita que mencionaremos, consiste en mini-
mizar un funcional cuyo argumento es una sucesión generada por una regla de recurrencia lineal

(2.1) xk+1 = Axk + Buk , ∀k ∈ N,

Donde A ∈ Mn×n (R) y B ∈ Mn×m (R). El problema consiste en minimizar, para ciertas matrices
simétricas y definidas positivas P ∈ Sn++ (R) y Q ∈ Sm
++ (R), un funcional del tipo

1 ∞  > >

f ({xk }, {uk }) = ∑ xk Pxk + uk Quk
2 k=0

En este caso, el espacio natural para estudiar el problema es X = `2 (Rn ) × `2 (Rm ), donde `2 (RN ) es
el espacio de la sucesiones {xk } en RN tales que

∑ |xk |2 < +∞.
k=1

2.2.3. Problema lineal cuadrático - tiempo continuo


La versión en tiempo continuo del problema lineal cuadrático definido sobre un intervalo [0, T ]
corresponde a minimizar un funcional integral

26
Capı́tulo 2, Section 2.3 Minimización convexa

Z T
1 > >

(x, u) 7→ x(t) Px(t) + u(t) Qu(t) dt
2 0

el cual queda bien definido sobre el espacio Ln2 [0, T ] × Lm


2 [0, T ]. En este caso la recurrencia lineal se

transforma en una ecuación diferencial parametrizada, es decir,

ẋ(t) = Ax(t) + Bu(t), c.t.p. t ∈ [0, T ].

2.3. Minimización convexa


Recordemos que el teorema de Weierstrass-Hilbert-Tonelli (Teorema 1.1 y 1.2) requiere compa-
cidad y semicontinuidad para una misma topologı́a. En el caso de espacios de Banach reflexivos (de
dimensión infinita) la noción de compacidad más habitual es la asociada a la topologı́a σ(X, X∗ ), la
topologı́a débil en X inducida por X∗ ; pues cerrados acotados son compactos para esta topologı́a.
Sin embargo, verificar directamente la semicontinuidad inferior de una función con respecto a esta
topologı́a puede ser muy difı́cil. Es aquı́ donde la convexidad juega un rol importante.
Antes de continuar con el estudio de funciones convexas y aplicaciones a la optimización, re-
visaremos una herramienta fundamental del Análisis Convexo, la cual se refiere a la separación de
convexos: el teorema de Hahn-Banach geométrico.
Recuerdo: Teorema Geométrico de Hahn-Banach

La idea básica de la versión geométrica del teorema de Hahn-Banach es que conjuntos con-
vexos, no vacı́os y disjuntos, se pueden separar por un hiperplano. Si alguno de los conjuntos
resulta ser compacto y el otro cerrado, entonces la separación puede entenderse en un sentido
estricto. En la Figura 2.1 hemos bosquejado interpretaciones geométricas de este teorema. El
dibujo de la izquierda muestra la separación cuando uno de los conjuntos es abierto y el dibujo
de la derecha un caso de separación estricta.

Lema 2.1 (Hahn-Banach I). Sea (X, k · k) un espacio de Banach. Sean A, B ⊆ X dos subcon-
juntos convexos no vacı́os y disjuntos.

(i) Si A es abierto entonces existen x∗ ∈ X∗ \ {0} y α ∈ R tal que

hx∗ , ai < α, ∀a ∈ A y hx∗ , bi ≥ α, ∀b ∈ B.

(ii) Si A es cerrado y B es compacto, entonces existen x∗ ∈ X∗ \ {0}, α ∈ R y ε > 0 tales que

hx∗ , ai ≤ α − ε, ∀a ∈ A y hx∗ , bi ≥ α + ε, ∀b ∈ B.

2.3.1. Funciones convexas y semi-continuidad inferior


En general, sabemos que un conjunto cerrado para σ(X, X∗ ) es también un conjunto cerrado para
la topologı́a inducida por la norma de X (la topologı́a fuerte). En consecuencia, si una función es
σ(X, X∗ )-s.c.i. entonces será s.c.i para la topologı́a fuerte inducida por la norma.

27
Teorı́a general Capı́tulo 2, Section 2.3

H H

A
A

B B

Figura 2.1: Teorema de Hahn-Banach

Una consecuencia importante del teorema de Hanh-Banach (Lema 2.1) para nuestros propósitos
es que, para funciones convexas, la semi-continuidad inferior para la topologı́a fuerte es indistingui-
ble de la semi-continuidad inferior para la topologı́a débil σ(X, X∗ ).

Proposición 2.3. Sea (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función propia
convexa y s.c.i.. Luego se tiene que

(∀x ∈ X) f (x) = sup {h(x) | h : X → R es una función afı́n continua en X tal que h(x) ≤ f (x)} .

Además, f es σ(X, X∗ )-s.c.i.

Demostración. Como f es convexa, s.c.i. y propia, se sigue que su epı́grafo es convexo, cerrado y
no vacı́o. Definamos

(2.2) (∀x ∈ X) g(x) := sup {h(x) | h : X → R es una función afı́n continua en X tal que h ≤ f } .

Por definición se tiene que g ≤ f . Para demostrar la igualdad, por la definición del supremo basta
probar

(2.3) (∀x ∈ X)(∀r < f (x))(∃h : X → R afin continua en X tal que h ≤ f ) r < h(x).

Fijemos x ∈ X y separemos la demostración de (2.3) en dos partes.

1. Supongamos que x ∈ dom( f ). Sea r < f (x) < +∞. Luego (x, r) ∈
/ epi( f ) y gracias al Teorema
∗ ∗
Geométrico de Hahn-Banach (Lema 2.1), existen (x , s) ∈ X × R \ {(0, 0)} y α ∈ R tales que

(2.4) hx∗ , xi + sr < α ≤ hx∗ , yi + sλ, ∀(y, λ) ∈ epi( f ).

En particular, como (x, f (x)) ∈ epi( f ), concluimos de (2.4) que s(r − f (x)) < 0 de donde s > 0.

28
Capı́tulo 2, Section 2.3 Minimización convexa
R
6

epi f
H = {(y, λ) ∈ X × R | h x∗ , y i + sλ = α}

r (x, r)
- X
x

Dividiendo en (2.4) por s > 0, se obtiene

1 ∗ α 1
(2.5) hx , x − yi + r < − h x∗ , y i ≤ λ, ∀(y, λ) ∈ epi( f ),
s |s s{z }
h(y)

y definiendo la función afı́n h : y 7→ α


s − 1s h x∗ , y i, se concluye que h ≤ f y que r < h(x).

2. Supongamos que x ∈ / dom( f )y sea r < +∞ = f (x). Se tiene que (x, r) ∈


/ epi( f ) y, al igual que en
la parte anterior, por Hahn-Banach se tiene (2.4). Notemos que si s < 0 tomando (y, λ) ∈ epi( f )
y haciendo λ → +∞ se contradice (2.4). Si s > 0, la función afı́n h : y 7→ αs − 1s h x∗ , y i satisface
(2.3) al igual que en la parte anterior. Finalmente, si s = 0, tenemos que

hx∗ , xi < α ≤ hx∗ , yi, ∀y ∈ dom( f ).

Sea h̃ : X → R una función afı́n continua tal que h̃ ≤ f , cuya existencia está garantizada por la
primera parte pues f es propia. Luego para todo k ∈ N e y ∈ X se tiene que

f (y) ≥ h̃(y) ≥ hk (y) := h̃(y) + k(α − hx∗ , yi),

pero hk (x) → +∞ cuando k → +∞. Por lo tanto f (x) = g(x) = +∞.

Finalmente, notemos que (ver Ejercicio 4 - Capı́tulo 1)


\
epi(g) = epi(h).
{h:X→R afı́n continua con h≤ f }

Ahora bien, dado que el epı́grafo de una función afı́n continua es cerrado para la topologı́a débil
σ(X, X∗ ), se tiene entonces que epi(g) es cerrado para la topologı́a débil σ(X, X∗ ). En otras palabras,
g es σ(X, X∗ )-s.c.i. lo cual termina la demostración.

En vista del resultado anterior podemos presentar una nueva versión del teorema de existencia de
mı́nimos de Weierstrass-Hilbert-Tonelli, especializada para el caso convexo.

29
Teorı́a general Capı́tulo 2, Section 2.3

Teorema 2.1. [Weierstrass-Hilbert-Tonelli III] Sea (X, k · k) un espacio de Banach reflexivo y f :


X → R ∪ {+∞} es una función propia convexa y s.c.i. (para la topologı́a inducida por la norma).
Supongamos que ∃γ > ı́nfX ( f ) tal que Γγ ( f ) es acotado. Entonces, existe x̄ ∈ dom( f ) tal que

f (x̄) ≤ f (x), ∀x ∈ X.

Demostración. Notemos que la función fγ : X → R ∪ {+∞} definida via

fγ (x) := f (x) + δS (x), donde S = Γγ ( f ), ∀x ∈ X

es σ(X, X∗ )-inf-compacta gracias al teorema de Kakutani y al hecho que Γγ ( f ) es acotado. Notemos


que fγ es s.c.i. para la topologı́a fuerte, pues f lo es y Γγ ( f ) es cerrado. Sigue que por la Proposición
2.3 se tiene que fγ es σ(X, X∗ )-s.c.i. y por lo tanto, aplicando el teorema 1.1 se concluye el resultado.

En el teorema anterior la convexidad juega un rol esencial, pues permite conectar la semi-continuidad
inferior para las topologı́as fuerte y débil. Dicho esto, no hay que obviar las otras hipótesis del teore-
ma, especialmente la reflexividad del espacio X. Veremos a través de un ejemplo que la reflexividad
es también esencial para la validez del teorema anterior.

Un problema de minimización convexa sin óptimo


Consideremos X = C [0, 1], el espacio de funciones continuas x : [0, 1] → R dotado de topologı́a
de la convergencia uniforme, es decir, la generada por la norma

kxk∞ = máx{|x(t)| | t ∈ [0, 1]}, ∀x ∈ C [0, 1].

Es un ejercicio estándar de análisis el hecho que (C [0, 1], k ·k∞ ) es un espacio de Banach no reflexivo,
siendo su dual topológico el espacio de medidas de Borel regulares M [0, 1].
Consideremos el conjuntos de restricciones
 Z 1/2 Z 1 
S := x ∈ C [0, 1] x(t)dt − x(t)dt = 1 .
0 1/2

Es fácil ver que S es no-vacı́o, cerrado y convexo. De hecho S es un hiperplano cerrado para la
convergencia uniforme.
Consideremos el problema de minimización de encontrar el elemento de norma mı́nima en S.
Este problema puede plantearse como:

(P0 ) Minimizar kxk∞ + δS (x) sobre todos los x ∈ C [0, 1].

Evidentemente, la función x 7→ f (x) := kxk∞ + δS (x) es propia, convexa, s.c.i. para la topologı́a
fuerte. Además Γγ ( f ) es acotado para cualquier γ ∈ R, luego las hipótesis de teorema 2.1 se verifican,
excepto por la reflexividad.
Observemos que si x ∈ S, entonces
Z 1 Z 1 Z 1
2
1= x(t)dt − 1
x(t)dt ≤ |x(t)|dt ≤ kxk∞ .
0 2 0

30
Capı́tulo 2, Section 2.3 Minimización convexa

Ası́ vemos que val (P0 ) ≥ 1. Por otra parte, podemos construir una sucesión minimizante que alcanza
el valor 1. Para ello consideremos para cada k ∈ N \ {0}, los parámetros αk = 21 − k+1
1
y βk = k+1
k ,y
definamos xk : [0, 1] → R por

βk   t ∈ [0, αk ]


1−2t
xk (t) = βk 1−2α k
t ∈ (αk , 1 − αk )

−β

t ∈ [1 − α , 1]
k k

k+1
Se verifica que xt ∈ S y kxk k∞ = βk = k con lo que concluimos que val (P0 ) = 1.

R
βk 6
1 D
D
D
D
r D R
αk D 12
-
1
D
D
D
−1 D
D −βk

Figura 2.2: Sucesión minimizante xk

Supongamos ahora que existe un mı́nimo para el problema (P0 ), es decir, existe x ∈ S tal que
kxk∞ = 1. Notemos que, dado que x ∈ S, se tiene que
Z 1/2 Z 1
(x(t) − 1)dt = (1 + x(t))dt
0 1/2

pero como |x(t)| ≤ 1 para todo t ∈ [0, 1], sigue que x(t) − 1 ≤ 0 ≤ 1 + x(t) en [0, 1]. Luego la integral
del lado izquierdo tiene un valor negativo y el valor de la integral de la derecha es positivo.
 La  única
1
opción es que ambas integrales valgan cero y por lo tanto, deducimos que x ≡ 1 sobre 0, 2 y que
x ≡ −1 sobre 21 , 1 lo que contradice la continuidad de x. En consecuencia, no existe un mı́nimo
 

para el problema (P0 ), y esto se debe a que (C [0, 1], k· k∞ ) no es reflexivo.

2.3.2. Unicidad de minimizadores


Hasta el momento hemos hablado de existencia de minimizadores, pero no hemos mencionado
cuántos pueden haber. Veremos ahora que en optimización convexa hay solo tres posibilidades: (i)
hay una cantidad infinita no numerable de minimizadores, (ii) existe un única solución óptima, o bien
(iii) no hay solución del todo. Esto es consecuencia directa de la siguiente proposición.
Proposición 2.4. Sea (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función propia y
convexa. El conjunto de minimizadores de f :

arg mı́nX ( f ) := {x̄ ∈ X | f (x̄) ≤ f (x), ∀x ∈ X}

31
Teorı́a general Capı́tulo 2, Section 2.3

es convexo. Más aún, si suponemos además que f es estrictamente convexa, es decir,

f (λx + (1 − λ)y) < λ f (x) + (1 − λ) f (y), ∀x, y ∈ X, x 6= y, ∀λ ∈ (0, 1).

entonces arg mı́nX ( f ) contiene a lo más un único elemento.

Demostración. Sean x̄ e ȳ en arg mı́nX ( f ) y sea λ ∈ [0, 1]. Entonces, para todo z ∈ X, por convexidad
y definición de mı́nimo se tiene

f (λx̄ + (1 − λ)ȳ) ≤ λ f (ȳ) + (1 − λ) f (x̄) ≤ λ f (z) + (1 − λ) f (z) = f (z),

de donde λx̄+(1−λ)ȳ ∈ arg mı́nX ( f ), y luego arg mı́nX ( f ) es convexo. Para la unicidad, si asumimos
que x̄ 6= ȳ, como se tiene f (x̄) = f (ȳ), la convexidad estricta implica

f (λx̄ + (1 − λ)ȳ) < λ f (ȳ) + (1 − λ) f (x̄) = f (x̄) = f (ȳ),

por lo que ni x̄ ni ȳ pueden ser mı́nimos, lo que nos lleva a una contradicción y a la conclusión.
Notemos que el teorema anterior implica que en el caso de haber más de un mı́nimo, digamos x̄1
y x̄2 , entonces todos los elementos del segmento

[x̄1 , x̄2 ] := {λx̄1 + (1 − λ)x̄2 | λ ∈ [0, 1]}

son también mı́nimos, lo que implica que arg mı́nX ( f ) es un conjunto infinito no numerable.

32
Capı́tulo 2, Section 2.4 Ejercicios

2.4. Ejercicios
1. Á LGEBRA DE FUNCIONES CONVEXAS Sea (X, k · k) un espacio vectorial normado y { fα }α∈Λ
una familia arbitraria no vacı́a de funciones convexas definidas sobre X, es decir, para cada
α ∈ Λ tenemos que fα : X → R ∪ {+∞} es convexa.

a) Pruebe que sup ( fα ) es convexa.


α∈Λ
b) Suponga que Λ = {α1 , . . . , αn } con n ∈ N dado. Demuestre que para todo µ1 , . . . , µn ≥ 0
se tiene que ∑ni=1 µi fαi es una función convexa.

2. Sean (X, k · k) e (Y, k · k) espacios vectoriales normados, sea ϕ : X × Y → R ∪ {+∞} una


función convexa y definamos

f : X → R ∪ {+∞} : x 7→ ı́nf ϕ(x, y).


y∈Y

Demuestre que f es convexa.

3. C RITERIOS ALTERNATIVOS DE CONVEXIDAD


Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞} una función propia.

a) Demuestre que f es convexa si y sólo si para todo x1 , . . . , xn ∈ X y λ1 , . . . , λn ∈ [0, 1] se


tiene que !
n n n
∑ λi = 1 =⇒ f ∑ λixi ≤ ∑ λi f (xi )
i=1 i=1 i=1

b) Suponga que X = R y sea f : R −→ R una función continua que satisface la desigualdad


siguiente:
1 x+h
Z
f (x) ≤ f (y)dy, x ∈ R, h > 0.
2h x−h
Pruebe:
1) El máximo de f en un intervalo cerrado [a, b] es alcanzado en a o en b.
2) f es convexa.
(x − a) f (b) − (x − b) f (a)
Indicación: Considere L(x) = y muestre que f (x) ≤ L(x).
b−a
4. F UNCI ÓN CUADR ÁTICA
Sean A ∈ Sn (R), b ∈ Rn y c ∈ R. Considere la función cuadrática f : Rn → R definida por

1
f (x) = x> Ax + b> x + c, ∀x ∈ Rn .
2
Muestre que si f es acotada inferiormente, entonces A ∈ Sn+ (R). Muestre además que f
es convexa (usando el criterio algebraico) y que además alcanza su mı́nimo en Rn .
Pruebe que f es estrictamente convexa si y sólo si A ∈ Sn++ (R).

33
Teorı́a general Capı́tulo 2, Section 2.4

5. F UNCIONES MARGINALES
Sean X e Y dos espacios vectoriales. Considere A ⊆ X y B ⊆ Y dos conjuntos convexos no
vacı́os. Sea ϕ : X × Y → R ∪ {+∞}, una función convexa tal que ı́nf{ϕ(x, y) | y ∈ B} > −∞
para todo x ∈ A. Pruebe que la función f (x) = ı́nf{ϕ(x, y) | y ∈ B} + δA (x) es convexa en X.

6. P ROYECCI ÓN SOBRE UN CERRADO


Sea (X, k · k) un espacio de Banach reflexivo y sea S ⊆ X un subconjunto dado. Definimos la
distancia de un punto x ∈ X a S via la fórmula:

dist(x, S) = ı́nf{kx − sk | s ∈ S}.

Definimos también el conjunto proyección sobre S como sigue

proy(x, S) = {s ∈ S | dist(x, S) = kx − sk}.

a) Muestre que x 7→ dist(x, S) es Lipschitz continua de constante L = 1.


b) Pruebe que si S es cerrado para σ(X, X∗ ), la topologı́a débil de X, entonces el ı́nfimo en
la definición de dist(x, S) se alcanza y además proy(x, S) es no vacı́o para todo x ∈ X.
c) Pruebe que S es convexo si y sólo si x 7→ dist(x, S) es convexa.
d) Muestre que si S es convexo y cerrado (para la topologı́a fuerte) entonces proy(x, S) 6= 0.
/

Supongamos en adelante que (X, h·, ·i) es un espacio de Hilbert, es decir, la norma k · k es
inducida por el producto interno: kxk2 = hx, xi.

e) Demuestre que
 
1 2
proy(x, S) = s ∈ S | hy − s, x − si ≤ ky − sk , ∀y ∈ S
2

f ) Muestre que si S es convexo, entonces proy(x, S) tiene un único elemento y que

proy(x, S) = {s ∈ S | hy − s, x − si ≤ 0, ∀y ∈ S}

g) Construya un ejemplo en R2 donde el conjunto de proyecciones tiene más de un elemento.

34
CAPÍTULO 3
Optimización convexa diferenciable

Abstract. En este capı́tulo estudiaremos funciones convexas diferenciables y las condi-


ciones de optimalidad, e introduciremos algunos métodos iterativos para encontrar sus
mı́nimos. Haremos especial énfasis en problemas cuadráticos.

La convexidad de una función es un criterio algebraico, que puede ser difı́cil de probar algunas veces.
Comenzaremos este capı́tulo indicando algunos criterios alternativos para las funciones diferencia-
bles y de paso recordemos algunas definiciones básica del cálculo diferencial.
A lo largo de este capı́tulo trabajaremos básicamente con funciones f : X → R ∪ {+∞} convexas
tales que dom( f ) será un abierto de un espacio de vectorial normado (X, k · k) no necesariamente de
Banach; la completitud del espacio no será esencial es esta parte.

3.1. Criterios de primer orden


Estudiaremos ahora algunos criterios de primer orden que nos ayudarán a determinar si una fun-
ción es convexa o no. Haremos esto usando la noción de función Gâteaux diferenciable.
Recuerdo: Funciones Gâteaux diferenciables

Supongamos que f : X → R ∪ {+∞} es una función tal que dom( f ) tiene interior no vacı́o.
Diremos que la función f es Gâteaux diferenciable en x ∈ int(dom( f )) si

f (x + td) − f (x)
lı́m = `(d), ∀d ∈ X,
t→0+ t
donde ` : X → R es un funcional lineal continuo, que se conoce como la derivada de Gâteaux
de f . Usualmente este funcional lineal se denota por D f (x).
En el caso particular que X tenga la estructura de espacio de Hilbert con un producto interno
h · , · i, se tiene que cada x∗ ∈ X∗ admite un representante v ∈ X tal que

x∗ (y) = h v , y i, ∀y ∈ X.

El representante del diferencial D f (x) ∈ X∗ se conoce con el nombre de gradiente y se denota


por ∇ f (x). Además, si X = Rn , entonces el gradiente de f puede ser representado a través de
las derivadas parciales de f , es decir,
 
∂ f (x) ∂ f (x)
∇ f (x) = ,..., .
∂x1 ∂xn

35
Optimización convexa diferenciable Capı́tulo 3, Section 3.1

Teorema 3.1. Sean (X, k·k) un espacio vectorial normado y f : X → R∪{+∞} una función Gâteaux
diferenciable en dom( f ), el cual asumimos es un conjunto convexo abierto de X. Las siguientes
afirmaciones son equivalentes:
(i) f : X → R ∪ {+∞} es convexa.
(ii) f es subdiferenciable, es decir, para todo x, y ∈ dom( f ), se tiene f (y) ≥ f (x) + D f (x)(y − x).
(iii) D f es monótono, es decir, para todo x, y ∈ dom( f ) se tiene D f (x)(x − y) − D f (y)(x − y) ≥ 0.
Demostración. Dividamos la demostración en cuatro partes:
(i) ⇒ (ii) Sean x, y ∈ dom( f ) y t ∈ (0, 1). De la convexidad de f se deduce
f (x + t(y − x)) − f (x)
≤ f (y) − f (x).
t
Luego, haciendo t → 0 obtenemos D f (x)(y − x) ≤ f (y) − f (x).
(ii) ⇒ (iii) Sean x, y ∈ dom( f ). Usando (ii) y luego intercambiando los roles de x e y en la desigualdad se
tienen
f (x) − f (y) ≤ D f (x)(x − y) y f (y) − f (x) ≤ −D f (y)(x − y).
Finalmente, sumando ambas desigualdades se obtiene el resultado.
(iii) ⇒ (i) Dados x, y ∈ dom( f ) fijos. En vista que dom( f ) es abierto, podemos escoger ε > 0 tal que
x + t(y − x) ∈ dom( f ) para cualquier t ∈ (−ε, 1 + ε). Definamos φ : R → R ∪ {+∞} via la
fórmula (
f (x + t(y − x)) si t ∈ (−ε, 1 + ε)
φ(t) :=
+∞ si no.
Como f es Gâteaux diferenciable en dom( f ), se tiene que φ también lo es en su dominio. En
particular, φ es derivable en (−ε, 1 + ε) y por lo tanto continua en [0, 1]. Además, se tiene que
φ0 (t) = D f (x+t(y−x))(y−x) para cualquier t ∈ (−ε, 1+ε). Notemos que si −ε < s < t < 1+ε
se tiene que
1
φ0 (t) − φ0 (s) = D f (zt )(y − x) − D f (zs )(y − x) = (D f (zt )(zt − zs ) − D f (zs )(zt − zs )) ≥ 0,
t −s
donde zt := x + t(y − x) y zt := x + s(y − x), y por lo tanto φ0 es no decreciente en el intervalo
(−ε, 1 + ε). Luego se tiene por teorema del valor medio que
φ(t) − φ(0)
(∀t ∈]0, 1[)(∃t ∗ ∈]0,t[) = φ0 (t ∗ ) ≤ φ0 (t).
t
Por lo tanto, si definimos ϕ : ]0, 1[→ R : t 7→ (φ(t) − φ(0))/t, se tiene que ϕ es diferenciable en
]0, 1[ y
0 φ0 (t) − φ(t)−φ(0)
t
(∀t ∈]0, 1[) ϕ (t) = ≥ 0,
t
de donde ϕ es no decreciente. Finalmente, la convexidad se deduce de que, para todo t ∈]0, 1[,
f (x + t(y − x)) − f (x)
= ϕ(t) ≤ ϕ(1) = f (y) − f (x).
t

36
Capı́tulo 3, Section 3.1 Criterios de primer orden

Notemos que si X tiene la estructura de espacio de Hilbert con un producto interno h·, ·i, la
propiedad de subdiferenciabilidad y monotonı́a del teorema 3.1 se re-escriben respectivamente como:
(Subdiferenciabilidad) f (y) ≥ f (x) + h∇ f (x), y − xi, ∀x, y ∈ dom( f ).
(Monotonı́a) h∇ f (x) − ∇ f (y), x − yi ≥ 0, ∀x, y ∈ dom( f ).
Ejemplo 3.1.1. Usando la observación anterior y la subdiferenciablidad podemos probar fácilmente
que x 7→ exp(x) es una función convexa. Notemos que la desigualdad de la subdiferenciabilidad es
exp(y) ≥ exp(x) + exp(x)(y − x)
y se puede re-escribir, fijando z = y − x como
exp(z) ≥ 1 + z.
Esta última siendo una desigualdad fundamental de la función exponencial estudiada en cursos
básicos de cálculo.
Ejemplo 3.1.2. Usando ahora la monotonı́a podemos probar fácilmente que x 7→ − log(x) es una
función convexa. Notemos primero que dom(log) = (0, +∞) y que la desigualdad de la monotonı́a es
 
1 1
− + (x − y) ≥ 0
x y
la que podemos re-escribir como
(x − y)2
≥0
xy
la cual siempre es válida si x, y > 0.

3.1.1. Comentarios sobre la diferenciabilidad en el sentido de Gâteaux


En el caso X = R, se tiene que una función es Gâteaux diferenciable si y sólo si la función es
derivable, y por lo demás continua. En general, si X 6= R la diferenciabilidad en el sentido de Gâteaux
no implica continuidad de una función. Por ejemplo, la función f : R2 → R definida por
(
1 si x, y > 0 ∧ x2 > y
f (x, y) =
0 si no
es Gâteaux diferenciable en (0, 0), con D f (0, 0) ≡ 0, pero f no es continua en (0, 0). Esto constituye
una de la mayores diferencias entre la diferenciabilidad en el sentido de Gâteaux y Fréchet.
Recuerdo: Funciones Fréchet diferenciables

Una función f : X → R ∪ {+∞} se dice Fréchet diferenciable en x ∈ int(dom( f )) si es Gâteaux


diferenciable y su diferencial D f (x) ∈ X∗ satisface

| f (x + h) − f (x) − D f (x)(h)|
lı́m = 0.
h→0 khk

Cuando la derivada de Gâteaux es continua se puede concluir que la función es Fréchet diferen-
ciable, como asegura el siguiente resultado.

37
Optimización convexa diferenciable Capı́tulo 3, Section 3.2

Proposición 3.1. Sea (X, k · k) un espacio vectorial normado y sea f : X → R ∪ {+∞} una función
Gâteaux diferenciable en una vecindad de x ∈ X tal que D f es continuo en x (con la norma dual).
Entonces f es Fréchet diferenciable en x y su derivada de Fréchet es D f (x).

Demostración. Sea ε > 0 tal que f es Gâteaux diferenciable en BX (x, ε), sean h ∈ BX (x, ε) y x∗ ∈ X∗
y definamos φ : t 7→ f (x + th). Por Teorema del Valor Medio en R se tiene que existe t ∈]0, 1[ tal que
f (x + h) − f (x) = φ(1) − φ(0) = φ0 (t) = D f (x + th)(h). Luego

k f (x + h) − f (x) − D f (x)(h)k
≤ kD f (x + th) − D f (x)k∗ → 0
khk

as khk → 0 por la continuidad de D f , lo que concluye el resultado.

3.2. Criterios de orden superior

Veremos a continuación un criterio de orden superior para determinar la convexidad de una fun-
ción. Antes de continuar recordemos algunas nociones de derivadas de orden superior.

38
Capı́tulo 3, Section 3.2 Criterios de orden superior

Recuerdo: Derivadas de orden superior

Una función f : X → R ∪ {+∞} se dice dos veces Gâteaux diferenciable en x ∈ int(dom( f )) si


f Gâteaux diferenciable en una vecindad de x y además existe un operador bilineal continuo
y simétrico B : X × X → R

D f (x + th)(k) − D f (x)(k)
lı́m = B(h, k), ∀h, k ∈ X.
t→0+ t
Este funcional bilineal continuo se conoce como el diferencial de Gâteaux de segundo orden
de f en x y se denota como D2 f (x). Es importante mencionar que en el caso X = Rn se tiene
que D2 f (x) puede ser representado a través de la matriz Hesiana de f :
 2
∂x1 ,x1 f (x) ∂2x1 ,x2 f (x) . . . ∂2x1 ,xn f (x)

 
 
∂2 f (x) ∂2 f (x) . . . ∂2 f (x)
 x2 ,x1 x2 ,x2 x2 ,xn 
2
∇ f (x) = 
 

 .. .. .. .. 

 . . . . 

 
2 2 2
∂xn ,x1 f (x) ∂xn ,x2 f (x) . . . ∂xn ,xn f (x)

a través de la relación

D2 f (x)(h, k) = h> ∇2 f (x)k, ∀h, k ∈ Rn .

Por otro lado, f se dice dos veces Fréchet diferenciable en x si f es dos veces Gâteaux di-
ferenciable en x y el operador lineal continuo ` : X → X∗ dado por h 7→ `(h) := D2 f (x)(h, ·)
satisface
kD f (x + h) − D f (x) − `(h)k∗ |D f (x + h)(k) − D f (x)(k) − D2 f (x)(h, k)|
lı́m = lı́m sup = 0.
h→0 khk h→0 kkk=1 khk

Teorema 3.2. Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞} una función dos
veces Gâteaux diferenciable en dom( f ), este último siendo un convexo abierto de X. Entonces, f :
X → R ∪ {+∞} es convexa si y sólo si el operador D2 f es semi-definido positivo, es decir,

D2 f (x)(h, h) ≥ 0, ∀x ∈ dom( f ), ∀h ∈ X.

Demostración. Supongamos primero que f es convexa. Sean x ∈ dom( f ), h ∈ X y t > 0 tal que
x + th ∈ dom( f ), cuya existencia está garantizada pues dom( f ) es abierto. Del Teorema 3.1, se tiene

1
D f (x + th)(h) − D f (x)(h) = [D f (x + th)(x + th − x) − D f (x)(x + th − x)] ≥ 0.
t

Luego, dividiendo por t y haciendo t → +∞ llegamos a que D2 f (x) es semi-definido positivo.

39
Optimización convexa diferenciable Capı́tulo 3, Section 3.3

Veamos ahora el converso. Supongamos ahora que D2 f es semi-definido positivo y sean x, y ∈


dom( f ). Usando el mismo argumento que en la demostración de [(iii) ⇒ (i)] del Teorema 3.1, po-
demos escoger ε > 0 tal que la función φ : R → R ∪ {+∞} dada por
(
f (x + t(y − x)) si t ∈ (−ε, 1 + ε)
φ(t) :=
+∞ si no,

es derivable en (−ε, 1 + ε). De hecho, dado que f es dos veces Gâteaux diferenciable en dom( f ) se
tiene que φ es dos veces derivable con φ0 continua en [0, 1]. Usando la regla de la cadena se obtiene
que φ00 (t) = D2 f (x + t(y − x))(y − x, y − x). Luego, como D2 f es semi-definido positivo se tiene que
φ0 es no decreciente, y por lo tanto, la conclusión sigue usando los mismos argumentos que en la
demostración de [(iii) ⇒ (i)] del Teorema 3.1.

Una ligera modificación de la demostración del resultado anterior permite obtener una condición
necesaria para que una función sea estrictamente convexa.

Teorema 3.3. Sea (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función de clase C 2 en
dom( f ), es último siendo un abierto de X. Si el operador D2 f es definido positivo, es decir,

D2 f (x)(h, h) > 0, ∀x ∈ dom( f ), ∀h ∈ X \ {0}.

entonces f : X → R ∪ {+∞} es estrictamente convexa.

Demostración. Ejercicio.

Notemos que el converso del teorema 3.3 no es válido, de hecho la función x 7→ x4 es estricta-
mente convexa, pero su segunda derivada en x = 0 es nula.

Ejemplo 3.2.1. Consideremos la función cuadrática f : Rn → R definida via

1
f (x) = x> Ax − b> x + c, ∀x ∈ Rn .
2

Donde A ∈ Sn , b ∈ Rn y c ∈ R. Luego se tiene que ∇2 f (x) = A y por lo tanto tenemos que f es


convexa si y sólo si A ∈ Sn+ (R). Notemos que si A ∈ Sn++ (R) entonces f es estrictamente convexa.
En este caso particular (y no en general) se tiene también que el converso es cierto, es decir, si f es
estrictamente convexa entonces ∇2 f (x) = A ∈ Sn++ (R) (ver Ejercicio 4 - Capı́tulo 2).

3.3. Regla de Fermat


En vista del Teorema 3.1, tenemos una forma fácil de caracterizar mı́nimos de una función con-
vexa Gâteaux diferenciable, la cual se resume en el siguiente resultado.

Teorema 3.4 (Regla de Fermat I). Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞}
una función convexa Gâteaux diferenciable en dom( f ), este último siendo un abierto de X. Luego
x̄ ∈ X es un mı́nimo de f si y sólo si D f (x̄) = 0.

40
Capı́tulo 3, Section 3.3 Regla de Fermat

Demostración. Si x̄ ∈ X es un mı́nimo de f , entonces

f (x̄ + th) − f (x̄)


(3.1) (∀h ∈ X)(∀t > 0) ≥0
t
y pasando al lı́mite se concluye D f (x̄)(h) ≥ 0. Tomando −h se deduce D f (x̄)(h) = 0. La recı́proca
se concluye deTeorema 3.1.

Es importante mencionar que en el caso convexo la condición D f (x̄) = 0 es suficiente y necesaria


para que x̄ sea un mı́nimo. En problemas no convexo, incluso sin restricciones, esto no es, en general,
cierto. Puntos que satisfacen la condición D f (x̄) = 0 son llamados puntos crı́ticos de f .

3.3.1. Aplicación a problemas cuadráticos


Retomando lo visto en Ejemplo 3.2.1 tenemos que si A ∈ Sn+ (R) entonces la función f : Rn → R
dada por
1
f (x) = x> Ax − b> x + c, ∀x ∈ Rn ,
2
es convexa. Luego aplicando la Regla de Fermat se tiene que x̄ es un mı́nimo de f si y sólo si la
ecuación
Ax̄ = b
tiene solución, es decir, si b ∈ im(A). En particular, si A no es invertible entonces f puede tener
infinitas soluciones (si b ∈ im(A)) o bien ninguna si b ∈
/ im(A).
   
1 0 0
Ejemplo 3.3.1. Consideremos c = 0, A = yb= . Notemos que b ∈/ im(A). Por otro lado
0 0 1

f (x1 , x2 ) = x12 − x2

Por lo tanto f (0, k) → −∞ si k → +∞. De donde concluimos que f no admite un mı́nimo.

Caso estrictamente convexo

Notemos que si A ∈ Sn++ (R) entonces A es invertible y x̄ = A−1 b. Esto se condice con el hecho
que f es estrictamente convexa y que por lo tanto su mı́nimo es único. Además, la existencia de
mı́nimo también está asegurada por el teorema de Weierstrass-Hilbert-Tonelli pues f es coerciva
como veremos a continuación.

Proposición 3.2. Sean A ∈ Sn++ (R), b ∈ Rn y c ∈ R. La función

1
f (x) = x> Ax − b> x + c
2
es coerciva. Más aún, si λ > 0 es el menor valor propio de A entonces

λ|x|2 ≤ x> Ax

41
Optimización convexa diferenciable Capı́tulo 3, Section 3.4

Demostración. Como la matriz A es simétrica, admite una descomposición del tipo A = PDP> con
D la matriz diagonal con los valores propios reales λ1 ≥ · · · ≥ λn de A y P la matriz cuyas columnas
son los vectores propios ortonormales v1 , . . . , vn asociados a los valores propios λ1 , . . . , λn ; notar que
PP> = P> P = I, con I siendo la matriz identidad. Además, como A es definida positiva, todos sus
valores propios son (estrictamente) positivos. Más aún, como v1 , . . . , vn constituyen una base de Rn ,
para todo x ∈ Rn , existen coeficientes reales ξ1 , . . . , ξn tales que
n
x = ∑ ξi vi = Py, donde y = (ξ1 , . . . , ξn ).
i=1

De este modo, |x|2 = x> x = (Py)> Py = y> P> Py = y> y = |y|2 . Por lo tanto
n
> >
(Ax)> x = (PDP> x) x = (DP> x) (P> x) = (Dy)> y = ∑ ξ2i λi ≥ λn |y|2 = λn |x|2 ,
i=1

de donde se obtiene la coercividad.

3.4. Principio Variacional de Ekeland


El Principio Variacional de Ekeland permite construir una Regla de Fermat aproximada en la
ausencia de coercividad. En tal caso, el hecho que la función objetivo sea acotada inferiormente es
importante como queda demostrado con el Ejemplo 3.3.1.

Teorema 3.5. Supongamos que (X, k · k) es un espacio de Banach reflexivo. Sea f : X → R ∪ {+∞}
una función propia, convexa y s.c.i para la topologı́a generada por la norma e inferiormente acotada.
Consideremos ε > 0, λ > 0 y sea x0 ∈ X tal que

(3.2) f (x0 ) ≤ ı́nfX ( f ) + ε.

Entonces, existe un punto xε ∈ X tal que

(i) f (xε ) ≤ f (x0 ),

(ii) kxε − x0 k ≤ λ,

(iii) f (xε ) < f (x) + λε kx − xε k, para todo x ∈ X \ {xε }.

Si además f Gâteaux diferenciable en dom( f ), el cual asumimos es un abierto de X, entonces


kD f (xε )k∗ ≤ λε y existe una sucesión minimizante {xk } en X que satisface

f (xk ) → ı́nfX ( f ) y D f (xk ) → 0.

Demostración. Supongamos que λ = 1 (en caso contrario basta considerar la norma k · k/λ). Defina-
mos la función gε : X → R ∪ {+∞} : x 7→ f (x) + εkx − x0 k. Es fácil mostrar que gε es convexa, s.c.i.
y coerciva, por lo que el Teorema 2.1 implica que el conjunto sol(Gε ) es no vacı́o, donde

(Gε ) val(Gε ) = ı́nf gε (x).


x∈X

42
Capı́tulo 3, Section 3.5 Principio Variacional de Ekeland

Además, como
sol(Gε ) = {x ∈ X | gε (x) ≤ val(Gε )} = Γval(Gε ) (gε ),
se tiene que sol(Gε ) es convexo, cerrado y acotado. De ese modo, como f + δsol(Gε ) es propia, s.c.i.
y coerciva, el Teorema 2.1 implica que existe xε ∈ sol(Pε ), donde

(Pε ) val(Pε ) = ı́nf f (x).


x∈sol(Gε )

Luego, como x ∈ sol(Gε ), se tiene que gε (xε ) ≤ gε (x) para todo x ∈ X, lo que implica

(3.3) ı́nf f (x) + εkxε − x0 k ≤ f (xε ) + εkxε − x0 k = gε (xε ) ≤ gε (x0 ) = f (x0 ) ≤ ı́nf f (x) + ε,
x∈X x∈X

donde la última desigualdad corresponde a (3.2). De la cadena de desigualdades anteriores se con-


cluye f (xε ) ≤ f (x0 ) y kxε − x0 k ≤ 1.
Sea x ∈ X \ {xε }. Si x ∈ X \ sol(Gε ), entonces gε (xε ) < gε (x), lo que implica

f (xε ) < f (x) + ε(kx − x0 k − kxε − x0 k) ≤ f (x) + εkx − xε k.

Si por el contrario x ∈ sol(Gε ) \ {xε }, entonces, como xε ∈ sol(Pε ),

f (xε ) ≤ f (x) < f (x) + εkx − xε k.

Concluimos que, para todo x ∈ X \ {xε } se tiene f (xε ) < f (x) + εkx − xε k.
Para las últimas afirmaciones, supongamos que f es Gâteaux diferenciable y sea d ∈ X con
kdk = 1. Por la parte (iii),

f (xε − td) − f (xε )


(∀t > 0) ≥ −εkdk = −ε,
t
de donde, haciendo t → 0+ , tenemos que

D f (xε )(−d) ≥ −ε.

En otras palabras, dado que d ∈ X es un vector arbitrario que satisface kdk = 1, hemos probado que

D f (xε )(d) ≤ ε, ∀d ∈ X, kdk = 1,

de donde
kD f (xε )k∗ = sup {D f (xε )(d) | kdk = 1} ≤ ε.
d∈X

Finalmente, para cada k ∈ N tomemos yk ∈ 1k − arg mı́nX ( f ). Luego, basta aplicar el resultado recien-
temente probado para obtener la existencia de xk ∈ X que satisface

1 1
f (xk ) ≤ f (yk ) ≤ ı́nfX ( f ) + y kD f (xk )k∗ ≤ .
k k

43
Optimización convexa diferenciable Capı́tulo 3, Section 3.5

3.5. Métodos de descenso


El principio Variacional de Ekeland provee de forma abstracta la existencia de una sucesión mini-
mizante {xk } tal que D f (xk ) → 0. Veremos ahora dos métodos constructivos que permiten determinar
una tal sucesión usando la información entregada por los datos del problema. En lo que sigue supon-
dremos que X tiene la estructura de espacio de Hilbert con un producto interno h·, ·i. En este contexto,
el siguiente lema será de utilidad para la convergencia en espacios de Hilbert de varios métodos en
este curso.
Lema 3.1 (Opial). Sea (X, h·, ·i) un espacio de Hilbert. Sea {xk } una sucesión en X y S ⊂ X un
conjunto no vacı́o. Supongamos que:
(a) para todo x ∈ S, la sucesión {kxk − xk} converge;
(b) todo punto de acumulación débil de {xk } está en S.
Entonces, existe x̄ ∈ S tal que xk * x̄ cuando k → ∞.
Demostración. Sean x e y dos puntos de acumulación débiles de {xk }, digamos xkn * x y xkm * y.
Estos existen pues {xk } es una sucesión acotada por (a). De (b) se obtiene que x e y están en S.
Además, como se cumple
kxk − xk2 − kxk − yk2 = −hx − y, 2xk − x − yi, ∀k ∈ N,
y el lado izquierdo converge a un lı́mite `. Tomando en particular las subsucesiones {xkn } y {xkm } al
lado derecho se concluye ` = kx − yk2 = −kx − yk2 , de donde obtenemos que x = y.

3.5.1. Método del Gradiente


El primer método que estudiaremos se basa en una iteración del tipo
(3.4) xk+1 = xk − αk ∇ f (xk ), ∀k ∈ N
que parte desde x0 ∈ X arbitrario y donde αk > 0 para cada k ∈ N. Notemos que, gracias a la Regla
de Fermat, si en alguna iteración tenemos que xk es un mı́nimo de f entonces
xl = xk , ∀l ≥ k
y por lo tanto el método se detiene una vez que se llega a un óptimo.
Para estudiar la convergencia del método del gradiente, necesitamos algunas propiedades de fun-
ciones convexas diferenciable con gradiente Lipschitz continuo.
Lema 3.2 (Lema de máximo descenso). Sean (X, h·, ·i) un espacio de Hilbert y f : X → R una
función Gâteux diferenciable en X tal que ∇ f es L-Lipschitz continuo en X, es decir,
k∇ f (x) − ∇ f (y)k ≤ Lkx − yk, ∀x, y ∈ X.
Entonces se cumple
L
(3.5) f (y) ≤ f (x) + h∇ f (x), y − xi + ky − xk2 , ∀x, y ∈ X.
2
Además, si f es convexa, se tiene
L
(3.6) f (y) ≤ f (z) + h∇ f (x), y − zi + ky − xk2 , ∀x, y, z ∈ X.
2
44
Capı́tulo 3, Section 3.5 Métodos de descenso

Demostración. Sean x e y en X. Definamos, para todo t ∈ [0, 1] la función φ(t) = f (x + t(y − x)).
Usando la propiedad Lipschitzianidad de ∇ f y la desigualdad de Cauchy-Schwartz, se tiene
Z 1
f (y) − f (x) = φ0 (t)dt
0
Z 1
= h∇ f (x + t(y − x)), y − xidt
0
Z 1
= h∇ f (x), y − xi + h∇ f (x + t(y − x)) − ∇ f (x), y − xidt
0
Z 1
≤ h∇ f (x), y − xi + k∇ f (x + t(y − x)) − ∇ f (x)k ky − xkdt
0
Z 1
≤ h∇ f (x), y − xi + Lky − xk2 tdt
0
L
= h∇ f (x), y − xi + ky − xk2 ,
2
de donde se obtiene la primera desigualdad (3.5). Para la segunda, dado z ∈ X, gracias al Teorema
3.1, como f es convexa y Gâteaux diferenciable en X, se tiene que

0 ≤ f (z) − f (x) − h∇ f (x), z − xi.

Luego, basta sumar esta desigualdad a (3.5) para obtener (3.6).


Ahora podemos estudiar la convergencia del método del gradiente.
Teorema 3.6. Sean (X, h·, ·i) es un espacio de Hilbert y f : X → R una función convexa Gâteaux
diferenciable en X y tal que arg mı́nX ( f ) 6= 0.
/ Supongamos que ∇ f es L-Lipschitz continuo en X.
Considere la sucesión {xk }k∈N generada por (3.4) partiendo desde x0 ∈ X, con
2
0 < αmin ≤ αk ≤ αmax < , ∀k ∈ N.
L
Entonces ∃x∞ ∈ arg mı́nX ( f ) tal que xk * x∞ cuando k → ∞.
Demostración. Dividamos la demostraciones en partes:
1. Veamos primero que la sucesión { f (xk )} es decreciente y convergente. Sea k ∈ N. Tomando
y = xk+1 y x = xk en (3.6), y usando (3.4), se tiene
 
αk L
(3.7) f (xk+1 ) ≤ f (z) + h∇ f (xk ), xk − zi − αk 1 − k∇ f (xk )k2 , ∀z ∈ X.
2
En particular, tomando z = xk y usando αmax < 2/L, se obtiene el decrecimiento de la sucesión
{ f (xk )}, y por lo tanto, la convergencia de esta sucesión, pues ı́nfX ( f ) > −∞.

2. Evaluando z = xk en (3.7) y sumando sobre k desde 0 a n, se deduce de la propiedad telescópica


y de las hipótesis sobre los αk
αmax L n
 
αmin 1 −
2 ∑ k∇ f (xk )k2 ≤ f (x0) − f (xn+1), ∀n ∈ N
k=0

45
Optimización convexa diferenciable Capı́tulo 3, Section 3.5

de donde podemos inferir que



∑ k∇ f (xk )k2 < +∞ y por lo tanto ∇ f (xk ) → 0 para la topologı́a fuerte si k → +∞.
k=0

3. Ahora tomando z = x̄ ∈ arg mı́nX ( f ) en (3.7), deducimos

kxk+1 − x̄k2 − kxk − x̄k2 − α2k k∇ f (xk )k2 = 2αk h∇ f (xk ), x̄ − xk i


   
αk L 2
≤ 2αk f (x̄) − f (xk+1 ) − αk 1 − k∇ f (xk )k
2
≤ −α2k (2 − αk L) k∇ f (xk )k2 ,

de donde obtenemos kxk+1 − x̄k2 ≤ kxk − x̄k2 + sk , donde

sk := α3max Lk∇ f (xk )k2 .

4. Afirmamos que la sucesión {kxk − x̄k} es convergente. En efecto, sumando a ambos lados de

la última desigualdad el término ∑ sk obtenemos
l=k+1
∞ ∞
θk+1 := kxk+1 − x̄k2 + ∑ sk ≤ kxk − x̄k2 + ∑ sk =: θk
l=k+1 l=k

Luego la sucesión {θk } es decreciente y y todos sus términos son no negativos. Luego, {θk } es

convergente, pero como ∑ sk → 0 si k → +∞ (pues la serie converge), se tiene que la sucesión
l=k
{kxk − x̄k} también converge.
5. Para concluir usamos el Lema 3.1. Tomemos un punto de acumulación débil de {xk }, digamos
xkn * y ∈ X si n → +∞. Tomando z = x̄ en (3.7) y usando la semicontinuidad inferior de f en
la topologı́a débil (por convexidad) deducimos que
   
αkn L 2
f (y) ≤ lı́m inf f (xkn +1 ) ≤ f (x̄) + lı́m inf h∇ f (xkn ), xkn − x̄i − αkn 1 − k∇ f (xkn )k .
n→∞ n→∞ 2
Sabemos que k∇ f (xkn )k → 0 si n → +∞ y que además {xkn } está acotada (pues converge débil-
mente). Luego, debido a las condiciones sobre {αk }, el limite inferior de la derecha es nulo y
por lo tanto debemos tener que f (y) ≤ f (x̄). Lo que implica a su vez que y ∈ arg mı́nX ( f ) y en
consecuencia el resultado final de convergencia se deduce del Lema 3.1 con S = arg mı́nX ( f ).

Aplicación al problema cuadrático


Estudiaremos ahora una versión especialidad del método del gradiente para minimizar funciones
cuadráticas del tipo
1
f (x) = x> Ax − b> x + c, ∀x ∈ Rn ,
2
46
Capı́tulo 3, Section 3.5 Métodos de descenso

donde A ∈ Sn++ (R), b ∈ Rn y c ∈ R. Sabemos, por la Proposición 3.2 que existe un único x̄ que
minimiza esta función. Una forma de aproximar x̄ es utilizando el método del gradiente, cuya cons-
trucción iterativa está dada por (3.4). En este caso estudiaremos la velocidad de convergencia del
método con αk siendo el único real positivo que minimiza sobre R la aplicación

α 7→ f (xk − α∇ f (xk )).

Veremos que la velocidad de convergencia de {xk } a x̄ depende de un real asociado a la matriz A


llamado condicionamiento, el cual está dado por

λ1
κ(A) :=
λn

donde λ1 ≥ λ2 ≥ . . . ≥ λn > 0 los valores propios de A en orden decreciente.


Antes de continuar, notemos que la aplicación

α 7→ f (xk − α∇ f (xk ))

es estrictamente convexa y diferenciable, luego, usando la Regla de Fermat, αk puede ser calculado
explı́citamente. De hecho, tenemos que

kAxk − bk2 k∇ f (xk )k2


(3.8) αk = = , ∀k ∈ N.
(Axk − b)> A(Axk − b) ∇ f (xk )> A∇ f (xk )

Teorema 3.7. Sean A ∈ Sn++ (R), b ∈ Rn y c ∈ R. Considere la función f : Rn → R dada por

1
f (x) = x> Ax − b> x + c, ∀x ∈ Rn ,
2
y sea x̄ su mı́nimo. Considere la sucesión {xk }k∈N generada por (3.4) partiendo desde x0 ∈ Rn
arbitrario y con αk dado por (3.8). Luego se tienen las estimaciones

κ(A) − 1 2k
 
(i) f (xk ) − f (x̄) ≤ [ f (x0 ) − f (x̄) ]
κ(A) + 1
κ(A) − 1 k
 
(ii) kxk − x̄kA ≤ kx0 − x̄kA
κ(A) + 1
1 
2( f (x0 ) − f (x̄)) 2 κ(A) − 1 k
 
(iii) kxk − x̄k ≤ ,
λn κ(A) + 1

donde k · kA : x 7→ x> Ax define una norma en Rn .

Demostración. Para todo k ∈ N, definamos gk := ∇ f (xk ) = Axk − b, de donde

kgk k2
αk = y xk+1 = xk − αk gk , ∀k ∈ N.
gk > Agk

47
Optimización convexa diferenciable Capı́tulo 3, Section 3.5

Entonces, sigue que

1
f (xk+1 ) = xk+1 > Axk+1 − b> xk+1 + c
2
1 > α2
= xk Axk − αk (Axk )> gk + k gk > Agk − b> xk + αk b> gk + c
2 2
α2
= f (xk ) − αk (Axk − b)> gk + k gk > Agk
2

En particular, tenemos que

kgk k4
(3.9) f (xk+1 ) = f (xk ) − , ∀k ∈ N.
2gk > Agk

Además, como la única solución óptima del problema está dada por x̄ = A−1 b, deducimos que
ı́nfX ( f ) = f (x̄) = − 21 b> A−1 b + c y más aún

1 −1 > 1 > 1 1
(A gk ) gk = (xk − A−1 b) (Axk − b) = xk > Axk − b> xk + b> A−1 b = f (xk ) − f (x̄), ∀k ∈ N.
2 2 2 2

Luego, de (3.9) se deduce


!
kgk k4
f (xk+1 ) − f (x̄) = [ f (xk ) − f (x̄)] 1 − , ∀k ∈ N.
gk > Agk gk > A−1 gk
 

Entonces, como la desigualdad de Kantorovich (ver Ejercicio 4) asegura que


   (κ(A) + 1)2
x> Ax x> A−1 x ≤ kxk4 , ∀x ∈ Rn ,
4κ(A)

conluimos
2
κ(A) − 1
  
4κ(A)
f (xk+1 ) − f (x̄) ≤ [ f (xk ) − f (x̄)] 1 − = [ f (xk ) − f (x̄)] , ∀k ∈ N
(κ(A) + 1)2 κ(A) + 1

y la primera desigualdad se obtiene usando inducción. Además, dado que

2( f (xk ) − f (x̄)) = gk > A−1 gk = (xk − x̄)> A(xk − x̄) = kxk − x̄k2A , ∀k ∈ N,

usando la primera desigualdad se deduce directamente la segunda. Finalmente, la última desigualdad


se deduce de la segunda, ya que gracias a la Proposición 3.2 tenemos que

kxk − x̄k2A ≥ λn kxk − x̄k2 , ∀k ∈ N.

48
Capı́tulo 3, Section 3.5 Métodos de descenso

3.5.2. Método del Gradiente conjugado


Ahora veremos un método en el contexto X = Rn cuya principal caracterı́stica es que encuentra
en una cantidad finita de iteraciones el óptimo de una función cuadrática estrictamente convexa. La
idea principal de este algoritmo se basa en el hecho que para una iteración del tipo
(3.10) xk+1 = xk + αk dk , ∀k ∈ N,
con dk ∈ Rn cualquiera, si αk se escoge como un real que minimiza sobre R la función convexa
α 7→ f (xk + αdk ),
por la Regla de Fermat se tendrá que ∇ f (xk+1 ) y dk son ortogonales. El método consisten entonces en
escoger los dk de forma tal que ∇ f (xk+1 ) sea ortogonal no solo a dk , si no que también a d0 , . . . , dk−1 .
De esta forma, al cabo de n iteraciones se deberá tener forzosamente que ∇ f (xn ) = 0 y que por lo
tanto xn es un mı́nimo de la función.
El nombre del método viene del hecho que dos vectores x, y ∈ Rn se dicen conjugados con res-
pecto a A ∈ Sn++ (R) si x> Ay = 0. Notemos que, para cualquier k ∈ {1, . . . , n − 1}, si v1 , . . . , vk+1 ∈ Rn
son vectores no nulos conjugados con respecto a A, entonces {v1 , . . . , vk+1 } es una familia linealmen-
te independiente. En efecto, si esto no fuese ası́, podemos asumir sin perdida de generalidad que vk+1
se puede escribir como combinación lineal de v1 , . . . , vk , es decir, existen ξ1 , . . . , ξk ∈ R tales que
!
k k k
vk+1 = ∑ ξivi y por lo tanto v> >
k+1 Avk+1 = vk+1 ∑ ξiAvi = ∑ ξi v>
k+1 Avi = 0.
k=1 i=1 i=1

Dado que A ∈ Sn++ (R) y vk+1 6= 0 llegamos a una contradicción. Notemos que esto implica que una
colección de vectores no nulos conjugados con respecto a A no puede contener más de n vectores.
El método del gradiente conjugado consiste en utilizar las direcciones dk dadas por la fórmula
(
−g0 si k = 0
(3.11) dk =
−gk + βk dk−1 si k ≥ 1,
donde denotamos gk := ∇ f (xk ) = Axk − b para todo k ∈ N y βk es un parámetro dado por la relación
de conjugación entre dk y dk−1 . Efectivamente, no es difı́cil ver que dk > Adk−1 = 0 si y sólo si
(Axk − b)> Adk−1 gk > Adk−1
(3.12) βk = = , ∀k ∈ N \ {0}.
dk−1 > Adk−1 dk−1 > Adk−1
Más aún, si el paso se escoge de forma óptima, gracias a la Regla de Fermat tenemos que
(Axk − b)> dk gk > dk
(3.13) αk = − = − , ∀k ∈ N.
dk > Adk dk > Adk
Ahora veremos que el método converge en una cantidad finita de pasos
Teorema 3.8. Sean A ∈ Sn++ (R), b ∈ Rn y c ∈ R. Considere la función f : Rn → R dada por
1
f (x) = x> Ax − b> x + c, ∀x ∈ Rn .
2
La sucesión {xk }k∈N generada por (3.10) partiendo desde x0 ∈ Rn arbitrario, con dk dado por (3.11),
βk dado por (3.12) y αk dado por (3.13), converge en a lo más n pasos.

49
Optimización convexa diferenciable Capı́tulo 3, Section 3.5

Demostración. Procederemos por inducción y probaremos que, para todo k ∈ {1, . . . , n}, si dk−1 6= 0
entonces

(3.14) gk > di = dk > Adi = 0, ∀i ∈ {0, . . . , k − 1}.

De este modo, si para algún k ∈ {1, . . . , n}, tuviesemos dk = 0, entonces 0 = dk = −gk + βk dk−1 , de
donde gk es colineal con dk−1 6= 0 y al mismo tiempo gk > dk−1 = 0, por lo que gk = 0 y xk es solución.
Además, el algoritmo terminará en a lo más n pasos, ya que a cada iteración k genera un dk que es
conjugado con respecto a A a d0 , . . . , dk−1 , lo cual se puede hacer a lo más n veces en Rn .
Para k = 1, si d0 = −g0 6= 0, de (3.10) y (3.13) deducimos

g1 > d0 = (Ax1 − b)> d0 = g0 > d0 + α0 d0 > Ad0 = 0.

Además, de (3.11) y (3.12) obtenemos

d1 > Ad0 = −g1 > Ad0 + β1 d0 > Ad0 = 0.

Ahora supongamos que para k ∈ {1, . . . , n − 1}, si se tiene dk−1 6= 0, entonces se cumple (3.14).
Supongamos que dk 6= 0 y tomemos i ∈ {0, . . . , k}. Si i = k entonces (3.10) y (3.13) implican que

gk+1 > dk = (Axk+1 − b)> dk = gk > dk + αk dk > Adk = 0.

Además, de (3.11) y (3.12) vemos que

dk+1 > Adk = −gk+1 > Adk + βk+1 dk > Adk = 0.

Ahora, si i < k, (3.10) implica que gk+1 = gk + αk Adk de donde

gk+1 > di = gk > di + αk dk > Adi = 0,

pues ambos términos son nulos por la hipótesis de inducción. Por otra parte, combinando el hecho
que gi+1 = gi + αi Adi con (3.11) deducimos que
(β1 + 1)d0 − d1

1

 si i = 0,
Adi = (gi+1 − gi ) = 1 α 0
αi  (βi+1 di − di+1 − (βi di−1 − di )) si i ∈ {1, . . . , k − 1},

αi
de donde obtenemos,

dk+1 > Adi = −gk+1 > Adi + βk+1 dk > Adi = 0, ∀i ∈ {1, . . . , k − 1},

pues el segundo término es nulo por hipótesis de inducción y el primero es nulo pues acabamos de
probar que gk+1 > di = 0 para todo i ∈ {1, . . . , k} y Adi es una combinación lineal de di−1 , di , di+1 (y
Ad0 es combinación lineal de d0 , d1 ). Esto concluye la demostración.
En el caso que n sea muy grande (por ejemplo n ≥ 103 ), realizar las n iteraciones del método
del gradiente conjugado puede ser muy costoso. Por esta razón, es interesante saber lo preciso que
se vuelve el método al cabo de algunas iteraciones. El siguiente resultado provee una estimación de
este error y entrega una cota para la tasa de convergencia del método.

50
Capı́tulo 3, Section 3.5 Métodos de descenso

Teorema 3.9. Sean A ∈ Sn++ (R), b ∈ Rn y c ∈ R. Considere la función f : Rn → R dada por


1
f (x) = x> Ax − b> x + c
2
y sea x̄ su mı́nimo. Considere la sucesión {xk } generada por (3.10) partiendo desde x0 ∈ X con dk
dado por (3.11), βk dado por (3.12) y αk dado por (3.13). Luego
"p #k
κ(A) − 1
kxk+1 − x̄kA ≤ 2kx0 − x̄kA p , ∀k ∈ N,
κ(A) + 1

donde kxkA = x> Ax para cada x ∈ Rn .
Demostración. Ejercicio de ayudantı́a.

Comparación de los métodos


En el contexto de problemas cuadráticos estrictamente convexo, es decir A ∈ Sn++ (R), la tasa de
convergencia del método gradiente conjugado es mejor que la tasa del método del gradiente, ya que
p
κ(A) − 1 κ(A) − 1
0≤ p ≤ < 1,
κ(A) + 1 κ(A) + 1
con igualdad solo para el caso κ(A) = 1. Esto implica que en general se tiene que el método gradiente
conjugado convergerá más rápido que el método del gradiente.

3.5.3. Método de Newton-Raphson


El método del gradiente considera información sólo de primer orden, lo cual, dependiendo de
la función a minimizar, puede generar algoritmos que convergen muy lentos debido a un efecto de
zig-zag como lo explica el siguiente ejemplo.
Ejemplo 3.5.1. Sea δ > 1 y f : R2 → R definido por
1 δ
f (x, y) = x2 + y2 , ∀x, y ∈ R.
2 2
Se tiene ∇ f (x, y) = (x, δy) y que por lo tanto es es δ−Lipschitz continuo. El método del gradiente se
escribe en este caso como (
xk+1 = xk (1 − α)
yk+1 = yk (1 − αδ),
donde α < 2/δ. En particular, si α = 0,1 y δ = 18, la condición de los parámetros para la conver-
gencia se satisfacen y el método se reduce a
(
xk+1 = 0,9 ∗ xk
yk+1 = −0,8 ∗ yk ,
lo que hace zig-zaguear a las iteraciones si yk 6= 0 y la convergencia es cada vez más lenta si δ
es mayor y α es más pequeño. El siguiente Cuadro muestra algunas iteraciones del método del
gradiente con (x0 , y0 ) = (1, 1):

51
Optimización convexa diferenciable Capı́tulo 3, Section 3.5

k xk yk k xk yk k xk yk
0 1.0000 1.0000 7 0.4783 -0.2097 14 0.2288 0.0440
1 0.9000 -0.8000 8 0.4305 0.1678 15 0.2059 -0.0352
2 0.8100 0.6400 9 0.3874 -0.1342 16 0.1853 0.0281
3 0.7290 -0.5120 10 0.3487 0.1074 17 0.1668 -0.0225
4 0.6561 0.4096 11 0.3138 -0.0859 18 0.1501 0.0180
5 0.5905 -0.3277 12 0.2824 0.0687 19 0.1351 -0.0144
6 0.5314 0.2621 13 0.2542 -0.0550 20 0.1216 0.0115

Cuadro 3.1: Iteraciones del método del gradiente

Estudiaremos ahora otro método, llamado Newton-Raphson, que involucra la curvatura de la


función a minimizar, lo que permite superar estos efectos que reducen la velocidad de convergencia.
La idea principal es, conocida la iteración xk ∈ X := Rn , minimizar la aproximación de Taylor de
segundo orden de f en torno a xk
1
fk (x) = f (xk ) + ∇ f (xk )> (x − xk ) + (x − xk )> ∇2 f (xk )(x − xk )
2
para encontrar xk+1 , donde ∇2 f (x) es la matrix hessiana de f en x. Usando la regla de Fermat, lo
anterior se traduce a resolver la ecuación para xk+1
0 = ∇ f (xk ) + ∇2 f (xk )(xk+1 − xk ),
que, en el caso en que ∇2 f (xk ) sea invertible, se reduce a
(3.15) xk+1 = xk − [∇2 f (xk )]−1 ∇ f (xk ), ∀k ∈ N.
Ahora veamos como cambia la eficiencia del método de Newton-Raphson en comparación al
método del gradiente para el ejemplo anterior.
Ejemplo 3.5.2. Retomemos el Ejemplo 3.5.1. Recordemos que f (x, y) = 12 x2 + 2δ y2 . Es claro que el
único mı́nimo de esta función es (x̄, ȳ) = (0, 0). Además, tenemos que, y
   
x 2 1 0
∇ f (x, y) = y ∇ f (x, y) = .
δy 0 δ
Luego, dado (x0 , y0 ) ∈ R2 , la primera iteración es
        
x1 x0 1 0 x0 0
= − 1 = ,
y1 y0 0 δ δy0 0
es decir, el método de Newton-Raphson encuentra el mı́nimo en una sola iteración.
Observación 3.1. Más generalmente, el método de Newton-Raphson es utilizado para la resolución
de ecuaciones no lineales del tipo F(x) = 0, donde F : Rn → Rn es una función Fréchet diferenciable.
En este contexto, dado xk , el método busca xk+1 resolviendo la aproximación de primer orden
0 = F(xk ) + JF (xk )(xk+1 − xk ),
donde, si la matriz Jacobiana JF (xk ) es invertible, se reduce a
xk+1 = xk − JF (xk )−1 F(xk ).

52
Capı́tulo 3, Section 3.5 Métodos de descenso

Recuerdo: Matriz Jacobiana

Una función vectorial F : Rn → Rm se dice Fréchet diferenciable en x ∈ Rn si existe una matriz


M ∈ Mm×n (R) tal que
|F(x + h) − F(x) − Mh|
lı́m = 0.
h→0 |h|
La matriz M se denota JF (x), se conoce como la Matriz Jacobiana de F y viene dada por:
 
∂x1 F1 (x) . . . ∂xn F1 (x)
 
 
JF (x) = 
 .
. . . .
. 
. . . 
 
 
∂x1 Fm (x) . . . ∂xn Fm (x)

donde F(x) = (F1 (x), . . . , Fm (x)) para todo x ∈ Rn

Ahora estudiaremos la convergencia del método de Newton-Raphson. Cabe destacar que el teore-
ma de convergencia que mostraremos ahora se diferencia de los teoremas estudiados para los métodos
del Gradiente y Gradiente conjugado en que la elección del punto inicial juega un rol importante.
Teorema 3.10. Sea f : Rn → R ∪ {+∞} una función propia, convexa y dos veces Gâteaux diferen-
ciable en dom( f ), el cual asumimos abierto de Rn . Supongamos que existe x̄ ∈ arg mı́nRn ( f ) tal que
∇2 f (x̄) ∈ Sn++ (R), y que además ∇2 f es localmente Lipschitz continua en torno a x̄, es decir, para
algún r > 0 existe L > 0 tal que
k∇2 f (x) − ∇2 f (y)k ≤ L|x − y|, ∀x, y ∈ BRn (x̄, r),
p
donde kMk = supkxk=1 kMxk = λmáx (M > M) para cualquier M ∈ Mn×n (R). Entonces, existe ρ > 0
para el cual se tiene que si x0 ∈ BRn (x̄, ρ), la secuencia {xk } generada por (3.15) converge a x̄ y
satisface
|xk+1 − x̄| |xk+1 − x̄|
lı́m = 0, y lı́m sup 2
< ∞.
k→∞ |xk − x̄| k→∞ |xk − x̄|

Demostración. Para todo x ∈ dom( f ) denotemos por λx al menor valor propio de ∇2 f (x). Como
∇2 f (x̄) ∈ Sn++ (R), de la Proposición 3.2 se tiene

y> ∇2 f (x̄)y ≥ λx̄ |y|2 , ∀y ∈ Rn ,


donde λx̄ > 0. Para todo x ∈ BRn (x̄, r) e y ∈ Rn , usando la propiedad Lipschitz de ∇2 f se tiene
y> ∇2 f (x)y = y> ∇2 f (x̄)y + y> (∇2 f (x) − ∇2 f (x̄))y
≥ λx̄ |y|2 − k∇2 f (x) − ∇2 f (x̄)k|y|2
≥ (λx̄ − L|x − x̄|)|y|2 .
n o
λx̄
Luego, definiendo ρ = mı́n r, 2L > 0 tenemos

λx̄
∇2 f (x) ∈ Sn++ (R) con λx ≥ > 0, x ∈ BRn (x̄, ρ).
2
53
Optimización convexa diferenciable Capı́tulo 3, Section 3.5

De ese modo, para todo x ∈ BRn (x̄, ρ), existen matrices Px y Dx tales que ∇2 f (x) = Px Dx Px> con
Px−1 = Px> , de modo que ∇2 f (x)−1 = Px D−1 >
x Px y
1 2
q
k∇ f (x) k = λmáx (Px D−2
2 −1 >
x Px ) ≤ ≤ .
λx λx̄
Supongamos que xk ∈ BRn (x̄, ρ) para algún k ∈ N. Para simplificar la notación, notemos gk = ∇ f (xk )
y Hk = ∇2 f (xk ). De (3.15) se deduce que si xk = x̄ entonces xk+1 = x̄, por lo que suponemos que
xk 6= x̄. Como x̄ es mı́nimo de f , usando el Teorema de Fermat, la propiedad de Lipschitz continuidad
de ∇2 f y la relación
Z 1
gk = ∇ f (xk ) − ∇ f (x̄) = ∇2 f (x̄ + t(xk − x̄))(xk − x̄)dt,
0
tenemos que
|xk+1 − x̄| = |xk − x̄ − Hk−1 gk |
= |Hk−1 (Hk (xk − x̄) − gk ) |
Z 1 
−1 2
= Hk [Hk − ∇ f (x̄ + t(xk − x̄))](xk − x̄)dt
0
2 1 Z
≤ |xk − x̄| |Hk − ∇2 f (x̄ + t(xk − x̄))|dt
λx̄ 0
Z 1
2L
≤ |xk − x̄|2 (1 − t)dt
λx̄ 0
L 1
= |xk − x̄|2 ≤ |xk − x̄|,
λx̄ 2
En particular, se tiene que xk+1 ∈ BRn (x̄, ρ). Además, usando inducción vemos que la sucesión {xk }
está contenida en BRn (x̄, ρ) si x0 ∈ BRn (x̄, ρ) y
1
|xk+1 − x̄| ≤ |x0 − x̄|, ∀k ∈ N.
2k+1
De aquı́ se concluye que xk → x̄, y que también tenemos
|xk+1 − x̄| L |xk+1 − x̄| L
≤ |xk − x̄| y ≤ ,
|xk − x̄| λx̄ |xk − x̄|2 λx̄
lo que finaliza la demostración.
Observación 3.2. El método también funciona si se asume que ∇2 f es uniformemente continua en
una vecindad acotada de x̄, es decir, para algún r > 0 tenemos que
∀ε > 0, ∃ρ > 0, ∀x, y ∈ BRn (x̄, r) : |x − y| ≤ ρ ⇒ k∇2 f (x) − ∇2 f (y))k ≤ ε.
En ese caso la convergencia es superlineal:
|xk+1 − x∗ |
lı́m = 0.
k→∞ |xk − x∗ |

Por otra parte, el método no necesita que la función sea convexa en todo su dominio, ya que la
demostración es local. Sin embargo, el método si necesita que el mı́nimo sea único y que la función
sea estrictamente convexa en una vecindad del mı́nimo.

54
Capı́tulo 3, Section 3.5 Métodos de descenso

En el Ejemplo 3.5.2, el punto inicial no tiene relevancia para la convergencia. Sin embargo,
en general la convergencia es garantizada sólo si se parte suficientemente cerca de la solución. El
siguiente ejemplo ilustra un caso en que el método puede diverger si se parte lejos de la solución.

Ejemplo 3.5.3. Sea f : R → R definida por


1
f (x) = x arctan(x) − ln(1 + x2 ), ∀x ∈ R.
2
Notemos que f 0 (x) = arctan(x) que es estrictamente creciente, por lo que f es estrictamente convexa
y el único mı́nimo se alcanza en x̄ = 0. Además, tenemos que f 00 (x) = 1+x
1
2 por lo que, dado x0 ∈ R,
la iteración del método de Newton-Raphson se escribe

xk+1 = xk − (1 + xk2 ) arctan(xk ).

En particular, si x0 = 10 tenemos la siguiente tabla con los términos de las iteraciones:

k xk
0 10
1 -139
2 29892
3 -1403526593

Cuadro 3.2: Iteraciones del método Newton-Raphson

55
Optimización convexa diferenciable Capı́tulo 3, Section 3.6

3.6. Ejercicios
1. F UNCI ÓN CONVEXA DEFINIDA POR UNA INTEGRAL
Consideremos el polinomio trigonométrico T : Rn → [0, 2π] → R definido por
T (x, w) = x1 + x2 cos(w) + x3 cos(2w) + . . . + xn cos((n − 1)w).
Muestre que la función f : Rn → R ∪ {+∞} definida por
 Z 2π
− log(T (x, w))dw si T (x, w) > 0, ∀w ∈ [0, 2π],

f (x) = 0
+∞ si no

es una función convexa.


2. F UNCI ÓN CONVEXA VECTORIAL - MATRICIAL
Se define la función f : Rn × Sn (R) → R como sigue
(
x> A−1 x si x ∈ Rn , A ∈ Sn++ (R),
f (x, A) =
+∞ si no
a) Muestre que dom( f ) es un abierto de Rn × Sn (R) y que f es Gâteaux diferenciable con
D f (x, A)(d, D) = 2x> A−1 d − x> A−1 DA−1 x, ∀x ∈ Rn , ∀D ∈ Sn (R).
Aquı́ suponemos que Sn (R) tiene la estructura de espacio de Hilbert con producto interno
usual: hA, Bi = tr(AB) para todo A, B ∈ Sn (R)
b) Deducir que f es una función convexa demostrando que f es subdiferenciable, es decir,
f (x, A) + D f (x, A)(y − x, B − A) ≤ f (y, B), ∀(x, A), (y, B) ∈ dom( f ).
Indicación: Calcular (A−1 x − B−1 y)> B(A−1 x − B−1 y).
3. C ONDICIONES DE OPTIMALIDAD PARA FUNCIONES NO DIFERENCIABLES
Sea (X, k · k) un espacio vectorial normado. Considere g, h : X → R ∪ {+∞} dos funciones
convexas y propias con dom(g) ∩ dom(h) 6= 0. / Suponga que g es Gâteaux diferenciable en
dom(g), es último siendo un abierto de X Definamos la función f : X → R por
f (x) = g(x) + h(x), ∀x ∈ X.
a) Pruebe que x̄ ∈ arg mı́nX ( f ) si y sólo si
Dg(x̄)(x − x̄) + h(x) − h(x̄) ≥ 0, ∀x ∈ X.
b) Muestre además que si x 7→ Dg(x) es secuencialmente fuerte-σ(X∗ , X) continuo en dom(g),
es decir, para cualquier {xk } ⊆ dom(g), si xk → x ∈ dom(g) se tiene que
?
Dg(xk ) −−−* Dg(x),
k→∞

entonces x̄ ∈ arg mı́nX ( f ) si y sólo si


Dg(x)(x − x̄) + h(x) − h(x̄) ≥ 0, ∀x ∈ dom(g).

56
Capı́tulo 3, Section 3.6 Ejercicios

4. D ESIGUALDAD DE K ANTOROVICH
Sea A ∈ Sn++ (R) con valores propios 0 < λ1 ≤ λ2 ≤ · · · ≤ λn 0. El objetivo de esta pregunta es
demostrar la desigualdad
s s 2
   1 λn λ1 
|x|4 ≤ x> Ax x> A−1 x ≤  + |x|4 , ∀x ∈ Rn .
4 λ1 λn

Para ello se aconseja

a) Si A = P> DP es una diagonalización de A, demostrar que para obtener la desigualdad


basta probar
s s 2
   1 λn λ1 
1 ≤ y> Dy y> D−1 y ≤  + , ∀y ∈ Rn con |y| = 1.
4 λ1 λn

n
¯ = y2 λi y pruebe que
b) Defina λ ∑ i
i=1

1 n 2
yi ¯
λ1 + λn − λ
¯ ≤ ∑ ≤ ,
λ i=1 λi λ1 λn

y a partir de esto obtenga el resultado buscado.

5. M ÉTODO DE N EWTON -R APHSON Y P ROBLEMAS CUADR ÁTICOS


Considere la función f : Rn → R definida por
1
f (x) = x> Ax − b> x + c,
2
donde A ∈ Sn++ (R), b ∈ Rn y c ∈ R. Pruebe que para cualquier x0 ∈ Rn , el método de Newton-
Raphson aplicado a la función f converge en solo una iteración.

6. F ORMA ALTERNATIVA DEL M ÉTODO G RADIENTE C ONJUGADO


Dados A ∈ Sn++ (R), b ∈ Rn y c ∈ R, considere la función cuadrática f : Rn → R definida por
1
f (x) = x> Ax − b> x + c, ∀x ∈ Rn .
2
Dado x0 ∈ Rn y g0 = ∇ f (x0 ) = Ax − b, considere para todo k ∈ {1, . . . , n}, el punto xk+1 que
se encuentra resolviendo el problema

Minimizar f (x) sobre todos los x ∈ Uk ,

donde Uk = {xk } + Vk y Vk es el espacio vectorial generado por g0 , . . . , gk . Demuestre que el


método equivale al Método del Gradiente Conjugado, es decir, que cada xk es la k−ésima
iteración del Método del Gradiente Conjugado que parte desde x0 .

57
Optimización convexa diferenciable Capı́tulo 3, Section 3.6

58
CAPÍTULO 4
Optimización convexa no diferenciable

Abstract. En este capı́tulo estudiaremos funciones convexas no diferenciables y vere-


mos que la Regla de Fermat tiene un análogo si reemplazamos el diferencial por una
noción generalizada de este, el cual llamaremos subdiferencial. Usaremos esta nueva he-
rramienta para obtener condiciones de optimalidad para problemas con restricciones y
estudiaremos algunos métodos para resolver esta clase de problemas.

Recordemos que una forma de estudiar problemas de optimización con restricciones es incluir en
la definición de la función objetivo la restricción via una penalización fuerte. Dicho de otra forma,
resolver

(P) Minimizar f (x) sobre todos los x ∈ X que satisfacen la restricción x ∈ S

donde f : X → R es una función dada y S ⊆ X un conjunto dado, es equivalente a resolver

(PS ) Minimizar fS (x) := f (x) + δS (x) sobre todos los x ∈ X.

Notemos que en caso que (P) sea un problema convexo, tendremos que fS será también una función
convexa. Es importante destacar que no importa la regularidad que impongamos sobre f , la función
fS no será jamás diferenciable en la frontera de S (salvo en el caso trivial S = X), lo cual en principio
no nos permitirı́a aplicar los resultados vistos en el capı́tulo anterior a funciones similares a fS .
Afortunadamente, para el caso de optimización convexa, la diferenciabilidad es una herramienta
útil pero no fundamental, pues mucho resultados pueden ser extendidos al caso no diferenciable
introduciendo un objeto matemático llamado subdiferencial.
En este capı́tulo, y sólo con el propósito de simplificar la exposición, trabajaremos básicamente
con funciones f : X → R ∪ {+∞} convexas definidas sobre un espacio de Banach (X, k · k). La
condición impuesta anteriormente, que dom( f ) sea un abierto de X, no será necesaria a partir de
ahora. Además, como lo hemos hecho hasta ahora h·, ·i : X∗ × X → R denotará en producto dualidad
entre X∗ y X. En el caso que X sea un espacio de Hilbert, identificaremos X∗ con X y el producto
interno será denotado al igual que el producto dualidad.

4.1. Subdiferencial
El concepto de subdiferencial viene a generalizar la idea del diferencial de una función. La defini-
ción calza bien para funciones convexas, sin embargo hay que notar que ésta no requiere en absoluto
de la convexidad de la función en cuestión.

59
Optimización convexa no diferenciable Capı́tulo 4, Section 4.1

Definición 4.1. Supongamos que (X, k · k) es un espacio de Banach y sea f : X → R ∪ {+∞} una
función dada. Un subgradiente de f en x ∈ X es un funcional x∗ ∈ X∗ que satisface
f (x) + hx∗ , y − xi ≤ f (y), ∀y ∈ X.
La colección de todos los subgradientes de f en x, denotada ∂ f (x), es el subdiferencial de f en x.
La idea esencial del subdiferencial es agrupar todas las posibles pendientes que pueden tener las
funciones afines continuas que minoran a la función convexa en cuestión.
Observación 4.1. Notemos que ∂ f (x) es un conjunto convexo, posiblemente vacı́o, y cerrado para
la topologı́a débil-? en X∗ (y por lo tanto cerrado para la topologı́a débil y fuerte de X∗ ), cualquiera
sea x ∈ X. Además, es claro que si f es propia, ∂ f (x) = 0/ cada vez que f (x) = +∞.
Ejemplo 4.1.1. Veamos algunos ejemplos:
Sea f (x) = |x| para cada x ∈ R, entonces ∂ f (0) = [−1, 1].

Sea f (x) = − x + δ[0,+∞) (x) para cada x ∈ R, entonces ∂ f (0) = 0.
/

R
R

(0, 0)
epi f R

epi f

R
0

L L

Figura 4.1: Epı́grafo de las funciones f (x) = |x| y f (x) = − x + δ[0,+∞) (x).

Como muestra uno de los ejemplos anteriores, el subdiferencial de una función convexa puede
ser vacı́o, incluso si la función es finita en el punto. Un criterio, relativamente simple, para evitar esto
es que la función sea continua. Esto es una consecuencia del Teorema de Hahn-Banach.
Proposición 4.1. Sean (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función convexa.
Suponga que f es continua en x ∈ dom( f ), entonces ∂ f (x) 6= 0/
Demostración. Dado que f es continua en x, podemos encontrar r > 0 tal que f (x + rd) ≤ f (x) + 1
para cada d ∈ BX . De donde se tiene que int(epi( f )) 6= 0/ y además (x, f (x)) ∈
/ int(epi( f )). Luego por
∗ ∗
el Teorema de Hahn-Banach (Lema 2.1), existe (x , α) ∈ X × R \ {0} tal que
hx∗ , xi + α f (x) ≤ hx∗ , yi + αλ, ∀(y, λ) ∈ epi( f )
De aquı́ se concluye que α ≥ 0 pues (x, λ) ∈ epi( f ) para cualquier λ ≥ f (x). Además, como x + rd ∈
dom( f ) para cada d ∈ BX , tenemos que si α = 0 entonces
hx∗ , xi ≤ hx∗ , x + rdi, ∀d ∈ BX .

60
Capı́tulo 4, Section 4.1 Subdiferencial

Esto a su vez implica que kx∗ k∗ = 0 y por lo tanto (x∗ , α) = 0, llevándonos a una contradicción. Por
lo tanto α > 0, y sin perdida de generalidad podemos asumir que α = 1, multiplicando x∗ por α1 si es
necesario. Entonces, tenemos que
hx∗ , x − yi + f (x) ≤ λ, ∀(y, λ) ∈ epi( f ).
Tomando λ = f (y), vemos que x∗ ∈ ∂ f (x), y la proposición ha sido demostrada.

4.1.1. Cono Normal


Un ejemplo interesante a estudiar es el subdiferencial de la función indicatriz f = δS donde S ⊆ X
es un conjunto dado. El conjunto ∂δS (x) se conoce como el cono normal a S en x ∈ X y viene dado
por
NS (x) := ∂δS (x) = {x∗ ∈ X∗ | hx∗ , y − xi ≤ 0, ∀y ∈ S}.

S x22 = x1

x̄ = (0, 0)
R
NS (0, 0)

x2 = x1

Figura 4.2: Ejemplo cono normal a un conjunto en R2 .

El cono normal jugará un rol importante cuando escribamos condiciones de optimalidad. En


particular, será de importancia conocer la estructura del cono normal a un conjunto de nivel, es
decir, S = Γγ ( f ) para cierto γ ∈ R y f : X → R ∪ {+∞}. A continuación daremos una respuesta
parcial a la estructura del cono normal en este caso. Para demostrar el converso de la siguiente
proposición necesitamos algunas herramientas que aún no tenemos, por lo cual posponemos esa
parte de la demostración para más adelante; ver Proposición 4.6.
Proposición 4.2. Sean (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función propia tal
que Γγ ( f ) 6= 0/ para cierto γ ∈ R. Luego, tenemos que
∀x ∈ Γγ ( f ), ∀µ ≥ 0, ∀x∗ ∈ ∂ f (x) tales que µ( f (x) − γ) = 0 se tiene que µx∗ ∈ NΓγ ( f ) (x).
Demostración. Notemos que para cada x∗ ∈ ∂ f (x) y µ ≥ 0 tenemos que
hµx∗ , y − xi + µ f (x) ≤ µ f (y), ∀y ∈ X.

61
Optimización convexa no diferenciable Capı́tulo 4, Section 4.1

Por lo tanto, si y ∈ Γγ ( f ), obtenemos la desigualdad

hµx∗ , y − xi ≤ µ( f (y) − f (x)) ≤ µ(γ − f (x)).

De aquı́ se concluye que si µ( f (x) − γ) = 0 se tendrá también que µx∗ ∈ NΓγ ( f ) (x).

4.1.2. Relación con diferenciabilidad


La relación que existe entre el subdiferencial y el diferencial de una función puede ser estudiada
a través de la derivada direccional. Recordemos que la esta derivada está dada por
f (x + td) − f (x)
f 0 (x; d) := lı́m , ∀d ∈ X.
t→0+ t
Notemos que en general −∞ ≤ f 0 (x; d) ≤ +∞. De hecho los valores ±∞ pueden ser alcanzados,
como lo muestra el siguiente ejemplo.
Ejemplo 4.1.2. Consideremos la función f : R → R ∪ {+∞} definida por
( √
− 1 − x2 si |x| ≤ 1
f (x) = .
+∞ si no

Luego se tiene que f 0 (−1, d) = −∞ y f 0 (1, d) = +∞ para cada d > 0. En efecto


p r r
− 1 − (−1 + td) 2 −0 2td − t 2d2 2d
f 0 (−1, d) = lı́m = lı́m − 2
= lı́m − − d 2 = −∞
t→0+ t t→0+ t t→0+ t
y dado que 1 + td > 1 si t, d > 0 entonces se tiene que
f (1 + td) − 0
f 0 (1, d) = lı́m = +∞
t→0+ t
La derivada direccional es importante en Análisis Convexo pues permite obtener una representa-
ción del subdiferencial de una función convexa, como veremos a continuación.
Proposición 4.3. Sean (X, k · k) un espacio de Banach, f : X → R ∪ {+∞} una función convexa y
x ∈ dom( f ). Entonces
f (x + td) − f (x)
f 0 (x; d) = ı́nf , ∀d ∈ X.
t>0 t
Además, d 7→ f 0 (x; d) es sublineal y

∂ f (x) = {x∗ ∈ X∗ | hx∗ , di ≤ f 0 (x; d), ∀d ∈ X}, ∀x ∈ X.

Demostración. Sea x ∈ dom( f ). Dividamos la demostración en partes:

1. Consideremos d ∈ X y la función g(t) = f (x+td)−


t
f (x)
definida para todo t ∈ (0, +∞). Veamos
que para 0 < t ≤ s se tiene que g(t) ≤ g(s). Notemos que
t  t
x + td = (x + sd) + 1 − x.
s s

62
Capı́tulo 4, Section 4.1 Subdiferencial

Dado que f es convexa, sigue que


t  t
f (x + td) ≤ f (x + sd) + 1 − f (x).
s s
de donde se concluye que

f (x + td) − f (x) f (x + sd) − f (x)


g(t) = ≤ = g(s).
t s
De este modo, como t 7→ g(t) es creciente en (0, +∞), se tiene

f (x + td) − f (x) f (x + td) − f (x)


f 0 (x, d) = lı́m = lı́m g(t) = ı́nf g(t) = ı́nf .
t→0+ t t→0 + t>0 t>0 t

2. Veamos ahora que d 7→ f 0 (x; d) es sublineal, es decir,

f 0 (x; d1 + d2 ) ≤ f 0 (x; d1 ) + f 0 (x; d2 ), ∀d1 , d2 ∈ X.

Notemos que si f 0 (x; d1 + d2 ) = −∞, f 0 (x; d1 ) = +∞ o f 0 (x; d2 ) = +∞ , entonces el resultado


es trivial; recordando las convenciones que hemos aceptado. Luego, asumamos que

f 0 (x; d1 + d2 ) > −∞, f 0 (x; d1 ) < +∞ y f 0 (x; d2 ) < +∞.

Dado que f es convexa, la parte anterior implica que


1
f (x + t(d1 + d2 )) − f (x) f (x + 2td1 ) + 12 f (x + 2td2 ) − f (x)
f 0 (x; d1 + d2 ) ≤ ≤ 2
, ∀t > 0,
t t
y por lo tanto, haciendo un cambio de variable (2t por t) tenemos que

f (x + td1 ) − f (x) f (x + td2 ) − f (x)


f 0 (x; d1 + d2 ) ≤ + , ∀t > 0.
t t
f (x+s1 d1 )− f (x)
Luego como f 0 (x; d1 ) < +∞, podemos encontrar un s1 > 0 tal que s1 < +∞. Esto a
su vez, junto con la monotonı́a del cuociente, implica que

f (x + s1 d1 ) − f (x) f (x + td2 ) − f (x)


f 0 (x; d1 + d2 ) ≤ + , ∀t ∈ (0, s1 ],
s1 t

de donde obtenemos, al tomar ı́nfimo sobre t, que f 0 (x; d2 ) > −∞. Tomemos ahora ε > 0, por
definición de ı́nfimo podemos encontrar s2 > 0 para el cual f (x+s2 ds22 )− f (x) ≤ f 0 (x; d2 ) + ε. Sigue
que por la monotonı́a del cuociente tenemos

f (x + td1 ) − f (x)
f 0 (x; d1 + d2 ) ≤ + f 0 (x; d2 ) + ε, ∀t ∈ (0, s2 ].
t
Finalmente, tomando ı́nfimo sobre t en la desigualdad anterior llegamos a la conclusión, ya
que ε > 0 es un número positivo arbitrario.

63
Optimización convexa no diferenciable Capı́tulo 4, Section 4.1

3. Tomemos ahora x∗ ∈ ∂ f (x) y d ∈ X arbitrario. La definición del subdiferencial nos lleva a

f (x + td) − f (x)
hx∗ , di ≤ , ∀t ∈ (0, +∞).
t
De esta desigualdad se concluye fácilmente que hx∗ , di ≤ f 0 (x, d). Por otra parte, tomemos
x∗ ∈ X∗ tal que hx∗ , di ≤ f 0 (x, d) para todo d ∈ X. Usando la primera parte con t = 1 tenemos

hx∗ , di ≤ f 0 (x, d) ≤ f (x + d) − f (x).

Finalmente, tomando d = y − x con y ∈ dom( f ) arbitrario se concluye que x∗ ∈ ∂ f (x). Esto


entrega la caracterización del subdiferencial y termina la demostración.

Ahora veremos que la relación entre el subdiferencial y la derivada direccional de una función
convexa es unı́voca, en el sentido que la derivada direccional puede ser calculada a partir del sub-
diferencial. El siguiente resultado mostrará en particular que una función convexa es diferenciable
si y sólo si el subdiferencial tiene un único elemento. Cabe destacar que el resultado que veremos
a continuación es una consecuencia de la versión analı́tica del Teorema de Hahn-Banach, la cual es
equivalente a la versión geométrica de este teorema (Lema 2.1); a partir de uno se puede demostrar
el otro.
Recuerdo: Teorema analı́tico de Hahn-Banach

La versión analı́tica del Teorema de Hahn-Banach dice que un funcional lineal continuo defi-
nido solo en un subespacio de X que satisface una cota apropiada, puede ser extendido a todo
el espacio, satisfaciendo la misma cota. Por esta razón, mucha veces el teorema se conoce
como el Teorema de extensión de Hahn-Banach.

Lema 4.1 (Teorema Hahn-Banach Analı́tico). Sea (X, k · k) un espacio de Banach y g : X → R


una función sublineal y positivamente homogénea, es decir,

g(x + y) ≤ g(x) + g(y) y g(αx) = αg(x), ∀x, y ∈ X, ∀α > 0.

Sea X0 un subespacio vectorial de X y `0 : X0 → R un funcional lineal tal que

`0 (x) ≤ g(x), ∀x ∈ X0 .

Entonces, existe ` : X → R lineal tal que

`(x) = `0 (x), ∀x ∈ X0 y `(x) ≤ g(x), ∀x ∈ X.

Proposición 4.4. Sean (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función convexa.
Suponga que f es continua en x ∈ dom( f ). Entonces

f 0 (x; d) = máx {hx∗ , di | x∗ ∈ ∂ f (x)} , ∀d ∈ X

Además, se tiene que f es Gâteaux diferenciable en x si y sólo si ∂ f (x) = {x∗ }.

64
Capı́tulo 4, Section 4.1 Subdiferencial

Demostración. Notemos primero que gracias a la Proposición 4.3, la desigualdad ” ≥ ” siempre es


cierta; independiente de la continuidad de f . Luego bastará probar que existe x∗ ∈ ∂ f (x) tal que
f 0 (x; d) = hx∗ , di, ∀d ∈ X.
Notemos además que gracias a Proposición 4.1, tenemos que ∂ f (x) 6= 0.
/ Fijemos d ∈ X \ {0}.
Consideremos el espacio vectorial X0 = {αd | α ∈ R} y la función lineal `0 : X0 → R definida
por
`0 (αd) = α f 0 (x; d), ∀α ∈ R.
Notemos que si α > 0, entonces
f (x + td) − f (x) f (x + αt αd) − f (x)
`0 (αd) = α ı́nf = ı́nf t = f 0 (x; αd).
t>0 t t>0 α

De aquı́ no es difı́cil ver que v 7→ g(v) := f 0 (x; v) es positivamente homogénea. Además, si α < 0,
entonces
`0 (αd) = α f 0 (x; d) = − f 0 (x; −αd) ≤ f 0 (x; αd),
donde la última desigualdad viene del hecho que d 7→ f 0 (x; d) es sublineal y f 0 (x; 0) = 0. Luego por
el Teorema de extensión de Hahn-Banach (Lema 4.1), existe un funcional lineal ` : X → R tal que
`(d) = f 0 (x; d) y `(v) ≤ f 0 (x; v), ∀v ∈ X.
Tomando v = y − x para cualquier y ∈ dom( f ) y usando Proposición 4.3, vemos que
`(y − x) ≤ f 0 (x; y − x) ≤ f (y) − f (x).
Luego para concluir basta ver que ` es continuo, y que por lo tanto existe x∗ ∈ X∗ tal que ` = hx∗ , ·i.
Dado que f es continuo en x, se tiene que para todo ε > 0, existe r > 0 tal que | f (x) − f (y)| ≤ ε para
todo y ∈ BX (x, r). Luego tenemos, por la desigualdad del subdiferencial que
`(y − x) ≤ | f (x) − f (y)| ≤ ε, ∀y ∈ BX (x, r).
Evaluando en 2x − y en vez de en y, se obtiene la desigualdad con el valor absoluto. Esto implica
que ` es continuo en x, pero al ser lineal, debe ser continuo en todo punto de X y por lo tanto existe
x∗ ∈ X∗ tal que ` = hx∗ , ·i. Esto concluye la demostración del resultado.

4.1.3. Reglas de cálculo


Llegamos al punto en que podemos presentar un análogo de la Regla de Fermat para el caso
no diferenciable, simplemente reemplazando el diferencial por el subdiferencial. Notemos que en el
siguiente teorema la convexidad de la función objetivo no es necesaria.
Teorema 4.1 (Regla de Fermat II). Sean (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una
función propia. Entonces
x̄ ∈ arg mı́nX ( f ) ⇐⇒ 0 ∈ ∂ f (x̄)
Demostración. Directo de la definición del subdiferencial.
Observación 4.2. En la práctica, para encontrar un mı́nimo se necesita probar que 0 ∈ ∂ f (x̄) para
algún x̄ ∈ X. Es en esta parte donde la convexidad de la función juega un rol esencial.

65
Optimización convexa no diferenciable Capı́tulo 4, Section 4.1

Regla de la suma
Como mencionamos anteriormente, en muchas ocaciones estamos interesados en encontrar mı́ni-
mos de una función que se puede escribir como la suma de dos funciones convexas, con al menos una
de ella no diferenciable; por ejemplo funciones del tipo fS := f + δS . Por esta razón es importante
proveer una regla para calcular el subdiferencial de la suma de funciones convexas.
Teorema 4.2 (Moreau-Rockafellar). Sean (X, k · k) un espacio de Banach y f1 , f2 : X → R ∪ {+∞}
funciones propias convexas y s.c.i.. Supongamos que f1 es continua en x0 ∈ dom( f1 ) ∩ dom( f2 ).
entonces
∂ f1 (x) + ∂ f2 (x) = ∂( f1 + f2 )(x), ∀x ∈ X.
Demostración. Comencemos la demostración probando la inclusión (⊆) que resulta de la definición.
Efectivamente, tenemos que si x1∗ ∈ ∂ f1 (x) y x2∗ ∈ ∂ f2 (x) entonces

f1 (x) + hx1∗ , y − xi ≤ f1 (y), ∀y ∈ X,


f2 (x) + hx2∗ , y − xi ≤ f2 (y), ∀y ∈ X.

Luego sumando ambas desigualdades se obtiene que x1 + x2∗ ∈∗ ∈ ∂( f1 + f2 )(x)


Probemos ahora la otra inclusión (⊇), la cual requiere un poco más de desarrollo. Sean x ∈ X y
x∗ ∈ X∗ tales que x∗ ∈ ∂( f1 + f2 )(x). Tenemos por definición que

(4.1) hx∗ , y − xi + f1 (x) + f2 (x) ≤ f1 (y) + f2 (y), ∀y ∈ X.

Introduzcamos los siguientes conjuntos convexos

A := {(y, λ) ∈ X × R | f1 (y) − hx∗ , y − xi ≤ λ} y B := {(y, λ) ∈ X × R | f1 (x) + f2 (x) − f2 (y) ≥ λ}.

Notemos que (y, λ) ∈ A ∩ B es equivalente a pedir que

f1 (y) + f2 (y) ≤ hx∗ , y − xi + f1 (x) + f2 (x),

la cual es en realidad una igualdad debido a (4.1).


Por otro lado vemos que A = epi(g) con g = f1 − hx∗ , · − xi, la cual es una función propia convexa
y s.c.i., que además es continua en x0 . Luego, 0/ 6= int(A) ⊆ {(y, λ) ∈ X × R | g(y) < λ} y int(A) es
convexo. Más aún, int(A) ∩ B = 0,
/ y por lo tanto podemos separar int(A) de B mediante un hiperplano
cerrado gracias al Teorema de Hahn-Banach (Lema 2.1). En otras palabras, ∃(y∗ , r) ∈ X∗ × R \ {0}
y α ∈ R tales que

hy∗ , yi + rλ < α, ∀(y, λ) ∈ int(A) y hy∗ , ỹi + rλ


˜ ≥ α, ∀(ỹ, λ)
˜ ∈ B.

Notemos que (x, λ) ∈ B si y sólo si λ ≤ f1 (x), y por lo tanto r no puede ser positivo. Además, como
(x0 , g(x0 ) + ε) ∈ int(A) para algún ε > 0 debemos necesariamente tener que r < 0. En efecto, si r = 0
y dado que (x0 , f1 (x) + f2 (x) − f2 (x0 )) ∈ B, entonces tendrı́amos

hy∗ , x0 i < α ≤ hy∗ , x0 i,

lo que no puede ser. Por lo tanto debemos tener que

h−x2∗ , yi − λ < h−x2∗ , ỹi − ( f1 (x) + f2 (x) − f2 (ỹ)), ∀(y, λ) ∈ int(A), ỹ ∈ dom( f2 )

66
Capı́tulo 4, Section 4.1 Subdiferencial

donde x2∗ = 1r y∗ . Notemos que, para todo y ∈ int dom f1 y λ ∈ R tales que f1 (y) − hx∗ , yi < λ, se tiene
que (y, λ) ∈ int(A) y luego, haciendo λ → f1 (y) − hx∗ , y − xi, obtenemos que

h−x2∗ , yi − f1 (y) + hx∗ , y − xi ≤ h−x2∗ , ỹi − ( f1 (x) + f2 (x) − f2 (ỹ)), ∀y ∈ int dom f1 , ỹ ∈ dom f2 .

Tomando ỹ = x ∈ dom f2 , deducimos que

f1 (x) + h−x2∗ + x∗ , y − xi ≤ f1 (y), ∀y ∈ int dom( f1 ),

lo que, en conjunto con la Proposición 2.1, implican que −x2∗ + x∗ ∈ ∂ f1 (x) y análogamente, tomando
y=x
f2 (x) + hx2∗ , y − xi ≤ f2 (y), ∀y ∈ dom( f2 ),
de donde concluimos que x2∗ ∈ ∂ f2 (x). Definiendo x1∗ = x∗ − x2∗ se tiene que x1∗ ∈ ∂ f1 (x) y x1∗ + x2∗ = x∗
lo que termina la demostración.

El siguiente es un contraejemplo que muestra que la igualdad no se tiene si la condición que


alguna función sea continua en un punto común a ambos dominios no se satisface.

Ejemplo 4.1.3. Supongamos que X = R2 , sean C1 = {(x, y) ∈ R2 | (x − 1)2 + y2 ≤ 1}, C2 = {(x, y) ∈


R2 | (x + 1)2 + y2 ≤ 1}, f1 = δC1 y f2 = δC2 . Luego f1 + f2 = δ(0,0) y ∂( f1 + f2 )(0, 0) = R2 . Por otro
lado, se tiene ∂ f1 (0, 0) = ]−∞, 0] × {0}, ∂ f2 (0, 0) = [0, +∞[ × {0}, de donde ∂ f1 (0, 0) + ∂ f1 (0, 0) =
R × {0}. Notar que ninguna de las funciones es continua en {(0, 0)} = dom f1 ∩ dom f2 .

(0, 0)
R

C2 C1

Figura 4.3: Contraejemplo regla de la suma.

Regla de la composición
Además de la Regla de la suma, el subdiferencial satisface un regla sobre la composición con
operadores lineales, la cual es lo más cercano que podemos obtener a una regla de la cadena para
subdiferenciales de funciones convexas. Esta regla será de particular utilidad para resolver problemas
tales como el problema de Compresión y recuperación de imágenes (Sección 1.2), el cual tiene una
estructura del tipo
Minimizar f (x) + g(Ax) sobre todos los x ∈ X
donde A : X → Y es un operador lineal continuo y g : Y → R ∪ {+∞} es una función convexa.

67
Optimización convexa no diferenciable Capı́tulo 4, Section 4.1

Recuerdo: Operador adjunto

Sea A : X → Y es un operador lineal continuo entre dos espacios vectoriales normados X e


Y, se define el operador adjunto de A, denotado por A∗ : Y∗ → X∗ , como el operador lineal
continuo que satisface

≺ y∗ , Ax := y∗ (Ax) = hA∗ y∗ , xi, ∀x ∈ X, y∗ ∈ Y∗ .

En el caso que X = Rn e Y = Rm , todo operador lineal continuo puede ser representado a


través de una matriz. Luego, abusando de la notación se tiene que A ∈ Mn×m (R) y el operador
adjunto no es otra cosa que la matriz transpuesta de A, lo que implica que A∗ = A> ∈ Mm×n (R).

Proposición 4.5. Sean (X, k · k) e (Y, k · kY ) dos espacios de Banach. Considere A : X → Y un


operador lineal continuo y f : Y → R ∪ {+∞} una función propia, convexa y s.c.i.. Suponga que f
es continua en algún y0 ∈ im(A), entonces se tiene que

∂( f ◦ A)(x) = A∗ ∂ f (Ax), ∀x ∈ X.

Demostración. Tal como con el Teorema de Moreau-Rockafellar, una de las inclusiones es fácil y la
otra requiere más desarrollo. Sea x ∈ X y comencemos con la inclusión A∗ ∂ f (Ax) ⊆ ∂( f ◦ A)(x), que
es la más directa. De la definición misma se tiene que si y∗ ∈ ∂ f (Ax) entonces

f (Ax)+ ≺ y∗ , y − Ax ≤ f (y), ∀y ∈ Y.

En particular, esto es cierto para y = Az, con z ∈ X arbitrario. Entonces, usando la definición de
operador adjunto tenemos que A∗ y∗ ∈ ∂( f ◦ A)(x), pues

f (Ax) + hA∗ y∗ , z − xi ≤ f (Az), ∀z ∈ X.

Veamos ahora la otra inclusión. Dado que f es continua en algún y0 ∈ im(A), tenemos que
int(epi( f )) 6= 0/ y además la siguiente inclusión siempre es cierta

int(epi( f )) ⊆ {(y, λ) ∈ Y × R | f (y) < λ}.

Por lo tanto, dados x ∈ X y x∗ ∈ ∂( f ◦ A)(x), el conjunto

B = {(Az, f (Ax) + hx∗ , z − xi) ∈ Y × R | z ∈ X}

puede ser separado del conjunto int(epi( f )). Efectivamente, ambos conjuntos son convexos (Propo-
sición 2.1) y no vacı́os, y además, si (y, λ) ∈ B ∩ int(epi( f )), entonces para algún z ∈ X debemos
tener que y = Az, λ = f (Ax) + hx∗ , z − xi y

f (Az) = f (y) < λ = f (Ax) + hx∗ , z − xi.

Pero esta desigualdad estricta es imposible ya que x∗ ∈ ∂( f ◦ A)(x). Por lo tanto, B ∩ int(dom( f )) = 0/
y por el Teorema de separación de de Hahn-Banach (Lema 2.1), existe (y∗ , r) ∈ Y∗ × R \ {0} tal que

(4.2) ≺ y∗ , y  +rλ <≺ y∗ , Az  +r( f (Ax) + hx∗ , z − xi), ∀(y, λ) ∈ int(epi( f )), z ∈ X.

68
Capı́tulo 4, Section 4.2 Condiciones de optimalidad

Evaluando en y = Ax, z = x, λ > f (Ax), obtenemos que r < 0. Normalizando, podemos entonces
asumir que r = −1. Luego, en virtud de la Proposición 2.1, para todo y ∈ dom f , existe una suce-
sión {(yn , λn )}n∈N en int epi( f ) (que satisface (4.2)) tal que (yn , λn ) → (y, f (y)) ∈ epi( f ), de donde
haciendo n → ∞ se obtiene
(4.3) ≺ y∗ , y  − f (y) ≤≺ y∗ , Az  − f (Ax) − hx∗ , z − xi, ∀y ∈ dom f , z ∈ X.
Por otra parte, evaluando (4.3) en y = Ax y z = x ± d para algún d ∈ X \ {0}, llegamos a
hA∗ y∗ − x∗ , di = 0, ∀d ∈ X \ {0}
de donde podemos concluir que x∗ = A∗ y∗ . Ahora bien, evaluando (4.3) en z = x obtenemos
f (Ax)+ ≺ y∗ , y − Ax ≤ f (y), ∀y ∈ dom( f ),
lo que implica que y∗ ∈ ∂ f (Ax) y por lo tanto x∗ ∈ A∗ ∂ f (Ax), lo que completa la demostración.
El siguiente es un contraejemplo que muestra que la igualdad no se tiene si la condición que la
función sea continua en un punto de la imagen de A.
Ejemplo 4.1.4. Supongamos que X = R, Y = R2 , sea C = {(x, y) ∈ R2 | x2 + (y − 1)2 ≤ 1}, f = δC
y A : x 7→ (x, 0). Luego im A = R × {0}, A∗ : (x, y) 7→ x, dom f ∩ im A = C ∩ (R × {0}) = {(0, 0)}, de
donde f ◦ A = δ{0} y ∂( f ◦ A)(0) = R. Por otra parte, A0 = (0, 0) y ∂ f (A0) = ∂δC (0, 0) = {0} × R− ,
de donde A∗ ∂ f (A0) = {0} ( R = ∂( f ◦ A)(0). Notar que f no es continua en {(0, 0)} = dom f ∩ im A.

(0, 0)
im A = R × {0}

Figura 4.4: Contraejemplo regla de la composición.

4.2. Condiciones de optimalidad


Volvamos ahora al problema
(P) Minimizar f (x) sobre todos los x ∈ X que satisfacen la restricción x ∈ S.
Los resultados anteriores nos proveen las herramientas suficientes para poder ahora escribir las con-
diciones de optimalidad para este problema. Estas condiciones se escribirán en términos del subdife-
rencial de la función objetivo y el cono normal al conjunto de restricciones.

69
Optimización convexa no diferenciable Capı́tulo 4, Section 4.2

Teorema 4.3 (Regla de Fermat III). Sean (X, k · k) un espacio de Banach, f : X → R ∪ {+∞} una
función propia convexa y s.c.i., y S ⊆ X un conjunto convexo cerrado y no vacı́o. Supongamos que
alguna de las siguientes condiciones es cierta:
1. Existe x0 ∈ int(S) tal que f es finita en x0 .
2. Existe x0 ∈ S tal que f es continua en x0 .
Entonces, x̄ ∈ S es una solución de (P) si y sólo si
0 ∈ ∂ f (x̄) + NS (x̄)
o equivalentemente
∃x∗ ∈ ∂ f (x̄) tal que hx∗ , x − x̄i ≥ 0, ∀x ∈ S.
Demostración. Notemos que x̄ es una solución de (P) si y sólo si x̄ ∈ arg mı́n( fS ), con fS = f + δS .
Luego, por la Regla de Fermat (Teorema 4.1), x̄ es una solución de (P) si y sólo si 0 ∈ ∂ fS (x̄).
Finalmente, cualquiera de las condiciones de calificación del enunciado implican la hipótesis del
Teorema de Moreau-Rockafellar (Teorema 4.2). Por lo tanto, aplicando ese resultado obtenemos el
resultado buscado pues
∂ fS (x̄) = ∂ f (x̄) + ∂δS (x̄) = ∂ f (x̄) + NS (x̄).

4.2.1. Aplicación a la Programación Convexa


Estudiaremos ahora un problema particular en optimización el cual es conocido como problema
de programación convexa y que consiste en minimizar una función convexa f : X → R sobre el
conjunto de restricciones
S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, hx∗j , xi = α j , j = 1, . . . , q .


donde g1 , . . . , g p : X → R son funciones convexas, x1∗ , . . . , xq∗ ∈ X∗ y α1 , . . . , αq ∈ R.


Estudiaremos las condiciones de optimalidad de problemas de programación convexa primero
para el caso sin restricciones de igualdad, y luego extenderemos el resultado a esa situación.

Restricciones de desigualdad
Concentrémonos en el problema de programación convexa siguiente:

(PD ) Minimizar f (x) sobre los x ∈ X que satisfacen la restricción gi (x) ≤ 0 para i = 1, . . . , p.
Para obtener las condiciones de optimalidad del problema precedente necesitamos primero el
converso de la Proposición 4.2. Por simplicidad mostraremos el resultado para espacio de Banach
reflexivo, sin embargo el resultado es igual de válido para espacio que no lo son.
Proposición 4.6. Sean (X, k · k) un espacio de Banach reflexivo y f : X → R una función convexa y
continua tal que Γγ ( f ) 6= 0/ para cierto γ > ı́nfX ( f ). Luego para todo x ∈ Γγ ( f ) se tiene
η ∈ NΓγ ( f ) (x) =⇒ ∃µ ≥ 0, ∃x∗ ∈ ∂ f (x), tales que η = µx∗ y µ( f (x) − γ) = 0.

70
Capı́tulo 4, Section 4.2 Condiciones de optimalidad

Demostración. Recordemos primero que, gracias a Proposición 4.1, tenemos que ∂ f (x) 6= 0/ para
todo x ∈ X, pues f es continua en X. Separemos la demostración en varias etapas.
1. Tomemos η ∈ NΓγ ( f ) (x) y asumamos que η 6= 0; el caso η = 0 es directo de tomar µ = 0. Luego,
por definición tenemos
hη, yi ≤ hη, xi, ∀y ∈ Γγ ( f ).
Notemos que si f (y) < γ entonces necesariamente se tendrá que hη, yi < hη, xi. En efecto, si
esto no es ası́, dado que η ∈ NΓγ ( f ) (x) deberı́amos tener que hη, yi = hη, xi, pero por conti-
nuidad de f se tendrá que existe r > 0 tal que BX (y, r) ⊆ Γγ ( f ), con lo cual podemos afirmar
que
hη, y + rdi ≤ hη, xi, ∀d ∈ BX ,
y por lo tanto, dado que hη, yi = hη, xi, tenemos
rhη, di ≤ 0, ∀d ∈ BX ,
lo que implica que kηk∗ = 0, es decir η = 0, lo que no puede ser. Notemos además que lo
anterior es también válido si y = x. En consecuencia, si f (x) < γ se tendrá necesariamente que
η = 0, y la conclusión es válida tomando µ = 0.
2. Resta ver ahora el caso f (x) = γ para concluir la demostración. Consideremos el conjunto
Sη = {y ∈ X | hη, yi ≥ hη, xi}.
Notemos que si y ∈ Sη , entonces usando la contra-recı́proca de la afirmación demostrada ante-
riormente tenemos que f (y) ≥ γ = f (x). En otras palabras, x ∈ X es óptimo del problema
Minimizar f (y) sobre todos los y ∈ X que satisfacen la restricción y ∈ Sη .
Este problema es convexo y por lo tanto gracias al Teorema 4.3 tenemos que
0 ∈ ∂ f (x) + NSη (x).

3. Notemos que para cada ν ∈ NSη (x) \ {0} tenemos que si hν, yi = 0 entonces hη, yi = 0. En efec-
to, razonando por contradicción si existiese y ∈ X tal que hν, yi = 0 pero hη, yi =
6 0, podemos
asumir sin pérdida de generalidad que hη, yi > 0. La continuidad implica que podemos encon-
trar r > 0 tal que hη, y+rdi ≥ 0 para todo d ∈ BX . En particular, tendremos que y+rd +x ∈ Sη .
Ahora, dado que ν ∈ NSη (x) y hν, yi = 0 tenemos que
rhν, di = hν, y + rd + x − xi ≤ 0, ∀d ∈ BX .
Esto nos llevarı́a a concluir que kνk∗ = 0, lo cual no puede ser.
4. Sea ν ∈ NSη (x) \ {0} y consideremos B = {tν | t ∈ R}. Tenemos entonces que η ∈ B, pues si
no, por el Teorema de Hahn-Banach (Lema 2.1) existirá y∗∗ ∈ X∗∗ tal que
hy∗∗ , ηi < hy∗∗ ,tνi, ∀t ∈ R.
Como lo anterior es cierto para todo t ∈ R, necesariamente tenemos que tener hy∗∗ , νi = 0 y
por lo tanto hy∗∗ , ηi < 0. Ahora dado que X es reflexivo, existe y ∈ X tal que hy∗∗ , x∗ i = hx∗ , yi
para cada x∗ ∈ X∗ . Sigue que hν, yi = 0 y hη, yi < 0, lo cual contradice lo demostrado en el
punto anterior.

71
Optimización convexa no diferenciable Capı́tulo 4, Section 4.2

5. Juntando toda la información anterior llegamos a que existe µ ∈ R y x∗ ∈ ∂ f (x) tales que
η = µx∗ para el caso f (x) = γ. Dado que η 6= 0, entonces x∗ 6= 0 y µ 6= 0. En particular, por la
Regla de Fermat (Teorema 3.4) se tiene que γ = f (x) > ı́nfX ( f ) y por lo tanto existe y ∈ X tal
que f (y) < γ. Notemos además que

hx∗ , y − xi ≤ f (y) − f (x) = f (y) − γ < 0.

Finalmente, como µx∗ = η ∈ NΓγ ( f ) (x) e y ∈ Γγ ( f ) entonces

µhx∗ , y − xi = hµx∗ , y − xi ≤ 0,

de donde se concluye que µ ≥ 0, lo cual completa la demostración.

Teorema 4.4 (Teorema de Kuhn-Tucker I). Sean (X, k · k) un espacio de Banach reflexivo, f : X → R
y g1 , . . . , g p : X → R funciones convexas y continuas. Supongamos que existe x0 ∈ X tal que

gi (x0 ) < 0, ∀i = 1, . . . , p.

Entonces, x̄ ∈ X es una solución de (PD ) si y sólo si existen µ1 , . . . , µ p ≥ 0 tales que


p
(4.4) 0 ∈ ∂ f (x̄) + ∑ µi ∂gi (x̄)
i=1
(4.5) gi (x̄) ≤ 0 y µi gi (x̄) = 0, ∀i = 1, . . . , p.

Demostración. Notemos que gracias al Teorema 4.3, x̄ ∈ X es una solución de (PD ) si y sólo si

0 ∈ ∂ f (x̄) + NS (x̄),

con S = {x ∈ X | gi (x) ≤ 0, i = 1, . . . , p}. Recordemos que NS (x) = ∂δS (x) para cada x ∈ X. Además,
si denotamos Si = {x ∈ X | gi (x) ≤ 0} para cada i ∈ {1, . . . , p, sigue que
p
δS (x) = ∑ δSi (x), ∀x ∈ X.
i=1

Notemos que dado que existe x0 ∈ X tal que

gi (x0 ) < 0, ∀i = 1, . . . , p

podemos aplicar recursivamente la regla de la suma para el subdiferencial, y obtener


p p
NS (x) = ∂δS (x) = ∑ ∂δSi (x) = ∑ NSi (x), ∀x ∈ X.
i=1 i=1

Para concluir resta ver que para cada x ∈ Si se tiene que

η ∈ NSi (x) ⇐⇒ ∃µi ≥ 0, ∃xi∗ ∈ ∂gi (x), tales que η = µi xi∗ y µi gi (x) = 0.

Pero esto es consecuencia directa de la Proposición 4.2 y Proposición 4.6. Luego el teorema ha sido
demostrado.

72
Capı́tulo 4, Section 4.2 Condiciones de optimalidad

Restricciones de desigualdad e igualdad


Retomemos el problema general de programación convexa, es decir,

(PDI ) Minimizar f (x) sobre los x ∈ X tales que gi (x) ≤ 0 para i = 1, . . . , p y `(x) = (α1 , . . . , αq )

donde ` : X → Rq es el funcional lineal continuo dado por

`(x) = hx1∗ , xi, . . . , hxq∗ , xi ,



∀x ∈ X.

La versión que estudiaremos ahora del Teorema de Kuhn-Tucker es una extensión de Teorema 4.4.

Teorema 4.5 (Teorema de Kuhn-Tucker II). Sean (X, k·k) un espacio de Banach reflexivo, f : X → R
y g1 , . . . , g p : X → R funciones convexas y continuas. Sean x1∗ , . . . , xq∗ ∈ X∗ y α1 , . . . , αq ∈ R dados.
Supongamos que existe x0 ∈ X tal que

gi (x0 ) < 0, ∀i = 1, . . . , p. y hx∗j , x0 i = α j , ∀ j = 1, . . . , q

Entonces, x̄ ∈ X es una solución de (PDI ) si y sólo si existen µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R tales que


p q
(4.6) 0 ∈ ∂ f (x̄) + ∑ µi ∂gi (x̄) + ∑ λ j x∗j
i=1 j=1
(4.7) gi (x̄) ≤ 0 y µi gi (x̄) = 0, ∀i = 1, . . . , p.
(4.8) hx∗j , x̄i = α j , ∀ j = 1, . . . , q.

Demostración. Notemos que gracias al Teorema 4.3, x̄ ∈ X es una solución de (PDI ) si y sólo si

0 ∈ ∂ f (x̄) + NS (x̄) + NH (x̄),


n o
con S = {x ∈ X | gi (x) ≤ 0, i = 1, . . . , p} y H = x ∈ X | hx∗j , xi = α j , j = 1, . . . , q . Ya hemos visto
que
p
η ∈ NS (x̄) ⇐⇒ ∃µ1 , . . . , µ p ≥ 0, tales que µi gi (x̄) = 0 y η ∈ ∑ µi ∂gi (x̄).
i=1
Luego, para concluir basta ver que
q
η ∈ NH (x̄) ⇐⇒ ∃λ1 , . . . , λq ∈ R, tales que η = ∑ λ j x∗j .
j=1

Dividamos la demostración de esta equivalencia en partes:

1. No es difı́cil ver que para cualquier λ1 , . . . , λq ∈ R se tiene


* +
q q q q
∑ λ j x∗j , x − x̄ ∑ hλ j x∗j , x − x̄i = ∑ λ j hx∗j , xi − hx∗j , x̄i = hx∗j , xi − α j .
 
= ∑ λj
j=1 j=1 j=1 j=1

q
Lo que a su vez implica que ∑ j=1 λ j x∗j ∈ NH (x̄). Hemos aquı́ demostrado la implicancia (⇐).

73
Optimización convexa no diferenciable Capı́tulo 4, Section 4.2

2. Veamos ahora que NH (x̄) es un espacio vectorial. Dado que NH (x̄) es un conjunto convexo,
bastará mostrar que si η ∈ NH (x̄) entonces −η ∈ NH (x̄). En efecto, notemos que si η ∈ NH (x̄)
entonces
hη, x − x̄i ≤ 0, ∀x ∈ H
y que además, si x ∈ H, entonces igualmente 2x̄ − x ∈ H. Esto último se debe a que

hx∗j , 2x̄ − xi = 2α j − α j = α j , ∀ j = 1, . . . , q.

Entonces tenemos que

h−η, x − x̄i = hη, x̄ − xi = hη, (2x̄ − x) − x̄i ≤ 0, ∀x ∈ H.

3. Notemos que lo demostrado en el paso anterior implica que para todo x ∈ X la siguiente pro-
piedad es cierta

(4.9) hx∗j , x − x̄i = 0, ∀ j = 1, . . . , q =⇒ hη, x − x̄i = 0, ∀η ∈ NH (x̄).

Consideremos el espacio vectorial


( )
q
∗ ∗ ∗
B= x ∈ X ∃λ1 , . . . , λq ∈ R tal que x = ∑ λ j x∗j .
j=1

Queremos demostrar que cualquier η ∈ NH (x̄) pertenece a B. Supongamos por contradicción


que esto no es ası́. Luego por el Teorema de Separación de Hahn-Banach (Lema 2.1) podemos
separar estrictamente η del conjunto B. Además, como X es reflexivo, podemos identificar X∗∗
con X y escribir la separación como sigue: existe x ∈ X \ {x̄} tal que
q
hη, x − x̄i < ∑ λ j hx∗j , x − x̄i, ∀λ1 , . . . , λq ∈ R.
j=1

Esto implica que hx∗j , x − x̄i = 0 para todo j = 1, . . . , q pues si no, podemos hacer λ j → ±∞ y
llegar a una contradicción. Ahora bien, por (4.9) tenemos que hη, x − x̄i = 0, lo cual tampoco
puede ser. Por lo tanto, η debe pertenecer a B y la conclusión sigue.

Lagrangiano de un problema de programación convexa


Veremos a continuación una lectura diferente del Teorema de Kuhn-Tucker, la cual es una forma
equivalente del resultado, pero que sin embargo entrega una visión distinta del problema de progra-
mación convexa.
Consideremos la función Lagrangeana asociada al problema de programación convexa general
(PDI ), que denotamos L : X × R p × Rq → R, y que está dada por
p q
L(x, µ, λ) := f (x) + ∑ µi gi (x) + ∑ λ j (hx∗j , xi − α j ), ∀x ∈ X, µ ∈ R p , λ ∈ Rq .
i=1 j=1

74
Capı́tulo 4, Section 4.3 Aproximación de Moreau-Yosida

Notemos que para µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R fijos, uno tiene que la función x 7→ L(x, µ, λ) es


convexa. Luego, bajo hipótesis simples podemos esperar que se tenga la igualdad
p q
∂x L(x, µ, λ) := ∂(L(·, µ, λ))(x) = ∂ f (x̄) + ∑ µi ∂gi (x̄) + ∑ λ j x∗j , ∀x ∈ X.
i=1 j=1

Cabe destacar que en el caso diferenciable, tendremos que


( )
p q
∂x L(x, µ, λ) = ∇ f (x̄) + ∑ µi ∇gi (x̄) + ∑ λ j x∗j , ∀x ∈ X.
i=1 j=1

Sigue que el Teorema de Kuhn-Tucker se puede re-escribir de la siguiente forma:

Teorema 4.6 (Teorema de Kuhn-Tucker III). Sea (X, k·k) un espacio de Banach reflexivo, f : X → R
y g1 , . . . , g p : X → R funciones convexas y continuas. Sean x1∗ , . . . , xq∗ ∈ X∗ y α1 , . . . , αq ∈ R dados.
Supongamos que existe x0 ∈ X tal que

gi (x0 ) < 0, ∀i = 1, . . . , p. y hx∗j , x0 i = α j , ∀ j = 1, . . . , q

Entonces, x̄ ∈ X es una solución de (PDI ) si y sólo x̄ es factible, es decir,

gi (x̄) ≤ 0, ∀i = 1, . . . , p y hx∗j , x̄i = α j , ∀ j = 1, . . . , q,

y además existen µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R tales que

0 ∈ ∂x L(x̄, µ, λ) y µi gi (x̄) = 0, ∀i = 1, . . . , p.

Más aún, si la función objetivo f y las funciones g1 , . . . , g p son diferenciables en una vecindad de x̄,
entonces la condición anterior es equivalente a
p q
0 = ∇x L(x̄, µ, λ) = ∇ f (x̄) + ∑ µi ∇gi (x̄) + ∑ λ j x∗j y µi gi (x̄) = 0, ∀i = 1, . . . , p.
i=1 j=1

4.3. Aproximación de Moreau-Yosida


En esta sección estudiaremos un forma de aproximar funciones convexas no diferenciables, usan-
do una secuencia de funciones convexas que si lo son. Este esquema de aproximación dará paso a
introducir métodos numéricos para resolver problemas de optimización convexa no diferenciable.
En adelante nos situaremos en el contexto de espacios de Hilbert, es decir, X es un espacio de
Banach y la norma k · k está inducida por un producto interno h·, ·i. Como mencionamos al comienzo,
X∗ será identificado con X y el producto dualidad será el mismo que el producto interno.

Definición 4.2 (Aproximación de Moreau-Yosida). Sean (X, k · k) un espacio vectorial normado y


f : X → R ∪ {+∞} una función dada. Para α > 0, la aproximación Moreau-Yosida de f es la función
 
1 2
fα (x) := ı́nf f (y) + kx − yk , ∀x ∈ X.
y∈X 2α

75
Optimización convexa no diferenciable Capı́tulo 4, Section 4.3

(a) f = | · | (b) f = δ[−1,1]

Figura 4.5: Ejemplos de fα con α = 1.

En la Figura 4.5 se muestran dos ejemplos para f = | · | y para f = δ[−1,1] con α = 1.


La siguiente proposición resume las principales caracterı́sticas de la aproximación de Moreau-
Yosida de funciones convexas.
Proposición 4.7. Sea (X, h·, ·i) un espacio de Hilbert y f : X → R ∪ {+∞} una función propia
convexa y s.c.i. Si α > 0 está fijo, entonces fα es convexa, Fréchet diferenciable en X y para todo
x ∈ X existe un único yα (x) ∈ dom( f ) tal que
x − yα (x) 1
∇ fα (x) = ∈ ∂ f (yα (x)) y fα (x) = f (yα (x)) + kx − yα (x)k2 .
α 2α
1
Además, las aplicaciones ∇ fα : X → X e yα : X → X son Lipschitz continuas de constante α y 1,
respectivamente. También se tiene que

lı́m yα (x) = x y lı́m fα (x) = f (x), ∀x ∈ dom( f ).


α→0 α→0

Demostración. Dividiremos la demostración en varias partes:


1. Comencemos mostrando la existencia y unicidad de yα (x). Notemos que yα (x) debe ser un
mı́nimo del problema de optimización dado que define a la aproximación de Moreau-Yosida.
1
Más aún, como la función y 7→ f (y) + 2α kx − yk2 es estrictamente convexa tenemos que ésta
tiene a lo más un mı́nimo, de donde obtenemos la unicidad. Para la existencia veamos que
1
y 7→ f (y) + 2α kx − yk2 es coerciva. En efecto, como f es convexa propia y s.c.i., gracias a
Proposición 2.3, existe x∗ ∈ X∗ y c ∈ R tal que
1 1
f (y) + kx − yk2 ≥ hx∗ , yi + c + kx − yk2 ≥ g(kx − yk), ∀y ∈ X,
2α 2α
donde g(t) = 2α t −kx∗ k∗t +hx∗ , xi+c. Notemos que g es una función cuadrática, entonces por
1 2
1
Proposición 3.2 ésta es coerciva, de donde obtenemos que y 7→ f (y) + 2α kx − yk2 es también
coerciva. Luego, gracias al teorema de Weierstrass-Hilbert-Tonelli (Teorema 2.1) podemos
asegurar la existencia de yα (x) para cualquier x ∈ X. Más aún, gracias a la regla de Fermat y la
regla de la suma para subdiferenciales (Teorema de Moreau-Rockafellar), tenemos que
yα (x) − x
0 ∈ ∂ f (yα (x)) + , ∀x ∈ X.
α

76
Capı́tulo 4, Section 4.3 Aproximación de Moreau-Yosida

1
2. Como (x, y) 7→ f (y) + 2α kx − yk2 es convexa, la convexidad de fα es directa del Ejercicio 2.
x−yα (x)
Veamos ahora que fα es Fréchet diferenciable con ∇ fα (x) = α . Por la parte anterior para
cualquier h ∈ X tenemos que
1
kx + h − yα (x + h)k2 − kx − yα (x)k2 .

fα (x + h) − fα (x) = f (yα (x + h)) − f (yα (x)) +

x−yα (x)
Dado que α ∈ ∂ f (yα (x)) podemos deducir que
1 1
kx + h − yα (x + h)k2 − kx − yα (x)k2

fα (x + h) − fα (x) ≥ hx − yα (x), yα (x + h) − yα (x)i +
α 2α
pero

kx + h − yα (x + h)k2 − kx − yα (x)k2
= kyα (x + h) − yα (x) − h − (x − yα (x))k2 − kx − yα (x)k2
= kyα (x + h) − yα (x) − hk2 − 2hx − yα (x), yα (x + h) − yα (x) − hi
x−yα (x)
lo que implica que, si denotamos x∗ = α , entonces

fα (x + h) − fα (x) − hx∗ , hi ≥ kyα (x + h) − yα (x) − hk2 ≥ 0.

Por otro lado, por definición de la aproximación de Moreau-Yosida tenemos


1 1
fα (x + h) − fα (x) ≤ f (yα (x)) + kx + h − yα (x)k2 − f (yα (x)) − kx − yα (x)k2
2α 2α
1 2 2 1
khk2 + 2hx − yα (x), hi
 
= kx + h − yα (x)k − kx − yα (x)k =
2α 2α

x−yα (x)
Esto a su vez nos lleva a concluir que fα es Fréchet diferenciable con ∇ fα (x) = x∗ = α
pues, reuniendo las desigualdades anteriores llegamos a:
1
0 ≤ fα (x + h) − fα (x) − hx∗ , hi ≤ khk2 , ∀h ∈ X.

3. Veamos que yα no-expansiva. Para ello notemos que ∇ fα (x) ∈ ∂ f (yα (x)), luego usando la
monotonı́a del subdiferencial tenemos

h∇ fα (x + h) − ∇ fα (x), yα (x + h) − yα (x)i ≥ 0, ∀h ∈ X,

pero, esto implica que

hh − yα (x + h) + yα (x), yα (x + h) − yα (x)i ≥ 0, ∀h ∈ X,

y por lo tanto

khkkyα (x + h) − yα (x)k ≥ hh, yα (x + h) − yα (x)i ≥ kyα (x + h) − yα (x)k2 , ∀h ∈ X.

Dividiendo por kyα (x + h) − yα (x)k se obtiene el resultado buscado.

77
Optimización convexa no diferenciable Capı́tulo 4, Section 4.3

4. El hecho que ∇ fα es Lipschitz continuo viene de la siguiente desigualdad:


1
k∇ fα (x + h) − ∇ fα (x)k2 = kh − yα (x + h) − yα (x)k2
α2
1
= 2 khk2 − 2hh, yα (x + h) − yα (x)i + kyα (x + h) − yα (x)k2

α
1 1
≤ 2 khk2 − kyα (x + h) − yα (x)k2 ≤ 2 khk2

α α
5. Por definición de la aproximación de Moreau-Yosida tenemos
1
f (yα (x)) ≤ fα (x) = f (yα (x)) + kx − yα (x)k2 ≤ f (x), ∀x ∈ dom( f ).

Recordemos que existe x∗ ∈ X y c ∈ R tales que
hx∗ , yα (x)i + c ≤ f (yα (x)), ∀x ∈ dom( f ).
Con esto vemos que para cada x ∈ dom( f ) tenemos
kx − yα (x)k2 ≤ 2α ( f (x) − c + kx∗ kkyα (x)k)
y por lo tanto kx−yα (x)k está uniformemente acotado con respecto a α > 0. Luego, a posteriori
vemos que kx − yα (x)k → 0 si α → 0 y x ∈ dom( f ). Finalmente, como f es s.c.i tenemos que
f (x) ≤ lı́m inf f (yα (x)) ≤ lı́m sup f (yα (x)) ≤ f (x), ∀x ∈ dom( f ).
α→0 α→0

Usando esto, y el hecho que yα es Lipschitz continuo, podemos extender las convergencia al
caso x ∈ dom( f ), lo que concluye la demostración

4.3.1. Método de Punto Proximal


Las propiedades de la aproximación de Moreau-Yosida nos permiten definir, para toda función f
propia, convexa y s.c.i. y α > 0, el operador proxα f : X → X como
proxα f (x) := yα (x), ∀x ∈ X,
donde yα (x) está dado por la Proposición 4.7. La existencia del operador proximal de f de constante
α es una consecuencia de la Proposición 4.7. Notemos también que ese resultado permite caracterizar
al operador proximal como la única solución, para x ∈ X dado, de la inclusión
x ∈ y + α∂ f (y).
Ejemplo 4.3.1. Sea S ⊆ X un conjunto convexo, cerrado y no vacı́o. Luego, no es difı́cil ver que la
regularizada de Moreau-Yosida de la función δS es
1
(δS )α (x) = dist2 (x, S), ∀x ∈ X.

Aquı́ x 7→ dist(x, S) es la función distancia (ver Ejercicio 6 - Capı́tulo 2) Por lo tanto, proxαδS (x) no
es otra cosa que la proyección de x sobre S, para todo α > 0.

78
Capı́tulo 4, Section 4.4 Aproximación de Moreau-Yosida

Para aproximar los mı́nimos de f , proponemos generar una sucesión via la recurrencia
(4.10) xk+1 = proxαk f (xk ), ∀k ∈ N,
donde la condición inicial x0 ∈ X es arbitraria y αk > 0. En otras palabras tenemos que
1
fαk (xk ) = f (xk+1 ) + kxk − xk+1 k2 .
2αk
Estudiaremos ahora la convergencia de una sucesión generada por (4.10), el cual se conoce como
Método de Punto Proximal.
Teorema 4.7. Sean (X, h·, ·i) un espacio de Hilbert y f : X → R ∪ {+∞} una función propia convexa
y s.c.i. tal que arg mı́nX ( f ) es no vacı́o. Considere una sucesión {αk } ⊆ R que satisface
ı́nf αk = α > 0
k∈N
y la sucesión {xk } generada por (4.10) partiendo desde x0 ∈ X arbitrario. Entonces ∃x∞ ∈ arg mı́nX ( f )
tal que xk * x∞ cuando k → ∞.
Demostración. Sea k ∈ N y sea x̄ ∈ arg mı́nX ( f ). Usando la Proposición 4.7 y (4.10) deducimos
xk − xk+1
∈ ∂ f (xk+1 ),
αk
de donde, por convexidad de f obtenemos
1
(4.11) f (xk+1 ) + hxk − xk+1 , x̄ − xk+1 i ≤ f (x̄)
αk
o, equivalentemente,
1
kxk − xk+1 k2 + kxk+1 − x̄k2 − kxk − x̄k2 ≤ f (x̄).

f (xk+1 ) +
2αk
Usando que f (x̄) ≤ f (y) para cualquier y ∈ X, se obtiene
kxk+1 − x̄k2 ≤ kxk − x̄k2 − kxk − xk+1 k2 ,
de donde la sucesión {kxk − x̄k} es decreciente y positiva, por lo tanto convergente y {xk } es acotada.
Además, sumando sobre k entre 0 y n en la desigualdad anterior y usando la propiedad telescópica
deducimos
n
∑ kxk − xk+1k2 ≤ kx0 − x̄k2 − kxn+1 − x̄k2,
k=0
2
de donde concluimos que la serie ∑∞ k=0 kxk − xk+1 k es convergente y luego xk − xk+1 → 0. Para
concluir, basta usar el Lema 3.1. Sea z ∈ X un punto de acumulación débil de la sucesión {xk }, cuya
existencia está garantizada por el acotamiento de la misma. Digamos xkn * z. Usando que f es s.c.i.
para la topologı́a débil dado que es convexa (Proposición 2.3) y (4.11) se deduce
 
1
f (z) ≤ lı́m inf f (xkn ) = lı́m inf f (xkn ) + hxk −1 − xkn , x̄ − xkn i ≤ f (x̄),
k→+∞ n→+∞ αkn −1 n
donde la igualdad se obtiene del hecho que
ı́nf αkn ≥ α > 0, xkn −1 − xkn → 0 y xkn * z.
n≥0

De ese modo, z ∈ arg mı́nX ( f ) y el resultado se deduce de Lema 3.1 con S = arg mı́nX ( f ).

79
Optimización convexa no diferenciable Capı́tulo 4, Section 4.4

4.4. Método del Gradiente Proximal


Varios de los problemas mencionados en la Sección 1.1 se pueden formular como casos particular
del problema de optimización

(4.12) mı́n f (x) + g(x),


x∈X

donde f : X → R ∪ {+∞} es una función convexa propia s.c.i. y g : X → R es otra función convexa,
pero Gâteaux diferenciable con gradiente L-Lipschitz continuo. Nos interesa ahora estudiar un méto-
do numérico para resolver problemas con esta estructura. El algoritmo que introduciremos se basa
en la siguiente idea:
Supongamos que x̄ ∈ arg mı́nX ( f + g). Entonces del teorema de Fermat y Teorema de Moreau-
Rockafellar (Teorema 4.2) se concluye

x̄ ∈ arg mı́nX ( f + g) ⇔ 0 ∈ ∂( f + g)(x̄) = ∂ f (x̄) + {∇g(x̄)} .

Notemos que, para todo α > 0, la condición de optimalidad anterior es equivalente a

x̄ − α∇g(x̄) ∈ x̄ + α∂ f (x̄) ⇔ x̄ = proxα f (x̄ − α∇g(x̄)).

Esto motiva el Método del Gradiente Proximal. , que está definido a través de la recurrencia

(4.13) xk+1 = proxαk f (xk − αk ∇g(xk )), ∀k ∈ N,

donde x0 ∈ X es arbitrario y αk > 0. Notemos que esta es una extensión natural del método de punto
proximal. En efecto, ese algoritmo se recupera si tomamos el caso g ≡ 0.
Ahora estudiaremos la convergencia del método del Gradiente Proximal.
Teorema 4.8. Sea (X, h·, ·i) un espacio de Hilbert, f : X → R ∪ {+∞} y g : X → R dos funciones
propias convexas y s.c.i. tal que arg mı́nX ( f + g) es no vacı́o. Supongamos que g es Gâteaux diferen-
ciable en X con ∇g siendo L-Lipschitz continuo en X. Consideremos x0 ∈ X arbitrario, ε ∈ (0, L1 ) y
una sucesión {αk } ⊆ R tal que
2
ε ≤ αk ≤ − ε, ∀k ∈ N.
L
Entonces la sucesión {xk } generada por (4.13) converge débilmente a algún x∞ ∈ arg mı́nX ( f + g).
Demostración. Sea k ∈ N y sea x̄ ∈ arg mı́nX ( f + g). Usando la Proposición 4.7 y (4.13) deducimos
xk − xk+1
− ∇g(xk ) ∈ ∂ f (xk+1 ),
αk
de donde, por convexidad de f se obtiene
1
f (xk+1 ) + hxk − xk+1 , y − xk+1 i − h∇g(xk ), y − xk+1 i ≤ f (y), ∀y ∈ X,
αk
o, equivalentemente,
1
kxk − yk2 − kxk − xk+1 k2 − kxk+1 − yk2 ,

f (xk+1 ) ≤ f (y) + h∇g(xk ), y − xk+1 i + ∀y ∈ X.
2αk

80
Capı́tulo 4, Section 4.5 Método del Gradiente Proximal

Por otra parte, del Lema 3.2 se obtiene

L
g(xk+1 ) ≤ g(y) + h∇g(xk ), xk+1 − yi + kxk+1 − xk k2 , ∀y ∈ X.
2
Sumando las dos últimas desigualdades se deduce que, para todo y ∈ X,
(4.14)
1  L
( f + g)(xk+1 ) ≤ ( f + g)(y) + kxk − yk2 − kxk − xk+1 k2 − kxk+1 − yk2 + kxk − xk+1 k2 .
2αk 2

En particular, si tomamos y = xk obtenemos de αk ≤ 2/L − ε

εL2
 
1 L
( f + g)(xk+1 ) ≤ ( f + g)(xk ) − − kxk − xk+1 k2 ≤ ( f + g)(xk ) − kxk − xk+1 k2 .
αk 2 4

Deducimos que la sucesión {( f + g)(xk )} es decreciente y acotada inferiormente por ( f + g)(x∗ ) =


mı́n( f + g), por lo que converge. Además, sumando sobre k entre 0 y n en la desigualdad anterior y
usando la propiedad telescópica deducimos

εL2 n
∑ kxk − xk+1k2 ≤ ( f + g)(x0) − ( f + g)(xn+1)
4 k=0

2
de donde concluimos que la serie ∑∞k=0 kxk − xk+1 k es convergente y luego xk − xk+1 → 0.
Ahora, tomando y = x̄ en (4.14) de ε ≤ αk < 2/L se tiene

1
kxk − x̄k2 − kxk+1 − x̄k2 + (αk L − 1) kxk − xk+1 k2

( f + g)(xk+1 ) ≤ ( f + g)(x̄) +
2αk
1
kxk − x̄k2 − kxk+1 − x̄k2 + kxk − xk+1 k2 ,

(4.15) ≤ ( f + g)(x̄) +

de donde, usando que ( f + g)(x̄) ≤ ( f + g)(y) para cualquier y ∈ X, concluimos

kxk+1 − x̄k2 ≤ kxk − x̄k2 + kxk − xk+1 k2


2 2
por lo que, dado que la serie ∑∞k=0 kxk − xk+1 k converge, se deduce que {kxk+1 − x̄k } converge.
Para concluir, basta usar el Lema 3.1. Sea z ∈ X un punto de acumulación débil de la sucesión
{xk }, cuya existencia está garantizada por el acotamiento de la misma. Digamos xkn * z. Usando
(4.15), la semicontinuidad inferior de f + g, xk − xk+1 → 0 y que {kxk − x̄k2 } converge, deducimos
que

( f + g)(z) ≤ lı́m inf( f + g)(xkn )


n→+∞
 
1 2 2 2

≤ lı́m inf ( f + g)(x̄) + kxkn −1 − x̄k − kxkn − x̄k + kxkn −1 − xkn k
n→+∞ 2ε
= ( f + g)(x̄),

de donde z ∈ arg mı́nX ( f + g) y el resultado se deduce de Lema 3.1 con S = arg mı́nX ( f + g).

81
Optimización convexa no diferenciable Capı́tulo 4, Section 4.5

4.5. Ejercicios
1. C ARACTERIZACI ÓN DE FUNCIONES CONVEXAS NO DIFERENCIABLE
Muestre que, análogamente al Teorema 3.1, se tiene que si (X, k · k) un espacio vectorial nor-
mado y f : X → R ∪ {+∞} es propia se tiene que las siguientes afirmaciones son equivalentes:

(i) f : X → R ∪ {+∞} es convexa.


(ii) f es subdiferenciable: f (x) + hx∗ , y − xi ≤ f (y), ∀x, y ∈ dom( f ), x∗ ∈ ∂ f (x).
(iii) ∂ f es monótono: hx∗ − y∗ , x − yi ≥ 0 ∀x, y ∈ dom( f ), x∗ ∈ ∂ f (x), y∗ ∈ ∂ f (y).

2. C ONJUGADA DE F ENCHEL
Sean (X, k · k) un espacio de Banach y f : X → R ∪ {+∞} una función propia convexas y s.c.i.
Definimos la función conjugada de f , denotada f ∗ : X∗ → R ∪ {+∞} via la fórmula:

f ∗ (x∗ ) := sup{hx∗ , xi − f (x)}, ∀x∗ ∈ X∗ .


x∈X

a) Demuestre que f ∗ es una función convexa y s.c.i., y que f ∗ es propia si ı́nfX ( f ) > −∞.
b) Pruebe que x∗ ∈ ∂ f (x) si y sólo si f (x) + f ∗ (x∗ ) = hx∗ , xi.
c) Calcule la función conjugada de f = k · k.

3. S UBDIFERENCIAL DE LA NORMA
Sean (X, k · k) un espacio de Banach. Demostrar que ∂k · k(0) = BX∗ y que en general se tiene
que
∂k · k(x) = {x∗ ∈ X∗ | kx∗ k∗ ≤ 1, hx∗ , xi = kxk}, ∀x ∈ X.

4. I NF - CONVOLUCI ÓN
Sean (X, k·k) un espacio de Banach, f : X → R∪{+∞} y g : X → R∪{+∞} funciones propias
convexas y s.c.i.. Se define la inf-convolución de f y g mediante

( f g)(x) := ı́nf{ f (x1 ) + g(x2 ) | x1 + x2 = x}, ∀x ∈ X.

a) Pruebe que f g es convexa, con dom( f g) = dom( f ) + dom(g).


b) Pruebe que si x̄1 ∈ dom( f ) y x̄2 ∈ dom(g) son tales que ( f g)(x̄1 + x̄2 ) = f (x̄1 ) + g(x̄2 ),
entonces ∂( f g)(x̄1 + x̄2 ) = ∂ f (x̄1 ) ∩ ∂g(x̄2 ).
c) (Efecto Regularizante) Suponga que x̄i son los considerados en la parte anterior. Asu-
miendo que f g es subdiferenciable en x̄ = x̄1 + x̄2 , muestre que f g es Gâteaux-
diferenciable en x̄ si g lo es en x̄2 con

∇( f g)(x̄) = ∇g(x̄2 ).

Muestre si además g es Fréchet-diferenciable en x̄2 , entonces f g también lo es en x̄.


d) Suponga que (X, h·, ·i) es un espacio de Hilbert y sea S ⊂ X un conjunto convexo, cerrado,
no vacı́o. Calcular ∂ dist(x, S) para x ∈
/ S, donde x 7→ dist(x, S) es la función distancia al
conjunto S (ver Ejercicio 6 - Capı́tulo 2)

82
Capı́tulo 4, Section 4.5 Ejercicios

5. P ROPIEDADES DEL OPERADOR prox


Sean (X, h·, ·i) es un espacio de Hilbert, α > 0 y f : X 7→ R ∪ {+∞} una función propia, con-
vexa y s.c.i. Demuestre que, para todo x e y en X, se tiene
a) x − proxα f (x) ∈ α∂ f (proxα f (x)).
b) kproxα f (x) − proxα f (y)k2 ≤ kx − yk2 − k(I − proxα f )(x) − (I − proxα f )(y)k2 .
c) proxα f (x) − proxα f (y), x − y ≥ kproxα f (x) − proxα f (y)k2 .
d) x ∈ arg mı́nX ( f ) ⇔ x = proxα f (x).
6. E JEMPLOS DE C ÁLCULO EXPL ÍCITO DEL OPERADOR prox

a) Sean X1 , . . . , Xn espacio de Hilbert y considere X = X1 × · · · × Xn el espacio producto


dotado por el producto interno estándar y f : X → R ∪ {+∞} definido por
n
f (x) := ∑ fi (xi ), ∀x = (x1 , . . . , xn ) ∈ X,
i=1

donde fi : Xi → R ∪ {+∞} son funciones propias convexas y s.c.i.. Muestre que para todo
α > 0 se tiene que
proxα f (x) = (proxα f1 (x1 ), . . . , proxα fn (xn )), , ∀x = (x1 , . . . , xn ) ∈ X.
Encontrar una expresión explı́cita para f (x) = kxk1 = ∑ni=1 |xi |, en el caso X = Rn .
b) Sea S ⊂ X un conjunto convexo, cerrado, no vacı́o de un espacio de Hilbert (X, h·, ·i) y
sea f = δS . Muestre que para todo α > 0 se tiene proxα f (x) = proy(x, S) para todo x ∈ X.

7. M ÉTODO DE EXTRA - GRADIENTES DE KORPELEVICH


Sean (X, h·, ·i) un espacio de Hilbert real de dimensión finita y f : X → R ∪ {+∞} una función
/ Consideremos σ ∈ (0, 1) y una sucesión {αk } ⊆ R
propia convexa y s.c.i. con arg mı́nX ( f ) 6= 0.
tal que

λk > 0, ∀k ∈ N y ∑ λk = +∞.
k=0
El método de de extra-gradientes de Korpelevich consiste en construir recursivamente la se-
cuencia
xk+1 = xk − αk xk∗
a partir de un punto inicial x0 ∈ X donde la dirección xk∗ se escoge de forma tal que
xk∗ ∈ ∂ f (yk ) para algún yk ∈ X que satisface |yk − xk + αk xk∗ | ≤ σ|yk − xk |.
Se propone estudiar la convergencia de este método, para ello proceda como sigue:
a) Sea θk = 21 |xk − x̄|2 con x̄ ∈ arg mı́nX ( f ). Probar la desigualdad
1
θk+1 − θk ≤ αk [ f (x̄) − ϕ(yk )] + (σ2 − 1)|yk − xk |2 .
2
b) Deducir que |yk − xk | → 0 y concluir que xk → x∞ para algún x∞ ∈∈ arg mı́nX ( f ).

83
Optimización convexa no diferenciable Capı́tulo 4, Section 4.5

84
PARTE II
TEORÍA LOCAL DE OPTIMIZACIÓN
Caso general

Resumen. En esta parte del curso nos enfocares en estudiar problemas generales de opti-
mización, no necesariamente convexos. Veremos que la principal diferencia en este caso
es que el análisis es esencialmente local y que las condiciones necesarias de optimali-
dad pueden no ser suficientes. Esta parte del curso se dividirá en dos. En una primera
instancia estudiaremos problemas sin restricciones, que será el análogo al capı́tulo de
Optimización Convexa Diferenciable. Luego pasaremos a problemas de Programación
Matemática donde repasaremos las condiciones de optimalidad de Kuhn-Tucker.

85
CAPÍTULO 5
Optimización irrestricta

Abstract. En este capı́tulo estudiaremos problemas de optimización donde se busca mi-


nimizar una función diferenciable, no necesariamente convexa. Estudiaremos las con-
diciones de optimalidad, necesarias y suficientes para que un punto sea un mı́nimo en
un sentido local. Introduciremos además algunos métodos algorı́tmicos para encontrar
mı́nimos locales de funciones diferenciables.

La optimización convexa entrega una buena intuición sobre lo que es la optimización en general,
y de alguna forma puede ser vista como el caso más favorable que uno puede estudiar. A partir de
ahora usaremos esa intuición para analizar problemas más generales.
A lo largo de este capı́tulo trabajaremos básicamente con funciones f : X → R ∪ {+∞} definidas
sobre un espacio de vectorial normado (X, k · k), que para muchos efectos será tomado simplemente
como Rn dotado de la norma Euclideana, que hemos denotado hasta ahora por | · |. En general, y de
forma similar a lo hecho en el capı́tulo 3 , asumiremos que f : X → R ∪ {+∞} es, al menos, Gâteaux
diferenciable en int(dom( f )).

5.1. Mı́nimos locales


Recordemos que la inf-compacidad y la semi-continuidad inferior son criterios que nos permiten
determinar la existencia de mı́nimos de un problema de optimización del estilo
(P) Minimizar f (x) sobre todos los x ∈ X.
En el caso de optimización convexa tenemos que la Regla de Fermat (Teorema 3.4) permite caracte-
rizar los mı́nimos de una función convexa. Sin embargo, en el caso no convexo esto puede fallar y en
general esa regla solo nos entrega información local de la función.
Definición 5.1 (Mı́nimos locales). Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞}
una función dada. Un punto x̄ ∈ int(dom( f )) se dice mı́nimo local de f si existe r > 0 tal que
f (x̄) ≤ f (x), ∀x ∈ BX (x̄, r).
Un mı́nimo local se dice estricto si la relación anterior es válida con desigualdad estricta.
Además, x̄ ∈ X se dirá máximo local (estricto) de f si x̄ es un mı́nimo local (estricto) de − f .
En adelante, y para no generar confusión, a los mı́nimos de una función le agregaremos el adjetivo
global para distinguirlo de los mı́nimos locales. Es claro que todo mı́nimo global del problema (P)
es también un mı́nimo local; de hecho podemos tomar r > 0 arbitrario. Sin embargo, como muestra
el siguiente ejemplo, mı́nimos locales no son necesariamente mı́nimos globales de la función en
cuestión, de hecho, su existencia no asegura siquiera que la función sea acotada inferiormente.

87
Optimización irrestricta Capı́tulo 5, Section 5.2

Ejemplo 5.1.1. Consideremos la función sobre R definida por f (x) = x2 − x4 . No es difı́cil ver que
x̄ = 0 es un mı́nimo local de f . Efectivamente, la desigualdad

f (0) = 0 ≤ x2 − x4

es trivial bajo la condición |x| < 1 (de hecho es un mı́nimo local estricto). Luego, x̄ = 0 es un mı́nimo
local de f pero no es un mı́nimo global de f , puesto que f (x) < 0 para cualquier |x| > 1. Más aún,
se verifica que f (x) → −∞ si |x| → +∞, es decir, f no es acotada inferiormente.


R

Figura 5.1: Grafo de la función f (x) = x2 − x4 .

La primera gran diferencia que existe entre la optimización convexa y el caso general es que,
contrariamente a lo mostrado en el ejemplo anterior, mı́nimos locales de funciones convexas son
también mı́nimos globales.

Proposición 5.1. Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞} una función
convexa dada. Si x̄ ∈ X es un mı́nimo local de f entonces x̄ ∈ arg mı́nX ( f ).

Demostración. Como x̄ es mı́nimo local, existe r > 0 tal que

f (x̄) ≤ f (x), ∀x ∈ BX (x̄, r).

Sea y ∈ X y probemos que f (x̄) ≤ y. Si y ∈ BX (x̄, r) no hay nada que probar, ası́ que supongamos que
x̄k (y − x̄) donde 2ky−x̄k ∈ (0, 1) y, además, z ∈ BX (x̄, r). Luego
r r
ky − x̄k > r y definamos z = x̄ + 2ky−
f (x̄) ≤ f (z) y, por convexidad de f , se tiene
r
f (z) ≤ f (x̄) + ( f (y) − f (x̄)),
2ky − x̄k
2ky−x̄k
de donde f (y) − f (x̄) ≥ r ( f (z) − f (x̄)) ≥ 0 de donde se deduce el resultado.

5.2. Condiciones necesarias de optimalidad


La segunda gran diferencia entre la optimización convexa y el caso general se refiere a las con-
diciones de optimalidad. Recordemos que en el caso convexo diferenciable la Regla de Fermat (Teo-
rema 3.4) dice que un mı́nimo (global) de f : X → R ∪ {+∞} está caracterizado como solución de la

88
Capı́tulo 5, Section 5.2 Condiciones necesarias de optimalidad

ecuación D f (x̄) = 0. En el caso general esto es solamente una condición necesaria, pero no suficien-
te; por ejemplo la función x 7→ x3 satisface la condición en x̄ = 0, pero x̄ no es un mı́nimo (global ni
local) de la función.
A continuación estudiaremos condiciones necesarias de optimalidad, similares a la Regla de Fer-
mat. Dado que éstas involucran las derivadas de la función objetivo, nos bastará conocer el compor-
tamiento de la función en una vecindad del mı́nimo en cuestión. Por esta razón las condiciones de
optimalidad se puede obtener para mı́nimos locales y no solamente para mı́nimos globales.

5.2.1. Condiciones de primer orden


Estudiaremos primero condiciones que involucran la información de primer orden de la función
objetivo, es decir, nos bastará conocer la derivada de la función en cuestión.
Teorema 5.1 (Condición necesaria de primer orden). Sea (X, k · k) un espacio de vectorial normado
y f : X → R ∪ {+∞} una función Gâteaux diferenciable en una vecindad de x̄ ∈ X. Si x̄ es un mı́nimo
local de f entonces

(CNPO) D f (x̄) = 0.

Demostración. Sea r > 0 tal que

f (x̄) ≤ f (x), ∀x ∈ BX (x̄, r)

y sea d ∈ X \ {0}. Para todo t < r/kdk se tiene que x̄ + td ∈ BX (x̄, r) y, luego,
f (x̄ + td) − f (x̄)
(5.1) ≥ 0.
t
Tomado lı́mite t → 0+ se concluye D f (x̄)(d) ≥ 0 para todo d ∈ X \ {0} y el resultado se concluye
reemplazando d por −d en el razonamiento anterior.
Notemos primero que (CNPO), para el caso de espacios de Hilbert y funciones Gâteaux diferen-
ciables se limita simplemente a la condición

∇ f (x̄) = 0.

Por otra parte, en la demostración del Teorema 5.1 podrı́amos cambiar f por − f y obtener la misma
conclusión. Esto quiere decir que (CNPO) es ciega con respecto a la operación que se está ejecutan-
do, ya sea minimizar o maximizar. Además, como mencionamos anteriormente en el ejemplo de la
función x 7→ x3 , hay puntos que pueden satisfacer (CNPO) y no ser ni mı́nimos ni máximos de una
función. Con el fin de abarcar todo estas clases de puntos introducimos la siguiente definición.
Definición 5.2 (Puntos crı́ticos). Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞}
una función Gâteaux diferenciable en int(dom( f )). Diremos que un punto x̄ ∈ int(dom( f )) es un
punto crı́tico de f si satisface (CNPO), es decir, D f (x̄) = 0.
Ejemplo 5.2.1. Consideremos la función f : R → R definida por f (x) = 51 x5 − 13 x3 . Esta función
tiene tres puntos crı́ticos x̄1 = −1, x̄2 = −1 y x̄3 = 1. Del grafo de la función podemos concluir que,
x̄1 es un máximo local y x̄3 es un mı́nimo local. El punto x̄2 no es ni mı́nimo ni máximo local.

89
Optimización irrestricta Capı́tulo 5, Section 5.2


R

Figura 5.2: Grafo de la función f (x) = 15 x5 − 13 x3 .

5.2.2. Condiciones de segundo orden


Notemos que si la función restringida a una vecindad de un punto crı́tico fuese convexa enton-
ces la posibilidad que el punto crı́tico sea un mı́nimo local aumentan, pues podrı́amos descartar
inmediatamente que ese punto no es un máximo local estricto. Por lo tanto, para poder distinguir y
clasificar puntos crı́ticos se requiere más información sobre la función, en particular sobre su curva-
tura. Veremos ahora un criterio de segundo orden, que simula en cierto grado la convexidad local de
una función. Recordemos que una función dos veces Gâteaux diferenciable es convexa si y sólo si
D2 f (x) es un operador bilineal continuo semi-definido positivo.
Teorema 5.2 (Condición necesaria de segundo orden). Sea (X, k·k) un espacio de vectorial normado
y f : X → R ∪ {+∞} una función dos veces Gâteaux diferenciable en una vecindad de x̄ ∈ X. Si x̄ es
un mı́nimo local de f entonces D f (x̄) = 0 y D2 f (x̄) es semi-definido positivo, es decir,
(CNSO) D2 f (x̄)(h, h) ≥ 0, ∀h ∈ X.
Demostración. Sea r > 0 tal que f es dos veces Gâteaux diferenciable en BX (x̄, r) y
f (x̄) ≤ f (x), ∀x ∈ BX (x̄, r),
sea h ∈ X \ {0} (si h = 0 no hay nada que probar) y definamos φ : R → R ∪ {+∞} dada por
φ(t) = f (x̄ + th), ∀t ∈ R.
Dado que f es dos veces Gâteaux diferenciable en una vecindad de x̄, tenemos que φ es dos veces
derivable en una vecindad de t = 0, y por lo tanto
t2 t2
f (x̄ + th) = φ(t) = φ(0) + φ0 (0)t + φ00 (0)
+ o(t 2 ) = f (x̄) + D f (x̄)th + D2 f (x̄)(h, h) + o(t 2 ),
2 2
donde lı́ms→0 o(s)/s = 0. Del Teorema 5.1 se deduce D f (x̄) = 0 y, luego
2( f (x̄ + th) − f (x̄)) 2 o(t 2 )
0≤ = D f (x̄)(h, h) + .
t2 t2
El resultado final se obtiene tomando entonces lı́mite t → 0.

90
Capı́tulo 5, Section 5.3 Condiciones suficientes de optimalidad

Es importante destacar que (CNSO) para el caso X = Rn y f dos veces Gâteaux diferenciable se
traduce en
∇ f (x̄) = 0 y ∇2 f (x̄) ∈ Sn+ (R),
donde ∇2 f (x̄) es la matriz Hessiana de la función f en el punto x̄. En otras palabras, para utilizar
(CNSO) en este caso es útil conocer los valores propios de la matriz ∇2 f (x̄); si todos ellos son no
negativos, entonces podemos concluir que ∇2 f (x̄) ∈ Sn+ (R).

Ejemplo 5.2.2. Retomemos los datos del Ejemplo 5.2.1. En este caso tenemos que ∇2 f (x) = 4x3 −2x.
Dado que ∇2 f (−1) = −2 podemos inmediatamente descartar el punto x̄1 = −2 como mı́nimo local.
Notemos que ∇2 f (0) = 0 por lo que no podemos descartar analı́ticamente el punto x̄2 = 0 como
mı́nimo o máximo local. Además, efectivamente tenemos que ∇2 f (1) = 2 > 0 por lo que el punto
x̄3 = 1 es candidato a ser mı́nimo local.

Ejemplo 5.2.3. Consideremos la función f : R2 → R definida por f (x, y) = x2 (1 + y) + y2 /2. Esta


función tiene tres puntos crı́ticos (x̄1 , ȳ1 ) = (0, 0) y (x̄2 , ȳ2 ) = (1, −1) y (x̄3 , ȳ3 ) = (−1, −1). Además,
la matriz Hessiana está dada por
 
2 2(1 + y) 2x
∇ f (x, y) =
2x 1

De aquı́ concluimos que (x̄1 , ȳ1 ) = (0, 0) es candidato a ser mı́nimo local, pues los valores propios
de ∇2 (x̄1 , ȳ1 ) son 1 y 2. Además, (CNSO) nos permite también descarta los puntos (x̄2 , ȳ2 ) y (x̄3 , ȳ3 ),
pues la matriz Hessiana en este caso tiene un valor propio positivo y otro negativo (en ambos casos).

5.3. Condiciones suficientes de optimalidad


Notemos que (CNSO) no logra descartar todos los puntos crı́ticos que no son mı́nimos locales
debido a que ésta es una condición puntual que no puede ser extendida a una vecindad de un punto
crı́tico x̄. Es decir, la condición que el operador D2 f (x̄) sea semi-definido positivo no implica ne-
cesariamente que D2 f (x) sea también semi-definido positivo para todo x ∈ X que pertenezca a una
vecindad de x̄. Para obtener una condición de este estilo necesitamos hacer más fuerte (CNSO). Co-
mo consecuencia obtenemos un resultado más fuerte, que logra no sólo clasificar a un punto crı́tico
como mı́nimo local, si no que además como mı́nimo local estricto.

Teorema 5.3 (Condición suficiente de segundo orden). Sea (X, k · k) un espacio de vectorial nor-
mado y f : X → R ∪ {+∞} una función dos veces Fréchet diferenciable en una vecindad de x̄ ∈ X.
Supongamos que x̄ es un punto crı́tico de f y que existe α > 0 tal que

(CSSO) D2 f (x̄)(h, h) ≥ αkhk2 , ∀h ∈ X.

Entonces x̄ es un mı́nimo local estricto de f .

Demostración. Sea r > 0 tal que f es dos veces Fréchet-diferenciable en BX (x̄, r). Primero probare-
mos que, para h ∈ BX (0, r)
1
f (x̄ + h) − f (x̄) − D f (x̄)(h) − D2 f (x̄)(h, h) = o(khk2 ).
2
91
Optimización irrestricta Capı́tulo 5, Section 5.4

En efecto, llamando
1
ϕ(h) := f (x̄ + h) − f (x̄) − D f (x̄)(h) − D2 f (x̄)(h, h),
2
por simetrı́a de D2 f (x̄)(·, ·) se tiene
Dϕ(h)(k) = D f (x̄ + h)(k) − D f (x̄)(k) − D2 f (x̄)(h, k)
y la Fréchet diferenciablilidad de segundo orden implica
kDϕ(h)k∗
lı́m = 0.
h→0 khk
De ese modo, como ϕ(0) = 0 se tiene del Teorema del Valor Medio aplicado a t 7→ ϕ(th) que existe
λ ∈ (0, 1) tal que
(5.2) |ϕ(h)| = |ϕ(h) − ϕ(0)| = |Dϕ(λh)(h)| ≤ kDϕ(λh)k∗ khk,
de donde
|ϕ(h)| kDϕ(λh)k∗ kDϕ(λh)k∗
≤ ≤
khk2 khk kλhk
y el resultado se obtiene tomando h → 0.
Por lo tanto, usando este resultado y que D f (x̄) = 0 por ser punto crı́tico, se obtiene
1 α
f (x̄ + h) − f (x̄) = D2 f (x̄)(h, h) + o(khk2 ) ≥ khk2 + o(khk2 )
2 2
y tomando r > 0 tal que o(khk2 )/khk2 ≤ α/4 para todo h ∈ BX (0, r) \ {0} se deduce
f (x̄ + h) − f (x̄)
≥ α/4 > 0, ∀h ∈ BX (0, r) \ {0}.
khk2

Ejemplo 5.3.1. Retomando los datos del Ejemplo 5.2.3, tenemos que de todos los puntos crı́ticos
de la función, solamente el punto (x̄1 , ȳ1 ) = (0, 0) es candidato a ser mı́nimo local. Como ya vimos,
∇2 f (x̄1 , ȳ1 ) tiene valores propios positivos, es decir, es una matriz definida positiva. Por lo tanto,
usando (CSSO) podemos concluir que (x̄1 , ȳ1 ) es un mı́nimo local estricto de la función en cuestión.

5.4. Métodos de Direcciones de Descenso


Ahora estudiaremos algunos métodos iterativos para encontrar mı́nimos locales de funciones
Gâteaux diferenciables. Por simplicidad de la exposición nos restringiremos al caso X = Rn , donde
la norma será la norma Euclideana. La idea principal de los métodos que presentaremos es que nos
permitirán construir sucesiones {xk } en Rn tal que ∇ f (xk ) → 0 cuando k → +∞.
La forma general de los métodos que estudiaremos se basa en una iteración del tipo
(5.3) xk+1 = xk + αk dk , ∀k ∈ N
que parte desde x0 ∈ Rn , donde αk > 0 y dk ∈ Rn son tales que nos aseguran que f (xk+1 ) < f (xk ).

92
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

5.4.1. Direcciones de descenso


La principal caracterı́stica de los métodos que estudiaremos es que la elección de las direcciones
dk se hace de forma tal que asegura la existencia de, al menos, un αk > 0 tal que f (xk +αk dk ) < f (xk ).
Por esta razón la siguiente definición nos será de utilidad.
Definición 5.3. Sea f : Rn → R ∪ {+∞} una función Gâteaux diferenciable en x ∈ int(dom( f )).
Diremos que d ∈ Rn es una dirección de descenso de f en x si
∇ f (x)> d < 0.
Definimos también el ángulo de descenso de f en el punto x en la dirección d, denotado θ f (x, d), via
la ecuación
 −∇ f (x)> d
cos θ f (x, d) = ∈ (0, 1].
|∇ f (x)||d|
Notemos que si dk es una dirección de descenso para f en xk , entonces si f (xk ) + α∇ f (xk )> dk es
un buena aproximación de f (xk + αdk ) para α ' 0 (Taylor de primer orden), entonces la existencia
de αk > 0 tal que f (xk + αk dk ) < f (xk ) queda asegurada.
Observación 5.1. Hasta ahora hemos visto, para el caso convexo y bajo condiciones apropiadas,
tres ejemplos donde dk es una dirección de descenso (ver Sección 3.5):

Método del Gradiente: dk = −∇ f (xk ) con cos θ f (xk , dk ) = 1.
Método del Gradiente conjugado: dk = −∇ f (xk ) + βk dk−1
En este caso es esencial el hecho que αk > 0 se escoge usando la regla de búsqueda lineal
exacta, es decir, αk minimiza la función α 7→ f (xk + αdk ), pues esto implica a su vez que
∇ f (xk )> dk−1 = 0 para todo k ∈ N \ {0}.
Método de Newton-Raphson: dk = −[∇2 f (xk )]−1 ∇ f (xk ) con cos θ f (xk , dk ) ≥ κ ∇2 1f (x ) .

( k )

Para este caso, es fundamental que ∇2 f (xk ) sea definida positiva.


Usando la definición anterior, el algoritmo general de métodos de descenso se escribe como
A LGORITMO DE M ÉTODO DE D IRECCIONES DE D ESCENSO
Supongamos que conocemos xk ∈ Rn
1. Criterio de parada: si ∇ f (xk ) ' 0, parar.
2. Dirección de descenso: escoger una dirección de descenso dk ∈ Rn .
3. Búsqueda lineal: determinar un paso αk > 0 de forma tal que f
decrezca suficientemente en la dirección dk .
4. Actualización: xk+1 = xk + αk dk .

Otra dirección de descenso que vale la pena mencionar, y que estudiaremos en profundidad más
adelante, es la dirección de descenso del Método Quasi-Newton, la cuál se inspira en el método de
Newton-Raphson. La idea principal es tomar la dirección de descenso de la forma
dk = −B−1
k ∇ f (xk ), ∀k ∈ N
donde Bk ∈ Sn++ (R) es una matriz que aproxima a ∇2 f (xk ) en algún sentido. Notemos además que
1
, ∀k ∈ N.

cos θ f (xk , dk ) ≥
κ (Bk )

93
Optimización irrestricta Capı́tulo 5, Section 5.4

5.4.2. Reglas de Búsqueda Lineal inexactas


Ahora nos enfocaremos en formas de determinar el paso αk > 0 para dar sentido a la frase que
f decrezca suficientemente en la dirección dk . Veremos también que estas reglas nos servirán para
estudiar la convergencia del algoritmo.
La forma más natural de determinar un paso αk > 0 es simplemente tomar αk = ᾱ, donde ᾱ
minimiza la función α 7→ f (xk + αdk ). Esto se conoce como la regla de búsqueda lineal exacta.
Hemos visto que para problemas cuadráticos estrictamente convexo se puede encontrar una fórmula
explı́cita para αk . Desafortunadamente, en el caso no lineal general, calcular αk puede ser muy difı́cil
y normalmente no se obtienen fórmulas explı́citas; una de las dificultades es que la Regla de Fermat
es una ecuación no lineal difı́cil de resolver. Por esta razón es mejor enfocarse en reglas de búsqueda
lineal inexacta, es decir, donde αk no es el óptimo de α 7→ f (xk +αdk ), pero satisface dos condiciones
esenciales: (i) hace decrecer la función α 7→ f (xk + αdk ) de forma razonable, y (ii) no requiere
demasiado tiempo ni esfuerzo para ser calculado.
La idea detrás de estas reglas de búsqueda es intentar con un serie de candidatos hasta que uno
satisfaga una condición que asegure un decrecimiento sustancial de la función en la dirección dk .

Regla de Armijo
La primera regla de búsqueda lineal inexacta que estudiaremos, llamada regla de Armijo, consiste
en pedir que el decrecimiento sea proporcional a un cierto ω1 ∈ (0, 1). Esto se traduce en que la
función decrece de forma lineal en la dirección dk . Dicho de otra forma, la condición de Armijo pide
que αk > 0 se escoja de forma tal que

(5.4) f (xk + αk dk ) ≤ f (xk ) + ω1 αk ∇ f (xk )> dk .

Notemos que ω1 está fijo en la condición de Armijo (no cambia con k) y a priori no hay mayor
restricción sobre él. Sin embargo, en la práctica, y con el fin que (5.4) sea más fácil de verificar, se
toma ω1 pequeño (tı́picamente ω1 ' 10−4 ).

R
y = f (xk + αdk )

αk
f (xk ) α

y = f (xk ) + ω1 α∇ f (xk )> dk

f (xk + αk dk )
y = f (xk ) + α∇ f (xk )> dk

Figura 5.3: Regla de Armijo.

94
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

Para encontrar un paso que satisfaga la condición de Armijo se procede en general usando una
técnica llamada backtracking y que está determinada por el siguiente algoritmo:

R EGLA DE A RMIJO (BACKTRACKING )


1. Tomar α > 0, τ ∈ 0, 12 .
2. Si α satisface la regla de Armijo, fijar αk = α y parar.
3. Escoger β ∈ [τα, (1 − τ)α].
4. Actualizar α = β y volver al paso 2.

Normalmente, τ es pequeño (en general 10−2 ≤ τ ≤ 10−1 ) y esta elección de pasos se asocia
frecuentemente a direcciones de descenso de Newton-Raphson, pues en este caso se espera tener
convergencia con αk ' 1.

Regla de Goldstein
Notemos que la elección del paso con la regla de Armijo no provee una cota inferior para el paso,
y no hay en principio mayor inconveniente en escoger αk muy pequeño. El problema es que esto
puede llevar a que el algoritmo converja a un punto que no es necesariamente un punto crı́tico de la
función. En efecto, si el paso se escoge de forma tal que para algún ε > 0 se cumple
ε
0 < αk ≤ , ∀k ∈ N
2k+1 |d k|

Tendremos que la sucesion {xk } generada por (5.3) es de Cauchy y por lo tanto converge a algún
x̄ ∈ Rn . En efecto para todo l ∈ N tenemos

k+l−1 ∞
ε
|xk+l − xk | = ∑ αi di ≤ ∑ →0 si k → +∞.
i=k i=k 2i+1

Esto a su vez implica que



ε
|x̄ − x0 | ≤ ∑ i
= ε.
i=1 2
Por lo tanto, si no hay puntos crı́tico de f cerca de x0 , entonces x̄ no puede ser un punto crı́tico
-ni mı́nimo local- de f . Es decir, en este caso, el Método de Direcciones de Descenso podrı́a no
converger en el sentido que ∇ f (xk ) → ∇ f (x̄) 6= 0 cuando k → +∞.
Para evitar este tipo de problemas, se introduce una nueva regla, llamada regla de Goldstein y
cuyo objetivo es evitar que αk se escoja muy pequeño. Dicho de otra forma, la condición de Goldstein
pide que αk > 0 satisfaga

(5.5a) f (xk + αk dk ) ≤ f (xk ) + ω1 αk ∇ f (xk )> dk .


(5.5b) f (xk + αk dk ) ≥ f (xk ) + (1 − ω1 )αk ∇ f (xk )> dk .

Notar que (5.5a) no es otra cosa que la condición de Armijo (5.4).


El siguiente resultado muestra que siempre es posible escoger un paso según la regla de Goldstein
(y en consecuencia según la regla de Armijo).

95
Optimización irrestricta Capı́tulo 5, Section 5.4

R
y = f (xk + αdk )

αk
f (xk ) α

y = f (xk ) + ω1 α∇ f (xk )> dk


f (xk + αk dk )

y = f (xk ) + α∇ f (xk )> dk y = f (xk ) + (1 − ω1 )α∇ f (xk )> dk

Figura 5.4: Regla de Goldstein.

Proposición 5.2. Sea f : Rn → R ∪ {+∞} una función inferiormente acotada tal que dom( f ) es
un abierto de Rn . Supongamos además que f es continua y Gâteaux diferenciable en dom( f ). Sea
k ∈ N y xk una instancia del Método de Direcciones de Descenso (5.3) con dk siendo una dirección
de descenso. Entonces, para todo ω1 ∈ (0, 1/2) existe αk > 0 que verifica la Regla de Goldstein (5.5).
Demostración. En efecto, dado xk ∈ dom( f ), dk dirección de descenso, por diferenciabilidad de f se
tiene
f (xk + αdk ) − f (xk )
lı́m = ∇ f (xk )> dk < (1 − ω1 )∇ f (xk )> dk < ω1 ∇ f (xk )> dk .
α→0 + α
Además, como ∇ f (xk )> dk < 0 debido a que dk es dirección de descenso,
lı́m f (xk + αdk ) ≥ ı́nfn ( f ) > −∞ = lı́m f (xk ) + αω1 ∇ f (xk )> dk = lı́m f (xk ) + α(1 − ω1 )∇ f (xk )> dk .
α→∞ R α→∞ α→∞

Por lo tanto, por continuidad de las funciones α 7→ f (xk + αdk ), α 7→ f (xk ) + αω1 ∇ f (xk )> dk y
α 7→ f (xk ) + α(1 − ω1 )∇ f (xk )> dk , se deduce del teorema del valor intermedio que existen α2 < α1
tales que
α1 = ı́nf{α > 0 | f (xk + αdk ) = f (xk ) + αω1 ∇ f (xk )> dk }
α2 = sup{α ∈ (0, α1 ) | f (xk + αdk ) = f (xk ) + α(1 − ω1 )∇ f (xk )> dk }
y por lo tanto las condiciones de Goldstein (5.5) se cumplen para todo α2 ≤ αk ≤ α1 .

Regla de Wolfe
Otra forma de evitar el problema de convergencia a un punto que no es un punto crı́tico es
introducir una regla que considere información sobre la curvatura de la función. La condición de
Wolfe pide que αk > 0 satisfaga, para algún ω1 ∈ (0, 1) y ω2 ∈ (ω1 , 1), las siguientes condiciones
(5.6a) f (xk + αk dk ) ≤ f (xk ) + ω1 αk ∇ f (xk )> dk .
(5.6b) ∇ f (xk + αk dk )> dk ≥ ω2 ∇ f (xk )> dk .

96
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

R
y = f (xk + αdk )

αk
f (xk ) α

y = f (xk ) + ω1 α∇ f (xk )> dk

f (xk + αk dk )

y = f (xk ) + ω2 α∇ f (xk )> dk


y = f (xk ) + α∇ f (xk )> d k

Figura 5.5: Regla de Wolfe.

Notar que, al igual que con la regla de Goldstein, (5.6a) es la condición de Armijo (5.4). Más
aún, dado que ∇ f (xk + αdk )> dk es la pendiente de la función α 7→ f (xk + αdk ) en el punto α, la
condición (5.6b) dice que la pendiente α 7→ f (xk + αdk ) en αk debe ser mayor que una proporción
ω2 de la pendiente en α = 0, y en consecuencia αk estará lo suficientemente alejado de α = 0 para
evitar una falsa convergencia. Notemos además que ω2 , al igual que ω1 en la condición de Armijo,
está fijo (no cambia con k). En la práctica, y con el fin que (5.6b) sea más fácil de verificar, se toma
ω2 cercano a 1 (tı́picamente ω2 ' 0,99). Esta regla, debibo a su relación con la curvatura, se asocia
frecuentemente con direcciones de descenso del Método Quasi-Newton.
Veamos ahora que la regla de Wolfe está bien definida.

Proposición 5.3. Sea f : Rn → R ∪ {+∞} una función inferiormente acotada tal que dom( f ) es un
abierto de Rn . Supongamos que f es continua y Gâteaux diferenciable en dom( f ). Sea k ∈ N y xk
una instancia del Método de Direcciones de Descenso (5.3) con dk siendo una dirección de descenso.
Entonces, para todo 0 < ω1 < ω2 < 1 existe αk > 0 que satisface la condición de Wolfe (5.6).

Demostración. Consideremos

α1 = ı́nf{α > 0 : f (xk + αdk ) = f (xk ) + αω1 ∇ f (xk )> dk },

cuya existencia está garantizada por la demostración de la proposición anterior (Proposición 5.2).
Notemos que la primera condición de Wolfe (5.6a) se satisface para todo αk ≤ α1 . Por otra parte, por
Teorema del Valor Medio, se tiene que existe α2 ∈ (0, α1 ) tal que

f (xk + α1 dk ) − f (xk )
(5.7) ω2 ∇ f (xk )> dk < ω1 ∇ f (xk )> dk = = ∇ f (xk + α2 dk )> dk
α1

y por continuidad hay un intervalo alrededor de α2 donde las condiciones se siguen satisfaciendo.

97
Optimización irrestricta Capı́tulo 5, Section 5.4

Ahora presentaremos un algoritmo (Fletcher-Lemaréchal) que permite encontrar un paso αk > 0


que satisface la condición de Wolfe. Este algoritmo usa igualmente la técnica backtracking y se
caracteriza por encontrar un paso acorde a la regla de Wolfe en una cantidad finita de iteraciones.

R EGLA DE W OLFE (A LGORITMO DE FLETCHER -L EMAR ÉCHAL )


1. Tomar α > 0, α = 0, α = +∞, τi ∈ 0, 21 y τe > 1.
2. Si α no satisface (5.6a):
2.1 Actualizar α = α
2.2 Escoger β ∈ [(1 − τi )α + τi α, τi α + (1 − τi )α].
2.3 Actualizar α = β
3. Si α satisface (5.6a):
3.1 Si α satisface (5.6b), fijar αk = α y parar.
3.2 Actualizar α = α
3.3 Si α = +∞, escoger β ∈ [τe α, +∞).
3.4 Si α < +∞, escoger β ∈ [(1 − τi )α + τi α, τi α + (1 − τi )α].
3.5 Actualizar α = β.
4 Volver al paso 2.

Estudiemos ahora la convergencia de este algoritmo.


Proposición 5.4. Sea f : Rn → R ∪ {+∞} una función inferiormente acotada tal que dom( f ) es
un abierto de Rn . Supongamos además que f es continua y Gâteaux diferenciable en dom( f ). Sea
k ∈ N y xk una instancia del Método de Direcciones de Descenso (5.3) con dk siendo una dirección
de descenso. Entonces, para todo 0 < ω1 < ω2 < 1 el algoritmo de Fletcher-Lemaréchal encuentra
un paso αk > 0 que satisface la condición de Wolfe (5.6) en una cantidad finita de pasos.

5.4.3. Convergencia del Método de Direcciones de Descenso


En esta parte del curso estudiaremos la convergencia del Método de Direcciones de Descenso
bajo condiciones bastante generales. Nos enfocaremos en el caso que el paso se escoge usando la
regla de Wolfe. Sin embargo cabe destacar que un resultado similar se puede obtener para la regla de
Goldstein y Armijo (ésta última con paso acotado uniformemente sobre cero).
Teorema 5.4 (Condición de Zoutendijk). Sea f : Rn → R∪{+∞} una función inferiormente acotada
continua y Gâteaux diferenciable en dom( f ) (abierto de Rn ). Supongamos existe un abierto A ⊆ Rn
que contiene al conjunto de subniveles Γ f (x0 ) ( f ) para algún x0 ∈ Rn , y supongamos que ∇ f es L-
Lipschitz continua en A. Sea {xk } la sucesión generada por el Método de Direcciones de Descenso
(5.3) con dk siendo una dirección de descenso y αk dado por la regla de Wolfe (5.6) para 0 < ω1 <
ω2 < 1. Entonces se tiene

∑ cos2(θk )|∇ f (xk )|2 < +∞,
k=0
donde θk = θ f (xk , dk ) es el ángulo de descenso de f en el punto xk en la dirección dk .
Demostración. Sea k ∈ N. De la segunda condición de Wolfe, de xk+1 = xk + αk dk y del hecho que
∇ f es L-Lipschitz se deduce
(ω2 − 1)∇ f (xk )> dk ≤ (∇ f (xk+1 ) − ∇ f (xk ))> dk ≤ Lαk kdk k2 ,

98
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

de donde
(ω2 − 1)
αk ≥ 2
∇ f (xk )> dk .
Lkdk k
Ocupando esta desigualdad en la primera condición de Wolfe y usando la definición de θk , se deduce
2
ω1 (ω2 − 1) ∇ f (xk )> dk ω1 (1 − ω2 )

f (xk+1 ) − f (xk ) ≤ =− cos2 (θk )k∇ f (xk )k2 ,
L kdk k L

y por lo tanto { f (xk )} es una sucesión real decreciente y acotada inferiormente, y en consecuencia
converge. Sumando sobre k se deduce

ω1 (1 − ω2 ) N−1 2
∑ cos (θk )k∇ f (xk )k2 ≤ f (x0 ) − f (xN ).
L k=0

como el lado derecho converge, la serie es convergente y el resultado se concluye.

Una consecuencia importante de la condición de Zoutendijk es que si el ángulo de descenso θk


de f en el punto xk en la dirección dk está acotado uniformemente sobre cero, entonces el Método de
Direcciones de Descenso converge en el sentido que ∇ f (xk ) → 0.

5.4.4. Método de Newton-Raphson y Quasi-Newton


En adelante estudiaremos en detalle el método Quasi-Newton, en particular en esta parte nos en-
focaremos la tasa de convergencia. Luego mostraremos unos métodos para construir las direcciones
de descenso (obtener las matrices Bk ). Recordemos que la dirección de descenso de Quasi-Newton
tiene la forma
dk = −B−1k ∇ f (xk ), ∀k ∈ N
donde Bk ∈ Sn++ (R) es una matriz que aproxima a ∇2 f (xk ) en algún sentido. Recordemos también
que
1
cos (θk ) ≥ , ∀k ∈ N.
κ (Bk )
Por lo tanto, si κ (Bk ) se mantiene uniformemente acotado superiormente (lo que se traduce en que
la sucesión {λmı́n (Bk )} es uniformemente positiva), entonces la Condición de Zoutendijk, asegura
que el método converge. Es claro también, que el Método de Newton-Raphson es una instancia
particular del Método Quasi-Newton (basta tomar Bk = ∇2 f (xk )), y por lo tanto los resultados que
presentaremos a continuación son también válidos para el Método de Newton-Raphson.

Tasa de Convergencia del Método de Newton-Raphson


Recordemos que, en el caso convexo, el Método de Newton-Raphson converge de forma cuadráti-
ca (ver Teorema 3.10) cuando la condición inicial está lo suficientemente cerca del mı́nimo. En este
caso, la importancia de la convexidad está en que todo punto crı́tico es un mı́nimo global de la fun-
ción. Si la hipótesis de convexidad de levanta, entonces, dado que la convergencia es sólo local, la
convergencia cuadrática sigue siendo cierta, pero el lı́mite es un mı́nimo local estricto, no necesaria-
mente global. Ahora presentaremos la adaptación al caso no convexo del Teorema 3.10.

99
Optimización irrestricta Capı́tulo 5, Section 5.4

Teorema 5.5. Sea f : Rn → R ∪ {+∞} una función propia y dos veces Gâteaux diferenciable en
dom( f ), el cual asumimos ser un abierto de Rn . Supongamos que existe x̄ ∈ Rn tal que ∇ f (x̄) = 0 y
∇2 f (x̄) ∈ Sn++ (R), y que además ∇2 f es localmente Lipschitz continua en torno a x̄. Entonces, existe
ρ > 0 para el cual se tiene que si x0 ∈ BRn (x̄, ρ), la secuencia {xk } generada por

(5.8) xk+1 = xk − [∇2 f (xk )]−1 ∇ f (xk ), ∀k ∈ N

está bien definida, converge a x̄ y satisface

|xk+1 − x̄| |∇ f (xk+1 )| |xk+1 − x̄| |∇ f (xk+1 )|


lı́m = lı́m = 0, lı́m sup < ∞, y lı́m sup < ∞.
k→∞ |xk − x̄| k→∞ |∇ f (xk )| k→∞ |xk − x̄|2 k→∞ |∇ f (xk )|2

Demostración. La primera parte de la demostración sigue el mismo razonamiento que la demostra-


ción del Teorema 3.10 y lo único nuevo por probar son los lı́mites con los gradientes. Sin embargo,
por claridad de la exposición mostraremos todos los pasos.
Recordemos que, para x ∈ dom( f ) habı́amos denotado por λx al menor valor propio de ∇2 f (x).
Como ∇2 f (x̄) ∈ Sn++ (R), de la Proposición 3.2 se tiene

y> ∇2 f (x̄)y ≥ λx̄ |y|2 , ∀y ∈ Rn ,

donde λx̄ > 0. Para todo x ∈ BRn (x̄, r) e y ∈ Rn , usando la propiedad Lipschitz de ∇2 f se tiene

y> ∇2 f (x)y = y> ∇2 f (x̄)y + y> (∇2 f (x) − ∇2 f (x̄))y


≥ λx̄ |y|2 − k∇2 f (x) − ∇2 f (x̄)k|y|2
≥ (λx̄ − L|x − x̄|)|y|2 .
n o
λx̄
Luego, definiendo ρ = mı́n r, 2L > 0 tenemos

λx̄
∇2 f (x) ∈ Sn++ (R) con λx ≥ > 0, x ∈ BRn (x̄, ρ).
2

De ese modo, para todo x ∈ BRn (x̄, ρ), existen matrices Px y Dx tales que ∇2 f (x) = Px Dx Px> con
Px−1 = Px> , de modo que ∇2 f (x)−1 = Px D−1 >
x Px y

1 2
k∇2 f (x)−1 k = ≤
λx λx̄

Supongamos que xk ∈ BRn (x̄, ρ) para algún k ∈ N. Para simplificar la notación, notemos gk = ∇ f (xk )
y Hk = ∇2 f (xk ). De (5.8) se deduce que si xk = x̄ entonces xk+1 = x̄, por lo que suponemos que xk 6= x̄.
Como x̄ es un punto crı́tico de f , es decir, ∇ f (x̄) = 0, usando la propiedad de Lipschitz continuidad
de ∇2 f y la relación
Z 1
gk = ∇ f (xk ) − ∇ f (x̄) = ∇2 f (x̄ + t(xk − x̄))(xk − x̄)dt,
0

tenemos que

100
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

|xk+1 − x̄| = |xk − x̄ − Hk−1 gk |


= |Hk−1 (Hk (xk − x̄) − gk ) |
Z 1 
−1 2
= Hk [Hk − ∇ f (x̄ + t(xk − x̄))](xk − x̄)dt
0
2 1
Z
≤ |xk − x̄| kHk − ∇2 f (x̄ + t(xk − x̄))kdt
λx̄ 0
Z 1
2L 2
≤ |xk − x̄| (1 − t)dt
λx̄ 0
L 1
= |xk − x̄|2 ≤ |xk − x̄|,
λx̄ 2

En particular, se tiene que xk+1 ∈ BRn (x̄, ρ). Además, usando inducción vemos que la sucesión {xk }
está contenida en BRn (x̄, ρ) si x0 ∈ BRn (x̄, ρ) y

1
|xk+1 − x̄| ≤ |x0 − x̄|, ∀k ∈ N.
2k+1
De aquı́ se concluye que xk → x̄, y que también tenemos

|xk+1 − x̄| L |xk+1 − x̄| L


≤ |xk − x̄| y ≤ .
|xk − x̄| λx̄ |xk − x̄|2 λx̄

Por otra parte, dado que Hk (xk+1 − xk ) + gk = 0 para todo k ∈ N, tenemos que
Z 1
|gk+1 | = |gk+1 − gk − Hk (xk+1 − xk )| = ∇2 f (xk + t(xk+1 − xk ))(xk+1 − xk )dt − Hk (xk+1 − xk ) .
0

Sigue que,
Z 1
L L
|gk+1 | ≤ |xk+1 − xk | ∇2 f (xk + t(xk+1 − xk )) − Hk dt ≤ |xk+1 − xk |2 ≤ kHk−1 k2 |gk |2 .
0 2 2
Esto a su vez implica que

4L
|gk+1 | ≤ |gk |2 , ∀k ∈ N.
λ2x̄

Por lo tanto, usando los mismos argumentos que más arriba, obtenemos la conclusión.

Método Quasi-Newton y regla de Wolfe


Un detalle importante en el teorema anterior es que el paso αk para el Método de Newton-
Raphson (5.8) se toma constante e igual a 1. Veremos ahora que si la dirección de descenso del
Método Quasi-Newton es una buena aproximación de la del Método de Newton-Raphson, entonces
el paso αk = 1 es admisible para la regla de Wolfe y el método converge de forma cuadrática.

101
Optimización irrestricta Capı́tulo 5, Section 5.4

Teorema 5.6. Sea f : Rn → R ∪ {+∞} una función propia y dos veces Gâteaux diferenciable en
dom( f ), el cual asumimos ser un abierto de Rn . Supongamos que existe x̄ ∈ Rn tal que ∇ f (x̄) = 0 y
∇2 f (x̄) ∈ Sn++ (R), y que además ∇2 f es localmente Lipschitz continua en torno a x̄. Sea x0 ∈ Rn y
consideremos la sucesión generada por la recurrencia

xk+1 = xk − αk B−1
k ∇ f (xk ), ∀k ∈ N,

con {αk } dado por la regla de Wolfe (5.6) con ω1 ∈ (0, 1/2). Entonces existe ρ > 0 tal que

1. Si αk = 1 para todo k ∈ N, x0 ∈ BRn (x̄, ρ) y kBk − ∇2 f (x̄)k ≤ ρ, entonces {xk } converge a x̄


linealmente.

2. Si además se satisface

|(Bk − ∇2 f (x̄))dk |
(5.9) lı́m = 0,
k→+∞ |dk |

entonces
|xk+1 − x̄| |∇ f (xk+1 )|
lı́m = lı́m = 0.
k→∞ |xk − x̄| k→∞ |∇ f (xk )|

3. Existe k0 ∈ N tal que el paso αk = 1 satisface la regla de Wolfe para todo k ≥ k0 .

Demostración. Recordemos que, para x ∈ dom( f ) habı́amos denotado por λx al menor valor propio
de ∇2 f (x). Como ∇2 f (x̄) ∈ Sn++ (R), de la Proposición 3.2 se tiene

y> ∇2 f (x̄)y ≥ λx̄ |y|2 , ∀y ∈ Rn ,

donde λx̄ > 0. Para todo y ∈ Rn y k ∈ N se tiene

y> Bk y = y> ∇2 f (x̄)y + y> (Bk − ∇2 f (x̄))y


(5.10) ≥ λx̄ |y|2 − kBk − ∇2 f (x̄)k|y|2 .

Luego, definiendo ρ = λx̄ mı́n{1/8, 1/(4L)}, si kBk − ∇2 f (x̄)k ≤ ρ se tiene que Bk es definida po-
sitiva, para todo y ∈ Rn , y> Bk y ≥ 7λx̄ |y|2 /8 y existen matrices Pk y Dk tales que Bk = Pk Dk Pk> con
Pk−1 = Pk> , de modo que B−1 −1 >
k = Pk Dk Pk y

8 2
kB−1
k k≤ ≤ .
7λx̄ λx̄

Supongamos que xk ∈ BRn (x̄, ρ) para algún k ∈ N. Para simplificar la notación, notemos gk = ∇ f (xk ).
De (5.8) se deduce que si xk = x̄ entonces xk+1 = x̄, por lo que suponemos que xk 6= x̄. Como x̄ es
un punto crı́tico de f , es decir, ∇ f (x̄) = 0, usando la propiedad de Lipschitz continuidad de ∇2 f y la
relación Z 1
gk = ∇ f (xk ) − ∇ f (x̄) = ∇2 f (x̄ + t(xk − x̄))(xk − x̄)dt,
0

102
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

tenemos que
|xk+1 − x̄| = |xk − x̄ − B−1
k gk |
= |B−1
k (Bk (xk − x̄) − gk ) |
Z 1 
−1 2
= Bk [Bk − ∇ f (x̄ + t(xk − x̄))](xk − x̄)dt
0
 Z 1 
2 2 2 2
≤ |(Bk − ∇ f (x̄))(xk − x̄)| + |xk − x̄| k∇ f (x̄) − ∇ f (x̄ + t(xk − x̄))kdt
λx̄ 0
 Z 1 
2
≤ |xk − x̄| ρ + L|xk − x̄| tdt
λx̄ 0
1
≤ |xk − x̄|,
2
y luego xk+1 ∈ BRn (x̄, ρ). Además, usando inducción vemos que la sucesión {xk } está contenida en
BRn (x̄, ρ) si x0 ∈ BRn (x̄, ρ) y
1
|xk+1 − x̄| ≤ k+1 |x0 − x̄|, ∀k ∈ N.
2
De aquı́ se concluye que xk → x̄ y la convergencia es lineal. Por otra parte, como xk ∈ BRn (x̄, ρ),
k∇2 f (xk )−∇2 f (x̄)k ≤ L|xk − x̄| ≤ λx̄ /4 y luego argumentando como en (5.10) se deduce k∇2 f (xk )−1 k ≤
4/(3λx̄ ) ≤ 2/λx̄ y
|xk+1 − x̄| = |xk − x̄ − B−1
k gk |
≤ |xk − x̄ − ∇2 f (xk )−1 gk | + |(B−1 2 −1
k − ∇ f (xk ) )gk |
= |∇2 f (xk )−1 ∇2 f (xk )(xk − x̄) − gk | + |∇2 f (xk )−1 (∇2 f (xk ) − Bk )dk |

Z 1 
2 −1 2 2 2
≤ |∇ f (xk ) | [∇ f (xk ) − ∇ f (x̄ + t(xk − x̄))](xk − x̄)dt + |(∇ f (xk ) − Bk )dk |
0
 Z 1 
2 2 2 2
≤ |xk − x̄| k∇ f (xk ) − ∇ f (x̄ + t(xk − x̄))kdt + |(∇ f (xk ) − Bk )dk |
λx̄ 0
 
2 L 2 2 2 2
≤ |xk − x̄| + |(∇ f (x̄) − Bk )dk | + k(∇ f (xk ) − ∇ f (x̄))k |dk |
λx̄ 2
 
2 L 2 2
(5.11) ≤ |xk − x̄| + |(∇ f (x̄) − Bk )dk | + L|xk − x̄| |dk | .
λx̄ 2
Notando que (5.9) asegura la existencia de k0 ∈ N tal que, para todo k ≥ k0 ,
|(∇2 f (x̄) − Bk )dk | λx̄
≤ρ≤ ,
|dk | 8
se tiene que, para todo k ≥ k0 ,
|dk | |xk+1 − x̄| + |xk − x̄|

|xk − x̄| |xk − x̄|
L 2 |(∇2 f (x̄) − Bk )dk | |dk | 2L |dk |
= 1 + |xk − x̄| + + |xk − x̄|
λx̄ λx̄ |dk | |xk − x̄| λx̄ |xk − x̄|
L 3 |dk |
≤ 1 + |xk − x̄| + ,
λx̄ 4 |xk − x̄|

103
Optimización irrestricta Capı́tulo 5, Section 5.4

y, por lo tanto, para todo k ≥ k0 ,


|dk | 4L
≤ 4 + |xk − x̄|.
|xk − x̄| λx̄
Luego, de (5.11) se deduce
|xk+1 − x̄| |(∇2 f (x̄) − Bk )dk | |dk | |dk |
 
2 L
≤ |xk − x̄| + + L|xk − x̄| →0
|xk − x̄| λx̄ 2 |dk | |xk − x̄| |xk − x̄|
cuando k → ∞ y se deduce la convergencia superlineal. Por otra parte, dado que Bk (xk+1 − xk ) + gk =
0 para todo k ∈ N, tenemos que
|gk+1 | = |gk+1 − gk − Bk (xk+1 − xk )|
Z 1
= ∇2 f (xk + t(xk+1 − xk ))(xk+1 − xk )dt − Bk (xk+1 − xk )
0
Z 1
≤ |dk | k(∇2 f (xk + t(xk+1 − xk )) − ∇2 f (x̄))kdt + |(Bk − ∇2 f (x̄))dk |
0
 
1
≤ L|dk | |xk − x̄| + |dk | + |(Bk − ∇2 f (x̄))dk |
2
|(Bk − ∇2 f (x̄))dk |
   
1
= |dk | L |xk − x̄| + |dk | +
2 |dk |
|(Bk − ∇2 f (x̄))dk |
   
−1 1
≤ kBk k|gk | L |xk − x̄| + |dk | + ,
2 |dk |
de donde |gk+1 |/|gk | → 0 cuando k → ∞.
Ahora probemos que, para todo k ≥ k0 , αk = 1 satisface la regla de Wolfe (5.6). De hecho, dado
k ≥ k0 y usando la expansión de orden 2 para f (xk + dk ) en torno a dk = 0, se tiene
1
(5.12) f (xk + dk ) = f (xk ) + ∇ f (xk )> dk + dk> ∇2 f (xk )dk + o(|dk |2 ),
2
y de dk = −B−1
k ∇ f (xk ) se obtiene
1
f (xk + dk ) − f (xk ) − ω1 ∇ f (xk )> dk = (1 − ω1 )∇ f (xk )> dk + dk> ∇2 f (xk )dk + o(|dk |2 )
2
> 1 > 2
= −(1 − ω1 )dk Bk dk + dk ∇ f (xk )dk + o(|dk |2 )
2
1
= (1 − ω1 )dk> (∇2 f (x̄) − Bk )dk + dk> (∇2 f (xk ) − ∇2 f (x̄))dk
2
> 2
− (1/2 − ω1 )dk ∇ f (x̄)dk + o(|dk |2 )
1
≤ (1 − ω1 )|dk ||(∇2 f (x̄) − Bk )dk | + |dk |2 k∇2 f (xk ) − ∇2 f (x̄)k
2
− (1/2 − ω1 )λx̄ |dk |2 + o(|dk |2 ),
donde λx > 0 es el menor valor propio de ∇2 f (x). Dividiendo por |dk |2 , usando (5.9) y la continuidad
de ∇2 f se tiene que la primera condicion de Wolfe (5.6) se satisface con ω1 ∈ (0, 1/2). Para la
segunda condición, por teorema del valor medio se tiene que existe λ ∈ (0, 1) tal que
∇ f (xk + dk )> dk − ∇ f (xk )> dk = dk> ∇2 f (xk + λdk )dk

104
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

y luego

∇ f (xk + dk )> dk − ω2 ∇ f (xk )> dk = (1 − ω2 )∇ f (xk )> dk + dk> ∇2 f (xk + λdk )dk
= −(1 − ω2 )dk> Bk dk + dk> ∇2 f (xk + λdk )dk
= (1 − ω2 )dk> (∇2 f (x̄) − Bk )dk + dk> ∇2 f (xk + λdk ) − ∇2 f (x̄) dk


+ ω2 dk> ∇2 f (x̄)dk
≥ (1 − ω2 )dk> (∇2 f (x̄) − Bk )dk + dk> ∇2 f (xk + λdk ) − ∇2 f (x̄) dk


+ ω2 λx̄ |dk |2 ,

y el resultado se obtiene como antes.

5.4.5. Fórmula explı́citas para Quasi-Newton


Ahora mostraremos algunas formas constructivas de determinar las matrices Bk para el méto-
do Quasi-Newton. La primera que veremos se llama fórmula DFP en honor a sus descubridores
(Davidon-Fletcher-Powell) y la segunda se llamada fórmula BFGS por sus descubridores (Broyden-
Fletcher-Goldfarb-Shanno). Mostraremos en particular que la fórmula BFGS verifica la condición
(5.13), lo que asegura la convergencia cuadrática del método al tomar paso αk = 1 para todo k ∈ N
suficientemente grande (gracias al Teorema 5.6).

Preliminares
Describamos la idea esencial de ambos métodos. Supongamos conocida la iteración del Método
Quasi-Newton xk ∈ Rn y la matriz Bk ∈ Sn++ (R). Consideremos la función mk : Rn → R dada por

1
mk (d) = f (xk ) + ∇ f (xk )> d + d > Bk d, ∀d ∈ Rn .
2
Esta función tiene la propiedad que mk (0) = f (xk ) y ∇mk (0) = ∇ f (xk ). Además, al ser Bk simétrica
y definida positiva tenemos que mk es coerciva y por lo tanto tiene un único mı́nimo, digamos dk ,
que está caracterizado por la regla de Fermat. Dado que Bk es invertible, no es difı́cil ver que dk está
dado por la fórmula

(5.13) dk = −B−1
k ∇ f (xk ), ∀k ∈ N.

Es decir, es la dirección dada por el Método Quasi-Newton. Ahora bien, si tuviésemos a disposición
la siguiente iteración del Método Quasi-Newton xk+1 , nos gustarı́a hacer algo similar para determinar
dk+1 . Para esto, definimos la función fk+1 : Rn → R dada por
1
fk+1 (x) = f (xk+1 ) + ∇ f (xk+1 )> (x − xk+1 ) + (x − xk+1 )> Bk+1 (x − xk+1 ), ∀x ∈ Rn .
2
Es claro que ∇ fk+1 (xk+1 ) = ∇ f (xk+1 ). Nos gustarı́a además que fk+1 fuese también una buena apro-
ximación de f , para esto podemos pedir por ejemplo que ∇ fk+1 (xk ) = ∇ f (xk ), lo que se traduce
en:
Bk+1 sk = yk , con sk = xk+1 − xk = αk dk e yk = ∇ f (xk+1 ) − ∇ f (xk ).

105
Optimización irrestricta Capı́tulo 5, Section 5.4

Esta última, se conoce como la ecuación de la secante; notar que la incógnita en este caso es la matriz
Bk+1 . Ahora bien, dado que buscamos que Bk+1 sea definida positiva, necesitamos que s> k Bk+1 sk > 0.
Luego para que la ecuación de la secante tenga solución necesitamos que s> y
k k > 0. Esto se puede
asegurar si por ejemplo αk satisface la condición de Wolfe (5.6b). Efectivamente, si αk > 0 se escoge
usando la regla de Wolfe tendremos que
s> > >
k yk = αk dk yk ≥ αk (ω2 − 1)dk ∇ f (xk ) > 0.

Ahora bien, dado que la ecuación de la secante es una ecuación matricial, ésta posee infinitas
soluciones pues esta ecuación se compone de n ecuaciones que sumado a las n desigualdades prove-
nientes del hecho que Bk+1 es definida positiva, no compensan los 21 n(n + 1) grados de libertad de la
simetrı́a de Bk+1 .

Formula DFP
Una forma de construir Bk+1 es buscando, entre todas las soluciones a la ecuación de la secante,
la matriz más próxima a Bk en algún sentido. Dicho de otra forma, Bk+1 será la proyección Bk sobre
el espacio de soluciones de la ecuación de la secante. Esto se puede formular como el siguiente
problema de optimización
(PDFP ) Minimizar kB − Bk k sobre todos los B ∈ Sn (R) tales que Bsk = yk ,

donde s>
k yk > 0, Bk ∈ S++ (R) y M 7→ kMk es una norma sobre S (R).
n n

Observación 5.2. Para cada norma utilizada se obtendrá un forma de calcular Bk+1 y por lo tanto
un nuevo Método Quasi-Newton.
La fórmula DFP utiliza la norma
q Z 1
1/2 1/2
kMk = tr(W MW MW ) con W = ∇2 f (xk + tαk dk )dt.
0

La matriz W se conoce como la matriz Hessiana promedio de f y no es difı́cil ver que, gracias al
teorema fundamental del cálculo, W es una solución particular de la ecuación de la secante.
Bajo estas condiciones y usando las condiciones de optimalidad del problema (PDFP ), se tiene
que la matriz Bk+1 queda determinada por la recurrencia:
! !
1 1 1
Bk+1 = I − > yk s> k Bk I − > sk y> k + > yk y> k , ∀k ∈ N.
yk sk yk sk yk sk
Ahora bien, en el Método Quasi-Newton nos interesa conocer la inversa de Bk y no necesaria-
mente Bk misma. Dada la estructura de Bk+1 , podemos calcular su inversa usando la fórmula de
Sherman-Morrison-Woodbury:
A−1 uvT A−1
(A + uvT )−1 = A−1 − ∀A ∈ Mn×n (R) invertible, ∀u, v ∈ Rn .
1 + vT A−1 u
Esto implica que la fórmula DFP está dada por:
1 1
(DFP) B−1 −1
k+1 = Bk − −1
B−1 > −1
k yk yk Bk + >
sk s>
k, ∀k ∈ N.
y>
k Bk yk yk sk

106
Capı́tulo 5, Section 5.4 Métodos de Direcciones de Descenso

Formula BFGS
Una forma alternativa de obtener un método Quasi-Newton es calculando directamente la inversa
y plantear el problema (PDFP ) de una forma equivalente pero para la inversa de Bk+1 . En términos de
problema de optimización esto se escribe como sigue

(PBFGS ) Minimizar kM − B−1


k k sobre todos los M ∈ Sn (R) tales que Myk = sk ,

donde s>
k yk > 0, Bk ∈ S++ (R) y M 7→ kMk es una norma sobre S (R). Notar que en este caso se tiene
n n

que M −1 será solución de la ecuación de la secante. Luego, usando las condiciones de optimalidad
del problema (PBFGS ), se tiene que la matriz Bk+1 queda determinada por la recurrencia:

Bk sk sTk Bk yk yTk
Bk+1 = Bk − T + T
sk Bk sk yk sk

y por lo tanto la fórmula BFGS viene dada por


! !
1 1 1
(BFGS) B−1
k+1 = I − > sk yk
>
B−1
k I − > yk s>
k + > sk s>
k, ∀k ∈ N.
yk sk yk sk yk sk

Veamos ahora un teorema sobre la convergencia global del Método Quasi-Newton usando la
fórmula BFGS. Cabe destacar que bajo las hipótesis del siguiente resultado, la función objetivo es
coerciva y por lo tanto tiene un mı́nimo.
Teorema 5.7. Sea f : Rn → R ∪ {+∞} una función propia y dos veces Gâteaux diferenciable en
dom( f ), el cual asumimos ser un abierto de Rn . Supongamos que x0 ∈ Rn es tal que Γ f (x0 ) ( f ) es
convexo y existen λ, σ > 0 tal que

λ|y|2 ≤ y> ∇2 f (x)y ≤ σ|y|2 , ∀x ∈ Γ f (x0 ) ( f ), ∀y ∈ Rn .

Entonces, la secuencia {xk } generada por el Método Quasi-Newton, con Bk determinada por la
fórmula BFGS, con paso αk dado por la regla de Wolfe (5.6) converge a x̄ ∈ arg mı́nRn ( f ).
Finalmente veremos que la tasa de convergencia del Método Quasi-Newton es cuadrática si las
matrices Bk se escogen usando la fórmula BFGS.
Teorema 5.8. Sea f : Rn → R ∪ {+∞} una función propia y dos veces Gâteaux diferenciable en
dom( f ), el cual asumimos ser un abierto de Rn . Supongamos que existe x̄ ∈ Rn tal que ∇ f (x̄) = 0
y ∇2 f (x̄) ∈ Sn++ (R), y que además ∇2 f es localmente Lipschitz continua en torno a x̄. Supongamos
que el método BFGS converge al punto crı́tico x̄. Luego, si

∑ |xk − x̄| < +∞,
k=0

entonces xk converge a x̄ a una tasa superlineal, es decir,

|(Bk − ∇2 f (x̄))(xk+1 − xk )|
lı́m =0
k→∞ |xk+1 − xk |

107
Optimización irrestricta Capı́tulo 5, Section 5.5

5.5. Ejercicios
1. M ÍNIMOS LOCALES QUE SON GLOBALES
Sea (X, k · k) un espacio vectorial normado y f : X → R ∪ {+∞} continua en dom( f ). Muestre
que x̄ es un mı́nimo global de f si y sólo si todo x tal que f (x) = f (x̄) es un mı́nimo local de f .

2. M AXIMIZACI ÓN DE UTILIDADES


Una pesquera maneja dos variables en su proceso de extracción mensual, la cantidad de horas-
hombre utilizada (variable x) y la superficie que se abarca (variable y), la cuales (debido a las
unidades en que se miden) satisfacen que x > 0 e y > 1. Ası́, dados dos valores x e y para estas
variables, la cosecha mensual (en kilos) está dada por:

cosecha = xα logβ (y),

donde α y β son dos parámetros dados. Si el precio del kilo de pescado es p = 1, y los costos
unitarios asociados a x e y son los valores estrictamente positivos cx y cy , respectivamente,
entonces:

a) Modele el problema de maximizar el beneficio de la pesquera como uno de programación


sin restricciones en x > 0 e y > 1, y encuentre las relaciones de la forma h(y) = 0 e
x = g(y) que satisfacen los puntos crı́ticos del problema. ¿Puede concluir que estos son
efectivamente máximos?
b) Desde ahora sabemos que los parámetros satisfacen α ∈ [0, 1) y β ≥ 0, y reducimos nues-
tra estrategia al conjunto
 
2 β
S := (x, y) ∈ R x > 0, y > 1, log(y) > −1 .
1−α

Demuestre que si los puntos crı́ticos de la parte anterior están en S, entonces estos son
máximos (globales) del problema.
Indicación: Estudie la convexidad del negativo de la función de beneficios.

3. Sea f : Rn → R ∪ {+∞} una función p veces continuamente diferenciable en el interior de su


dominio (con p ≥ 2), tal que para x̄ ∈ int(dom f ) se tiene:

Di f (x̄) = 0, ∀i = 1, ..., p − 1 y D p f (x̄) 6= 0.

Demostrar que para que x̄ sea un mı́nimo (local) de f ,

(a) es necesario que p sea par y D p f (x̄)(h, ..., h) ≥ 0 para todo h ∈ Rn .


(b) es suficiente que p sea par y D p f (x̄)(h, ..., h) > 0 para todo h ∈ Rn .

108
CAPÍTULO 6
Optimización restricta

Abstract. En este capı́tulo estudiaremos problemas de optimización donde se busca mi-


nimizar una función diferenciable sobre un conjunto de restricciones dado. Al igual que
en el capı́tulo anterior, el problema que enfrentaremos no será necesariamente convexo.
Estudiaremos las condiciones de optimalidad (necesarias y suficientes) para que un punto
sea un mı́nimo local y estudiaremos algunos métodos iterativos para encontrar mı́nimos
locales. Pondremos particular énfasis en el problema de Programación Matemática.
En esta parte, al igual que en el capı́tulo anterior, usaremos la intuición desarrollada para la op-
timización convexa con restricciones para estudiar problemas generales de optimización con restric-
ciones. En particular nos enfocaremos en restricciones que se pueden escribir como intersecciones
de de variedades y conjuntos de subnivel inferiores. Esta clase de problemas recibe el nombre de
problemas de Programación Matemática.
A lo largo de este capı́tulo, trabajaremos básicamente con funciones que son localmente Lipschitz
continuas y Gâteaux diferenciable en el interior de sus dominios. La primera parte de la exposición
se hará para un espacio vectorial normado arbitrario X, pero la parte de Programación Matemática
será sobre espacios de Hilbert (de dimensión finita en algunos casos, pero no necesariamente Rn ).

6.1. Problema de Optimización No Lineal General


En esta parte nos enfocaremos en el problema general de optimización
(P) Minimizar f (x) sobre todos los x ∈ X que satisfacen la restricción x ∈ S
donde f : X → R ∪ {+∞} es una función no lineal general y S ⊆ X es conjunto cerrado no vacı́o.
Dado que queremos tratar en adelante el caso general, no necesariamente convexo, la teorı́a que
desarrollaremos será, al igual que en el capı́tulo anterior, sólo local. Para ello debemos extender la
noción de mı́nimo local para problemas con restricciones.
Definición 6.1 (Mı́nimos locales). Sea (X, k · k) un espacio vectorial normado, f : X → R ∪ {+∞}
una función dada y S ⊆ X un conjunto no vacı́o. Un punto x̄ ∈ dom( f ) ∩ S se dice mı́nimo local del
problema (P) si existe r > 0 tal que
f (x̄) ≤ f (x), ∀x ∈ BX (x̄, r) ∩ S.
Un mı́nimo local de (P) se dice estricto si la relación anterior es válida con desigualdad estricta.
Al igual que en el capı́tulo anterior, para no generar confusión, a los mı́nimos del problema (P)
les agregaremos el adjetivo global para distinguirlos de los mı́nimos locales. De forma similar al caso
sin restricciones, todo mı́nimo global del problema (P) es también un mı́nimo local y la existencia de
mı́nimos locales no asegura siquiera que la función sea acotada inferiormente. Además, todo punto
que pertenece a S se dirá factible para el problema (P).

109
Optimización restricta Capı́tulo 6, Section 6.1

6.1.1. Condiciones de Optimalidad de primer orden


Recordemos que en el caso convexo, logramos escribir las condiciones de optimalidad usando la
noción de cono normal. En otras palabras, mostramos que x̄ ∈ sol (P) si y sólo si
x̄ ∈ S y − ∇ f (x̄) ∈ NS (x̄) := {η ∈ X∗ | hη, x − x̄i ≤ 0, ∀x ∈ S}.
Ahora veremos una contraparte tangencial esta condición.
Definición 6.2 (Cono Tangente). Sea (X, k · k) un espacio vectorial normado y S ⊆ X un conjunto
dado. Definimos el cono tangente a S en x ∈ S via la fórmula
TS (x) := {d ∈ X | ∃{(tk , dk )} ⊆ (0, +∞) × X tal que (tk , dk ) → (0, d) con x + tk dk ∈ S, ∀k ∈ N} .
Observación 6.1. No es difı́cil ver TS (x) es un cono cerrado para todo x ∈ S y que además TS (x) = X
si x ∈ int(S). Más aún, tenemos que
η ∈ NS (x) =⇒ hη, di ≤ 0, ∀d ∈ TS (x),
pero la implicancia recı́proca no es necesariamente cierta. En efecto, sea S = {x ∈ R2 | x2 = 0 ∨ x =
x̄}, donde x̄ = (0, 1). En este caso se tiene que TS (0, 0) = {x ∈ R2 | x2 = 0} y por lo tanto para η = x̄
se tiene
η> d = 0, ∀d ∈ TS (0, 0),
pero η ∈/ NS (0, 0), pues η> (x̄ − (0, 0)) = |x̄|2 = 1 > 0. Cabe destacar que la recı́proca es cierta si
S es convexo (ver Ejercicio 2). En particular, Teorema 6.1 más abajo es equivalente a Teorema 4.3
bajo hipótesis de convexidad y diferenciabilidad apropiadas.
Con esta herramienta podemos ahora estudiar condiciones de optimalidad para el problema ge-
neral de Optimización No Lineal.
Teorema 6.1 (Condición Necesaria de Primer Orden). Sea (X, k·k) un espacio vectorial normado.
Sea f : X → R ∪ {+∞} una función propia, localmente Lipschitz continua y Gâteaux diferenciable
en una vecindad de x̄ ∈ X. Si x̄ es un mı́nimo local de (P), entonces
(CNPO) D f (x̄)(d) ≥ 0, ∀d ∈ TS (x̄).
Demostración. Como x̄ es mı́nimo local, existe r > 0 tal que f (x̄) ≤ f (x) para todo x ∈ BX (x̄, r) ∩ S.
Dado que f es localmente Lipschitz en una vecindad de x̄, sin perdida de generalidad podemos asumir
que existe L > 0 tal que
| f (x) − f (y)| ≤ L|x − y|, ∀x, y ∈ BX (x̄, r).
Sea d ∈ TS (x̄) \ {0} (si d = 0 la conclusión es directa). Luego, existen sucesiones {tk } ⊆ (0, +∞)
y {dk } ⊆ Rn tales que tk → 0, dk → d y x̄ + tk dk ∈ S para todo k ∈ N. Entonces, existe k0 ∈ N tal que
x̄ + tk dk ∈ BX (x̄, r) ∩ S y x̄ + tk d ∈ BX (x̄, r), ∀k ≥ k0 .
En consecuencia, para todo k ∈ N con k ≥ k0 tenemos que
f (x̄ + tk dk ) − f (x̄) f (x̄ + tk dk ) − f (x̄ + tk d) f (x̄ + tk d) − f (x̄) f (x̄ + tk d) − f (x̄)
0≤ = + ≤ L|dk −d|+ .
tk tk tk tk
Finalemente, el resultado se obtiene tomando lı́mite k → ∞ y usando que tk → 0 y dk → d.

110
Capı́tulo 6, Section 6.2 Programación Matemática

Notemos que el Teorema 6.1 es una generalización del Teorema 5.1, pues en el caso que no hay
restricciones, es decir S = X, se tiene que TS (x) = X para todo x ∈ X; esto se debe a que int(X) = X.
Ejemplo 6.1.1. Cabe también destacar que el Teorema 6.1 al igual que el Teorema 5.1, es sólo
una condición necesaria y puede pno ser suficiente. En efecto, consideremos la función f (x) = x1
y la restricción S = {x ∈ R | 2 |x1 | ≤ x2 }; ver Figura 6.1. Luego, tenemos ∇ f (0, 0) = (1, 0) y
además TS (0, 0) = {d ∈ R2 | d1 = 0, d2 ≥ 0}. Con esto vemos que (CNPO) se satisface en el punto
x̄ = (0, 0). Sin embargo, este punto no es mı́nimo local pues, dado α > 0, cualquier punto de la forma
xα = (−α2 , α) ∈ S pertenece a S y satisface f (xα ) = −α2 . Por lo tanto, para cualquier α > 0 se tiene
que f (xα ) < 0 y xα puede ser tan cercano a (0, 0) como queramos.

S TS (x̄)

x22 = −x1 x22 = x1

R

Figura 6.1: Conjunto de restricciones de Ejemplo 6.1.1.

6.2. Programación Matemática


La condición (CNPO) es una condición abstracta que puede ser difı́cil de manejar, sobre todo
porque el cono tangente a un conjunto S ⊆ X arbitrario puede ser un objeto complicado a encontrar.
Por esta razón, y para dar un sentido práctico a la condición (CNPO) nos enfocaremos en una
clase particular de problemas de optimización, que a su vez es de los más utilizados en aplicaciones.
Esta clase de problemas, que llamaremos Problemas de Programación Matemática, son aquellos que
consisten en minimizar una función f : Rn → R ∪ {+∞} sobre el conjunto de restricciones

S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .

donde g1 , . . . , g p : X → R y h1 , . . . , hq : X → R son funciones dadas. En el Capı́tulo 4, estudiamos un


caso particular de este problema (que llamamos Problema de Programación Convexa). A saber, el
caso en que las funciones f , g1 , . . . , g p son convexas y las funciones h1 , . . . , hq son afines continuas,
es decir, para ciertos x1∗ , . . . , xq∗ ∈ X∗ y α1 , . . . , αq ∈ R se tiene

h j (x) = x∗j , x − α j , ∀ j = 1, . . . , q, ∀x ∈ X.

A partir de ahora, X será un espacio de Hilbert dotado de un producto interno denotado h·, ·i. Los
ejemplos modelos serán X = Rn y X = Sn (R).

111
Optimización restricta Capı́tulo 6, Section 6.2

6.2.1. Cono Linealizante


En el caso convexo vimos que bajo ciertas hipótesis de calificación podı́amos dar una expresión
explı́cita para el cono normal al conjunto de restricciones del problema de programación convexa.
Ahora nos enfocaremos en obtener algo similar para el caso de la programación matemática.

Definición 6.3. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R funciones Gâteaux diferenciable y sea



S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .

Definimos el cono linealizante a S en x ∈ S como el conjunto



LS (x) := d ∈ X | h∇gi (x), di ≤ 0, ∀i ∈ I(x), ∇h j (x), d = 0, ∀ j ∈ {1, . . . , q} ,

donde I(x) = {i ∈ {1, . . . , p} | gi (x) = 0} es el conjunto de ı́ndices de restricciones activas en x ∈ S.

Notar que el cono linealizante puede ser calculado explı́citamente usando los datos del problema,
y para ello basta solo conocer las derivadas de las funciones que definen al conjunto de restriccio-
nes del problema de programación matemática. Por esta razón, nos gustarı́a poder escribir (CNPO)
usando el cono linealizante en vez del cono tangente. Notemos que en general se tiene que el cono
tangente TS (x) está contenido en el cono linealizante LS (x) , y que esta inclusión puede ser estricta.

Ejemplo 6.2.1. Sea x̄ = (1, 0) y consideremos el conjunto

S = x ∈ R2 | x2 ≤ (1 − x1 )3 ,

x1 ≥ 0, y x2 ≥ 0 .

Notemos que la primera y tercera restricciones son activas, pero la segunda no. Luego, el cono
linealizante al conjunto en x̄ está dado por LS (x̄) = R × {0}, pero TS (x̄) = (−∞, 0] × {0}.

R R

x2 = (1 − x1 )3 x2 = (1 − x1 )3

S S

x2 = 0 R x2 = 0 R
TS (x̄) x̄ LS (x̄) x̄
x1 = 0 x1 = 0

Figura 6.2: Cono tangente y linealizante de Ejemplo 6.2.1.

112
Capı́tulo 6, Section 6.2 Programación Matemática

6.2.2. Condiciones de Calificación


El Ejemplo 6.2.1 muestra que el cono linealizante no coincide necesariamente con el cono tan-
gente, y por lo tanto (CNPO), podrı́a fallar si reemplazásemos indiscriminadamente el cono tangente
por el linealizante, pues estarı́amos agregando más direcciones de las que necesitamos para estudiar
el crecimiento de la función objetivo. Ahora nos enfocaremos en criterios que nos permitirán afirmar
que ambos conos, el tangente y linealizante coinciden.
Recuerdo: Funciones continuamente diferenciables

Una función f : X → R ∪ {+∞} definida en un espacio vectorial normado (X, k · k) se dice


continuamente diferenciable en x ∈ int(dom( f )) si f es Fréchet diferenciable en una vecindad
de x y D f : X → X∗ es continuo en una vecindad de x, es decir,

∀ε > 0, ∃r > 0 tal que ∀y ∈ X kx − yk < r =⇒ kD f (x) − D f (y)k∗ < ε.

En el caso X = Rn , esto se reduce a que las derivadas parciales de f sean todas funciones conti-
nuas en una vecindad de x. Si F : Rn → Rm es una función vectorial con F = (F1 , . . . , Fm ), esta
se dirá continuamente diferenciable si cada función componente y 7→ Fi (y) es continuamente
diferenciable en torno a x.

Recuerdo: Teorema de la Función Implı́cita

El Teorema de la Función Implı́cita es una herramienta fundamental en el Cálculo Diferencial,


que dice básicamente que si la ecuación Φ(0, u) = 0 tiene una solución, digamos ū ∈ Rq ,
donde Φ : R × Rq → Rq es un campo vectorial dado, entonces se puede construir una curva
u : R → Rq que pasa al instante t = 0 por ū, tal que

Φ(t, u(t)) = 0, ∀t ∈ R en una vecindad t = 0.

Recordemos que JΦ (t, u) denota la matriz Jacobiana de Φ en el punto (t, u). En este caso, esta
matriz tiene la estructura  
JΦ (t, u) = ∂t Φ(t, u) ∇u Φ(t, u)
donde
   
∂t Φ1 (t, u) ∂u1 Φ1 (t, u) . . . ∂uq Φ1 (t, u)
   
   
∂t Φ(t, u) := 
 .. 
y ∇u Φ(t, u) := 
 .. .. .. 
.  . . . 
   
   
∂t Φq (t, u) ∂u1 Φq (t, u) . . . ∂uq Φq (t, u)

Teorema 6.2. Sea Φ : R × Rq → Rq un campo vectorial dado y ū ∈ Rq tal que Φ(0, ū) = 0.
Supongamos que Φ es continuamente diferenciable en una vecindad de (0, ū) con ∇u Φ(0, ū)
invertible. Entonces existe ε > 0 y una curva u : (−ε, ε) → Rq , continuamente diferenciable
tal que
Φ(t, u(t)) = 0, ∀t ∈ (−ε, ε) con u(0) = ū.

113
Optimización restricta Capı́tulo 6, Section 6.2

Condición de Mangasarian-Fromovitz
La condición de calificación de Mangasarian-Fromovitz (MF) es una de las más utilizadas pues
no se considera ser una hipótesis muy exigente para un problema de optimización.

Definición 6.4. Sea (X, h·, ·i) un espacio de Hilbert. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R


funciones Gâteaux diferenciable y sea

S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .

Diremos que un punto x̄ ∈ S satisface la condición de Mangasarian-Fromovitz si


( 
(i) ∇h1 (x̄), . . . , ∇hq (x̄) son linealmente independientes.
(MF)
(ii) ∃d¯ ∈ X tal que ∇gi (x̄), d¯ < 0, ∀i ∈ I(x̄) y ∇h j (x̄), d¯ = 0, ∀ j ∈ {1, . . . , q}

Esta definición nos permitirá probar que el cono linealizante y el tangente coinciden en todos los
puntos que satisfacen (MF). Esto a su vez, es una consecuencia del Teorema de la Función Implı́cita.

Teorema 6.3. Sea (X, h·, ·i) un espacio de Hilbert. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R


funciones continuamente diferenciables y sea

S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .

Entonces, TS (x̄) ⊆ LS (x̄) para todo x̄ ∈ S. Si además x̄ ∈ S satisface (MF), entonces TS (x̄) = LS (x̄).

Demostración. Dividamos la demostración en partes.

1. Sea x̄ ∈ S y probemos que TS (x̄) ⊆ LS (x̄). Sea d ∈ TS (x̄), luego existe {(tk , dk )} ⊆ (0, +∞) × X
tal que (tk , dk ) → (0, d) y además

gi (x̄ + tk dk ) ≤ 0, ∀i ∈ {1, . . . , p} h j (x̄ + tk dk ) = 0, ∀ j ∈ {1, . . . , q}

Por lo tanto, dado que gi (x̄) = 0 para cualquier i ∈ I(x̄), tenemos que

gi (x̄ + tk dk ) − gi (x̄) h j (x̄ + tk dk ) − h(x̄)


≤ 0, ∀i ∈ I(x̄) = 0, ∀ j ∈ {1, . . . , q}.
tk tk

Como las funciones son Fréchet diferenciables, haciendo k → +∞ obtenemos que d ∈ LS (x̄).

2. Supongamos ahora que x̄ ∈ S satisface (MF) y probemos que LS (x̄) ⊆ TS (x̄). Sea d ∈ LS (x̄) y
consideremos para cada j ∈ {1, . . . , q} la función Φ j : R × Rq → R definida por
!
q
Φ j (t, u) = h j x̄ + td + ∑ uk ∇hk (x̄) , ∀t ∈ R, ∀u ∈ Rq .
k=1

Denotemos por Φ : R × Rq → Rq la función vectorial definida por

Φ(t, u) = (Φ1 (t, u), . . . , Φq (t, u)), ∀t ∈ R, ∀u ∈ Rq .

114
Capı́tulo 6, Section 6.2 Programación Matemática

Notemos que Φ es continuamente diferenciable y que Φ(0, 0) = 0. Más aún, tenemos que

∂uk Φ j (0, 0) = ∂u j Φk (0, 0) = h∇h j (x̄), ∇hk (x̄)i, ∀ j, k ∈ {1, . . . , q}.

En consecuencia,
 
h∇h1 (x̄), ∇h1 (x̄)i . . . ∇h1 (x̄), ∇hq (x̄) i
∇u Φ(0, 0) = 
 ... 
... ... 
∇hq (x̄), ∇h1 (x̄) . . . ∇hq (x̄), ∇hq (x̄)

Más aún, dado que ∇h1 (x̄), . . . , ∇hq (x̄) son linealmente independientes gracias a (MF), te-
nemos que ∇u Φ(0, 0) es invertible, pues si ∇u Φ(0, 0)u = 0 para algún u ∈ Rq , entonces
* +
q
∇h j (x̄), ∑ uk ∇hk (x̄) = 0, ∀ j ∈ {1, . . . , q}.
k=1
q
Esto a su vez implica que ∑k=1 uk ∇hk (x̄) = 0, y a posterior esto también implica que u = 0.
3. Gracias al Teorema de la Función Implı́cita tenemos que existen ε > 0 y u : R → Rq continua-
mente diferenciable en (−ε, ε) tal que

Φ(t, u(t)) = 0, ∀t ∈ (−ε, ε) con u(0) = 0.

En consecuencia, la curva x : R → X definida por


!
q
uk (t)
x(t) = x̄ + t d + ∑ ∇hk (x̄) , ∀t ∈ R
k=1 t

satisface
h j (x(t)) = 0, ∀t ∈ (−ε, ε), ∀ j ∈ {1, . . . , q}.
Notemos también que u̇(0) = −[∇u Φ(0, 0)]−1 ∂t Φ(0, 0) = 0, pues

∂t Φ j (0, 0) = ∇h j (x̄)), d = 0, ∀ j ∈ {1, . . . , q}.

ya que d ∈ LS (x̄). Por lo tanto, x(0) = x̄ y ẋ(0) = d.


4. Dado que d ∈ LS (x̄), tenemos que h∇gi (x̄), di ≤ 0 para todo i ∈ I(x̄). Supongamos que la
desigualdad es estricta, luego dado que las funciones son Fréchet diferenciables tenemos que
oi (t)
gi (x(t)) = gi (x̄) + th∇gi (x̄), di + oi (t), ∀t ∈ (−ε, ε), ∀i ∈ {1, . . . , q}, con lı́m = 0.
t→0 t

Como gi (x̄) = 0 para i ∈ I(x̄), vemos que podemos tomar una sucesión {tk } ⊆ (0, +∞) tal que
tk → 0 y gi (x(tk )) ≤ 0 para todo k ∈ N y por lo tanto x(tk ) ∈ S. Luego para concluir basta notar
que
q
u j (tk )
x(tk ) = x̄ + tk dk , con dk = d + ∑ ∇h j (x̄)
j=1 tk
u j (tk ) u j (tk )−u j (0)
y que dk → d, pues tk = tk → u̇ j (0) = 0 cuando k → +∞.

115
Optimización restricta Capı́tulo 6, Section 6.2

5. Finalmente, si para algún ı́ndice i ∈ I(x̄) tenemos que h∇gi (x̄), di = 0, definimos dα = d + αd,¯
con d¯ dado por (MF) y α > 0. En este caso tenemos que h∇gi (x̄), dα i < 0 y por lo tanto
dα ∈ TS (x̄), usando los argumentos de las partes anteriores. Finalmente, dado que TS (x̄) es
cerrado y dα → d si α → 0, concluimos que d ∈ TS (x̄).

Condición de Calificación ILGA


Veremos ahora otra condición de calificación ampliamente usada y que en particular implica la
condición de Mangasarian-Fromovitz. Esta es la situación cuando los gradientes de las funciones h j
y los gradientes de las restricciones activas gi en x̄ son linealmente independientes.
Definición 6.5. Sea (X, h·, ·i) un espacio de Hilbert. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R
funciones Gâteaux diferenciable y sea

S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .
Diremos que un punto x̄ ∈ S satisface la condición de Independencia Lineal de Gradientes Activos si
 [
(ILGA) ∇h1 (x̄), . . . , ∇hq (x̄) ∪ {∇gi (x̄)} son linealmente independientes.
i∈I(x̄)

Ahora veremos que efectivamente (ILGA) implica (MF).


Proposición 6.1. Sea (X, h·, ·i) un espacio de Hilbert. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R
funciones Gâteaux diferenciables, y considere el conjunto

S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .
Si x̄ ∈ S satisface (ILGA) entonces x̄ también satisface (MF).
Demostración. Para simplificar la notación, supongamos que I(x̄) = {1, . . . , p}. Luego, basta notar
que si (ILGA) se satisface, entonces el vector (−1, . . . , −1, 0, . . . , 0) ∈ R p × Rq pertenece a la imagen
del operador lineal continuo A : X → R p × Rq definido por

A(d) = h∇g1 (x̄), di, . . . , ∇g p (x̄), d , h∇h1 (x̄), di, . . . , ∇hq (x̄), d , ∀d ∈ X.
En efecto, si esto no fuese ası́, por el Teorema de Hahn-Banach (Lema 2.1), existirı́a un vector
(µ, λ) ∈ R p × Rq \ {0} tal que
* +
p q p
∑ µi∇gi(x̄) + ∑ λ j ∇h j (x̄), d < − ∑ µi , ∀d ∈ X.
i=1 j=1 i=1
 
p q
Tomemos α ∈ R cualquiera. Evaluando en d = α ∑i=1 µi ∇gi (x̄) + ∑ j=1 λ j ∇h j (x̄) , vemos que

p q 2 p
α ∑ µi∇gi(x̄) + ∑ λ j ∇h j (x̄) < − ∑ µi .
i=1 j=1 i=1
p q
Dado que α ∈ R es arbitrario, concluimos que ∑i=1 µi ∇gi (x̄) + ∑ j=1 λ j ∇h j (x̄) = 0, luego por (ILGA)
tenemos que µ = 0 y λ = 0, lo que no puede ser. En particular, concluimos que existe d ∈ X tal que
h∇gi (x̄), di = −1, i = 1, . . . , p y ∇h j (x̄), d , j = 1, . . . , q.

116
Capı́tulo 6, Section 6.2 Programación Matemática

6.2.3. Teorema de Karush-Kuhn-Tucker


Veremos a continuación la versión general del Teorema de Kuhk-Tucker (Teorema 4.4). En este
caso, y a diferencia del caso convexo, tenemos que esta condición solo serán necesaria para que un
punto sea mı́nimo local del problema de programación matemática

(PPM ) Minimizar f (x) sobre x ∈ X tales que gi (x) ≤ 0, i ∈ {1, . . . , p}, h j (x) = 0, j ∈ {1, . . . , q}.

Consideremos la función Lagrangeana asociada al problema de programación matemática (PPM ),


que denotamos L : X × R p × Rq → R ∪ {+∞}, y que está dada por
p q
L(x, µ, λ) := f (x) + ∑ µi gi (x) + ∑ λ j h j (x), ∀x ∈ Rn , µ ∈ R p , λ ∈ Rq .
i=1 j=1

Luego el Teorema sobre condiciones de optimalidad para el problema de programación matemáti-


ca es como sigue.
Teorema 6.4 (Karush-Kuhn-Tucker). Sea (X, h·, ·i) un espacio de Hilbert. Sea f : X → R ∪ {+∞}
una función propia, g1 , . . . , g p : X → R y h1 , . . . , hq : X → R funciones continuamente diferenciables.
Sea x̄ ∈ X un mı́nimo local del problema de programación matemática (PPM ). Supongamos que x̄
satisface (MF) y que f es localmente Lipschitz continua y Gâteaux diferenciable en una vecindad de
x̄. Entonces, existen multiplicadores µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R tales que

(KKT)
p q
0 = ∇x L(x̄, µ, λ) = ∇ f (x̄) + ∑ µi ∇gi (x̄) + ∑ λ j ∇h j (x̄) y µi gi (x̄) = 0, ∀i ∈ {1, . . . , p}.
i=1 j=1

Demostración. Definimos el conjunto



S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .

Gracias al Teorema 6.1 tenemos que (CNPO) se verifica. Además, por el Teorema 6.3 sabemos que
TS (x̄) = LS (x̄), y por lo tanto para cualquier d ∈ X tenemos

(6.1) h∇gi (x̄), di ≤ 0, ∀i ∈ I(x̄) y ∇h j (x̄), d = 0, ∀ j ∈ {1, . . . , q} =⇒ h∇ f (x̄), di ≥ 0

El resultado final es consecuencia entonces del Teorema de Hahn-Banach Geométrico. En efecto,


consideremos el conjunto convexo cerrado y no vacı́o:
( )
q
p
A= v ∈ X ∃µ ∈ R+ , λ ∈ Rq tales que v = ∑ µi ∇gi (x̄) + ∑ λ j ∇h j (x̄) .
i∈I(x̄) j=1

Notemos que (KKT) es equivalente a pedir −∇ f (x̄) ∈ A. Si esto no fuese cierto y dado que X es
reflexivo (pues X es un espacio de Hilbert), tendrı́amos por Teorema de Hahn-Banach Geométrico
(Lema 2.1) que existe d ∈ X \ {0} tal que
p q
p
(6.2) ∑ µih∇gi(x̄), di + ∑ λ j h∇h j (x̄), di < −h∇ f (x̄), di, ∀µ ∈ R+ , λ ∈ Rq .
i=1 j=1

117
Optimización restricta Capı́tulo 6, Section 6.2

En particular, para cualquier i ∈ I(x̄), si ei denota al i-ésimo vector canónico de R p , tomando


µ = kei con k ∈ N \ {0} y λ = 0, tenemos que
−1
h∇gi (x̄), di < h∇ f (x̄), di, ∀k ∈ N \ {0}.
k
Luego haciendo k → +∞, podemos concluir que h∇gi (x̄), di ≤ 0 para todo i ∈ I(x̄). Por otro lado,
tomando µ = 0 y λ = (±k, 0, . . . , 0) con k ∈ N \ {0} llegamos a
1 −1
h∇ f (x̄), di < h∇h1 (x̄), di < h∇ f (x̄), di, ∀k ∈ N \ {0}.
k k
Haciendo k → +∞, vemos que h∇h1 (x̄), di = 0. Usando el mismo razonamiento para los otros ı́ndices
llegamos a que h∇h j (x̄), di = 0 para todo j ∈ {1, . . . , q}. Luego por (6.1) tenemos que h∇ f (x̄), di ≥ 0,
pero esto contradice (6.2) al tomar µ = 0 y λ = 0. Por lo tanto, −∇ f (x̄) ∈ A y (KKT) se verifica.
Notemos que (KKT) se puede interpretar en términos de los puntos crı́ticos del Lagrangiano del
problema. En efecto, (KKT) es equivalente a pedir que x̄ sea punto crı́tico de la función x 7→ L(x, µ, λ),
p
para algún µ ∈ R+ y λ ∈ Rq apropiados. La heurı́stica que hay detrás es que si x̄ es un mı́nimo local
del problema de programación matemática (PPM ), entonces es un mı́nimo local del problema sin
restricciones
Minimizar L(x, µ, λ) sobre todos los x ∈ X.
Esta interpretación no es del todo rigurosa, pero da una buena intuición de lo que sucede. Ası́ mismo,
la heurı́stica descrita más arriba nos dice que para poder clasificar puntos crı́ticos del Lagrangiano ne-
cesitamos, al igual que en el caso de optimización sin restricciones, estudiar condiciones de segundo
orden que consideren segundas derivadas del Lagrangiano.

6.2.4. Condiciones de Segundo Orden


Dado que necesitamos derivadas de segundo orden, en lo que sigue de la sección asumiremos un
poco más de regularidad sobre las funciones involucradas en el problema de programación matemáti-
ca. En particular pediremos que las funciones sean dos veces continuamente Fréchet diferenciables.
Recuerdo: Funciones dos veces continuamente diferenciables

Una función f : X → R ∪ {+∞} definida en un espacio vectorial normado (X, k · k) se dice dos
veces continuamente diferenciable en x ∈ int(dom( f )) si es dos veces Fréchet diferenciable
en x (en particular, continuamente diferenciable) y D2 f (x) : X → X∗ × X∗ es continuo en una
vecindad de x, es decir,

∀ε > 0, ∃r > 0 tal que ∀y ∈ X kx − yk < r =⇒ sup |D2 f (x)(h, k) − D2 f (y)(h, k)| < ε.
h,k∈BX

En el caso X = Rn , esto se reduce simplemente a que las segundas derivadas parciales de f


sean todas funciones continuas en una vecindad de x.

Antes de presentar las condiciones de optimalidad de segundo orden, necesitamos introducir


una nueva noción de cono tangente, que es similar al cono linealizante, pero que considera solo
direcciones en las que f no puede crecer.

118
Capı́tulo 6, Section 6.2 Programación Matemática

Definición 6.6. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R funciones Gâteaux diferenciable y sea



S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q .
Definimos el cono de direcciones crı́ticas a S en x ∈ S como el conjunto
KS (x) := {d ∈ TS (x) | h∇ f (x), di ≤ 0} .
Con esta nueva herramienta podemos ahora presentar un criterio necesario de segundo orden para
que un punto sea un mı́nimo local del problema de programación matemática (PPM ).
Observación 6.2. El siguiente resultado lo demostraremos bajo la condición de calificación (ILGA).
El resultado sigue siendo cierto si se asume (MF), sin embargo la demostración requiere herramien-
tas de programación lineal y dualidad que no hemos estudiado en el curso.
Teorema 6.5 (Condición Necesaria de Segundo Orden). Sea (X, h·, ·i) un espacio de Hilbert. Sea f :
X → R ∪ {+∞} una función propia. Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R funciones dos veces
continuamente diferenciables. Sea x̄ ∈ X un mı́nimo local del problema de programación matemática
(PPM ). Supongamos que x̄ satisface (ILGA) y que f es dos veces continuamente diferenciable en una
vecindad de x̄. Entonces, existen µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R tales que (KKT) se satisface y que
además
(CNSO) D2xx L(x̄, µ, λ)(d, d) ≥ 0, ∀d ∈ KS (x̄).
Demostración. Dividamos la demostración en partes.
1. Supongamos que x̄ es mı́nimo local que satisface (ILGA) y sea d ∈ KS (x̄). Como x̄ satisface
(MF) (por la Proposición 6.1), gracias al Teorema 6.3 se tiene TS (x̄) = LS (x̄), de donde
h∇gi (x̄), di ≤ 0, ∀i ∈ I(x̄), ∇h j (x̄), d = 0, ∀ j ∈ {1, . . . , q}. h∇ f (x̄), di ≤ 0.
Dado que x̄ es mı́nimo local, de Teorema 6.1 se deduce h∇ f (x̄), di = 0.
2. Definamos Id (x̄) = {i ∈ I(x̄) | h∇gi (x̄), di = 0} y NI = |Id (x̄)|. Sin perdida de generalidad
asumamos que NI > 0 y que Id (x̄) = {1, . . . , NI }. Sea Φ : R × RNI × Rq → RNI × Rq el campo
vectorial cuya componentes son
!
NI q
Φi (t, µ, λ) := gi x̄ + td + ∑ µk ∇gk (x̄) + ∑ λ` ∇h` (x̄) , ∀i ∈ {1, . . . , NI }
k=1 `=1
!
NI q
Φ j (t, µ, λ) := h j x̄ + td + ∑ µk ∇gk (x̄) + ∑ λ` ∇h` (x̄) , ∀ j ∈ {1, . . . , q}.
k=1 `=1

Se tiene Φ(0, 0, 0) = 0 y ∇(µ,λ) Φ(0, 0), la matriz Jacobiana de Φ con respecto a las variables µ
y λ está dada por
h∇g1 (x̄), ∇g1 (x̄)i . . . h∇g1 (x̄), ∇gNI (x̄)i h∇g1 (x̄), ∇h1 (x̄)i . . . ∇g1 (x̄), ∇hq (x̄)
 
.. .. .. .. .. ..

 . . . . . .


h∇gNI (x̄), ∇g1 (x̄)i . . . h∇gNI (x̄), ∇gNI (x̄)i h∇gNI (x̄), ∇h1 (x̄)i . . . ∇gNI (x̄), ∇hq (x̄) 
 
.
 h∇h1 (x̄), ∇g1 (x̄)i . . . h∇h1 (x̄), ∇gNI (x̄)i h∇h1 (x̄), ∇h1 (x̄)i . . . ∇h1 (x̄), ∇hq (x̄) 

 .. .. .. .. .. .. 
 . . . . . . 
∇hq (x̄), ∇g1 (x̄) . . . ∇hq (x̄), ∇gNI (x̄) ∇hq (x̄), ∇h1 (x̄) . . . ∇hq (x̄), ∇hq (x̄)

119
Optimización restricta Capı́tulo 6, Section 6.2

Notemos que la matriz ∇(µ,λ) Φ(0, 0) es invertible. En efecto, para todo u ∈ RNI y v ∈ Rq se
tiene que si ∇(µ,λ) Φ(0, 0)(u, v) = 0 entonces

NI q 2
>
0 = (u, v) ∇(µ,λ) Φ(0, 0)(u, v) = ∑ ui∇gi(x̄) + ∑ v j ∇h j (x̄) .
i=1 j=1

Gracias a (ILGA) deducimos que (u, v) = (0, 0). Luego, ocupando el Teorema de la Función
Implı́cita y dado que Φ es dos veces continuamente diferenciable, existe ε > 0 y funciones
µ : (−ε, ε) → RNI y λ : (−ε, ε) → Rq también dos veces continuamente diferenciables tales
que Φ(t, µ(t), λ(t)) = 0 para todo t ∈ (−ε, ε), con (µ(0), λ(0)) = (0, 0).

3. Definiendo la trayectoria x : (−ε, ε) → X via la fórmula


NI q
x(t) := x̄ + td + ∑ µk (t)∇gk (x̄) + ∑ λ` (t)∇h` (x̄),
k=1 `=1

˙ q
se tiene x(0) = x̄ y ẋ(0) = d + ∑N
k=1 µ̇k (0)∇gk (x̄) + ∑`=1 λ` (0)∇h` (x̄). Además,
I

* +
NI q
d ˙ ` (0)∇h` (x̄), ∇gi (x̄)
0 = Φi (·, µ(·), λ(·))(0) = h∇gi (x̄), di + ∑ µ̇k (0)∇gk (x̄) + ∑ λ
dt k=1 `=1
* +
NI q
d ˙ ` (0)∇h` (x̄), ∇h j (x̄)
0 = Φ j (·, µ(·), λ(·))(0) = ∇h j (x̄), d + ∑ µ̇k (0)∇gk (x̄) + ∑ λ
dt k=1 `=1

para todo i ∈ {1, . . . , NI } y j ∈ {1, . . . , q} y se satisface h∇gi (x̄), di = ∇h j (x̄), d = 0. En-


tonces, multiplicando la primera ecuación por µ̇i (0), la segunda por λ ˙ j (0) y, sumando sobre
i ∈ {1, . . . , NI } y j ∈ {1, . . . , q}, se obtiene

NI q 2
˙ ` (0)∇h` (x̄)
0 = ∑ µ̇k (0)∇gk (x̄) + ∑ λ ,
k=1 `=1

˙ j (0) = 0 para todo i ∈ Id (x̄) y j ∈ {1, . . . , q}. En


que junto con (ILGA) implican µ̇i (0) = λ
consecuencia, deducimos que ẋ(0) = d.

4. Probemos ahora que x(t) es factible para todo t > 0 en una vecindad de t = 0. En efecto,
notemos que

0 = Φ(t, µ(t), λ(t)) = (g1 (x(t)), . . . , gNI (x(t)), h1 (x(t)), . . . , hq (x(t))).

/ I(x̄), entonces por continuidad de t 7→ gi (x(t)), para t ∈ R suficientemente pequeño


Si i ∈
tendrı́amos que gi (x(t)) < 0. Por otra parte si i ∈ I(x̄) \ Id (x̄) se tiene

gi (x(t)) = gi (x̄) + h∇gi (x̄), dit + o(t) = h∇gi (x̄), dit + o(t),

y como h∇gi (x̄), di < 0 se deduce que para t > 0 suficientemente pequeño se tiene gi (x(t)) < 0
y se tiene la factibilidad de x(t) para t > 0 en una vecindad de t = 0.

120
Capı́tulo 6, Section 6.2 Programación Matemática

5. Como x(t) es factible para t > 0 y dos veces continuamente diferenciable, la expansión de
Taylor de segundo orden de t 7→ f (x(t)) en torno a t = 0 implica que para t > 0 suficientemente
pequeño
1
f (x̄) ≤ f (x(t)) = f (x̄) + h∇ f (x̄), dit + D2 f (x̄)(d, d) + h∇ f (x̄), ẍ(0)i t 2 + o(t 2 ),

2
y como h∇ f (x̄), di = 0, dividiendo por t 2 y pasando al lı́mite, se deduce
(6.3) 0 ≤ D2 f (x̄)(d, d) + h∇ f (x̄), ẍ(0)i.
De manera similar, para i ∈ {1, . . . , NI } y j ∈ {1, . . . , q}, dado que las funciones t 7→ gi (x(t)) y
t 7→ h j (x(t)) son dos veces diferenciables y nulas en el intervalo (−ε, ε), estas satisfacen
(6.4) 0 = D2 gi (x̄)(d, d) + h∇gi (x̄), ẍ(0)i, ∀i ∈ {1, . . . , NI }
(6.5) 0 = D2 h j (x̄)(d, d) + ∇h j (x̄), ẍ(0) , ∀ j ∈ {1, . . . , q}.

6. Sean µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R multiplicadores asociados a x̄ tales que (KKT) se satisface.


En particular, tenemos que
q
h∇ f (x̄), di + ∑ µi h∇gi (x̄), di + ∑ µi h∇gi (x̄), di + ∑ λ j ∇h j (x̄), d = 0.
i∈I(x̄)\Id (x̄) i∈Id (x̄) j=1

En consecuencia ∑i∈I(x̄)\Id (x̄) µi h∇gi (x̄), di = 0 pues todos los otros términos del lado izquierdo
son cero. Ahora bien, dado que h∇gi (x̄), di < 0 y µi ≥ 0 para todo i ∈ I(x̄) \ Id (x̄), concluimos
que µi = 0 cualquiera sea i ∈ I(x̄) \ Id (x̄). Finalmente, multiplicando (6.4) por el correspon-
diente µi , (6.5) por el respectivo λ j y sumando deducimos el resultado.

Ahora revisaremos una condición suficiente para que un punto que verifica las condiciones de
(KKT) sea efectivamente un mı́nimo local del problema. Al igual que en el caso convexo, la curvatura
de la función sobre el conjunto de restricciones jugará un rol importante. En este caso, esta curvatura
se medirá a través de la segunda derivada del Lagrangiano.
Observación 6.3. Es importante destacar que en el siguiente resultado ninguna condición de califi-
cación es requerida. Sin embargo, el precio a pagar es que el espacio debe ser de dimensión finita.
Existen condiciones suficiente de segundo orden en espacios de dimensión infinita, pero requieren
utilizar otras nociones de cono de direcciones crı́ticas.
Teorema 6.6 (Condición Suficiente de Segundo Orden). Sea (X, h·, ·i) un espacio de Hilbert de
dimensión finita. Sea f : X → R ∪ {+∞} una función propia dos veces continuamente diferenciable
en una vecindad de x̄ ∈ int(dom( f )). Sean g1 , . . . , g p : X → R y h1 , . . . , hq : X → R funciones dos
veces continuamente diferenciables. Asumamos que

x̄ ∈ S = x ∈ X | gi (x) ≤ 0, i = 1, . . . , p, h j (x) = 0, j = 1, . . . , q
y que para cada d ∈ KS (x̄) \ {0} existen µ1 , . . . , µ p ≥ 0 y λ1 , . . . , λq ∈ R tales que (KKT) se satisface
y que además
(CSSO) D2xx L(x̄, µ, λ)(d, d) > 0.
Entonces x̄ es un mı́nimo local estricto del problema de programación matemática (PPM ).

121
Optimización restricta Capı́tulo 6, Section 6.3

Demostración. Supongamos por contradicción que x̄ no es un mı́nimo local estricto de (PPM ) y, por
lo tanto, existe una sucesión {xk } en S que converge a x̄ tal que f (xk ) ≤ f (x̄). Sea dk = kx 1−x̄k (xk − x̄).
k
Pasando a una subsucesión si es necesario, tenemos que dk → d ∈ X con kdk = 1 y más aún, con
esto vemos que d ∈ TS (x̄) ⊆ LS (x̄). Por otra parte,

0 ≥ f (xk ) − f (x̄) = h∇ f (x̄), xk − x̄i + o(kxk − x̄k),


p
de donde h∇ f (x̄), di ≤ 0 y por lo tanto d ∈ KS (x̄) \ {0}. Sea (µ, λ) ∈ R+ × Rq tales que (KKT) y
(CSSO) se satisfacen para d. De (KKT) se obtiene

L(xk , µ, λ) = f (xk ) ≤ f (x̄) = L(x̄, µ, λ).

Por otras parte, dado que ∇x L(x̄, µ, λ) = 0, de la expansión de Taylor de orden 2 de x 7→ L(x, µ, λ) en
torno a x̄ se deduce
1
0 ≥ L(xk , µ, λ) − L(x̄, µ, λ) = D2xx L(x̄, µ, λ)(xk − x̄, xk − x̄) + o(kxk − x̄k2 )
2
y dividiendo por kxk − x̄k2 y pasando al lı́mite concluimos D2xx L(x̄, µ, λ)(d, d) ≤ 0, lo que nos lleva a
una contradicción y por lo tanto x̄ debe ser un mı́nimo local estricto.

6.3. Métodos de Penalización


Ahora presentaremos algunos métodos iterativos utilizados para encontrar (o más bien aproxi-
mar) mı́nimos locales del problema de programación matemática. Presentaremos dos tipos de méto-
dos, ambos basados en la idea de penalizar las restricciones y estudiar un problema auxiliar de opti-
mización sin restricciones. El primer método que veremos es un método de penalización exterior, en
el sentido que las iteraciones que generan pueden no verificar la restricción del problema original. En
cambio el segundo método que veremos fuerza a que las iteraciones estén en el interior del conjunto
de restricciones de desigualdad.

6.3.1. Lagrangiano Aumentado


Recordemos que el Lagrangiano (o función Lagrangiana) asociado al problema de programación
matemática (PPM ) es la función L : X × R p × Rq → R ∪ {+∞} dada por
p q
L(x, µ, λ) := f (x) + ∑ µi gi (x) + ∑ λ j h j (x), ∀x ∈ X, µ ∈ R p , λ ∈ Rq .
i=1 j=1

Una propiedad interesante del Lagrangiano es que, en el caso convexo (ver Teorema 4.4), si x̄ es una
solución del problema de programación matemática, entonces es también un mı́nimo (global e irres-
tricto) de la función x 7→ L(x, µ, λ) con (µ, λ) ∈ R p × Rq siendo multiplicadores asociados a x̄. Esto
sugiere que en el caso convexo, que si conociésemos los multiplicadores, minimizar sin restriccio-
nes la función x 7→ L(x, µ, λ) serı́a equivalente a resolver el problema de programación matemática.
Desafortunadamente, fuera del caso convexo esto no es cierto y un mı́nimo local del problema de
programación matemática no es necesariamente un mı́nimo local del Lagrangiano.

122
Capı́tulo 6, Section 6.3 Métodos de Penalización

Ejemplo 6.3.1. Considere el problema

1
Minimizar 1 − x − x3 sobre los x ∈ R tales que x ≤ 0.
3
No es difı́cil ver que x̄ = 0 es el mı́nimo (global) del problema. Además, imponiendo las condiciones
de (KKT) se tiene que el multiplicador asociado a la restricción es µ = 1. Sin embargo, la función

1
x 7→ L(x, 1) = 1 − x3
3

es no acotada y x̄ = 0 es sólo un punto crı́tico de x 7→ L(x, 1) pero no es un mı́nimo local.

Para evitar la clase de problemas descritos con el ejemplo anterior se introduce una función llama-
da Lagrangiano aumentado del problema de programación matemática. En adelante, para simplificar
la exposición, nos enfocaremos en el caso de restricciones de igualdad, es decir, en el problema

(PI ) Minimizar f (x) sobre los x ∈ X tales que h j (x) = 0, j ∈ {1, . . . , q}.

Observación 6.4. Para el caso con restricciones de desigualdad usualmente se agrega una variable
adicional (llamada holgura) y se considera el problema de optimización equivalente:

Minimizar f (x) sobre (x, y) ∈ X×R p tales que gi (x)+y2i = 0, i ∈ {1, . . . , p}, h j (x) = 0, j ∈ {1, . . . , q}.

Dado r > 0, el Lagrangiano aumentado del problema (PI ) es la función Lr : X × Rq → R ∪ {+∞}


dada por
q
r q 2
Lr (x, λ) := f (x) + ∑ λ j h j (x) + ∑ h j (x), ∀x ∈ X, λ ∈ Rq .
j=1 2 j=1

Ejemplo 6.3.2. Notemos que en el Ejemplo 6.3.1 el Lagrangiano aumentado (transformado la res-
tricción de desigualdad por igualdad agregando la variable de holgura) es

1 r
Lr (x, y, λ) = 1 − x − x3 + λ(x + y2 ) + (x + y2 )2 .
3 2

Imponiendo las condiciones de (KKT) se tiene que el multiplicador asociado a la restricción es λ = 1


y que necesariamente ȳ = 0. Por lo tanto

1 r
Lr (x, y, 1) = 1 − x3 + y2 + (x + y2 )2 , ∀x, y ∈ R.
3 2

No es difı́cil ver, usando (CSSO) para problemas irrestrictos, que (x̄, ȳ) = (0, 0) es efectivamente un
mı́nimo local (estricto) de (x, y) 7→ Lr (x, y, 1) pues la matriz Hessiana en (x̄, ȳ) = (0, 0) es la matriz
diagonal cuyas entradas son r y 2.

La caracterı́stica descrita en el ejemplo anterior es justamente la principal motivación de introdu-


cir el Lagrangiano aumentado.

123
Optimización restricta Capı́tulo 6, Section 6.3

Teorema 6.7. Sea (X, h·, ·i) un espacio de Hilbert de dimensión finita. Sea f : X → R ∪ {+∞} una
función propia dos veces continuamente diferenciable en una vecindad de x̄ ∈ int(dom( f )). Sean
h1 , . . . , hq : X → R funciones dos veces continuamente diferenciables. Asumamos que x̄ es un mı́nimo
local de (PI ), tal que (KKT) se cumple para algún λ ∈ Rq y tal que

D2xx L(x̄, λ)(d, d) > 0, ∀d ∈ X \ {0} tal que ∇h j (x̄), d = 0, ∀ j = 1, . . . , q.

Entonces existe r0 ∈ R tal que para todo r ≥ r0 tenemos que x̄ es un mı́nimo local estricto del
Lagrangiano aumentado Lr (·, λ) del problema de programación matemática (PI ).

Demostración. Notemos que como h j (x̄) = 0 para todo j ∈ {1, . . . , q}, se tiene
q q
∇x Lr (x̄, λ) = ∇ f (x̄) + ∑ λ j ∇h j (x̄) + r ∑ h j (x̄)∇h j (x̄) = ∇L(x̄, λ) = 0,
j=1 j=1

por lo que basta demostrar, por CSSO en el caso irrestricto, que existe r suficientemente grande tal
que el operador bilineal
q q q
D2xx Lr (x̄, λ) = D2 f (x̄) + ∑ λ j D2 h j (x̄) + r ∑ ∇h j (x̄)∇h j (x̄)> + r ∑ h j (x̄)D2 h j (x̄)
j=1 j=1 j=1
q
= D2xx L(x̄, λ) + r ∑ ∇h j (x̄)∇h j (x̄)>
j=1

es definido positivo. Por contradicción, supongamos que existe una sucesión rk → ∞ y dk ∈ X tales
que
q
(6.6) D2xx Lr (x̄, λ)(dk , dk ) = D2xx L(x̄, λ)(dk , dk ) + rk ∑| ∇h j (x̄), dk |2 ≤ 0.
j=1

Dividiendo (6.6) por kdk k2 , podemos asumir que kdk k = 1 en la desigualdad anterior y, tomando
una subsucesión si fuese necesario, podemos asumir que dk → d 6= 0. Por otra parte, si dividimos
(6.6) por rk y usamos que D2xx L(x̄, λ)(dk , dk ) es acotada, pasando al lı́mite se obtiene ∇h j (x̄), d = 0
para todo j ∈ {1, . . . , q}. Finalmente, como (6.6) implica que D2xx L(x̄, λ)(dk , dk ) ≤ 0 para todo k ∈ N,
llegamos a una contradicción pues hemos demostrado que D2xx L(x̄, λ)(d, d) ≤ 0, con kdk = 1.

Esquema Algorı́tmico
La noción de Lagrangiano aumentado puede ser usado para construir algoritmo. Dado que a priori
uno no tiene información sobre el multiplicador asociado a un mı́nimo local, la búsqueda que debe
realizar un algoritmo basado en el Lagrangiano aumentado debe actualizar tanto la variable x como la
variable del multiplicador λ. Notemos que si λ ∈ R p y r > 0 fuesen dados, y x̄ ∈ X fuese un mı́nimo
local del Lagrangiano aumentado entonces tendrı́amos que
p 
∇x Lr (x̄, λ) = ∇ f (x̄) + ∑ λ j + rh j (x̄) ∇h j (x̄) = 0.
j=1

124
Capı́tulo 6, Section 6.3 Métodos de Penalización

Luego, para que x̄ tenga opciones de ser un mı́nimo local de (PI ) deberı́a verificar

h j (x̄) = 0 y λ j + rh j (x̄) = λ j , ∀ j ∈ {1, . . . , q}.

El siguiente método iterativo, que presentamos sólo a modo de información, sin discusión sobre su
convergencia, utiliza las ideas descritas más arriba. Cabe mencionar que este algoritmo se espera
que converja tomando en cada iteración r más grande, de forma de forzar que λ converja a algún
multiplicador que verifique (KKT).

M ÉTODO DE LOS M ULTIPLICADORES


1. Tomar λ ∈ R y r > 0.
2. Calcular x ∈ arg mı́nX (Lr (·, λ)).
3. Si x satisface h j (x) ' 0 para todo j ∈ {1, . . . , q} parar.
3. Definir β j = λ j + rh j (x̄) para cada j ∈ {1, . . . , q}.
4. Actualizar λ = β y r > 0 (de ser necesario), y volver al paso 2.

6.3.2. Barrera Logarı́tmica


Notemos que el método del Lagrangiano Aumentado permite generar una secuencia de puntos
que no satisfacen las restricciones. En este sentido, el algoritmo se considera ser un método de punto
exterior. Ahora veremos un método que fuerza a las iteraciones a estar en el interior del conjunto de
restricciones de desigualdad penalizando el acercarse a la frontera. Esta clase de algoritmos se conoce
como método de punto interior. Por simplicidad nos enfocaremos en el caso con sólo restricciones
de desigualdad, es decir,

(PD ) Mininimzar f (x) sobre los x ∈ X tales que gi (x) ≤ 0, i ∈ {1, . . . , p}

Para estudiar mı́nimos locales del problema (PD ) se propone estudiar, para ε > 0 dado, los mı́nimos
locales de la aproximación de barrera logarı́tmica fε : X → R ∪ {+∞} definida por
p

 f (x) − ε log(−g (x)) g (x) < 0, ∀i ∈ {1, . . . , p},

fε : x 7→
∑ i i
.
i=1

+∞ si no,

La idea del método consiste encontrar un mı́nimo de fε , denotado por lo general por x(ε) y luego
estudiar el comportamiento de ε 7→ x(ε) hacia algún mı́nimo local de (PD ) cuando ε → 0. Notar que,
por la forma de la aproximación de barrera logarı́tmica, tenemos que

gi (x(ε)) < 0, ∀i ∈ {1, . . . , p}, ∀ε > 0.

Más aún, usando la (CNPO) sobre fε se tiene que


p
ε
(KKTε ) ∇ fε (x(ε)) = ∇ f (x(ε)) + ∑ µi (ε)∇gi (x(ε)) = 0, donde µ(ε) := − > 0.
i=1 gi (x(ε))

En este caso los µi (ε) juegan el rol de multiplicadores aproximados y en consecuencia se espera
que el lı́mite de µi (ε) cuando ε → 0 sea un multiplicador asociado a un mı́nimo local de (PD ).

125
Optimización restricta Capı́tulo 6, Section 6.3

Proposición 6.2. Sea (X, h·, ·i) un espacio de Hilbert de dimensión finita. Sea f : X → R una función
continua. Sean g1 , . . . , g p : X → R funciones continua. Asumamos que

S = {x ∈ X | gi (x) ≤ 0, i ∈ {1, . . . , p}}

es acotado y su interior es denso en S. Entonces, para todo ε > 0 existe x(ε) ∈ arg mı́nX ( fε ). Más aún,
todo punto de acumulación de {x(ε) : ε > 0} es solución de (PD ), esto es, toda sucesión convergente
de la forma {x(εk )} converge a un mı́nimo del problema (PD ), donde εk → 0+ cuando k → +∞.

Demostración. Dividamos la demostración en dos partes. Primero veamos la existencia de un mı́ni-


mo y luego estudiemos la convergencia de la trayectoria.

1. Por composición de funciones, no es difı́cil ver que fε es continua en

int(S) = {x ∈ X | gi (x) < 0, i ∈ {1, . . . , p}} .

Notemos también que fε = +∞ si x ∈ / S. Más aún, para cualquier sucesión {xk } ⊆ int(S) se
tiene que si gi (xk ) → 0 para algún i ∈ {1, . . . , p} entonces fε (xk ) → +∞. Por lo tanto, tenemos
que fε es semicontinua inferior. Por otro lado, fε es propia pues int(S) 6= 0. / Finalmente, para
determinar la existencia a través del Teorema de Wierestrass-Hilbert-Tonelli (Teorema 1.1) nos
bastará ver que los conjuntos de subnivel de fε son acotados. Pero esto es una consecuencia
directa del hecho que dom( fε ) ⊆ int(S) y del hecho que S es acotado. Luego la existencia de
x(ε) para cualquier ε > 0 está garantizada.

2. Estudiemos ahora los puntos de acumulación de la trayectoria ε 7→ x(ε) cuando ε → 0. Sea


{εk } ⊆ (0, +∞) tal que εk → 0 cuando k → +∞. Supongamos que xk := x(εk ) converge a un
cierto x̄ ∈ Rn . Dado que xk ∈ int(S) y S es cerrado, tenemos que x̄ ∈ S. Ahora bien, para
cualquier k ∈ N, por definición de xk tenemos
p p
(6.7) fεk (xk ) = f (xk ) − εk ∑ log(−gi (xk )) ≤ f (x) − εk ∑ log(−gi (x)), ∀x ∈ int(S).
i=1 i=1

Por otro lado, para cada i ∈ I(x̄), y por continuidad de gi , tenemos que gi (xk ) ≥ −1 para todo
k ∈ N suficientemente grande. En consecuencia, dado que I(x̄) es finito, ∃k0 ∈ N tal que

log(−gi (xk )) ≤ 0 ∀i ∈ I(x̄), ∀k ≥ k0 .

Notemos también que si i ∈


/ I(x̄), entonces la sucesión {log(−gi (xk ))} permanece acotada y
por lo tanto
εk log(−gi (xk )) → 0 si k → +∞.
Finalmente, de (6.7) obtenemos que para k ∈ N suficientemente grande
p
f (xk ) − εk ∑ log(−gi (xk )) ≤ f (x) − εk ∑ log(−gi (x)), ∀k ∈ N, ∀x ∈ int(S).
i∈I(
/ x̄) i=1

Luego, pasando al lı́mite vemos que f (x̄) ≤ f (x) para todo x ∈ int(S). Finalmente, dado que
x̄ ∈ S y int(S) es denso en S, usando la continuidad de f concluimos que x̄ ∈ sol (PD ).

126
Capı́tulo 6, Section 6.3 Métodos de Penalización

Observación 6.5. El hecho que int(S) sea denso en S es importante, pues de no ser ası́ la conver-
gencia a un mı́nimo del problema (PD ) no puede ser asegurada.

El resultado anterior muestra que la trayectoria ε 7→ x(ε) se acumula en torno al conjunto de


mı́nimos de fε cuando ε → 0+ . Es importante destacar que en el resultado anterior, la existencia y
convergencia de la trayectoria ε 7→ x(ε) está fuertemente ligada a que el conjunto factible es compac-
to. Ahora veremos un resultado un poco más general que no requiere esas hipótesis y que muestra la
convergencia a un mı́nimo local estricto de (PD ). El resultado también provee la convergencia de los
multiplicadores aproximados asociados a la trayectoria.

Teorema 6.8. Sea (X, h·, ·i) un espacio de Hilbert de dimensión finita. Sea f : X → R ∪ {+∞} una
función propia dos veces continuamente diferenciable en una vecindad de x̄ ∈ int(dom( f )). Sean
g1 , . . . , g p : X → R funciones dos veces continuamente diferenciables tal que la condición de cali-
ficación (ILGA) se verifica en x̄. Asumamos que x̄ es un mı́nimo local de (PD ) que verifica (KKT)
para algún µ̄ ∈ R p con complementaridad estricta, es decir, µ̄i > 0 para todo i ∈ I(x̄), además de la
condición suficiente de segundo orden

D2xx L(x̄, µ̄)(d, d) > 0, ∀d ∈ X \ {0} tal que h∇gi (x̄), di = 0, ∀i ∈ I(x̄).

Entonces existe una única trayectoria ε 7→ (x(ε), µ(ε)) continuamente diferenciable en una vecindad
de ε = 0 que verifica (KKTε ) tal que x(0) = x̄ y µ(0) = µ̄. Más aún, para cada ε > 0 suficientemente
pequeño se tiene que x(ε) es un mı́nimo local estricto de fε .

Demostración. Para simplificar la notación, consideremos el caso X = Rn . El caso X general se


obtiene de usar la isometrı́a canónica entre Rn y un espacio de Hilbert de dimensión finita.
Dado i ∈ {1, . . . , p}, definamos las funciones Fi : R × Rn × R p → R p definidas por

Fi (ε, x, µ) = µi gi (x) + ε, ∀(ε, x, µ) ∈ R × Rn × R p .

Consideremos además los campos vectoriales F : R × Rn × R p → Rn y G : Rn × R p → Rn dados por


m
F(ε, x, µ) = (F1 (ε, x, µ), . . . , Fp (ε, x, µ)) y G(x, µ) = ∇ f (x)+ ∑ µi ∇gi (x), ∀(ε, x, µ) ∈ R×Rn ×R p .
i=1

Por construcción, ambos campos vectoriales son continuamente diferenciables. Dado que x̄ es un
mı́nimo local de (PD ) que verifica (KKT) para algún µ̄ ∈ R p , tenemos que (0, x̄, µ̄) es solución de la
ecuación
Φ(ε, x, µ) = 0, donde Φ(ε, x, µ) := (F(ε, x, µ), G(x, µ)).
Luego, la existencia de una única trayectoria ε 7→ (x(ε), µ(ε)) continuamente diferenciable en una
vecindad de ε = 0 que verifica (KKTε ) tal que x(0) = x̄ y µ(0) = µ̄ es una consecuencia del Teorema
de la Función Implı́cita. En efecto, notemos que
 
∇x F(ε, x, µ) ∇µ F(ε, x, µ)
∇(x,µ) Φ(ε, x, µ) = , ∀(ε, x, µ) ∈ R × Rn × R p .
∇x G(x, µ) ∇µ G(x, µ)

127
Optimización restricta Capı́tulo 6, Section 6.3

Sigue que
µ̄1 ∇g1 (x̄)> d + ν1 g1 (x̄)
 
..
.
 
 
∇(x,µ) Φ(0, x̄, µ̄)(d, ν) =  µ̄ p ∇g p (x̄)> d + ν p g p (x̄)  , ∀(d, ν) ∈ Rn × R p .
 
 p 
 2 
∇xx L(x̄, µ̄)d + ∑ νi ∇gi (x̄)
i=1

En particular, si ∇(x,µ) Φ(0, x̄, µ̄)(d, ν) = 0 para ciertos (d, ν) ∈ Rn × R p , por complementaridad es-
tricta, para cada i ∈ I(x̄) tenemos que ∇gi (x̄)> d = 0 y νi = 0 para cada i ∈
/ I(x̄). Notemos además que
si d 6= 0, entonces multiplicando por d la última ecuación tendrı́amos que
0 = d > ∇2xx L(x̄, µ̄)d + ∑ νi ∇gi (x̄)> d = d > ∇2xx L(x̄, µ̄)d.
i∈I(x̄)

Sin embargo esto contradice la condición suficiente de segundo orden del enunciado. Por lo tanto
d = 0. Esto a su vez implica que
p
0 = ∇2xx L(x̄, µ̄)d + ∑ νi ∇gi (x̄) = ∑ νi ∇gi (x̄).
i=1 i∈I(x̄)

Luego, por (ILGA) tenemos que νi = 0 para cada i ∈ I(x̄), y en consecuencia ν = 0 y por lo tanto la
matriz ∇(x,µ) Φ(0, x̄, µ̄) es invertible. Gracias al Teorema de la Función Implı́cita, existe una única tra-
yectoria ε 7→ (x(ε), µ(ε)) continuamente diferenciable en una vecindad de ε = 0 que verifica (KKTε )
tal que x(0) = x̄ y µ(0) = µ̄.
Resta ver que x(ε) es un mı́nimo local estricto de fε . Para esto bastará estudiar la segunda derivada
de la función fε y luego aplicar la (CSSO). Notemos que
p  
2 2 ε > ε 2
∇ fε (x) = ∇ f (x) + ∑ 2
∇gi (x)∇gi (x) − ∇ gi (x) , ∀x ∈ dom( fε ).
i=1 gi (x) gi (x)

Por lo tanto, evaluando en x = x(ε) tenemos


p
µi (ε)2
∇ 2
fε (x(ε)) = ∇2xx L(x(ε), µ(ε)) + ∑ ∇gi (x(ε))∇gi (x(ε))> .
i=1 ε

Sea d ∈ Rn \ {0}. Separemos el resto de la demostración en dos casos:


1. Supongamos ∇gi (x̄)> d = 0 para cualquier i ∈ I(x̄). Usando la condición suficiente de segundo
orden tenemos que
d > ∇2xx L(x̄, µ̄)d > 0.
Por lo tanto, por continuidad, para ε > 0 suficientemente pequeño tendremos
d > ∇2xx L(x(ε), µ(ε))d > 0.
Sigue que
p
µi (ε)2
d > ∇2 fε (x(ε))d = d > ∇2xx L(x(ε), µ(ε))d + ∑ (∇gi (x(ε))> d)2 ≥ d > ∇2xx L(x(ε), µ(ε))d > 0
i=1 ε

128
Capı́tulo 6, Section 6.3 Métodos de Penalización

2. Supongamos ahora que ∇gi (x̄)> d 6= 0 para algún i ∈ I(x̄). No es difı́cil ver que
p
> > µi (ε)2
2
d ∇ fε (x(ε))d ≥ d ∇2xx L(x(ε), µ(ε))d + ∑ (∇gi (x(ε))> d)2 .
i=1 ε

Por otro lado, cuando ε → 0 tenemos que

∇2xx L(x(ε), µ(ε)) → ∇2xx L(x̄, µ̄), ∇gi (x(ε))> d → ∇gi (x̄)> d 6= 0 y µi (ε) → µ̄i > 0.

En particular tenemos que d > ∇2 fε (x(ε))d → +∞ si ε → 0. Por lo tanto, d > ∇2 fε (x(ε))d > 0
para ε > 0 suficientemente pequeño.

Finalmente, dado que d > ∇2 fε (x)d > 0 para cualquier d ∈ Rn \ {0} y ε > 0 pequeño, por Teorema
5.3, tenemos que x(ε) es un mı́nimo local estricto de fε para ε > 0 suficientemente pequeño.

Esquema Algorı́tmico
Al igual que en la parte anterior describiremos el esquema general que tiene un algoritmo basado
en la aproximación de barrera logarı́tmica. La idea esencial del método es que en cada iteración se
resuelve un sub problema de optimización sin restricciones para luego actualizar el parámetro de
penalización. La convergencia del método estará entonces dada por el hecho que ε 7→ x(ε) converge
a un mı́nimo local del problema original si ε → 0+ .

M ÉTODO DE P ENALIZACI ÓN


1. Tomar ε > 0, τ ∈ (0, 1) y x0 ∈ X.
2. Calcular x ∈ arg mı́nX ( fε ).
3. Si kx − x0 k ' 0 parar.
4. Actualizar x0 = x, ε ← ετ, y volver al paso 2.

129
Optimización restricta Capı́tulo 6, Section 6.4

6.4. Ejercicios
1. C ARACTERIZACIONES DEL C ONO TANGENTE
Sea S ⊆ Rn un conjunto dado. Demuestre que
 
dist(x + td, S)
TS (x) = d ∈ R lı́m inf
n
≤0 , ∀x ∈ S.
t→0+ t

2. C ONO N ORMAL Y C ONO TANGENTE


Sea (X, k · k) un espacio de Banach reflexivo y S ⊆ X convexo no vacı́o. Demuestre que

η ∈ NS (x) ⇐⇒ hη, di ≤ 0, ∀d ∈ TS (x),

3. C ONDICI ÓN SUFICIENTE DE P RIMER O RDER


Sea f : Rn → R una función continua y Gâteaux diferenciable en una vecindad de x̄ ∈ S.
Supongamos que
∇ f (x̄)> d > 0, ∀d ∈ TS (x̄) \ {0}.
Pruebe que x̄ es un mı́nimo local estricto del problema general de Optimización No Lineal (P).

4. M ULTIPLICADORES DE KKT
Sea x̄ ∈ S := {x ∈ Rn : gi (x) ≤ 0, i = 1, ..., m, h j (x) = 0, j = 1, ..., p} tal que las funciones gi y
h j son diferenciables en x̄, ∀i = 1, ..., m, ∀ j = 1, ..., p. x̄ ∈ S

a) Demostrar que x̄ satisface la calificación de restricciones de Mangasarian-Fromovitz


(MF) ssi:
p
∑ λ j ∇h j (x̄)+ ∑ µi ∇gi (x̄) = 0 con µi ≥ 0 =⇒ λ j = µi = 0, ∀ j = 1, .., p, i ∈ I0 (x̄).
j=1 i∈I0 (x̄)

b) Para el problema mı́n{ f (x) : x ∈ C}, supongamos que el conjunto Λ(x̄) de multiplicadores
de Lagrange asociados a x̄ es no vacı́o. Pruebe x̄ satisface (MF) ssi el conjunto Λ(x̄) es
acotado.

130

También podría gustarte