CG-Verfahren

Ein Vergleich des einfachen Gradientenverfahren mit optimaler Schrittlänge (in grün) mit dem CG-Verfahren (in rot) für die Minimierung der quadratischen Form eines gegebenen linearen Gleichungssystems. CG konvergiert nach 2 Schritten (die Größe der Systemmatrix ist m=2).

Das CG-Verfahren (von engl. conjugate gradients oder auch Verfahren der konjugierten Gradienten) ist eine effiziente numerische Methode zur Lösung von großen linearen Gleichungssystemen der Form A x = b {\displaystyle Ax=b} mit symmetrischer, positiv definiter Systemmatrix A {\displaystyle A} .

Das Verfahren liefert, in exakter Arithmetik, nach spätestens m {\displaystyle m} Schritten die exakte Lösung, wobei m {\displaystyle m} die Größe der quadratischen Matrix A R m × m {\displaystyle A\in \mathbb {R} ^{m\times m}} ist. Insbesondere ist es aber als iteratives Verfahren interessant, da der Fehler monoton fällt. Das CG-Verfahren kann in die Klasse der Krylow-Unterraum-Verfahren eingeordnet werden.

Es wurde zuerst 1952 von Eduard Stiefel und Magnus Hestenes vorgeschlagen.[1] Ein für bestimmte Gleichungssysteme äquivalentes Verfahren schlug auch Cornelius Lanczos Anfang der 1950er Jahre mit dem Lanczos-Verfahren vor.

Idee des CG-Verfahrens

Die Idee des CG-Verfahrens besteht darin, dass für symmetrisches und positiv definites A {\displaystyle A} das Minimieren der quadratischen Form

E ( x ) := 1 2 A x , x b , x {\displaystyle E(x):={\frac {1}{2}}\langle Ax,x\rangle -\langle b,x\rangle }

äquivalent zum Lösen von A x = b {\displaystyle Ax=b} ist. Hierbei bezeichnet , {\displaystyle \langle \cdot ,\cdot \rangle } das Standardskalarprodukt.

Der Gradient von E {\displaystyle E} an der Stelle x k {\displaystyle x_{k}} ist gerade E | x k = A x k b = r k {\displaystyle \left.\nabla E\right|_{x_{k}}=Ax_{k}-b=-r_{k}} und somit bei großen, dünn besetzten Matrizen schnell zu berechnen. Die Idee des CG-Verfahrens ist es nun, anstelle in Richtung des Residuums r k {\displaystyle r_{k}} wie beim Gradientenverfahren in eine andere Richtung d k {\displaystyle d_{k}} die Funktion E {\displaystyle E} über einen Unterraum zu minimieren. Die Richtungen d k {\displaystyle d_{k}} sind dabei alle A {\displaystyle A} -konjugiert, das heißt, es gilt

A d i , d j = 0 i j {\displaystyle \langle Ad_{i},d_{j}\rangle =0\qquad \forall i\neq j} .

Die Iterierten x k {\displaystyle x_{k}} des CG-Verfahrens werden dann so gewählt, dass sie das Minimum von E {\displaystyle E} in dem affinen Raum V k {\displaystyle V_{k}} , der durch die Vektoren d 0 , , d k {\displaystyle d_{0},\ldots ,d_{k}} aufgespannt und um x 0 {\displaystyle x_{0}} verschoben wird, bilden:

V k := x 0 + span { d 0 , , d k 1 } . {\displaystyle V_{k}:=x_{0}+\operatorname {span} \{d_{0},\ldots ,d_{k-1}\}.}

Es lässt sich zeigen, dass ebenfalls gilt:

V k = x 0 + span { r 0 , A r 0 , A k 1 r 0 } . {\displaystyle V_{k}=x_{0}+\operatorname {span} \{r_{0},Ar_{0}\ldots ,A^{k-1}r_{0}\}.}

Der letzte Teil zeigt, dass die Suchrichtungen den Krylowraum zu A und r 0 {\displaystyle r_{0}} aufspannen. Das CG-Verfahren lässt sich deswegen alternativ direkt als Krylow-Unterraum-Verfahren definieren.

Da die Vektoren d k {\displaystyle d_{k}} alle A {\displaystyle A} -konjugiert sind, ist die Dimension von V k {\displaystyle V_{k}} gerade k {\displaystyle k} , falls die Vektoren d k 0 {\displaystyle d_{k}\neq 0} sind. Man kann zeigen, dass r k = 0 {\displaystyle r_{k}=0} ist, wenn d k = 0 {\displaystyle d_{k}=0} ist. Ist also A {\displaystyle A} eine m × m {\displaystyle m\times m} -Matrix, so terminiert das Verfahren nach spätestens m {\displaystyle m} Schritten, falls exakt gerechnet wird. Numerische Fehler können durch weitere Iterationen eliminiert werden. Hierzu betrachtet man den Gradienten r k {\displaystyle r_{k}} , der das Residuum angibt. Unterschreitet die Norm dieses Residuums einen gewissen Schwellenwert, wird das Verfahren abgebrochen.

Das Verfahren baut sukzessive eine A {\displaystyle A} -orthogonale Basis für den R m {\displaystyle \mathbb {R} ^{m}} auf und minimiert in die jeweilige Richtung bestmöglich.

Das Problem bei dem iterativen Verfahren ist das Finden der optimalen Schrittweite. Um die Güte eines Punktes zu bestimmen ist jeweils eine vollständige Matrixmultiplikation notwendig, welche nebenbei gleich einen neuen Gradienten liefert. Ist die Schrittweite entlang eines vorgegebenen Gradienten zu ungenau, entspricht die Methode eher einem einfachen Bergsteigeralgorithmus.

CG-Verfahren ohne Vorkonditionierung

Zunächst wählt man ein x 0 R m {\displaystyle x_{0}\in \mathbb {R} ^{m}} beliebig und berechnet:

r 0 = b A x 0 {\displaystyle r_{0}=b-Ax_{0}}
d 0 = r 0 {\displaystyle d_{0}=r_{0}}

Für k = 0 , 1 , . . . {\displaystyle k=0,1,...} führt man aus:

  • Speichere Matrix-Vektor-Produkt, um es nur einmal auszurechnen
z = A d k {\displaystyle {\begin{aligned}z&=Ad_{k}\end{aligned}}}
  • Finde von x k {\displaystyle x_{k}} in Richtung d k {\displaystyle d_{k}} den Ort x k + 1 {\displaystyle x_{k+1}} des Minimums der Funktion E {\displaystyle E} und aktualisiere den Gradienten bzw. das Residuum
α k = r k T r k d k T z , x k + 1 = x k + α k d k , r k + 1 = r k α k z {\displaystyle {\begin{aligned}\alpha _{k}\;&=\;{\frac {r_{k}^{T}r_{k}}{d_{k}^{T}\,z}},\\[.2em]x_{k+1}\;&=\;x_{k}+\alpha _{k}d_{k},\\[.4em]r_{k+1}\;&=\;r_{k}-\alpha _{k}z\end{aligned}}}
  • Korrigiere die Suchrichtung d k + 1 {\displaystyle d_{k+1}} mit Hilfe von d k {\displaystyle d_{k}} und r k + 1 {\displaystyle r_{k+1}}
β k = r k + 1 T r k + 1 r k T r k , d k + 1 = r k + 1 + β k d k , {\displaystyle {\begin{aligned}\beta _{k}\;&=\;{\frac {r_{k+1}^{T}r_{k+1}}{r_{k}^{T}r_{k}}},\\[.2em]d_{k+1}\;&=\;r_{k+1}+\beta _{k}d_{k},\end{aligned}}}

bis das Residuum in der A-Norm kleiner als eine Toleranz ist ( r k + 1 A < tol {\displaystyle \|r_{k+1}\|_{A}<{\text{tol}}} ).

Varianten

Es existieren verschiedene Varianten des Verfahrens, neben der ersten von Roger Fletcher und Colin Reeves z. B. von Magnus Hestenes und Eduard Stiefel, von William Davidon, Fletcher und Michael J. D. Powell oder von Elijah Polak und Gerard Ribière. Diese sind für quadratische Formen (wie oben definiert) identisch, da die weiteren Terme aufgrund der Orthogonalität der Residuen verschwinden. Verwendet man das CG-Verfahren aber, um eine durch eine quadratische Form angenäherte Funktion zu minimieren, so zeigen diese Varianten oft besseres Konvergenzverhalten als die ursprüngliche Formulierung von Fletcher und Reeves.

  • β k = r k + 1 T r k + 1 r k T r k {\displaystyle \beta _{k}={\frac {r_{k+1}^{T}r_{k+1}}{r_{k}^{T}r_{k}}}}    (Fletcher-Reeves)
  • β k = r k + 1 T ( r k + 1 r k ) r k T r k {\displaystyle \beta _{k}={\frac {r_{k+1}^{T}(r_{k+1}-r_{k})}{r_{k}^{T}r_{k}}}}    (Polak-Ribière)
  • β k = r k + 1 T ( r k + 1 r k ) d k T ( r k + 1 r k ) {\displaystyle \beta _{k}={\frac {r_{k+1}^{T}(r_{k+1}-r_{k})}{d_{k}^{T}(r_{k+1}-r_{k})}}}    (Hestenes-Stiefel)

CG-Verfahren mit symmetrischer Vorkonditionierung (PCG-Verfahren)

Die Konvergenz des CG-Verfahrens ist nur bei symmetrischen positiv definiten Matrizen gesichert. Dies muss ein Vorkonditionierer berücksichtigen. Bei einer symmetrischen Vorkonditionierung wird das Gleichungssystem A x = b {\displaystyle Ax=b} mit Hilfe einer Vorkonditionierer-Matrix C = K K T A 1 {\displaystyle C=KK^{T}\approx A^{-1}} zu K T A K y = K T b {\displaystyle K^{T}AKy=K^{T}b} mit y = K 1 x {\displaystyle y=K^{-1}x} transformiert, und darauf das CG-Verfahren angewandt.

Die Matrix K T A K {\displaystyle K^{T}AK} ist symmetrisch, da A {\displaystyle A} symmetrisch ist. Sie ist ferner positiv definit, da nach dem Trägheitssatz von Sylvester A {\displaystyle A} und K T A K {\displaystyle K^{T}AK} die gleichen Anzahlen positiver und negativer Eigenwerte besitzen.

Das resultierende Verfahren ist das sogenannte PCG-Verfahren (von engl. Preconditioned Conjugate Gradient):

Zunächst wählt man ein x 0 R m {\displaystyle x_{0}\in \mathbb {R} ^{m}} beliebig und berechnet:

r 0 = b A x 0 {\displaystyle r_{0}=b-Ax_{0}}
h 0 = C r 0 {\displaystyle h_{0}=Cr_{0}}
d 0 = h 0 {\displaystyle d_{0}=h_{0}}

Für k = 0 , 1 , {\displaystyle k=0,1,\dotsc } setzt man:

  • Speichere Matrix-Vektor-Produkt, um es nur einmal auszurechnen
z = A d k {\displaystyle z=Ad_{k}}
  • Finde von x k {\displaystyle x_{k}} in Richtung d k {\displaystyle d_{k}} das Minimum x k + 1 {\displaystyle x_{k+1}} und aktualisiere Gradienten und vorkonditionierten Gradienten
α k = r k T h k d k T z {\displaystyle \alpha _{k}={\frac {r_{k}^{T}h_{k}}{d_{k}^{T}z}}}
x k + 1 = x k + α k d k {\displaystyle x_{k+1}=x_{k}+\alpha _{k}d_{k}}
r k + 1 = r k α k z {\displaystyle r_{k+1}=r_{k}-\alpha _{k}z} (Residuum)
h k + 1 = C r k + 1 {\displaystyle h_{k+1}=Cr_{k+1}}
  • Korrigiere die Suchrichtung d k + 1 {\displaystyle d_{k+1}}
β k = r k + 1 T h k + 1 r k T h k {\displaystyle \beta _{k}={\frac {r_{k+1}^{T}h_{k+1}}{r_{k}^{T}h_{k}}}}
d k + 1 = h k + 1 + β k d k {\displaystyle d_{k+1}=h_{k+1}+\beta _{k}d_{k}}

bis das Residuum in der Norm kleiner als eine Toleranz ist ( r k + 1 < tol {\displaystyle \|r_{k+1}\|<{\mbox{tol}}} ).

Vergleich von ICCG mit CG anhand der 2D-Poisson-Gleichung

Ein häufiger Vorkonditionierer im Zusammenhang mit CG ist die unvollständige Cholesky-Zerlegung. Diese Kombination wird auch als ICCG bezeichnet und wurde in den 1970ern von Meijerink und van der Vorst eingeführt.

Zwei weitere für das PCG-Verfahren zulässige Vorkonditionierer sind der Jacobi-Vorkonditionierer C = D 1 {\displaystyle C=D^{-1}} , wobei D {\displaystyle D} die Hauptdiagonale von A {\displaystyle A} ist, und der SSOR-Vorkonditionierer

C = [ 1 2 ω ( 1 ω D + L ) ( 1 ω D ) 1 ( 1 ω D + L ) T ] 1 {\displaystyle C=\left[{\tfrac {1}{2-\omega }}\left({\tfrac {1}{\omega }}D+L\right)\left({\tfrac {1}{\omega }}D\right)^{-1}\left({\tfrac {1}{\omega }}D+L\right)^{T}\right]^{-1}}

mit ω ( 0 , 2 ) {\displaystyle \omega \in (0,\,2)} , wobei D {\displaystyle D} die Hauptdiagonale und L {\displaystyle L} die strikte untere Dreiecksmatrix von A {\displaystyle A} ist.

Konvergenzrate des CG-Verfahrens

Man kann zeigen, dass die Konvergenzgeschwindigkeit des CG-Verfahrens durch

x k x A 2 ( κ ( A ) 1 κ ( A ) + 1 ) k x 0 x A {\displaystyle \|x_{k}-x\|_{A}\leq 2\left({\frac {{\sqrt {\kappa (A)}}-1}{{\sqrt {\kappa (A)}}+1}}\right)^{k}\|x_{0}-x\|_{A}}

beschrieben wird. Hierbei ist κ ( A ) {\displaystyle \kappa (A)} die Kondition der Matrix A {\displaystyle A} bezüglich der Spektralnorm, also der von der euklidischen Norm erzeugten Matrixnorm, sowie x A = x T A x {\displaystyle \|x\|_{A}={\sqrt {x^{T}Ax}}} die Energienorm von A {\displaystyle A} . Der Ausdruck κ ( A ) 1 {\displaystyle {\sqrt {\kappa (A)}}-1} ist nicht negativ, da die Konditionszahl (bzgl. einer von einer Vektornorm erzeugten Matrixnorm) einer Matrix immer größer oder gleich 1 ist. Da A {\displaystyle A} symmetrisch und positiv definit ist, gilt

κ ( A ) = λ m a x ( A ) λ m i n ( A ) {\displaystyle \kappa (A)={\frac {\lambda _{\mathrm {max} }(A)}{\lambda _{\mathrm {min} }(A)}}} .

Aus der Minimierungseigenschaft lässt sich ferner herleiten, dass

x k x A x 0 x A max z σ ( A ) | p k ( z ) | {\displaystyle {\frac {\|x_{k}-x^{*}\|_{A}}{\|x_{0}-x^{*}\|_{A}}}\leq \max _{z\in \sigma (A)}|p_{k}(z)|} ,

wobei p k ( z ) {\displaystyle p_{k}(z)} ein beliebiges Polynom vom Grad k {\displaystyle k} ist mit p k ( 0 ) = 1 {\displaystyle p_{k}(0)=1} und x {\displaystyle x^{*}} die Lösung. Mit σ ( A ) {\displaystyle \sigma (A)} ist das Spektrum, also die Menge der Eigenwerte der Matrix A {\displaystyle A} gemeint. Daraus folgt, dass das CG-Verfahren ein System zu einer Matrix mit nur k {\displaystyle k} verschiedenen Eigenwerten in k {\displaystyle k} Schritten löst und dass das CG-Verfahren für Systeme, bei denen die Eigenwerte in wenigen kleinen Umgebungen konzentriert sind, sehr schnell konvergiert. Dies wiederum liefert einen Anhaltspunkt für sinnvolle Vorkonditionierer: Ein Vorkonditionierer ist dann gut, wenn er dafür sorgt, dass die Eigenwerte konzentriert werden.

Erweiterung auf unsymmetrische Matrizen

Ist die Systemmatrix A unsymmetrisch, aber regulär, so kann das CG-Verfahren auf die Normalgleichungen

A T A x = A T b {\displaystyle A^{T}Ax=A^{T}b}

angewendet werden, da A T A {\displaystyle A^{T}A} für eine reguläre Matrix A symmetrisch und positiv definit ist. Dieses Verfahren nennt sich auch CGNR (von engl. Conjugate Gradients Normal Residual), da bei diesem Vorgehen die Norm des Residuums von b A x {\displaystyle b-Ax} minimiert wird. Alternativ gibt es das Verfahren CGNE (von engl. Conjugate Gradient Method on the Normal Equations), welches

A A T y = b {\displaystyle AA^{T}y=b}

löst mit x = A T y {\displaystyle x=A^{T}y} . Hierbei wird der Fehler minimiert.

Beide Verfahren haben den Nachteil, dass zum einen A T {\displaystyle A^{T}} zur Verfügung stehen muss, was nicht immer gegeben ist, und zum anderen die Kondition von A bei diesem Ansatz quadriert wird, was zur Verlangsamung der Konvergenz führen kann.

Literatur

  • C. T. Kelley: Iterative Methods for Linear and Nonlinear Equations. SIAM, ISBN 0-89871-352-8. (PDF; 783 kB)
  • P. Knabner, L. Angermann: Numerik partieller Differentialgleichungen. Springer, ISBN 3-540-66231-6.
  • A. Meister: Numerik linearer Gleichungssysteme. Vieweg, 1999, ISBN 3-528-03135-2.
  • H. William, Saul A. Teukolsky: Numerical Recipes in C++. Cambridge University Press, 2002, ISBN 0-521-75033-4.
  • J. R. Shewchuck: An Introduction to the Conjugate Gradient Method Without the Agonizing Pain. (PDF; 503 kB).
  • Eduard Stiefel: Über einige Methoden der Relaxationsrechnung. In: Zeitschrift für angewandte Mathematik und Physik. Band 3, Nr. 1, 1952, S. 1–33.

Einzelnachweise

  1. M. R. Hestenes, E. Stiefel: Methods of conjugate gradients for solving linear systems. In: Journal of Research of the National Bureau of Standards. Bd. 49, 1952, S. 409–436. doi:10.6028/jres.049.044