Von „ausgeglichen“ bis „vorteilhaft“

von Walter Eigenmann

Wie ist eine Stellung grundsätzlich-positionell einzuschätzen? Welches sind ihre konkret-taktischen Motive? Wie könnte sie sich einige Züge später entwickelt haben? Vor diesem Evaluationsprozess am Brett, der die Wahl des nächsten Zuges natürlich entscheidend beeinflusst, steht jede/r Schachspieler*in in jedem Moment der Partie.
Auf einem sehr viel höheren, weil rechnerisch exakteren bzw. tiefergehenden Niveau haben auch die modernen Computer-Programme eine Stellungsbewertung vorzunehmen. Und wie beim Menschen sind diesbezüglich bei den Engines genauso deutliche Unterschiede des Outputs auszumachen…

1966 geschah in Belgrad Bedeutsames für die Schachwelt: Der erste „Informator“ erschien, und mit ihm nicht nur die umfassende Klassifikation der Eröffnungen (die sog. „ECO-Codes“), sondern auch eine neue Symbolik für eine nonverbale Stellungsbewertung. Beides ist heute noch gültig und wird sowohl im Print- wie im Digital-Bereich weltweit angewandt. Die „Informator“-Symbolik trug wesentlich zur Vereinheitlichung von Stellungsbewertungen bei und überwand durch diese Nonverbalisierung die Sprachgrenzen:

Schach-Informator - Symbole - Glarean Magazin — *Die neuen Symbole des Belgrader „Informators“ ermöglichten ab 1966 die nonverbale Kommentierung von Schachpartien über die Sprachgrenzen hinweg*

Verschiedene Evaluations-Outputs

In der Computerschach-Szene hat sich seit vielen Jahren neben dieser eher groben Symbolik noch eine weitere, differenziertere Bewertungsweise etabliert, jene nach „Centipawn“ (=Hundertstel-Bauerneinheiten). Sie erlaubt der Schachprogrammierung eine genaue Quantifizierung und dem User eine detailliertere Einschätzung des Engine-Outputs.
Schließlich ist bei den modernen NN-Engines – also bei jenen Schach-Motoren, die mit Neuronalen Netzwerken arbeiten – noch eine dritte Art der Stellungseinschätzung anzutreffen, jene der prozentualen Gewinnwahrscheinlichkeit.
Die meisten modernen Engine-Interfaces wie z.B. Fritz, SCID, Aquarium oder Arena offerieren dem Anwender eine Stellungsbewertung der Motoren mit mind. den ersten beiden dieser drei Formen, bzw. sie lassen ihn diese explizit einstellen.

Die Bewertung der Bewertung

Ein Problem aller Programm-Outputs bleibt für den Anwender aber immer – je nach Engine: Die Bewertung der Bewertung. Denn grundsätzlich kann der Programmierer einer Engine seine betreffenden „Skalen“ deklarieren, wie er will. Das erschwert eine adäquate bzw. objektive Interpretation des Programm-Outputs durch den User natürlich erheblich.
In der Vergangenheit ließ sich immerhin feststellen, dass sich unter den Systemen jenes der Oberfläche Chessbase weitgehend etabliert hat, was darauf zurückzuführen ist, dass das „Fritz“-GUI in der weltweiten Computerschach-Community das meistverwendete Interface ist.

Informator-Bewertungszeichen — *Links die „Informator“-Symbolik, rechts der jeweilige Computer-Centipawn-Range, in der Mitte die verbale Stellungseinschätzung*

Diesem spezifischen CB-Output entsprechend setzt sich die allgemeine Bewertungsskala wie in der nebenstehenden Abbildung zusammen.
(Wer sich in die Details des CB-Outputs vertiefen will, kann sich bei Chessbase selber dem Thema Stellungsbewertung unter „Fritz“ widmen).

Die Startstellung im Engine-Spiegel

Vergleicht man mal zehn der führenden Engines im Hinblick auf ihre Bewertung der Schach-Grundstellung, fällt der relative weite Range der Evaluationen auf. Die folgenden Outputs wurden auf einem handelsüblichen Ryzen7 im 4-Varianten-Modus generiert mit den jeweiligen Default-Einstellungen bei je 2GB Hash und 8 Threads (LeelaChess analysierte auf einer RTX 2080 mit 2 Threads).
Die Screenshots aller Outputs erfolgten jeweils exakt nach 60 Sekunden Rechenzeit, und um gegenseitige Hash-Memorierungen zu vermeiden, wurde das Interface jedesmal neu gestartet. (Mausklick auf eine Grafik vergrößert diese):

Berserk

LeelaChess

Stockfish

ShashChess

DragonKomodo

Houdini

CorChess

Revenge

FatFritz

RubiChess

Die Engine-Szene hat also in den Top-Ten mind. zwei Programme, die überdurchschnittlich progressiv-optimistisch bewerten, und mind. zwei mit betont konservativ-zurückhaltender Evaluation: Berserk und Stockfish zählen zur ersten, Leela und ShashChess zur zweiten Kategorie. (Da Leela eine ganz andere Programmier-Architektur als die übrigen NN- oder gar AB-Programme hat, ist allerdings sein Bewertungs-Output stets mit Vorsicht zu interpretieren).

Exkurs:

Das Schachspiel in Engine-Zahlen

von Peter Martan

Wollte man die numerischen Bewertungen von Schachprogrammen, wie sie im Hauptartikel als purer Vergleich dastehen, beim Wort nehmen, müsste man mit den Relationen (als Bruchrechnung ) zwischen ihnen anfangen. Die Differenzen (durch Addidtion und Subtraktion berechnet) sind noch weniger geeignet zum Vergleich mit der schachlichen Wahrheit, wie man sie als menschlicher Spieler evaluiert. Die Umrechnung dessen, was man von einer Stellung zu wissen glaubt, in durch Zahlen wiedergegebene Werte, ist ein Problem für sich, aber man hat ja von den Programmen gelernt, was sie mit ihren Bewertungen „meinen“.

Ein bisschen Mathematik zu Beginn: Wollte man bei einer klar gewonnenen Stellung, in der gerade noch keine Matt-Distanz ausrechenbar ist, zwischen 900 und 800 Hundertsteln und Bauerneinheiten (Centipawn) den schachlich relevanten Unterschied zwischen diesen beiden Werten von zwei Kandidatenzügen (und oder von zwei Programmen) festmachen, wäre die Relation, der Quotient viel kleiner als bei einer Stellung, die mit 0.01 und 1.01 bewertet wird, in Hinblick auf 2 Kandidaten- Züge oder durch 2 Motoren. Der Unterschied in Einheiten von Hundertstel- Bauern als Differenz gerechnet, ist in beiden Fällen 100 und sagt daher weniger für sich allein aus.

Die Relativität von Evaluierungen

Weiter: Wollte man da für auch nur zwei willkürlich herausgegriffene Beispiele einen gemeinsamen Bewertungsschlüssel bestimmen, müsste er in Prozent oder irgendeiner anderen rechnerischen Relation im Sinn von Division bestimmt werden. Durch 0.00 lässt sich schlecht dividieren, aber da müsste man halt auf 0.01 oder -0.01 im Nenner runden. Das Vorzeichen wäre ja auch noch ein Problem für sich. Tatsächlich zählen aber schachlich auch gerade die Bewertungs-Veränderungen dort am meisten, wo sie vom Vorteil zum Nachteil einer Seite umschlagen.

Bei Stellungen mit wenigen, dafür großteils forcierten Abspielen sind Evaluierungen auch anders zu vergleichen als bei solchen mit mit vielen ähnlich aussichtsreichen unforcierten. Das Verhältnis von Suche zu „statischer Bewertung“ (aus Einträgen im Programmcode oder aus Neuronalen Netzwerken gebildet) ist vom Suchbaum und damit auch der Evaluierung und Zugsortierung her ein Anderes als bei „strategisch“ zu bewertenden Stellungen. („Strategie“ ist ein Begriff, der im Computerschach noch nie viel Sinn gemacht hat, und je besser die Programme im Rechnen und im Bewerten werden, umso weniger).

Statistik und Spielstärke

Eröffnung, Mittel- oder Endspiel, Material und Partiefortschritt in Richtung auf eine Entscheidung hin, und welche Variantenlängen zur Bewertung herangezogen werden müssen, das alles muss eingerechnet werden. Daraus ergibt sich dann, ob eine Seite im Vorteil ist und wie groß er ist, und alle diese Grundlagen lassen dann erst quantifizierbare Schlüsse zu, inwieweit die numerischen Werte der einen Engine besser oder schlechter sind als die der anderen. Ob die Bewertungen in Hundertstel-Bauern, prozentueller Gewinnwahrscheinlichkeit oder Informator-Symbolen ausgegeben werden, spielt eine untergeordnete Rolle, sofern diese Symbole auch auf von Programmen angewendeten Schlüsseln beruhen. Dann werden sie ja von der Bedieneroberfläche auch automatisch aus den numerischen Werten ausgewiesen.

Das alles gilt natürlich immer nur für eine einzelne Stellung, aber dass Messungen von jeder Art von Spielstärke (bei Menschen ja auch) strikt stellungsabhängig zu betrachten sind, hat sich mittlerweile (im Zeitalter von eigenen Test-Eröffnungen mit dosiertem einseitigem Vorteil) wohl auch für die statistische Spielstärkemessung aus großen Zahlen ausgespielter Partien herumgesprochen. ♦

Bewertung komplexer Stellungen

Natürlich gibt die Engine-Evaluation der einfachen Grundstellung noch nicht sehr viel Erkenntnisgewinn her. Denn dass Berserk dem Anziehenden einen relativ deutlich Vorteil zuspricht, während z.B. ShashChess von völliger Gleichheit ausgeht, ist nur ein Abbild auch der menschlich-historischen Sicht auf die Startposition.

Analyse-Stellung - Firouzja-Aronian - St. Louis 2022 - Glarean Magazin — Alireza Firouzja vs Lew Aronian in St. Louis 2022: **14. f4!**

Firouzja vs Aronian (St. Louis 2022)

Interessanter wird es, wenn man den Programmen eine Stellung vorsetzt, die sehr komplex ist, wie beispielsweise die nebenstehende aus einer Partie Firouzja gegen Aronian aus dem Jahre 2022 in St. Louis.

In der nebenstehenden Stellung sind im wesentlichen vier Mainlines des Anziehenden zu beachten. Denn enthalten sind ein „Game Changer“ (sprich: Zug führt praktisch zwingend zum Gewinn), zwei Remis-Varianten, sowie ein wahrscheinlicher Verlustzug:

+-  14. f4 !     Weiss steht auf Gewinn
 =  14. Df3 ?!   Weiss hat höchstens remis
 =  14. Tf1 ?!   Weiss kann remis halten
-+  14. 0-0-0 ?  Weiss steht auf Verlust

Wir lassen also wieder unsere zehn Top-Engines auf die Stellung los – wer sie in sein eigenes Schachprogramm importieren will, kann den folgenden FEN-Code benützen: r2q1r2/ppp2pk1/3pbn2/2b1p1B1/2P1P3/P1NQ3P/1PP2PP1/R3K2R w KQ – unter exakt den gleichen Bedingungen wie oben bei der Grundstellung, und erhalten die folgenden Bewertungen: