Computerschach: Die Stellungsbewertung der Engines

Von “ausgeglichen” bis “vorteilhaft”

von Walter Eigenmann

Wie ist eine Stel­lung grund­sätz­lich-posi­tio­nell ein­zu­schät­zen? Wel­ches sind ihre kon­kret-tak­ti­schen Motive? Wie könnte sie sich einige Züge spä­ter ent­wi­ckelt haben? Vor die­sem Eva­lua­ti­ons­pro­zess am Brett, der die Wahl des nächs­ten Zuges natür­lich ent­schei­dend beein­flusst, steht jede/r Schachspieler*in in jedem Moment der Partie.
Auf einem sehr viel höhe­ren, weil rech­ne­risch exak­te­ren bzw. tie­fer­ge­hen­den Niveau haben auch die moder­nen Com­pu­ter-Pro­gramme eine Stel­lungs­be­wer­tung vor­zu­neh­men. Und wie beim Men­schen sind dies­be­züg­lich bei den Engi­nes genauso deut­li­che Unter­schiede des Out­puts auszumachen…

1966 geschah in Bel­grad Bedeut­sa­mes für die Schach­welt: Der erste “Infor­ma­tor” erschien, und mit ihm nicht nur die umfas­sende Klas­si­fi­ka­tion der Eröff­nun­gen (die sog. “ECO-Codes”), son­dern auch eine neue Sym­bo­lik für eine non­ver­bale Stel­lungs­be­wer­tung. Bei­des ist heute noch gül­tig und wird sowohl im Print- wie im Digi­tal-Bereich welt­weit ange­wandt. Die “Informator”-Symbolik trug wesent­lich zur Ver­ein­heit­li­chung von Stel­lungs­be­wer­tun­gen bei und über­wand durch diese Non­ver­ba­li­sie­rung die Sprachgrenzen:

Schach-Informator - Symbole - Glarean Magazin
Die neuen Sym­bole des Bel­gra­der “Infor­ma­tors” ermög­lich­ten ab 1966 die non­ver­bale Kom­men­tie­rung von Schach­par­tien über die Sprach­gren­zen hinweg

Verschiedene Evaluations-Outputs

In der Com­pu­ter­schach-Szene hat sich seit vie­len Jah­ren neben die­ser eher gro­ben Sym­bo­lik noch eine wei­tere, dif­fe­ren­zier­tere Bewer­tungs­weise eta­bliert, jene nach “Cen­ti­pawn” (=Hun­derts­tel-Bau­ern­ein­hei­ten). Sie erlaubt der Schach­pro­gram­mie­rung eine genaue Quan­ti­fi­zie­rung und dem User eine detail­lier­tere Ein­schät­zung des Engine-Outputs.
Schließ­lich ist bei den moder­nen NN-Engi­nes – also bei jenen Schach-Moto­ren, die mit Neu­ro­na­len Netz­wer­ken arbei­ten – noch eine dritte Art der Stel­lungs­ein­schät­zung anzu­tref­fen, jene der pro­zen­tua­len Gewinn­wahr­schein­lich­keit.
Die meis­ten moder­nen Engine-Inter­faces wie z.B. Fritz, SCID, Aqua­rium oder Arena offe­rie­ren dem Anwen­der eine Stel­lungs­be­wer­tung der Moto­ren mit mind. den ers­ten bei­den die­ser drei For­men, bzw. sie las­sen ihn diese expli­zit einstellen.

Die Bewertung der Bewertung

Ein Pro­blem aller Pro­gramm-Out­puts bleibt für den Anwen­der aber immer – je nach Engine: Die Bewer­tung der Bewer­tung. Denn grund­sätz­lich kann der Pro­gram­mie­rer einer Engine seine betref­fen­den “Ska­len” dekla­rie­ren, wie er will. Das erschwert eine adäquate bzw. objek­tive Inter­pre­ta­tion des Pro­gramm-Out­puts durch den User natür­lich erheblich.
In der Ver­gan­gen­heit ließ sich immer­hin fest­stel­len, dass sich unter den Sys­te­men jenes der Ober­flä­che Chess­base weit­ge­hend eta­bliert hat, was dar­auf zurück­zu­füh­ren ist, dass das “Fritz”-GUI in der welt­wei­ten Com­pu­ter­schach-Com­mu­nity das meist­ver­wen­dete Inter­face ist.

Informator-Bewertungszeichen
Links die “Informator”-Symbolik, rechts der jewei­lige Com­pu­ter-Cen­ti­pawn-Range, in der Mitte die ver­bale Stellungseinschätzung

Die­sem spe­zi­fi­schen CB-Out­put ent­spre­chend setzt sich die all­ge­meine Bewer­tungs­skala wie in der neben­ste­hen­den Abbil­dung zusammen.
(Wer sich in die Details des CB-Out­puts ver­tie­fen will, kann sich bei Chess­base sel­ber dem Thema Stel­lungs­be­wer­tung unter “Fritz” widmen).

Die Startstellung im Engine-Spiegel

Ver­gleicht man mal zehn der füh­ren­den Engi­nes im Hin­blick auf ihre Bewer­tung der Schach-Grund­stel­lung, fällt der rela­tive weite Range der Eva­lua­tio­nen auf. Die fol­gen­den Out­puts wur­den auf einem han­dels­üb­li­chen Ryzen7 im 4-Vari­an­ten-Modus gene­riert mit den jewei­li­gen Default-Ein­stel­lun­gen bei je 2GB Hash und 8 Threads (Lee­laCh­ess ana­ly­sierte auf einer RTX 2080 mit 2 Threads).
Die Screen­shots aller Out­puts erfolg­ten jeweils exakt nach 60 Sekun­den Rechen­zeit, und um gegen­sei­tige Hash-Memo­rie­run­gen zu ver­mei­den, wurde das Inter­face jedes­mal neu gestar­tet. (Maus­klick auf eine Gra­fik ver­grö­ßert diese):

Berserk

Berserk - Startposition - 1 Min - Ryzen7 - 2GB Hash

LeelaChess

LeelaChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

Stockfish

Stockfish - Startposition - 1 Min - Ryzen7 - 2GB Hash

ShashChess

ShashChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

DragonKomodo

Dragon - Startposition - 1 Min - Ryzen7 - 2GB Hash

Houdini

Houdini - Startposition - 1 Min - Ryzen7 - 2GB Hash

CorChess

CorChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

Revenge

Revenge - Startposition - 1 Min - Ryzen7 - 2GB Hash

FatFritz

FatFritz - Startposition - 1 Min - Ryzen7 - 2GB Hash

RubiChess

RubiChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

Die Engine-Szene hat also in den Top-Ten mind. zwei Pro­gramme, die über­durch­schnitt­lich pro­gres­siv-opti­mis­tisch bewer­ten, und mind. zwei mit betont kon­ser­va­tiv-zurück­hal­ten­der Eva­lua­tion: Ber­serk und Stock­fish zäh­len zur ers­ten, Leela und ShashCh­ess zur zwei­ten Kate­go­rie. (Da Leela eine ganz andere Pro­gram­mier-Archi­tek­tur als die übri­gen NN- oder gar AB-Pro­gramme hat, ist aller­dings sein Bewer­tungs-Out­put stets mit Vor­sicht zu interpretieren).


Exkurs:

Das Schachspiel in Engine-Zahlen

von Peter Martan

Wollte man die nume­ri­schen Bewer­tun­gen von Schach­pro­gram­men, wie sie im Haupt­ar­ti­kel als purer Ver­gleich daste­hen, beim Wort neh­men, müsste man mit den Rela­tio­nen (als Bruch­rech­nung ) zwi­schen ihnen anfan­gen. Die Dif­fe­ren­zen (durch Addid­tion und Sub­trak­tion berech­net) sind noch weni­ger geeig­net zum Ver­gleich mit der schach­li­chen Wahr­heit, wie man sie als mensch­li­cher Spie­ler eva­lu­iert. Die Umrech­nung des­sen, was man von einer Stel­lung zu wis­sen glaubt, in durch Zah­len wie­der­ge­ge­bene Werte, ist ein Pro­blem für sich, aber man hat ja von den Pro­gram­men gelernt, was sie mit ihren Bewer­tun­gen “mei­nen”.

Ein biss­chen Mathe­ma­tik zu Beginn: Wollte man bei einer klar gewon­ne­nen Stel­lung, in der gerade noch keine Matt-Distanz aus­re­chen­bar ist, zwi­schen 900 und 800 Hun­derts­teln und Bau­ern­ein­hei­ten (Cen­ti­pawn) den schach­lich rele­van­ten Unter­schied zwi­schen die­sen bei­den Wer­ten von zwei Kan­di­da­ten­zü­gen (und oder von zwei Pro­gram­men) fest­ma­chen, wäre die Rela­tion, der Quo­ti­ent viel klei­ner als bei einer Stel­lung, die mit 0.01 und 1.01 bewer­tet wird, in Hin­blick auf 2 Kan­di­da­ten- Züge oder durch 2 Moto­ren. Der Unter­schied in Ein­hei­ten von Hun­derts­tel- Bau­ern als Dif­fe­renz gerech­net, ist in bei­den Fäl­len 100 und sagt daher weni­ger für sich allein aus.

Die Relativität von Evaluierungen

Wei­ter: Wollte man da für auch nur zwei will­kür­lich her­aus­ge­grif­fene Bei­spiele einen gemein­sa­men Bewer­tungs­schlüs­sel bestim­men, müsste er in Pro­zent oder irgend­ei­ner ande­ren rech­ne­ri­schen Rela­tion im Sinn von Divi­sion bestimmt wer­den. Durch 0.00 lässt sich schlecht divi­die­ren, aber da müsste man halt auf 0.01 oder -0.01 im Nen­ner run­den. Das Vor­zei­chen wäre ja auch noch ein Pro­blem für sich. Tat­säch­lich zäh­len aber schach­lich auch gerade die Bewer­tungs-Ver­än­de­run­gen dort am meis­ten, wo sie vom Vor­teil zum Nach­teil einer Seite umschlagen.

Bei Stel­lun­gen mit weni­gen, dafür groß­teils for­cier­ten Abspie­len sind Eva­lu­ie­run­gen auch anders zu ver­glei­chen als bei sol­chen mit mit vie­len ähn­lich aus­sichts­rei­chen unfor­cier­ten. Das Ver­hält­nis von Suche zu “sta­ti­scher Bewer­tung” (aus Ein­trä­gen im Pro­gramm­code oder aus Neu­ro­na­len Netz­wer­ken gebil­det) ist vom Such­baum und damit auch der Eva­lu­ie­rung und Zug­sor­tie­rung her ein Ande­res als bei “stra­te­gisch” zu bewer­ten­den Stel­lun­gen. (“Stra­te­gie” ist ein Begriff, der im Com­pu­ter­schach noch nie viel Sinn gemacht hat, und je bes­ser die Pro­gramme im Rech­nen und im Bewer­ten wer­den, umso weniger).

Statistik und Spielstärke

Eröff­nung, Mit­tel- oder End­spiel, Mate­rial und Par­tie­fort­schritt in Rich­tung auf eine Ent­schei­dung hin, und wel­che Vari­an­ten­län­gen zur Bewer­tung her­an­ge­zo­gen wer­den müs­sen, das alles muss ein­ge­rech­net wer­den. Dar­aus ergibt sich dann, ob eine Seite im Vor­teil ist und wie groß er ist, und alle diese Grund­la­gen las­sen dann erst quan­ti­fi­zier­bare Schlüsse zu, inwie­weit die nume­ri­schen Werte der einen Engine bes­ser oder schlech­ter sind als die der ande­ren. Ob die Bewer­tun­gen in Hun­derts­tel-Bau­ern, pro­zen­tu­el­ler Gewinn­wahr­schein­lich­keit oder Infor­ma­tor-Sym­bo­len aus­ge­ge­ben wer­den, spielt eine unter­ge­ord­nete Rolle, sofern diese Sym­bole auch auf von Pro­gram­men ange­wen­de­ten Schlüs­seln beru­hen. Dann wer­den sie ja von der Bedie­ner­ober­flä­che auch auto­ma­tisch aus den nume­ri­schen Wer­ten ausgewiesen.

Das alles gilt natür­lich immer nur für eine ein­zelne Stel­lung, aber dass Mes­sun­gen von jeder Art von Spiel­stärke (bei Men­schen ja auch) strikt stel­lungs­ab­hän­gig zu betrach­ten sind, hat sich mitt­ler­weile (im Zeit­al­ter von eige­nen Test-Eröff­nun­gen mit dosier­tem ein­sei­ti­gem Vor­teil) wohl auch für die sta­tis­ti­sche Spiel­stär­ke­mes­sung aus gro­ßen Zah­len aus­ge­spiel­ter Par­tien herumgesprochen. ♦

 


Bewertung komplexer Stellungen

Natür­lich gibt die Engine-Eva­lua­tion der ein­fa­chen Grund­stel­lung noch nicht sehr viel Erkennt­nis­ge­winn her. Denn dass Ber­serk dem Anzie­hen­den einen rela­tiv deut­lich Vor­teil zuspricht, wäh­rend z.B. ShashCh­ess von völ­li­ger Gleich­heit aus­geht, ist nur ein Abbild auch der mensch­lich-his­to­ri­schen Sicht auf die Startposition.

 

Analyse-Stellung - Firouzja-Aronian - St. Louis 2022 - Glarean Magazin
Ali­reza Firouzja vs Lew Aro­nian in St. Louis 2022: 14. f4!

Firouzja vs Aronian (St. Louis 2022)

Inter­es­san­ter wird es, wenn man den Pro­gram­men eine Stel­lung vor­setzt, die sehr kom­plex ist, wie bei­spiels­weise die neben­ste­hende aus einer Par­tie Firouzja gegen Aro­nian aus dem Jahre 2022 in St. Louis.

In der neben­ste­hen­den Stel­lung sind im wesent­li­chen vier Main­li­nes des Anzie­hen­den zu beach­ten. Denn ent­hal­ten sind ein “Game Chan­ger” (sprich: Zug führt prak­tisch zwin­gend zum Gewinn), zwei Remis-Vari­an­ten, sowie ein wahr­schein­li­cher Verlustzug:


+-  14. f4 !     Weiss steht auf Gewinn
 =  14. Df3 ?!   Weiss hat höchstens remis
 =  14. Tf1 ?!   Weiss kann remis halten
-+  14. 0-0-0 ?  Weiss steht auf Verlust

Wir las­sen also wie­der unsere zehn Top-Engi­nes auf die Stel­lung los – wer sie in sein eige­nes Schach­pro­gramm impor­tie­ren will, kann den fol­gen­den FEN-Code benüt­zen: r2q1r2/ppp2pk1/3pbn2/2b1p1B1/2P1P3/P1NQ3P/1PP2PP1/R3K2RKQ – unter exakt den glei­chen Bedin­gun­gen wie oben bei der Grund­stel­lung, und erhal­ten die fol­gen­den Bewertungen:

Berserk

Berserk - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

LeelaChess

LeelaChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Stockfish

Stockfish - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

ShashChess

ShashChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

DragonKomodo

Dragon - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Houdini

Houdini - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

CorChess

CorChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Revenge

Revenge - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

FatFritz

FatFritz - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

RubiChess

RubiChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Schauen wir uns die Ergeb­nisse der zehn Moto­ren im ein­zel­nen an, und begin­nen wir mit jenen, die über­for­dert waren von die­ser Stellung.

Nicht gefun­den wurde der Lösungs­zug 14. f4 von

  • Fat­Fritz: Die zweit­beste Vari­ante wird deut­lich höher bewer­tet als die beste. Immer­hin sind die zwei bes­ten Züge zuoberst.
  • RubiCh­ess: Auch die­ses Pro­gramm favo­ri­ti­siert Df3, und dem wahr­schein­li­chen Ver­lust­zug 0-0-0 wird schlimms­ten­falls ein Remis zugestanden.
  • Revenge: Die (im Engine-Tur­nier­be­trieb sehr erfolg­rei­che) Engine scheint ein Pro­blem mit dem Mul­ti­va­ri­an­ten-Ana­ly­se­mo­dus zu haben: Aus­spie­len würde das Pro­gramm das zweit­beste Df3, am bes­ten bewer­tet wird aber der Lösungs­zug… Hier hat der Pro­gram­mie­rer nach­zu­bes­sern, andern­falls sind die 20 Euro, die er für seine Engine ver­langt, nicht gerecht­fer­tigt. (Denn ein Anwen­der kauft ein Schach­pro­gramm meist nicht nur zum Par­tien­spie­len, son­dern auch zum Analysieren).
  • Hou­dini ist neben Revenge die zweite AB-Engine in die­sem Feld und kommt  hier nicht so tief wie die ande­ren. Für das Pro­gramm ist die Stel­lung auch nach einer Minute noch ziem­lich im Gleich­ge­wicht, allen­falls mit leich­tem Vor­teil für Weiß (aber auf­grund eines “fal­schen” Best-move…)

Sechs von zehn sind erfolgreich

Computerschach - Bewertung der Bewertung - Stockfish-Output - Glarean Magazin - November 2022
Wie ver­läss­lich sind Com­pu­ter-Schach­ana­ly­sen? Wie ist ihr Out­put zu inter­pre­tie­ren? Die Gra­fik ver­eint alle drei gän­gi­gen Bewer­tungs-Optio­nen: Infor­ma­tor-Sym­bo­lik (links), Cen­ti­pawn-Bewer­tung und Gewinn-Wahr­schein­lich­keit; rechts die Züge-Hierarchie

Immer­hin fin­den sechs der zehn Moto­ren den Lösungs­zug, wür­den ihn also in einer Tur­nier­par­tie aus­spie­len. Diese sechs haben ihre Zug-Suche und damit ihre Zug-Gene­rie­rung dem­nach erfolg­reich abge­schlos­sen. Doch damit geht nicht auto­ma­tisch eine kor­rekte Bewer­tung einher:

  • Dra­gon: Die Ana­lyse ist etwas dürf­tig. Denn obwohl der stärkste Zug aus­ge­spielt würde, hebt er sich nicht wesent­lich vom zweit­bes­ten ab, Dra­gon hält beide für prak­tisch gleich­wer­tig. (Je nach Hard- und Soft­ware-Umge­bung in einem entspr. Engine-Tur­nier ent­schei­det sich zufäl­lig, wel­chen der bei­den Züge dann Dra­gon ausspielt.)
    Außer­dem sind der 3. und 4. Zug “ver­tauscht” (was aller­dings auf den Zufall des Screen­shot-Zeit­punkts zurück­zu­füh­ren sein könnte).
  • ShashCh­ess prä­fe­riert den Gewinn­zug zufäl­lig, Df3 ist gleich bewer­tet. Außer­dem bleibt die Engine ihrem extrem kon­ser­va­ti­ven Bewer­tungs­stil treu, was dem Anwen­der hier eine kom­plett aus­ge­gli­chene Stel­lung ein­re­det. Sogar der wahr­schein­li­che Ver­lust­zug schafft es nicht wirk­lich unter die Minus-Marke… Immer­hin erreicht das Pro­gramm mit 33 Halb­zü­gen inner­halb einer Minute (!) die stärkste Berechnungs-Tiefe.
  • Lee­laCh­ess: Dem Bewer­tungs-Out­put die­ses Pro­gram­mes ist meist nicht unbe­se­hen zu ver­trauen, aktu­ell hat es kei­nen Fokus auf das Stellungsanalysieren.
    Doch hier eva­lu­iert Lee­laCh­ess soweit ok. Denn eine Bewer­tung von +0.80 bedeu­tet bei Leela bei­nahe “Gewinn­zone”, wie spe­zi­elle Recher­chen in vie­len sei­ner Par­tien zeig­ten. Anders gesagt, man kann anneh­men, dass Leela die meis­ten Par­tien ab der frag­li­chen Stel­lung gegen jede andere Engine gewin­nen dürfte, die Stel­lung also recht gut “ver­steht”.
  • CorCh­ess: Das “Fern­schach-Pro­gramm” CorCh­ess lie­fert eine glaub­wür­dige Stand­ana­lyse, mit einer nach­voll­zieh­ba­ren und dif­fe­ren­zier­ten Hier­ar­chie. Da CorCh­ess eben­falls zu den “kon­ser­va­ti­ven” Bewer­tern gehört – was pri­vate Recher­chen in Par­tien erge­ben haben -, ist die Tat­sa­che nicht so gra­vie­rend, dass der Gewinn­zug nur knapp 1.4 Bau­ern­ein­hei­ten erhält.
  • Ber­serk würde eben­falls 14.f4! zie­hen in einer Tur­nier­par­tie, ord­net dem Zug aber nur eine mäßige Bewer­tung zu und hält zudem Df3 für prak­tisch gleich­wer­tig. Plus­punkt aber: Von allen Engi­nes ord­net Ber­serk den Ver­lust­zug mit Minus 1.21 Bau­ern­ein­hei­ten als den klar schwächs­ten ein.
  • Stock­fish: Mit dem seit lan­gem unum­strit­te­nen Lea­der der welt­wei­ten Engine-Pro­gram­mie­rung sind wir beim Sie­ger auch die­ser klei­nen Unter­su­chung. Stock­fish lie­fert die beste Stand-Ana­lyse: Der Gewinn­zug 14.f4! ist mit knapp 1.5 Bau­ern­ein­hei­ten prak­tisch in der “Gewinn­zone” dekla­riert, das zweit­beste 14.Df3 spielt gemäß SF min­des­tens remis, die dritte Aus­wahl 14.Tf1 kann das Unent­schie­den wohl hal­ten, und das schlechte 14.0-0-0 dürfte gemäß SF die meis­ten Par­tien ab der entspr. Stel­lung verlieren.

Forschungsgebiet der Zukunft: Engine-Bewertungen

Alle obi­gen Aus­füh­run­gen sind selbst­ver­ständ­lich mit eini­gen Vor­be­hal­ten behaftet:

  1. Der stärkste Fisch im Teich: Stockfish
    Der stärkste Fisch im Teich: Stock­fish

    Das ist nur eine unter­suchte Stel­lung. Um sich ein Gesamt­bild der Bewer­tungs­qua­li­tät einer Engine machen zu kön­nen, wären Dut­zende von kom­ple­xen Test­stel­lun­gen heranzuziehen.

  2. Die obi­gen Engine-Out­puts sind Stand­ana­ly­sen. Eine Ana­lyse im eigent­li­chen Sinne bedürfte der inter­ak­ti­ven Recher­che in allen Haupt­va­ri­an­ten, erst danach könnte ein Pro­gramm die Stel­lung wirk­lich zuver­läs­sig einschätzen.
  3. Was nach “nur” einer Minute des Rech­nens eine Engine an Vari­an­ten dekla­riert, kann nach zehn oder drei­ßig Minu­ten revi­diert wer­den. Aller­dings zeigt die Erfah­rung, dass bei den moder­nen neu­ro­na­len Engi­nes eine lange Ana­ly­se­dauer einen gerin­ge­ren Stel­len­wert hat als bei den frü­he­ren Alpha-Beta-Pro­gram­men.
    Zudem ist eine Minute unter den heu­ti­gen Hard- und Soft­ware-Bedin­gun­gen kei­nes­wegs zu kurz. Denn ers­tens spie­len sich 99 Pro­zent aller Engine-Tur­niere in einem Bedenk­zeit-Bereich von 5-10 Sekunden/pro Zug ab, und zwei­tens ver­mö­gen moderne Multi-Threads-Pro­gramme 99 Pro­zent aller Test­stel­lun­gen eben­falls im Sekun­den­be­reich zu lösen. Eine ganze Minute Bedenk­zeit ist also unter heu­ti­gen Bedin­gun­gen eine “halbe Ewig­keit”, inso­fern besteht hier ein gro­ßer Praxisbezug.
  4. Der Bereich “Engine-Ana­lyse” hat noch viele wei­tere Aspekte; ein wich­ti­ger wäre z.B. das Fern­schach. Hier ist ein ver­läss­li­ches Pro­gramm beim Aus­schluss von tak­ti­schen Feh­lern und bei der Suche nach viel­ver­spre­chen­den Vari­an­ten uner­läss­lich. (Trotz­dem bleibt bei nahezu glei­cher­wer­ti­gen Alter­na­ti­ven die finale Ent­schei­dungs­ge­walt nach wie vor beim Fernschachspieler).
  5. Das Haupt­pro­blem aller Out­puts von Engi­nes ist ein blei­ben­des: Die Inter­pre­ta­tion der nume­ri­schen Anga­ben. Ein “1.00” bei Lee­laCh­ess bedeu­tet nicht das Glei­che wie bei Stock­fish oder bei ShashCh­ess. Die­sem Pro­blem lässt sich eigent­lich nur sta­tis­tisch bei­kom­men, indem man bei tau­sen­den von z.B. SF-Par­tien unter­sucht, in wie vie­len Fäl­len pro­zen­tual z.B. eine frühe “1.00”-Bewertung tat­säch­lich zum Par­tie­ge­winn führte.

Stockfish & CorChess beste Analysatoren

Anzeige Amazon: Elektronisches Schach, Elektronisches Schach-Brettspiel, Für Kinder Und Erwachsene. Einzigartiger Schachset-Stift Mit Großem Display,Collector88
Anzeige

Müsste man nun aber trotz die­ser Ein­schrän­kun­gen auf­grund der obi­gen Stand­ana­ly­sen eine vor­sich­tige – und natur­ge­mäß sim­pli­fi­zie­rende – Bewer­tung der Bewer­tung vor­neh­men, wäre das Resul­tat ein­deu­tig: Unter zehn Top-Engi­nes ist momen­tan nur ein Pro­gramm, das inner­halb einer kür­ze­ren Zeit eine wirk­lich ver­läss­li­che Stel­lungs­ein­schät­zung lie­fert (die zahl­rei­chen SF-Clo­nes seien hier mal außen vor; sie kön­nen bei schach­li­chen Teil­un­ter­su­chun­gen aber durch­aus hilf­rei­cher sein als der Gene­ra­lis­si­mus Stockfish).

  • Die vor­sich­tige Behaup­tung ist also: Die Num­mer Eins der Engine-Tur­niere dürfte auch im Bereich Engine-Ana­lyse die Num­mer Eins sein.
  • Eine erste Alter­na­tive bei der ver­tief­ten Inter­ak­ti­ven Ana­lyse könnte CorCh­ess sein. (Laut Pro­gram­mie­rer wurde das Pro­gramm auch expli­zit für Lang­zeit-Ana­ly­sen desi­gned, z.B. für Fernschach).
  • Inter­es­sante Zweit- und Dritt­züge wer­den oft auch von Lee­laCh­ess geliefert. ♦

P.S. Kurz nach Ver­öf­fent­li­chung die­ses Arti­kels haben die Macher von Stock­fish ange­kün­digt, dass die Engine seit 5. Novem­ber 2022 eine ein­schnei­dende Ver­än­de­rung ihrer Bewer­tungs-Algo­rith­men erfährt. Die Default-Eva­lua­ti­ons­ein­stel­lun­gen des Pro­gram­mes sol­len deut­lich nach unten kor­ri­giert wor­den sein, Stock­fish wird also ins­künf­tig “weni­ger hoch” bewerten.
Für die Ana­lyse könnte sich das in Teil­be­rei­chen auch als kon­tra­pro­duk­tiv erwei­sen, da sich der nume­ri­sche Range des Out­puts quasi “ver­klei­nert” und ggf. die Dif­fe­ren­zie­rung dar­un­ter lei­det. Inwie­fern es sich auf die Tur­nier-Per­for­mance aus­wir­ken wird, ist abzu­war­ten. Die Com­mu­nity wird sicher bei­des näher unter die Lupe nehmen…

Lesen Sie im GLAREAN MAGAZIN zum Thema KI-Schach auch über Lee­laCh­ess: Als Auto­di­dakt zur Weltspitze


Der GLAREAN-Her­aus­ge­ber bei INSTAGRAM


 

Ein Kommentar

  1. Coo­ler Arti­kel! Arbeite sel­ber viel mit Engi­nes für meine Par­tien. Jetzt hat man einige Fak­ten mehr über deren Bewer­tun­gen, und kann die Berech­nun­gen bes­ser ein­ord­nen. Schade habt ihr den neuen Ethe­real nicht noch ver­gli­chen. Scheint, wie man so liest, eben­falls ein Ana­lyse-Star zu sein (?!) Jeden­falls Danke! Bitte wei­tere Com­pu­ter­schach­ar­ti­kel! Grüsse Renato

Kommentare sind willkommen! (Keine E-Mail-Pflicht)