Computerschach: Die Stellungsbewertung der Engines

Von „ausgeglichen“ bis „vorteilhaft“

von Walter Eigenmann

Wie ist eine Stel­lung grund­sätz­lich-po­si­tio­nell ein­zu­schät­zen? Wel­ches sind ihre kon­kret-tak­ti­schen Mo­ti­ve? Wie könn­te sie sich ei­ni­ge Züge spä­ter ent­wi­ckelt ha­ben? Vor die­sem Eva­lua­ti­ons­pro­zess am Brett, der die Wahl des nächs­ten Zu­ges na­tür­lich ent­schei­dend be­ein­flusst, steht jede/r Schachspieler*in in je­dem Mo­ment der Partie.
Auf ei­nem sehr viel hö­he­ren, weil rech­ne­risch ex­ak­te­ren bzw. tie­fer­ge­hen­den Ni­veau ha­ben auch die mo­der­nen Com­pu­ter-Pro­gram­me eine Stel­lungs­be­wer­tung vor­zu­neh­men. Und wie beim Men­schen sind dies­be­züg­lich bei den En­gi­nes ge­nau­so deut­li­che Un­ter­schie­de des Out­puts auszumachen…

1966 ge­schah in Bel­grad Be­deut­sa­mes für die Schach­welt: Der ers­te „In­for­ma­tor“ er­schien, und mit ihm nicht nur die um­fas­sen­de Klas­si­fi­ka­ti­on der Er­öff­nun­gen (die sog. „ECO-Codes“), son­dern auch eine neue Sym­bo­lik für eine non­ver­ba­le Stel­lungs­be­wer­tung. Bei­des ist heu­te noch gül­tig und wird so­wohl im Print- wie im Di­gi­tal-Be­reich welt­weit an­ge­wandt. Die „Informator“-Symbolik trug we­sent­lich zur Ver­ein­heit­li­chung von Stel­lungs­be­wer­tun­gen bei und über­wand durch die­se Non­ver­ba­li­sie­rung die Sprachgrenzen:

Schach-Informator - Symbole - Glarean Magazin
Die neu­en Sym­bo­le des Bel­gra­der „In­for­ma­tors“ er­mög­lich­ten ab 1966 die non­ver­ba­le Kom­men­tie­rung von Schach­par­tien über die Sprach­gren­zen hinweg

Verschiedene Evaluations-Outputs

In der Com­pu­ter­schach-Sze­ne hat sich seit vie­len Jah­ren ne­ben die­ser eher gro­ben Sym­bo­lik noch eine wei­te­re, dif­fe­ren­zier­te­re Be­wer­tungs­wei­se eta­bliert, jene nach „Cen­ti­pawn“ (=Hun­derts­tel-Bau­ern­ein­hei­ten). Sie er­laubt der Schach­pro­gram­mie­rung eine ge­naue Quan­ti­fi­zie­rung und dem User eine de­tail­lier­te­re Ein­schät­zung des Engine-Outputs.
Schließ­lich ist bei den mo­der­nen NN-En­gi­nes – also bei je­nen Schach-Mo­to­ren, die mit Neu­ro­na­len Netz­wer­ken ar­bei­ten – noch eine drit­te Art der Stel­lungs­ein­schät­zung an­zu­tref­fen, jene der pro­zen­tua­len Ge­winn­wahr­schein­lich­keit.
Die meis­ten mo­der­nen En­gi­ne-In­ter­faces wie z.B. Fritz, SCID, Aqua­ri­um oder Are­na of­fe­rie­ren dem An­wen­der eine Stel­lungs­be­wer­tung der Mo­to­ren mit mind. den ers­ten bei­den die­ser drei For­men, bzw. sie las­sen ihn die­se ex­pli­zit einstellen.

Die Bewertung der Bewertung

Ein Pro­blem al­ler Pro­gramm-Out­puts bleibt für den An­wen­der aber im­mer – je nach En­gi­ne: Die Be­wer­tung der Be­wer­tung. Denn grund­sätz­lich kann der Pro­gram­mie­rer ei­ner En­gi­ne sei­ne be­tref­fen­den „Ska­len“ de­kla­rie­ren, wie er will. Das er­schwert eine ad­äqua­te bzw. ob­jek­ti­ve In­ter­pre­ta­ti­on des Pro­gramm-Out­puts durch den User na­tür­lich erheblich.
In der Ver­gan­gen­heit ließ sich im­mer­hin fest­stel­len, dass sich un­ter den Sys­te­men je­nes der Ober­flä­che Ch­ess­ba­se weit­ge­hend eta­bliert hat, was dar­auf zu­rück­zu­füh­ren ist, dass das „Fritz“-GUI in der welt­wei­ten Com­pu­ter­schach-Com­mu­ni­ty das meist­ver­wen­de­te In­ter­face ist.

Informator-Bewertungszeichen
Links die „Informator“-Symbolik, rechts der je­wei­li­ge Com­pu­ter-Cen­ti­pawn-Ran­ge, in der Mit­te die ver­ba­le Stellungseinschätzung

Die­sem spe­zi­fi­schen CB-Out­put ent­spre­chend setzt sich die all­ge­mei­ne Be­wer­tungs­ska­la wie in der ne­ben­ste­hen­den Ab­bil­dung zusammen.
(Wer sich in die De­tails des CB-Out­puts ver­tie­fen will, kann sich bei Ch­ess­ba­se sel­ber dem The­ma Stel­lungs­be­wer­tung un­ter „Fritz“ widmen).

Die Startstellung im Engine-Spiegel

Ver­gleicht man mal zehn der füh­ren­den En­gi­nes im Hin­blick auf ihre Be­wer­tung der Schach-Grund­stel­lung, fällt der re­la­ti­ve wei­te Ran­ge der Eva­lua­tio­nen auf. Die fol­gen­den Out­puts wur­den auf ei­nem han­dels­üb­li­chen Ryzen7 im 4-Va­ri­an­ten-Mo­dus ge­ne­riert mit den je­wei­li­gen De­fault-Ein­stel­lun­gen bei je 2GB Hash und 8 Th­reads (Lee­laCh­ess ana­ly­sier­te auf ei­ner RTX 2080 mit 2 Threads).
Die Screen­shots al­ler Out­puts er­folg­ten je­weils ex­akt nach 60 Se­kun­den Re­chen­zeit, und um ge­gen­sei­ti­ge Hash-Me­mo­rie­run­gen zu ver­mei­den, wur­de das In­ter­face je­des­mal neu ge­star­tet. (Maus­klick auf eine Gra­fik ver­grö­ßert diese):

Berserk

Berserk - Startposition - 1 Min - Ryzen7 - 2GB Hash

LeelaChess

LeelaChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

Stockfish

Stockfish - Startposition - 1 Min - Ryzen7 - 2GB Hash

ShashChess

ShashChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

DragonKomodo

Dragon - Startposition - 1 Min - Ryzen7 - 2GB Hash

Houdini

Houdini - Startposition - 1 Min - Ryzen7 - 2GB Hash

CorChess

CorChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

Revenge

Revenge - Startposition - 1 Min - Ryzen7 - 2GB Hash

FatFritz

FatFritz - Startposition - 1 Min - Ryzen7 - 2GB Hash

RubiChess

RubiChess - Startposition - 1 Min - Ryzen7 - 2GB Hash

Die En­gi­ne-Sze­ne hat also in den Top-Ten mind. zwei Pro­gram­me, die über­durch­schnitt­lich pro­gres­siv-op­ti­mis­tisch be­wer­ten, und mind. zwei mit be­tont kon­ser­va­tiv-zu­rück­hal­ten­der Eva­lua­ti­on: Ber­serk und Stock­fi­sh zäh­len zur ers­ten, Lee­la und ShashCh­ess zur zwei­ten Ka­te­go­rie. (Da Lee­la eine ganz an­de­re Pro­gram­mier-Ar­chi­tek­tur als die üb­ri­gen NN- oder gar AB-Pro­gram­me hat, ist al­ler­dings sein Be­wer­tungs-Out­put stets mit Vor­sicht zu interpretieren).


Exkurs:

Das Schachspiel in Engine-Zahlen

von Peter Martan

Woll­te man die nu­me­ri­schen Be­wer­tun­gen von Schach­pro­gram­men, wie sie im Haupt­ar­ti­kel als pu­rer Ver­gleich da­ste­hen, beim Wort neh­men, müss­te man mit den Re­la­tio­nen (als Bruch­rech­nung ) zwi­schen ih­nen an­fan­gen. Die Dif­fe­ren­zen (durch Ad­did­ti­on und Sub­trak­ti­on be­rech­net) sind noch we­ni­ger ge­eig­net zum Ver­gleich mit der schach­li­chen Wahr­heit, wie man sie als mensch­li­cher Spie­ler eva­lu­iert. Die Um­rech­nung des­sen, was man von ei­ner Stel­lung zu wis­sen glaubt, in durch Zah­len wie­der­ge­ge­be­ne Wer­te, ist ein Pro­blem für sich, aber man hat ja von den Pro­gram­men ge­lernt, was sie mit ih­ren Be­wer­tun­gen „mei­nen“.

Ein biss­chen Ma­the­ma­tik zu Be­ginn: Woll­te man bei ei­ner klar ge­won­ne­nen Stel­lung, in der ge­ra­de noch kei­ne Matt-Di­stanz aus­re­chen­bar ist, zwi­schen 900 und 800 Hun­derts­teln und Bau­ern­ein­hei­ten (Cen­ti­pawn) den schach­lich re­le­van­ten Un­ter­schied zwi­schen die­sen bei­den Wer­ten von zwei Kan­di­da­ten­zü­gen (und oder von zwei Pro­gram­men) fest­ma­chen, wäre die Re­la­ti­on, der Quo­ti­ent viel klei­ner als bei ei­ner Stel­lung, die mit 0.01 und 1.01 be­wer­tet wird, in Hin­blick auf 2 Kan­di­da­ten- Züge oder durch 2 Mo­to­ren. Der Un­ter­schied in Ein­hei­ten von Hun­derts­tel- Bau­ern als Dif­fe­renz ge­rech­net, ist in bei­den Fäl­len 100 und sagt da­her we­ni­ger für sich al­lein aus.

Die Relativität von Evaluierungen

Wei­ter: Woll­te man da für auch nur zwei will­kür­lich her­aus­ge­grif­fe­ne Bei­spie­le ei­nen ge­mein­sa­men Be­wer­tungs­schlüs­sel be­stim­men, müss­te er in Pro­zent oder ir­gend­ei­ner an­de­ren rech­ne­ri­schen Re­la­ti­on im Sinn von Di­vi­si­on be­stimmt wer­den. Durch 0.00 lässt sich schlecht di­vi­die­ren, aber da müss­te man halt auf 0.01 oder -0.01 im Nen­ner run­den. Das Vor­zei­chen wäre ja auch noch ein Pro­blem für sich. Tat­säch­lich zäh­len aber schach­lich auch ge­ra­de die Be­wer­tungs-Ver­än­de­run­gen dort am meis­ten, wo sie vom Vor­teil zum Nach­teil ei­ner Sei­te umschlagen.

Bei Stel­lun­gen mit we­ni­gen, da­für groß­teils for­cier­ten Ab­spie­len sind Eva­lu­ie­run­gen auch an­ders zu ver­glei­chen als bei sol­chen mit mit vie­len ähn­lich aus­sichts­rei­chen un­for­cier­ten. Das Ver­hält­nis von Su­che zu „sta­ti­scher Be­wer­tung“ (aus Ein­trä­gen im Pro­gramm­code oder aus Neu­ro­na­len Netz­wer­ken ge­bil­det) ist vom Such­baum und da­mit auch der Eva­lu­ie­rung und Zug­sor­tie­rung her ein An­de­res als bei „stra­te­gisch“ zu be­wer­ten­den Stel­lun­gen. („Stra­te­gie“ ist ein Be­griff, der im Com­pu­ter­schach noch nie viel Sinn ge­macht hat, und je bes­ser die Pro­gram­me im Rech­nen und im Be­wer­ten wer­den, umso weniger).

Statistik und Spielstärke

Er­öff­nung, Mit­tel- oder End­spiel, Ma­te­ri­al und Par­tie­fort­schritt in Rich­tung auf eine Ent­schei­dung hin, und wel­che Va­ri­an­ten­län­gen zur Be­wer­tung her­an­ge­zo­gen wer­den müs­sen, das al­les muss ein­ge­rech­net wer­den. Dar­aus er­gibt sich dann, ob eine Sei­te im Vor­teil ist und wie groß er ist, und alle die­se Grund­la­gen las­sen dann erst quan­ti­fi­zier­ba­re Schlüs­se zu, in­wie­weit die nu­me­ri­schen Wer­te der ei­nen En­gi­ne bes­ser oder schlech­ter sind als die der an­de­ren. Ob die Be­wer­tun­gen in Hun­derts­tel-Bau­ern, pro­zen­tu­el­ler Ge­winn­wahr­schein­lich­keit oder In­for­ma­tor-Sym­bo­len aus­ge­ge­ben wer­den, spielt eine un­ter­ge­ord­ne­te Rol­le, so­fern die­se Sym­bo­le auch auf von Pro­gram­men an­ge­wen­de­ten Schlüs­seln be­ru­hen. Dann wer­den sie ja von der Be­die­ner­ober­flä­che auch au­to­ma­tisch aus den nu­me­ri­schen Wer­ten ausgewiesen.

Das al­les gilt na­tür­lich im­mer nur für eine ein­zel­ne Stel­lung, aber dass Mes­sun­gen von je­der Art von Spiel­stär­ke (bei Men­schen ja auch) strikt stel­lungs­ab­hän­gig zu be­trach­ten sind, hat sich mitt­ler­wei­le (im Zeit­al­ter von ei­ge­nen Test-Er­öff­nun­gen mit do­sier­tem ein­sei­ti­gem Vor­teil) wohl auch für die sta­tis­ti­sche Spiel­stär­ke­mes­sung aus gro­ßen Zah­len aus­ge­spiel­ter Par­tien herumgesprochen. ♦


Bewertung komplexer Stellungen

Na­tür­lich gibt die En­gi­ne-Eva­lua­ti­on der ein­fa­chen Grund­stel­lung noch nicht sehr viel Er­kennt­nis­ge­winn her. Denn dass Ber­serk dem An­zie­hen­den ei­nen re­la­tiv deut­lich Vor­teil zu­spricht, wäh­rend z.B. ShashCh­ess von völ­li­ger Gleich­heit aus­geht, ist nur ein Ab­bild auch der mensch­lich-his­to­ri­schen Sicht auf die Startposition.

Analyse-Stellung - Firouzja-Aronian - St. Louis 2022 - Glarean Magazin
Ali­re­za Firouz­ja vs Lew Aro­ni­an in St. Lou­is 2022: 14. f4!

Firouzja vs Aronian (St. Louis 2022)

In­ter­es­san­ter wird es, wenn man den Pro­gram­men eine Stel­lung vor­setzt, die sehr kom­plex ist, wie bei­spiels­wei­se die ne­ben­ste­hen­de aus ei­ner Par­tie Firouz­ja ge­gen Aro­ni­an aus dem Jah­re 2022 in St. Louis.

In der ne­ben­ste­hen­den Stel­lung sind im we­sent­li­chen vier Main­li­nes des An­zie­hen­den zu be­ach­ten. Denn ent­hal­ten sind ein „Game Ch­an­ger“ (sprich: Zug führt prak­tisch zwin­gend zum Ge­winn), zwei Re­mis-Va­ri­an­ten, so­wie ein wahr­schein­li­cher Verlustzug:


+-  14. f4 !     Weiss steht auf Gewinn
 =  14. Df3 ?!   Weiss hat höchstens remis
 =  14. Tf1 ?!   Weiss kann remis halten
-+  14. 0-0-0 ?  Weiss steht auf Verlust

Wir las­sen also wie­der un­se­re zehn Top-En­gi­nes auf die Stel­lung los – wer sie in sein ei­ge­nes Schach­pro­gramm im­por­tie­ren will, kann den fol­gen­den FEN-Code be­nüt­zen: r2q1r2/ppp2pk1/3pbn2/2b1p1B1/2P1P3/P1NQ3P/1PP2PP1/R3K2RKQ – un­ter ex­akt den glei­chen Be­din­gun­gen wie oben bei der Grund­stel­lung, und er­hal­ten die fol­gen­den Bewertungen:

Berserk

Berserk - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

LeelaChess

LeelaChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Stockfish

Stockfish - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

ShashChess

ShashChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

DragonKomodo

Dragon - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Houdini

Houdini - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

CorChess

CorChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Revenge

Revenge - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

FatFritz

FatFritz - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

RubiChess

RubiChess - Firouzja-Aronian - 1 Min - Ryzen7 - 2GB Hash

Schau­en wir uns die Er­geb­nis­se der zehn Mo­to­ren im ein­zel­nen an, und be­gin­nen wir mit je­nen, die über­for­dert wa­ren von die­ser Stellung.

Nicht ge­fun­den wur­de der Lö­sungs­zug 14. f4 von

  • Fat­Fritz: Die zweit­bes­te Va­ri­an­te wird deut­lich hö­her be­wer­tet als die bes­te. Im­mer­hin sind die zwei bes­ten Züge „zu­oberst“.
  • Ru­biCh­ess: Auch die­ses Pro­gramm fa­vo­ri­ti­siert Df3, und dem wahr­schein­li­chen Ver­lust­zug 0-0-0 wird schlimms­ten­falls ein Re­mis zugestanden.
  • Re­ven­ge: Die (im En­gi­ne-Tur­nier­be­trieb sehr er­folg­rei­che) En­gi­ne scheint ein Pro­blem mit dem Mul­ti­va­ri­an­ten-Ana­ly­se­mo­dus zu ha­ben: Aus­spie­len wür­de das Pro­gramm das zweit­bes­te Df3, am bes­ten be­wer­tet wird aber der Lö­sungs­zug… Hier hat der Pro­gram­mie­rer nach­zu­bes­sern, an­dern­falls sind die 20 Euro, die er für sei­ne En­gi­ne ver­langt, nicht ge­recht­fer­tigt. (Denn ein An­wen­der kauft ein Schach­pro­gramm meist nicht nur zum Par­tien­spie­len, son­dern auch zum Analysieren).
  • Hou­di­ni ist ne­ben Re­ven­ge die zwei­te AB-En­gi­ne in die­sem Feld und kommt  hier nicht so tief wie die an­de­ren. Für das Pro­gramm ist die Stel­lung auch nach ei­ner Mi­nu­te noch ziem­lich im Gleich­ge­wicht, al­len­falls mit leich­tem Vor­teil für Weiß (aber auf­grund ei­nes „fal­schen“ Best-move…)

Sechs von zehn sind erfolgreich

Computerschach - Bewertung der Bewertung - Stockfish-Output - Glarean Magazin - November 2022
Wie ver­läss­lich sind Com­pu­ter-Schach­ana­ly­sen? Wie ist ihr Out­put zu in­ter­pre­tie­ren? Die Gra­fik ver­eint alle drei gän­gi­gen Be­wer­tungs-Op­tio­nen: In­for­ma­tor-Sym­bo­lik (links), Cen­ti­pawn-Be­wer­tung und Ge­winn-Wahr­schein­lich­keit; rechts die Züge-Hierarchie

Im­mer­hin fin­den sechs der zehn Mo­to­ren den Lö­sungs­zug, wür­den ihn also in ei­ner Tur­nier­par­tie aus­spie­len. Die­se sechs ha­ben ihre Zug-Su­che und da­mit ihre Zug-Ge­ne­rie­rung dem­nach er­folg­reich ab­ge­schlos­sen. Doch da­mit geht nicht au­to­ma­tisch eine kor­rek­te Be­wer­tung einher:

  • Dra­gon: Die Ana­ly­se ist et­was dürf­tig. Denn ob­wohl der stärks­te Zug aus­ge­spielt wür­de, hebt er sich nicht we­sent­lich vom zweit­bes­ten ab, Dra­gon hält bei­de für prak­tisch gleich­wer­tig. (Je nach Hard- und Soft­ware-Um­ge­bung in ei­nem entspr. En­gi­ne-Tur­nier ent­schei­det sich zu­fäl­lig, wel­chen der bei­den Züge dann Dra­gon ausspielt.)
    Au­ßer­dem sind der 3. und 4. Zug „ver­tauscht“ (was al­ler­dings auf den Zu­fall des Screen­shot-Zeit­punkts zu­rück­zu­füh­ren sein könnte).
  • ShashCh­ess prä­fe­riert den Ge­winn­zug zu­fäl­lig, Df3 ist gleich be­wer­tet. Au­ßer­dem bleibt die En­gi­ne ih­rem ex­trem kon­ser­va­ti­ven Be­wer­tungs­stil treu, was dem An­wen­der hier eine kom­plett aus­ge­gli­che­ne Stel­lung ein­re­det. So­gar der wahr­schein­li­che Ver­lust­zug schafft es nicht wirk­lich un­ter die Mi­nus-Mar­ke… Im­mer­hin er­reicht das Pro­gramm mit 33 Halb­zü­gen in­ner­halb ei­ner Mi­nu­te (!) die stärks­te Berechnungs-Tiefe.
  • Lee­laCh­ess: Dem Be­wer­tungs-Out­put die­ses Pro­gram­mes ist meist nicht un­be­se­hen zu ver­trau­en, ak­tu­ell hat es kei­nen Fo­kus auf das Stellungsanalysieren.
    Doch hier eva­lu­iert Lee­laCh­ess so­weit ok. Denn eine Be­wer­tung von +0.80 be­deu­tet bei Lee­la bei­na­he „Ge­winn­zo­ne“, wie spe­zi­el­le Re­cher­chen in vie­len sei­ner Par­tien zeig­ten. An­ders ge­sagt, man kann an­neh­men, dass Lee­la die meis­ten Par­tien ab der frag­li­chen Stel­lung ge­gen jede an­de­re En­gi­ne ge­win­nen dürf­te, die Stel­lung also recht gut „ver­steht“.
  • CorCh­ess: Das „Fern­schach-Pro­gramm“ CorCh­ess lie­fert eine glaub­wür­di­ge Stand­ana­ly­se, mit ei­ner nach­voll­zieh­ba­ren und dif­fe­ren­zier­ten Hier­ar­chie. Da CorCh­ess eben­falls zu den „kon­ser­va­ti­ven“ Be­wer­tern ge­hört – was pri­va­te Re­cher­chen in Par­tien er­ge­ben ha­ben -, ist die Tat­sa­che nicht so gra­vie­rend, dass der Ge­winn­zug nur knapp 1.4 Bau­ern­ein­hei­ten erhält.
  • Ber­serk wür­de eben­falls 14.f4! zie­hen in ei­ner Tur­nier­par­tie, ord­net dem Zug aber nur eine mä­ßi­ge Be­wer­tung zu und hält zu­dem Df3 für prak­tisch gleich­wer­tig. Plus­punkt aber: Von al­len En­gi­nes ord­net Ber­serk den Ver­lust­zug mit Mi­nus 1.21 Bau­ern­ein­hei­ten als den klar schwächs­ten ein.
  • Stock­fi­sh: Mit dem seit lan­gem un­um­strit­te­nen Lea­der der welt­wei­ten En­gi­ne-Pro­gram­mie­rung sind wir beim Sie­ger auch die­ser klei­nen Un­ter­su­chung. Stock­fi­sh lie­fert die bes­te Stand-Ana­ly­se: Der Ge­winn­zug 14.f4! ist mit knapp 1.5 Bau­ern­ein­hei­ten prak­tisch in der „Ge­winn­zo­ne“ de­kla­riert, das zweit­bes­te 14.Df3 spielt ge­mäß SF min­des­tens re­mis, die drit­te Aus­wahl 14.Tf1 kann das Un­ent­schie­den wohl hal­ten, und das schlech­te 14.0-0-0 dürf­te ge­mäß SF die meis­ten Par­tien ab der entspr. Stel­lung verlieren.

Forschungsgebiet der Zukunft: Engine-Bewertungen

Alle obi­gen Aus­füh­run­gen sind selbst­ver­ständ­lich mit ei­ni­gen Vor­be­hal­ten behaftet:

  1. Der stärkste Fisch im Teich: Stockfish
    Der stärks­te Fisch im Teich: Stock­fi­sh

    Das ist nur eine un­ter­such­te Stel­lung. Um sich ein Ge­samt­bild der Be­wer­tungs­qua­li­tät ei­ner En­gi­ne ma­chen zu kön­nen, wä­ren Dut­zen­de von kom­ple­xen Test­stel­lun­gen heranzuziehen.

  2. Die obi­gen En­gi­ne-Out­puts sind Stand­ana­ly­sen. Eine Ana­ly­se im ei­gent­li­chen Sin­ne be­dürf­te der in­ter­ak­ti­ven Re­cher­che in al­len Haupt­va­ri­an­ten, erst da­nach könn­te ein Pro­gramm die Stel­lung wirk­lich zu­ver­läs­sig einschätzen.
  3. Was nach „nur“ ei­ner Mi­nu­te des Rech­nens eine En­gi­ne an Va­ri­an­ten de­kla­riert, kann nach zehn oder drei­ßig Mi­nu­ten re­vi­diert wer­den. Al­ler­dings zeigt die Er­fah­rung, dass bei den mo­der­nen neu­ro­na­len En­gi­nes eine lan­ge Ana­ly­se­dau­er ei­nen ge­rin­ge­ren Stel­len­wert hat als bei den frü­he­ren Al­pha-Beta-Pro­gram­men.
    Zu­dem ist eine Mi­nu­te un­ter den heu­ti­gen Hard- und Soft­ware-Be­din­gun­gen kei­nes­wegs zu kurz. Denn ers­tens spie­len sich 99 Pro­zent al­ler En­gi­ne-Tur­nie­re in ei­nem Be­denk­zeit-Be­reich von 5-10 Sekunden/pro Zug ab, und zwei­tens ver­mö­gen mo­der­ne Mul­ti-Th­reads-Pro­gram­me 99 Pro­zent al­ler Test­stel­lun­gen eben­falls im Se­kun­den­be­reich zu lö­sen. Eine gan­ze Mi­nu­te Be­denk­zeit ist also un­ter heu­ti­gen Be­din­gun­gen eine „hal­be Ewig­keit“, in­so­fern be­steht hier ein gro­ßer Praxisbezug.
  4. Der Be­reich „En­gi­ne-Ana­ly­se“ hat noch vie­le wei­te­re Aspek­te; ein wich­ti­ger wäre z.B. das Fern­schach. Hier ist ein ver­läss­li­ches Pro­gramm beim Aus­schluss von tak­ti­schen Feh­lern und bei der Su­che nach viel­ver­spre­chen­den Va­ri­an­ten un­er­läss­lich. (Trotz­dem bleibt bei na­he­zu glei­cher­wer­ti­gen Al­ter­na­ti­ven die fi­na­le Ent­schei­dungs­ge­walt nach wie vor beim Fernschachspieler).
  5. Das Haupt­pro­blem al­ler Out­puts von En­gi­nes ist ein blei­ben­des: Die In­ter­pre­ta­ti­on der nu­me­ri­schen An­ga­ben. Ein „1.00“ bei Lee­laCh­ess be­deu­tet nicht das Glei­che wie bei Stock­fi­sh oder bei ShashCh­ess. Die­sem Pro­blem lässt sich ei­gent­lich nur sta­tis­tisch bei­kom­men, in­dem man bei tau­sen­den von z.B. SF-Par­tien un­ter­sucht, in wie vie­len Fäl­len pro­zen­tu­al z.B. eine frü­he „1.00“-Bewertung tat­säch­lich zum Par­tie­ge­winn führte.

Stockfish & CorChess beste Analysatoren

PayPal Glarean Magazin - Walter Eigenmann - Online-Kultur-Journal
Für Ihre Un­ter­stüt­zung un­se­res kos­ten­lo­sen Kul­tur-An­ge­bo­tes herz­li­chen Dank!

Müss­te man nun aber trotz die­ser Ein­schrän­kun­gen auf­grund der obi­gen Stand­ana­ly­sen eine vor­sich­ti­ge – und na­tur­ge­mäß sim­pli­fi­zie­ren­de – Be­wer­tung der Be­wer­tung vor­neh­men, wäre das Re­sul­tat ein­deu­tig: Un­ter zehn Top-En­gi­nes ist mo­men­tan nur ein Pro­gramm, das in­ner­halb ei­ner kür­ze­ren Zeit eine wirk­lich ver­läss­li­che Stel­lungs­ein­schät­zung lie­fert (die zahl­rei­chen SF-Clo­nes sei­en hier mal au­ßen vor; sie kön­nen bei schach­li­chen Teil­un­ter­su­chun­gen aber durch­aus hilf­rei­cher sein als der Ge­ne­ra­lis­si­mus Stockfish).

  • Die vor­sich­ti­ge Be­haup­tung ist also: Die Num­mer Eins der En­gi­ne-Tur­nie­re dürf­te auch im Be­reich En­gi­ne-Ana­ly­se die Num­mer Eins sein.
  • Eine ers­te Al­ter­na­ti­ve bei der ver­tief­ten In­ter­ak­ti­ven Ana­ly­se könn­te CorCh­ess sein. (Laut Pro­gram­mie­rer wur­de das Pro­gramm auch ex­pli­zit für Lang­zeit-Ana­ly­sen de­si­gned, z.B. für Fernschach).
  • In­ter­es­san­te Zweit- und Dritt­zü­ge wer­den oft auch von Lee­laCh­ess geliefert. ♦

P.S. Kurz nach Ver­öf­fent­li­chung die­ses Ar­ti­kels ha­ben die Ma­cher von Stock­fi­sh an­ge­kün­digt, dass die En­gi­ne seit 5. No­vem­ber 2022 eine ein­schnei­den­de Ver­än­de­rung ih­rer Be­wer­tungs-Al­go­rith­men er­fährt. Die De­fault-Eva­lua­ti­ons­ein­stel­lun­gen des Pro­gram­mes sol­len deut­lich nach un­ten kor­ri­giert wor­den sein, Stock­fi­sh wird also ins­künf­tig „we­ni­ger hoch“ bewerten.
Für die Ana­ly­se könn­te sich das in Teil­be­rei­chen auch als kon­tra­pro­duk­tiv er­wei­sen, da sich der nu­me­ri­sche Ran­ge des Out­puts qua­si „ver­klei­nert“ und ggf. die Dif­fe­ren­zie­rung dar­un­ter lei­det. In­wie­fern es sich auf die Tur­nier-Per­for­mance aus­wir­ken wird, ist ab­zu­war­ten. Die Com­mu­ni­ty wird si­cher bei­des nä­her un­ter die Lupe nehmen…

Le­sen Sie im GLAREAN MAGAZIN zum The­ma KI-Schach auch über Lee­laCh­ess: Als Au­to­di­dakt zur Weltspitze


Der GLAREAN-Her­aus­ge­ber bei INSTAGRAM

[blossomthemes_instagram_feed]


 

Ein Kommentar

  1. Coo­ler Ar­ti­kel! Ar­bei­te sel­ber viel mit En­gi­nes für mei­ne Par­tien. Jetzt hat man ei­ni­ge Fak­ten mehr über de­ren Be­wer­tun­gen, und kann die Be­rech­nun­gen bes­ser ein­ord­nen. Scha­de habt ihr den neu­en Ethe­re­al nicht noch ver­gli­chen. Scheint, wie man so liest, eben­falls ein Ana­ly­se-Star zu sein (?!) Je­den­falls Dan­ke! Bit­te wei­te­re Com­pu­ter­schach­ar­ti­kel! Grüs­se Renato

Kommentare sind willkommen! (Keine E-Mail-Pflicht)