Per 12 dienų eksperimentą ir surinkusi daugiau kaip 10 000 „rankų“ (angl. hand), DI sistema Pluribus buvo išbandyta dviejuose scenarijuose ir žaidė prieš 12 geriausių pasaulio „online“ pokerio žaidėjų.
Vienu atveju DI sistema žaidė prieš 5 skirtingus žaidėjus, o kitu atveju – 5 skirtingos Pluribus versijos žaidė prieš vieną žaidėją.
Teigiama, kad Pluribus vidutiniškai per vieną „ranką“ laimėdavo 5 dolerius, o per valandą pasiekdavo 1000 dolerių laimėjimą. „Įtikinama pergalės riba“, – teigia mokslininkai.
Norėdami pasiekti šį ypatingą Pluribus sudėtingumo ir kompetencijos lygį, pirmiausiai DI sistema išmoko žaisti prieš save – tiksliau, kelias savo versijas – ir nugalėti. Vietoje to, kad Pluribus bandytų nuspėti visus sekančius priešininko žingsnius ir kaip baigsis žaidimas, DI sutelkė dėmesį tik į du ar tris sekančius ėjimus.
„DI blefavimo nemato, kaip klaidingo sprendimo. Jis tik mato sprendimą, kuris konkrečioje situacijoje atneš daugiausiai pelno“, – teigia vienas Pluribus kūrėjų Noam’as Brown’as. „Tai ką mes sugebėjome parodyti, kad DI geba blefuoti. Ir jis [Pluribus] gali blefuoti geriau nei bet kuris žmogus.“
Toks pasiekimas, neabejotinai, yra įspūdingas DI šuolis į priekį. Tačiau kyla klausimas: o ką tai reiškia internetinio pokerio pasauliui?
Nepaisant to, kad mokslininkai 2017-aisiais atskleidė Libratus – DI sistemos, kuri taip pat nugalėjo profesionalius pokerio žaidėjus – algoritmus, šįkart Pluribus algoritmai liks paslaptyje ir neviešinami.
Kalbėdamas su „MIT Technology Review“, Noam’as Brown’as teigė, kad Pluribus sistema internetinėje pokerio aplinkoje galėtų veiksmingai laimėti didelius pinigų kiekius. „Tai galėtų būti labai pavojinga pokerio bendruomenei“, – įspėjo Brown’as.
Plačiau su tyrimo rezultatais galite susipažinti žurnale Science.
Naujausi komentarai