Câștigând împotriva unui computer nu este în cărțile profesioniștilor de poker

În bătălia de inteligență dintre oameni și mașini, computerele tocmai au crescut antetul.

Două noi programe de joc de poker pot fi cei mai buni profesioniști la heads-up no-limit Texas Hold’em, o versiune de poker pentru doi jucători fără restricții privind dimensiunea pariurilor. Este un altul dintr-o listă tot mai mare de jocuri complexe, inclusiv șah, dame (SN: 21.07.07, str. 36) si pleaca (SN: 24.12.16, str. 28), în care computerele domnesc suprem.

Informaticienii de la Universitatea Alberta din Canada raportează că programul lor, cunoscut sub numele de DeepStack, a învins complet jucătorii profesioniști de poker, jucând 3.000 de mâini împotriva fiecăruia. Programul nu a câștigat fiecare mână – uneori, norocul remiză a fost împotriva lui. Dar după ce rezultatele au fost numărate, DeepStack a învins 10 din 11 rechini de cărți, au raportat oamenii de știință online, 2 martie, Ştiinţă. (DeepStack l-a învins și pe al 11-lea concurent, dar acea victorie nu a fost semnificativă statistic.)

„Această lucrare este foarte impresionantă”, spune informaticianul Murray Campbell, unul dintre creatorii lui Deep Blue, computerul care l-a învins pe marele maestru de șah Garry Kasparov în 1997. DeepStack „a avut o marjă uriașă de victorie”, spune Campbell, de la IBM, Thomas J. Centrul de Cercetare Watson din Yorktown Heights, NY

De asemenea, informaticieni conduși de Tuomas Sandholm de la Universitatea Carnegie Mellon din Pittsburgh au depășit recent patru jucători de elită heads-up no-limit Texas Hold’em cu un program numit Libratus. Fiecare concurent a jucat 30.000 de mâini împotriva programului în timpul unui turneu desfășurat în ianuarie la Pittsburgh. Libratus a fost „mult mai dur decât orice om pe care l-am jucat vreodată”, spune profesionistul de poker Jason Les.

Anterior, Michael Bowling – unul dintre creatorii lui DeepStack – și colegii au creat un program care putea juca o versiune de poker pentru două persoane, în care dimensiunea pariurilor este limitată. Acest program a jucat jocul aproape perfect: a fost imbatabil din punct de vedere statistic într-o viață umană (SN: 2/7/15, str. 14). Dar pokerul fără limită este mult mai complicat, deoarece atunci când orice dimensiune de pariu este permisă, există multe mai multe acțiuni posibile. Jucătorii trebuie să decidă dacă să meargă all in, să joace în siguranță cu un mic pariu sau să parieze ceva între ele. „Atenție, no-limit Texas Hold’em… este, de fapt, mult mai complex decât șahul”, spune Campbell.

În jocul de cărți, fiecărui jucător îi sunt împărțite două cărți cu fața în jos și ambii jucători împart cinci cărți împărțite cu fața în sus, cu runde de pariere între etapele de împărțire. Spre deosebire de șah sau Go, unde ambii jucători pot vedea toate piesele de pe tablă, în poker, unele informații sunt ascunse – cele două cărți din mâna fiecărui jucător. Astfel de jocuri, cunoscute sub numele de jocuri cu informații imperfecte, sunt deosebit de dificil de stăpânit de computere.

Pentru a perfecționa tehnica lui DeepStack, cercetătorii au folosit învățarea profundă – o metodă de învățare automată care formulează un sentiment asemănător intuiției despre când să le țină și când să le îndoiești. Când vine rândul programului, acesta sortează opțiunile pentru următoarele câteva acțiuni și decide ce să facă. Drept urmare, natura lui DeepStack „seamănă mult mai mult cu oamenii”, spune Bowling.

Libratus calculează o strategie pentru joc din timp și se actualizează pe măsură ce joacă pentru a corecta defecte în tacticile sale pe care le-au dezvăluit adversarii săi umani. Aproape de sfârșitul unui joc, Libratus trece la calculul în timp real, timp în care își perfecționează și mai mult metodele. Libratus este atât de solicitant din punct de vedere computațional încât necesită un supercomputer pentru a rula. (DeepStack poate rula pe un laptop.)

Învățarea computerelor să joace jocuri cu informații ascunse, cum ar fi pokerul, ar putea duce în cele din urmă la aplicații din viața reală. „Întreaga zonă a jocurilor cu informații imperfecte este un pas către dezordinea lumii reale”, spune Campbell. Calculatoarele care pot face față acestei dezordine ar putea ajuta la negocieri de afaceri sau la licitații și ar putea ajuta la protejarea împotriva riscurilor ascunse, în securitatea cibernetică, de exemplu.