DeepMind-KI spielt erfolgreich Multiplayer-Shooter

“Quake 3” war einer der letzten “Ego-Shooter” (zurecht oder zu unrecht 🙂 besorgte Zeitgenossen sprechen ja auch von “Killer-Spielen”…), die ich sehr ausgiebig und auch einigermaĂźen gut gespielt habe. Das ging damals (1999…) eben noch mit meinem heiĂź geliebten und sehr soliden Joystick, bei dem eine der Funktionstasten fĂĽr das “strafen”; das seitliche Ausweichen bei feindlichem Beschuss zuständig war. Danach kam dann die kombinierte Steuerung durch Maus (fĂĽr das Rumgucken…) und Tastatur (fĂĽr das Laufen, Schleichen, HĂĽpfen oder Ducken) in Mode, und das hat meine koordinativen Fähigkeiten dann schnell ĂĽberfordert. Tja, man wird älter 🙂 …

“Capture the Flag”, also das bis auf den heutigen Tag beliebte Multiplayer-Game hab ich auch nicht versucht; ich hab mir höchstens mit meiner damaligen Freundin im 2-PC-Netzwerk Kettensägen-Duelle geliefert, oder wir sind gemeinsam gegen die im Spiel eingebaute Monsterhorde angetreten. Aber natĂĽrlich ist das “Capture the Flag”-Multiplayer-Game die wesentlich anspruchsvollere Variante bei Ego-Shootern – zumindest wenn man ĂĽber den ganz primitiven Impuls “auf alles ballern, was sich bewegt” hinausgeht. Das Multiplayer-Game erfordert Kooperation und Koordination und irgendwelche Strategien.

Ist es z.B. eine gute Idee, hinter einem Team-Kollegen hinterher zu laufen, den ggf. gegen Feinde zu unterstĂĽtzen und im Falle seines Ablebens die vakante Fahne zu ergreifen? Sollte man die eigene Basis gegen feindliche Angriffe verteidigen, oder vielleicht im verlassenen gegnerischen Camp ausharren, bis dort die Fahne eines hingemetzelten Fahnenträgers wieder auftaucht? Die Deep-Mind-Programmierer haben ihre “Agents”, ihre auf neuronalen Netzen basierenden Algorithmen genauso wie bei Schach, Go oder StarCraft nach dem “Reinforcement Learning”-Prinzip trainiert.

Der Algorithmus/das neuronale Netzwerk weiĂź erst einmal nichts. Es spielt drauflos und lernt durch Erfolg oder Misserfolg. Beim aktuellen Quake-Experiment hatten die “Agents” auch nur exakt die Teil-Information ĂĽber die Spielsituation, wie sie auch ein menschlicher Spieler hat: Das “Sichtfeld”, also die in der Ego-Perspektive sichtbaren Pixel. Und den Punktestand, also den eigenen “Gesundheits”- und “Erfolgs”-Status und den des Teams. Wie die verschiedenen Iterationen der neuronalen Netzwerks “trainiert werden” bzw. “lernen”, ist sehr komplex – professionell Interessierten empfehle ich da dringend einen Blick ins Original-Paper und in das Supplement. 🙂

(Quelle: DeepMind)

Aber das Resultat ist klar: Die besten der trainierten “Agenten”/neuronalen Netzwerke spielen Quake 3 CTF mit einer ĂĽbermenschlichen “superhuman Performance”. Tröstlicherweise können versierte menschliche Spieler die Agents immer noch “exploiten”, also ihre Strategien durchschauen und ausnutzen, wenn ein gegebenes Spiel-Szenario gleich bleibt. Und fĂĽr die Experten: Der Vorsprung der KI bleibt auch erhalten, wenn die etwas schnellere Reaktionszeit der KI-Bots auf das Erscheinen eines Feindes durch eine menschen-ähnlich verzögerte Reaktionszeit angeglichen wird.

Ăśber die Ăśbertragbarkeit des DeepMind-Quake 3-CTF-Algorithmus auf realistischere Szenarien kann man nur spekulieren. Aber der Ansatz “Reinforcement Learning” und neuronales Generalisieren von unbekannten Szenarien scheint sehr erfolgversprechend zu sein. DarĂĽber kann man sich perspektivisch freuen (etwa irgendwann einmal bei Rettungs-Einsätzen von Robotern; oder bei echtzeit-kritischen Weltraum-Missionen…) oder ärgern (etwa beim autonomen Agieren von Killer-Drohnen oder -Robotern bei kriegerischen Auseinandersetzungen…

Reinforcement Learning – KI kann auch „Killer-Spiele“

Deutschlandfunk – Forschung aktuell vom 31.05.2019 (Moderation: Arndt Reuning)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.