DeepMind-KI spielt erfolgreich Multiplayer-Shooter

“Quake 3” war einer der letzten “Ego-Shooter” (zurecht oder zu unrecht 🙂 besorgte Zeitgenossen sprechen ja auch von “Killer-Spielen”…), die ich sehr ausgiebig und auch einigermaßen gut gespielt habe. Das ging damals (1999…) eben noch mit meinem heiß geliebten und sehr soliden Joystick, bei dem eine der Funktionstasten für das “strafen”; das seitliche Ausweichen bei feindlichem Beschuss zuständig war. Danach kam dann die kombinierte Steuerung durch Maus (für das Rumgucken…) und Tastatur (für das Laufen, Schleichen, Hüpfen oder Ducken) in Mode, und das hat meine koordinativen Fähigkeiten dann schnell überfordert. Tja, man wird älter 🙂 …

“Capture the Flag”, also das bis auf den heutigen Tag beliebte Multiplayer-Game hab ich auch nicht versucht; ich hab mir höchstens mit meiner damaligen Freundin im 2-PC-Netzwerk Kettensägen-Duelle geliefert, oder wir sind gemeinsam gegen die im Spiel eingebaute Monsterhorde angetreten. Aber natürlich ist das “Capture the Flag”-Multiplayer-Game die wesentlich anspruchsvollere Variante bei Ego-Shootern – zumindest wenn man über den ganz primitiven Impuls “auf alles ballern, was sich bewegt” hinausgeht. Das Multiplayer-Game erfordert Kooperation und Koordination und irgendwelche Strategien.

Ist es z.B. eine gute Idee, hinter einem Team-Kollegen hinterher zu laufen, den ggf. gegen Feinde zu unterstützen und im Falle seines Ablebens die vakante Fahne zu ergreifen? Sollte man die eigene Basis gegen feindliche Angriffe verteidigen, oder vielleicht im verlassenen gegnerischen Camp ausharren, bis dort die Fahne eines hingemetzelten Fahnenträgers wieder auftaucht? Die Deep-Mind-Programmierer haben ihre “Agents”, ihre auf neuronalen Netzen basierenden Algorithmen genauso wie bei Schach, Go oder StarCraft nach dem “Reinforcement Learning”-Prinzip trainiert.

Der Algorithmus/das neuronale Netzwerk weiß erst einmal nichts. Es spielt drauflos und lernt durch Erfolg oder Misserfolg. Beim aktuellen Quake-Experiment hatten die “Agents” auch nur exakt die Teil-Information über die Spielsituation, wie sie auch ein menschlicher Spieler hat: Das “Sichtfeld”, also die in der Ego-Perspektive sichtbaren Pixel. Und den Punktestand, also den eigenen “Gesundheits”- und “Erfolgs”-Status und den des Teams. Wie die verschiedenen Iterationen der neuronalen Netzwerks “trainiert werden” bzw. “lernen”, ist sehr komplex – professionell Interessierten empfehle ich da dringend einen Blick ins Original-Paper und in das Supplement. 🙂

(Quelle: DeepMind)

Aber das Resultat ist klar: Die besten der trainierten “Agenten”/neuronalen Netzwerke spielen Quake 3 CTF mit einer übermenschlichen “superhuman Performance”. Tröstlicherweise können versierte menschliche Spieler die Agents immer noch “exploiten”, also ihre Strategien durchschauen und ausnutzen, wenn ein gegebenes Spiel-Szenario gleich bleibt. Und für die Experten: Der Vorsprung der KI bleibt auch erhalten, wenn die etwas schnellere Reaktionszeit der KI-Bots auf das Erscheinen eines Feindes durch eine menschen-ähnlich verzögerte Reaktionszeit angeglichen wird.

Über die Übertragbarkeit des DeepMind-Quake 3-CTF-Algorithmus auf realistischere Szenarien kann man nur spekulieren. Aber der Ansatz “Reinforcement Learning” und neuronales Generalisieren von unbekannten Szenarien scheint sehr erfolgversprechend zu sein. Darüber kann man sich perspektivisch freuen (etwa irgendwann einmal bei Rettungs-Einsätzen von Robotern; oder bei echtzeit-kritischen Weltraum-Missionen…) oder ärgern (etwa beim autonomen Agieren von Killer-Drohnen oder -Robotern bei kriegerischen Auseinandersetzungen…

Reinforcement Learning – KI kann auch „Killer-Spiele“

Deutschlandfunk – Forschung aktuell vom 31.05.2019 (Moderation: Arndt Reuning)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.