“Quake 3” war einer der letzten “Ego-Shooter” (zurecht oder zu unrecht đ besorgte Zeitgenossen sprechen ja auch von “Killer-Spielen”…), die ich sehr ausgiebig und auch einigermaĂen gut gespielt habe. Das ging damals (1999…) eben noch mit meinem heiĂ geliebten und sehr soliden Joystick, bei dem eine der Funktionstasten fĂŒr das “strafen”; das seitliche Ausweichen bei feindlichem Beschuss zustĂ€ndig war. Danach kam dann die kombinierte Steuerung durch Maus (fĂŒr das Rumgucken…) und Tastatur (fĂŒr das Laufen, Schleichen, HĂŒpfen oder Ducken) in Mode, und das hat meine koordinativen FĂ€higkeiten dann schnell ĂŒberfordert. Tja, man wird Ă€lter đ …
“Capture the Flag”, also das bis auf den heutigen Tag beliebte Multiplayer-Game hab ich auch nicht versucht; ich hab mir höchstens mit meiner damaligen Freundin im 2-PC-Netzwerk KettensĂ€gen-Duelle geliefert, oder wir sind gemeinsam gegen die im Spiel eingebaute Monsterhorde angetreten. Aber natĂŒrlich ist das “Capture the Flag”-Multiplayer-Game die wesentlich anspruchsvollere Variante bei Ego-Shootern – zumindest wenn man ĂŒber den ganz primitiven Impuls “auf alles ballern, was sich bewegt” hinausgeht. Das Multiplayer-Game erfordert Kooperation und Koordination und irgendwelche Strategien.
Ist es z.B. eine gute Idee, hinter einem Team-Kollegen hinterher zu laufen, den ggf. gegen Feinde zu unterstĂŒtzen und im Falle seines Ablebens die vakante Fahne zu ergreifen? Sollte man die eigene Basis gegen feindliche Angriffe verteidigen, oder vielleicht im verlassenen gegnerischen Camp ausharren, bis dort die Fahne eines hingemetzelten FahnentrĂ€gers wieder auftaucht? Die Deep-Mind-Programmierer haben ihre “Agents”, ihre auf neuronalen Netzen basierenden Algorithmen genauso wie bei Schach, Go oder StarCraft nach dem “Reinforcement Learning”-Prinzip trainiert.
Der Algorithmus/das neuronale Netzwerk weiĂ erst einmal nichts. Es spielt drauflos und lernt durch Erfolg oder Misserfolg. Beim aktuellen Quake-Experiment hatten die “Agents” auch nur exakt die Teil-Information ĂŒber die Spielsituation, wie sie auch ein menschlicher Spieler hat: Das “Sichtfeld”, also die in der Ego-Perspektive sichtbaren Pixel. Und den Punktestand, also den eigenen “Gesundheits”- und “Erfolgs”-Status und den des Teams. Wie die verschiedenen Iterationen der neuronalen Netzwerks “trainiert werden” bzw. “lernen”, ist sehr komplex – professionell Interessierten empfehle ich da dringend einen Blick ins Original-Paper und in das Supplement. đ
(Quelle: DeepMind)
Aber das Resultat ist klar: Die besten der trainierten “Agenten”/neuronalen Netzwerke spielen Quake 3 CTF mit einer ĂŒbermenschlichen “superhuman Performance”. Tröstlicherweise können versierte menschliche Spieler die Agents immer noch “exploiten”, also ihre Strategien durchschauen und ausnutzen, wenn ein gegebenes Spiel-Szenario gleich bleibt. Und fĂŒr die Experten: Der Vorsprung der KI bleibt auch erhalten, wenn die etwas schnellere Reaktionszeit der KI-Bots auf das Erscheinen eines Feindes durch eine menschen-Ă€hnlich verzögerte Reaktionszeit angeglichen wird.
Ăber die Ăbertragbarkeit des DeepMind-Quake 3-CTF-Algorithmus auf realistischere Szenarien kann man nur spekulieren. Aber der Ansatz “Reinforcement Learning” und neuronales Generalisieren von unbekannten Szenarien scheint sehr erfolgversprechend zu sein. DarĂŒber kann man sich perspektivisch freuen (etwa irgendwann einmal bei Rettungs-EinsĂ€tzen von Robotern; oder bei echtzeit-kritischen Weltraum-Missionen…) oder Ă€rgern (etwa beim autonomen Agieren von Killer-Drohnen oder -Robotern bei kriegerischen Auseinandersetzungen…
Reinforcement Learning – KI kann auch âKiller-Spieleâ
Deutschlandfunk – Forschung aktuell vom 31.05.2019 (Moderation: Arndt Reuning)