AI Software bringt sich Videospiele selbst bei

In der gesamten menschlichen Geschichte waren Intelligenz und Bewusstsein zwei eng miteinander verbundene Konzepte. Wenn Sie viele der ersteren haben, wird angenommen, dass Sie auf eine schlecht definierte Weise bewusster sind als der düstere Kerl auf der Straße. Ein kluges Mädchen wäre auch sehr bewusst, jemand, der Ihnen detailliert über ihre Erfahrungen erzählen könnte (denn das ist Bewusstsein, die Fähigkeit, etwas zu erleben, alles, ob es Zahnschmerzen sind, der Anblick eines kanariengelben Hauses oder sengender Zorn). Aber diese intime Beziehung kann sich auflösen.

Betrachten Sie den jüngsten Fortschritt von DeepMind, einem kleinen Unternehmen in London, das 2011 von Demis Hassabis, einem britischen Wunderkind, Videospieldesigner und Computational Neuroscientist, mitbegründet wurde. DeepMind wurde letztes Jahr von Google für Hunderte Millionen Dollar gekauft. Der neue Code ist atemberaubend: Er bringt sich selbst das Spielen von Videospielen bei, oft viel besser als menschliche Spieler. Der technische Durchbruch wird in einer im Februar veröffentlichten Studie beschrieben Natur. (Wissenschaftlicher amerikanischer Geist ist Teil der Nature Publishing Group.)

Um einen Hauch von Aufregung zu bekommen, gehen Sie online und suchen Sie nach einem YouTube-Video namens DeepMind Artificial Intelligence @ FDOT14. Es ist ein kurzer Auszug aus Hassabis ‘Vortrag auf einer Technologiekonferenz 2014, der mit einem Smartphone aufgenommen wurde und einen Computeralgorithmus enthält, der das Spielen des klassischen Arcade-Spiels Breakout lernt. Das Ziel des Spiels, eine Variante von Pong, ist es, dass der Spieler mit einem Ball, der von der Oberseite und den Seitenwänden abprallt, Steine ​​in Reihen oben auf dem Bildschirm bricht. Wenn der Ball den unteren Bildschirmrand berührt, verliert der Spieler eines von drei Leben. Um dieses Ergebnis zu verhindern, bewegt der Spieler ein Paddel entlang des Bodens, um den Ball nach oben abzulenken.

Das von Steve Wozniak von Apple mitgestaltete Spiel ist nach heutigen Maßstäben primitiv und dennoch überzeugend. Hassabis erklärte dies auf der Bühne, als er das Publikum in den Algorithmus einführte. Es begann damit, nichts zu wissen und fummelte zufällig am Paddel herum, ohne viel Koordination, und traf nur gelegentlich den Ball. Nach einer Stunde Training, das immer wieder gespielt wurde, verbesserte sich die Leistung, wobei der Ball häufig zurückgegeben und Steine ​​gebrochen wurden. Nach zwei Stunden Training wurde es besser als die meisten Menschen und brachte die Bälle schnell und in steilen Winkeln zurück.

Die Programmierer ließen den Algorithmus alleine weiter spielen und er verbesserte sich weiter. Nach vier Stunden Spielzeit entdeckte der Algorithmus eine innovative Strategie für Breakout, die seine Leistung weit über die eines jeden Menschen hinaus steigerte. Der Algorithmus erreichte dieses Kunststück, indem er lernte, einen Tunnel durch die Wand an der Seite zu graben, sodass der Ball schnell eine große Anzahl von Steinen von hinten zerstören konnte. Sehr schlau. Die Leistung war so beeindruckend, dass die versammelten Experten spontan applaudierten (ein seltenes Ereignis bei wissenschaftlichen Konferenzen).

Um zu verstehen, was los ist und warum es so eine große Sache ist, schauen wir unter die Haube. Der Algorithmus enthält drei Funktionen, die alle aus der Neurobiologie stammen: Verstärkungslernen, tiefe Faltungsnetzwerke und selektive Gedächtniswiedergabe.

Ein bleibendes Erbe des Behaviorismus, das in der ersten Hälfte des 20. Jahrhunderts das Studium des menschlichen und tierischen Verhaltens beherrschte, war die Idee, dass Organismen optimales Verhalten lernen, indem sie die Konsequenz einer bestimmten Handlung mit einem bestimmten Stimulus in Beziehung setzen, der ihr vorausging. Dieser Reiz soll das Verhalten verstärken.

Betrachten Sie meinen Berner Sennenhund Ruby als einen Welpen, als ich sie einbrechen musste. Nachdem ich Ruby Wasser in vorgeschriebenen Abständen zum Trinken gegeben hatte, brachte ich sie sofort zu einer bestimmten Stelle im Garten und wartete – und wartete. Irgendwann würde sie spontan pinkeln und ich würde sie verschwenderisch loben. Wenn ein Unfall in der Halle passierte, sprach ich streng mit ihr. Hunde reagieren gut auf solche positiven und negativen sozialen Signale. Über ein oder zwei Monate lang erfuhr Ruby, dass ein innerer Reiz – eine volle Blase – gefolgt von einem Verhalten – das an ihrer speziellen Stelle pinkelte – eine Belohnung vorhersagte und eine Bestrafung vermied.

Reinforcement Learning wurde formalisiert und in neuronalen Netzen implementiert, um Computern das Spielen beizubringen. Gerald Tesauro von IBM verwendete eine bestimmte Version des Verstärkungslernens – das Lernen mit zeitlichen Unterschieden -, um ein Netzwerk zu entwerfen, das Backgammon spielte. Das Programm analysiert das Board und untersucht alle möglichen legalen Bewegungen und Reaktionen des gegnerischen Spielers auf diese Bewegungen. Alle resultierenden Kartenpositionen werden in das Herz des Programms, seine Wertfunktion, eingespeist.

Die Aktion, die vom Programm ausgewählt wird, führt zu der Board-Position mit der höchsten Punktzahl. Nach einer Runde wird das Netzwerk leicht angepasst, so dass das Programm etwas besser vorhersagt, was als nächstes passiert, als es nach seinem vorherigen Schritt vorhergesagt hat. Von Grund auf neu wird das Programm durch Versuch und Irrtum immer besser. Was das Lernen zur Stärkung zu einer Herausforderung macht, ist, dass es normalerweise eine erhebliche Verzögerung zwischen einem bestimmten Schritt und seinem möglichen vorteilhaften oder nachteiligen Ergebnis gibt. Die Überwindung dieses Handicaps erfordert Training, Training und mehr Training. Um menschliche Experten beim Backgammon zu schlagen, musste Tesauros Programm 200.000 Spiele gegen sich selbst spielen.

Die zweite Zutat für den Erfolg von DeepMind ist ein tiefes Faltungsnetzwerk. Es basiert auf einem Modell der Gehirnschaltung, die Torsten Wiesel und der verstorbene David H. Hubel, beide damals an der Harvard University, in den späten 1950er und frühen 1960er Jahren im visuellen System von Säugetieren gefunden haben (Arbeiten, für die sie später eine Auszeichnung erhielten) Nobelpreis). Das Modell postuliert eine Schicht von Verarbeitungselementen oder Einheiten, die eine gewichtete Summe einer Eingabe berechnen. Wenn die Summe ausreichend groß ist, schaltet das Modell den Ausgang des Geräts ein. Andernfalls bleibt es ausgeschaltet.

Das visuelle System wird von einigen Theoretikern als im Wesentlichen nichts anderes als eine Kaskade solcher Verarbeitungsschichten angesehen – was als Feed-Forward-Netzwerk bezeichnet wird. Jede Ebene empfängt Eingaben von einer vorherigen Ebene und leitet die Ausgabe an die nächste Ebene weiter. Die erste Schicht ist die Netzhaut, die den Regen ankommender Photonen einfängt. Es berücksichtigt Schwankungen der Bildhelligkeit und gibt diese Daten an die nächste Verarbeitungsstufe weiter. Die letzte Ebene besteht aus einer Reihe von Einheiten, die signalisieren, ob in diesem Bild eine übergeordnete Funktion wie Ihre Großmutter oder Jennifer Aniston vorhanden ist oder nicht.

Lerntheoretiker entwickelten mathematisch fundierte Methoden, um die Gewichte dieser Einheiten anzupassen – wie einflussreich eine Eingabe im Verhältnis zu einer anderen sein sollte -, damit solche Feed-Forward-Netzwerke lernen, bestimmte Erkennungsaufgaben auszuführen. Beispielsweise ist ein Netzwerk Zehntausenden von Bildern aus dem Internet ausgesetzt, von denen jedes davon abhängig ist, ob das Foto eine Katze enthält oder nicht. Nach jeder Belichtung werden alle Gewichte leicht angepasst. Wenn das Training ausreichend lang ist (das Training ist wiederum sehr computerintensiv) und die Bilder in ausreichend tiefen Netzwerken verarbeitet werden – solchen mit vielen Schichten von Verarbeitungselementen -, verallgemeinert das neuronale Netzwerk ein neues Foto und kann es genau als katzenhaltig erkennen . Das Netzwerk hat auf überwachte Weise gelernt, Katzenbilder von denen von Hunden, Menschen, Autos usw. zu unterscheiden. Die Situation ist nicht so unähnlich zu einer Mutter, die mit ihrem Kleinkind ein Bilderbuch durchblättert und dem Kind alle Katzen zeigt. Tiefe Faltungsnetzwerke liegen bei Google, Facebook, Apple und anderen Unternehmen im Silicon Valley voll im Trend, Bilder automatisch zu kennzeichnen, Sprache in Text zu übersetzen, Fußgänger in Videos zu erkennen und Tumore in Brustscans zu finden.

Das überwachte Lernen unterscheidet sich vom verstärkten Lernen. Im ersten Fall wird jedes Eingabebild mit einem Etikett gepaart – ein Bild enthält eine Katze; ein anderer nicht. Beim verstärkten Lernen entfaltet sich die Konsequenz einer Aktion in der Spielpunktzahl mit der Zeit – die Aktionen können Vorteile bringen (verbesserte Punktzahlen), aber nur viele Züge später.

Hassabis und sein großes Team (die Natur Das Papier umfasste insgesamt 19 Co-Autoren.) verwendete eine Variante des Bestärkungslernens namens Q-Learning, um als Supervisor für das Deep-Learning-Netzwerk zu fungieren. Die Eingabe in das Netzwerk bestand aus einer verschwommenen Version des farbigen Spielbildschirms, einschließlich der Spielpunktzahl – die gleiche wie bei einem menschlichen Spieler – sowie der Bildschirme, die den letzten drei Zügen zugeordnet waren. Die Ausgabe des Netzwerks war ein Befehl an den Joystick, sich mit oder ohne Aktivierung der roten „Feuer“ -Taste in eine der acht Hauptrichtungen zu bewegen. Ausgehend von einer zufälligen Einstellung seiner Gewichte, der sprichwörtlichen leeren Tafel, fand der Algorithmus heraus, welche Aktionen zu einer Erhöhung der alles entscheidenden Punktzahl führen würden – wenn genau das Paddel den Ball am Boden am wahrscheinlichsten erfolgreich abfing, um einen Ziegelstein zu brechen seine Aufwärtsbahn. Auf diese Weise lernte das Netzwerk und verstärkte durch Wiederholung das Training erfolgreicher Möglichkeiten, Breakout zu spielen, und übertraf einen professionellen menschlichen Spieletester um beeindruckende 1.327 Prozent.

Die dritte kritische Komponente des Algorithmus war die selektive Gedächtniswiedergabe – ähnlich wie im Hippocampus, einer mit dem Gedächtnis assoziierten Gehirnregion. Im Hippocampus treten Aktivitätsmuster von Nervenzellen, die mit einer bestimmten Erfahrung verbunden sind, wie z. B. das Laufen eines Labyrinths, wieder auf, jedoch bei der Wiederholung schneller. Das heißt, der Algorithmus würde zufällig eine bestimmte Spielepisode, einschließlich seiner eigenen Aktionen, auf die er zuvor gestoßen ist, aus seiner Speicherbank abrufen und sich unter Verwendung dieser früheren Erfahrung neu trainieren und seine Bewertungsfunktion entsprechend aktualisieren.

Die Leute bei DeepMind waren nicht zufrieden damit, ihren Algorithmus nur ein Spiel lernen zu lassen. Sie trainierten den gleichen Algorithmus in 49 verschiedenen Atari 2600-Spielen, die alle für Generationen von Teenagern entwickelt wurden. Dazu gehörten Video-Flipper, Stargunner, Roboterpanzer, Straßenläufer, Pong, Space Invaders, Frau Pac-Man, Alien und Montezumas Rache. In allen Fällen wurde der gleiche Algorithmus mit den gleichen Einstellungen verwendet. Lediglich die Ausgabe unterschied sich je nach den spezifischen Anforderungen jedes Spiels. Die Ergebnisse haben alle konkurrierenden Spielalgorithmen aus dem Wasser geworfen. Darüber hinaus erreichte der Algorithmus eine Leistung von 75 Prozent oder mehr als das Niveau, das ein menschlicher professioneller Spieletester in 29 dieser Spiele erreicht hat, manchmal mit einem sehr großen Vorsprung.

Der Algorithmus hatte seine Grenzen. Die Leistung wurde zunehmend schlechter, da Spiele eine immer langfristigere Planung erforderten. Zum Beispiel war die Leistung des Algorithmus in Frau Pac-Man ziemlich düster, weil das Spiel erfordert, dass man beispielsweise wählt, welchen Pfad im Labyrinth man nimmt, um nicht von einem Geist verschlungen zu werden, der noch 10 oder mehr Züge entfernt ist Zukunft.

Das Programm läutet jedoch eine neue Raffinesse in der KI ein. Deep Blue, das IBM-Programm, das 1997 Schachgroßmeister Garry Kasparov besiegte, und Watson, das IBM-System, das Ken Jennings und Brad Rutter in der Quizshow besiegte Gefahrwaren hochspezialisierte Sammlungen von Algorithmen, die sorgfältig auf ihren jeweiligen Problembereich handgefertigt wurden. Das Kennzeichen der neuen Generation von Algorithmen ist, dass sie wie Menschen aus ihren Triumphen und Fehlern lernen. Ausgehend von den rohen Pixeln auf dem Spielbildschirm treten sie schließlich in Side-Scrolling-Shootern, Boxspielen und Autorennen an. Natürlich sind die Welten, in denen sie tätig sind, physisch sehr simpel und befolgen restriktive Regeln, und ihre Handlungen sind stark eingeschränkt.

In diesen Algorithmen gibt es keinen Hinweis auf Empfindungsvermögen. Sie haben keines der Verhaltensweisen, die wir mit Bewusstsein verbinden. Bestehende theoretische Bewusstseinsmodelle würden vorhersagen, dass tiefe Faltungsnetzwerke nicht bewusst sind. Sie sind Zombies, die in der Welt agieren, dies aber ohne Gefühl tun und eine begrenzte Form fremder, kalter Intelligenz zeigen: Ein Algorithmus „nutzt die Schwäche des gefundenen Systems rücksichtslos aus. Das ist alles automatisch “, sagte Hassabis in seinem Vortrag von 2014. Solche Algorithmen, einschließlich solcher, die die selbstfahrenden Autos von Google steuern oder die Geschäfte auf den Finanzmärkten abwickeln, zeigen, dass Intelligenz zum ersten Mal in der Geschichte des Planeten vollständig von der Empfindung, vom Bewusstsein getrennt werden kann.

Sie sind klug in dem Sinne, dass sie lernen können, sich an neue Welten anzupassen, motiviert durch nichts anderes als die Maximierung der kumulativen Belohnung, wie durch die Spielpunktzahl definiert. Ich habe keinen Zweifel daran, dass DeepMind-Designer damit beschäftigt sind, an anspruchsvolleren Lern-Engines zu arbeiten und ihren Algorithmen beizubringen, Ego-Shooter-Spiele wie Doom oder Halo oder Strategiespiele wie StarCraft zu dominieren. Diese Algorithmen werden immer besser in der Lage sein, bestimmte Aufgaben in eng definierten Nischen auszuführen, wie sie in der modernen Welt im Überfluss vorhanden sind. Sie werden weder Kunst schaffen noch schätzen, noch werden sie sich über den wunderschönen Sonnenuntergang wundern.

Ob dies auf lange Sicht gut für die Menschheit ist, bleibt abzuwarten. Der Grund, warum wir die natürliche Welt dominieren, ist nicht, dass wir schneller oder stärker sind, geschweige denn klüger als andere Tiere, sondern dass wir schlauer sind. Vielleicht sind diese Lernalgorithmen die dunklen Wolken am Horizont der Menschheit. Vielleicht sind sie unsere letzte Erfindung.

.

Leave a Reply

Your email address will not be published. Required fields are marked *