Wie funktionieren Autonomous Agents?
Die Funktionsweise der Autonomous Agents ist erstaunlich einfach: Nutzer:innen definieren zunächst ein Endziel (z. B. "Entwirf einen Plan, um Aquarellmalerei zu erlernen"). Das Programm erstellt anschließend selbst die nötigen Zwischenschritte zum Erreichen dieses Ziels und speichert diese Prompts in einer Datenbank. Beim Abarbeiten kommen kontinuierlich neue Aufgaben hinzu, die ebenfalls gespeichert werden. Das Agent-Programm priorisiert diese To-Do-Liste immer wieder neu.
Statt also jeweils einzelne Prompts menschlicher Nutzer:innen zu verarbeiten, treiben sich Autonomous Agents selbst an.
BabyAGI gehörte zu den ersten Projekten, die Autonomous Agents auf Basis von LLMs konstruierten. Der Name verweist augenzwinkernd auf das Konzept der "Artificial General Intelligence": Die Fähigkeit von Maschinen, Menschen bei jeder beliebigen intellektuellen Aufgabe ebenbürtig oder sogar überlegen zu sein.
Auch wenn BabyAGI noch Welten von dieser hypothetischen Entwicklungsstufe des maschinellen Lernens entfernt ist, könnte es zumindest ein erster, winziger Schritt in diese Richtung sein.
BabyAGI selbst ist nicht viel mehr als ein kurzes Python-Skript – das Gros der Arbeit erledigt das eingesetzte LLM (z. B. GPT-4 oder LLaMA) unter Verwendung der jeweiligen API. Die Grenzen des Möglichen hängen also vom zugrundeliegenden Sprachmodell ab. Hier knüpfen AgentGPT und Godmode an.
Die Entwicklung seit BabyAGI
AgentGPT lässt sich direkt im Browser nutzen und verfügt über eine grafische Benutzeroberfläche. Das macht es zu einem anfängerfreundlichen Einstieg in das Experimentieren mit Autonomous Agents. Es basiert auf AutoGPT und verwendet das GPT-4-Sprachmodell, um Aufgaben zu bearbeiten. Sobald es den Ausgangsprompt erhält, erstellt und priorisiert es fortlaufend Zwischenschritte und arbeitet sie ab, bis es das Endziel erreicht – oder sich selbst in eine Sackgasse manövriert.
Godmode verfolgt einen etwas anderen Ansatz und bittet Nutzer:innen regelmäßig um Feedback. Das ermöglicht einerseits Kurskorrekturen, sollte sich der Autonomous Agent in eine unerwünschte Richtung bewegen. Andererseits ist aus Nutzersicht wieder mehr Input nötig, was im Widerspruch zum eigentlich zentralen Aspekt der Autonomie steht.
AgentGPT und Godmode sind Teil einer wachsenden Liste von Projekten auf GitHub, die auf BabyAGI aufbauen. Darunter sind auch eine Variante für den Gebrauch in Slack (jedes Zwischenziel ist ein eigener Thread), Umsetzungen in anderen Programmiersprachen und ein Plugin, das die Nutzung von BabyAGI direkt in der Oberfläche von ChatGPT ermöglicht.
Simulation mehrerer Autonomous Agents
Wie viele LLM-Projekte sind auch diese Anwendungen experimenteller Natur. Sie werfen jedoch die Frage auf, wie es in Zukunft mit Autonomous Agents weitergehen wird. Ein Paper mit dem Titel “Generative Agents: Interactive Simulacra of Human Behavior” gibt mögliche Antworten.
Das Forschungsteam entwickelte eine virtuelle Umgebung, in der mehrere Autonomous Agents (hier "Generative Agents" genannt) auf Grundlage von GPT-3.5 nebeneinander existierten. Diese wurden in die Lage versetzt, menschliches Verhalten zu simulieren, miteinander ins Gespräch zu kommen, sich an Ereignisse zu erinnern, darüber zu reflektieren und sie wieder in ihre Tätigkeiten einfließen zu lassen. Das Miteinander der 25 Generative Agents wurde über einen Zeitraum von 48 virtuellen Stunden aufgezeichnet und steht Interessierten als interaktive Demo zur Verfügung.
Wer das bunte Treiben beobachtet, stellt sich unweigerlich die Frage, in welchen Bereichen diese Technologie zukünftig Verwendung finden könnte. Die visuelle Umsetzung des Experiments erinnert an Videospiele der 16-Bit-Ära und zeichnet damit schon einen konkreten Anwendungsbereich vor: Könnten Rollenspiel-Abenteuer schon bald mit nahezu menschlichen NPCs auftrumpfen?
Die Autor:innen der Arbeit selbst sehen jedenfalls Potenzial darin, Autonomous Agents in der Forschung zu sozialen Systemen und Theorien einzusetzen. So ist als Experiment etwa ein Online-Forum denkbar, dessen die User allesamt simuliert sind und einerseits auf externen Input reagieren, sich aber andererseits auch untereinander austauschen.
Bei alledem sollten wir jedoch nicht vergessen, dass wir noch immer nach Lösungen für die grundlegenden Schwächen von LLMs suchen. KI-Bias und halluzinierende Sprachmodelle sind heute ein genauso großes Problem wie vor einigen Monaten. Nur wenige Projekte haben sich bisher explizit mit diesen Mängeln auseinandergesetzt.
Zum Glück dominieren inzwischen nicht mehr nur wenige Tech-Riesen das Feld der künstlichen Intelligenz. Stattdessen setzt sich zunehmend der Open-Source-Ansatz durch. Nun, da diese Technologie mehr Menschen als je zuvor zur Verfügung steht, werden wir auf neue und kreative Lösungen nicht lange warten müssen.
Möchten Sie über die neuesten Entwicklungen in den Bereichen maschinelles Lernen und Computer Vision auf dem Laufenden bleiben? Dann wartet unser Blog mit mehr von diesen Themen!