Das Ende des Überflusses? Der unstillbare Hunger großer KI Sprachmodelle

Modelle der künstlichen Intelligenz können mit unersättlichen Riesen verglichen werden, die kontinuierlich wachsen müssen, um ihre Leistungsfähigkeit zu verbessern. Dies gilt insbesondere für große Sprachmodelle (Large Language Modelle - LLMs) wie ChatGPT, Claude oder LLama. Obwohl nicht alle KI-Modelle groß sein müssen, benötigen diese Sprachmodelle Milliarden von Textzeilen, um effektiv zu funktionieren. OpenAI hat die genauen Quellen, die zur Erstellung ihrer ChatGPT-Modelle herangezogen wurden, nicht explizit bekannt gegeben. Es wird jedoch vermutet, dass die Datenbasis eine umfangreiche Sammlung öffentlich zugänglicher Informationen aus dem Internet, sowie eine Vielzahl von Büchern und Nachrichtenartikeln umfasst. Dies hat schon zu rechtlichen Auseinandersetzungen geführt, wie etwa der Klage der New York Times gegen Openai. Je größer und vielfältiger der Text-Input, desto stärker ist das Modell. Deshalb funktioniert ChatGPT gut bei Themen, zu denen viele Informationen verfügbar sind, und nicht so gut bei speziellen Themen. Darüber hinaus kann ein Großteil des menschlichen Wissens nicht leicht, wenn überhaupt, kodifiziert oder dokumentiert werden, was oft inmitten der Begeisterung für große Sprachmodelle übersehen wird.

Die Leistungsfähigkeit großer Sprachmodelle stößt rasch an Grenzen, da ihr Wissen in vielen Domänen lückenhaft ist. Um diesem Manko zu begegnen, setzt man derzeit auf einen aufwändigen und ressourcenintensiven Ansatz: Die Sammlung immer größerer Datenmengen und der Einsatz immenser Rechenkapazitäten für die Ausbildung immer umfangreicherer Modelle. Doch beide Herangehensweisen werden zunehmend durch knappe Ressourcen ausgebremst.

Die natürlichen Daten-Grenzen

Lange wurde uns versprochen, dass die rasante Datenzunahme Künstliche Intelligenz vorantreiben wird. Nun warnen jedoch Experten, es könnte bald an ausreichenden Datenmengen für leistungsstarke KI-Modelle mangeln. Wie ist das zu erklären? Es gibt mehrere Gründe, weshalb KI-Modelle in Zukunft möglicherweise nicht mehr genügend Daten (oder Rechenkapazität, wie Sam Altman kürzlich anmerkte) zur Verfügung haben könnten. In einer aufschlussreichen Studie mit dem Titel "Werden uns die Daten ausgehen? Eine Analyse der Grenzen der Skalierung von Datensätzen im Maschinenlernen" teilen die Autoren ihre Erkenntnisse und kommen zu folgendem Schluss: "Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning," (Werden uns die Daten ausgehen? Eine Analyse der Grenzen der Skalierung von Datensätzen im Maschinenlernen) teilen die Autoren ihre Einsichten und kommen zu dem Schluss:

“Our analysis indicates that the stock of high-quality language data will be exhausted soon; likely before 2026.” (Unsere Analyse zeigt, dass der Bestand an hochwertigen Sprachdaten bald erschöpft sein wird; wahrscheinlich vor 2026).

Die Menge an Daten in der modernen Welt darf nicht darüber hinwegtäuschen, dass ein Großteil davon für Sprachmodelle irrelevant ist. Sensordaten beispielsweise tragen kaum zur Verbesserung sprachlicher Fähigkeiten bei. Für leistungsstarke Sprachmodelle sind vielmehr hochwertige Textquellen vonnöten. Verdeutlichen lässt sich dies am Vergleich der gesamten wissenschaftlichen Literatur mit flüchtigen Social Media-Inhalten: Während letztere mitunter unterhaltsam, aber oft auch banal und polemisch sind, stellen erstere einen unschätzbaren Wissensschatz dar. Dennoch wurden derartige oberflächliche Inhalte jüngst als wertvoll für den KI-Einsatz angepriesen. Zweifellos mögen im Meer an Unterhaltungen auf Plattformen wie Reddit gelegentlich wertvolle Informationsbrocken verborgen sein. Doch der Drang von KI-Unternehmen, eben solche Inhalte in großem Stil für das Training ihrer Sprachmodelle heranzuziehen, unterstreicht die verzweifelte Suche nach neuen Datenquellen.

Die KI-Branche sieht sich einer weiteren Hürde gegenüber: dem eingeschränkten Zugang zu den riesigen Datenmengen des Deep Webs. Dieser für die Öffentlichkeit nicht direkt zugängliche Bereich des Internets, der durch Logins und firmeninterne Systeme abgeschottet ist, übersteigt das oberflächliche World Wide Web um ein Vielfaches an Umfang.

Als nächsten logischen Schritt haben KI-Unternehmen ihren Sammlungsradius auf Audio-, Video- und Bilddaten aus aller Welt ausgeweitet. Mittels Deep-Learning-Verfahren streben sie danach, die riesigen Mengen verfügbarer Informationen durch die Analyse multimedialer und verbaler Inhalte zu erschließen. Auf den ersten Blick mag dies die Modelle für eine beträchtliche Zeit mit neuen Datenquellen versorgen. Doch ihr schier unstillbarer Wissensdurst dürfte nur vorübergehend gestillt werden. Der Grund: Es gibt zwar einen Überfluss an multimedialen Inhalten, doch sind diese häufig von minderer Qualität. Substantielles Expertenwissen hingegen, das die Leistungsfähigkeit der Modelle nachhaltig steigern könnte, ist ebenfalls eine begrenzte Ressource.

Es existieren unvermeidliche Grenzen dessen, was sich durch textuelle und visuelle Darstellungen vermitteln lässt. Selbst die Speicherung Tausender Dschungelbilder in einem KI-System vermag kein fundamentales Verständnis für die Komplexität der Biodiversität zu schaffen.

Qualität vs. Quantität

Eine weitere Herausforderung ergibt sich aus der Befürchtung, dass der Einsatz großer Sprachmodelle zu einem Qualitätsverfall der Inhalte im Internet führen könnte. Diese Modelle neigen dazu, verallgemeinerte oder uniforme Inhalte zu produzieren, indem sie Informationen aus ihren Wissensbasen lediglich neu anordnen. Ähnliche Effekte lassen sich bei KI-generierten Bildern beobachten, die oft wiederkehrende Muster aufweisen. Wie Sabine Hossenfelder in einem aufschlussreichen Video darlegt, führt eine Überflutung des Internets mit Inhalten von großen Sprachmodellen keineswegs zu einer Verbesserung dieser Systeme, wenn eben diese Inhalte wieder in die Modelle eingespeist werden.

Der Erfolg von KI hängt maßgeblich von kontinuierlichem menschlichem Feedback ab. Die beeindruckenden Fähigkeiten von ChatGPT basieren nicht nur auf dem Algorithmus selbst, sondern auch darauf, dass Menschen das System durch unzählige Iterationen verfeinert und optimiert haben. Durch ständigen Austausch mit menschlichen Nutzern entwickelt und verbessert sich ChatGPT beständig weiter. Ohne die Intervention eines globalen Crowdsourcing-Netzwerks hätte es möglicherweise weitere Fehler oder Mängel aufgewiesen.

Wer hätte voraussehen können, dass KI-Systeme derart rasch an Datengrenzen stoßen? Doch dies ist bei Weitem nicht die einzige Hürde - auch die begrenzten Rechenressourcen stellen eine enorme Herausforderung dar.

Beschränkungen der Rechenressourcen

Bereits im Jahr 2022 schätzte das Forschungsunternehmen Epoch AI, dass für das Training führender KI-Modelle aufgrund des ständig wachsenden Rechenleistungsbedarfs zwischen sechs und zehn Monate benötigt werden. So dürfte auch die Entwicklung von ChatGPT 4 - einem System, das nur wenigen Unternehmen zugänglich ist - mehrere Monate und enorme Rechenressourcen erfordert haben. Folglich hinken diese Modelle der Aktualität stets hinterher und lassen sich nicht in täglichen Abständen aktualisieren. Ironischerweise sehen sich große Sprachmodelle ähnlichen Herausforderungen gegenüber wie die konventionelle Ressourcenextraktion in der physischen Welt: So wie die Rohstoffe unseres Planeten zur Neige gehen und für die Produktion erforderlicher Rechenkapazitäten entscheidend sind, mangelt es auch an ausreichenden Datengrundlagen, um die Komplexitäten der Welt vollständig zu erfassen und Maschinen entsprechend auszubilden.

Im Jahr 2022 schätzte das Forschungsunternehmen Epoch AI, dass es zwischen sechs und zehn Monaten dauerte, um Spitzemodelle aufgrund des ständig steigenden Bedarfs an Rechenleistung zu trainieren. Es dauerte wahrscheinlich mehrere Monate und eine erhebliche Menge an Rechenressourcen, um ChatGPT 4 zu entwickeln. Deshalb sind diese Modelle immer etwas zurück und können nicht täglich aktualisiert werden.

Ironischerweise ähneln die Herausforderungen, mit denen sich große Sprachmodelle (LLMs) konfrontiert sehen, jenen der konventionellen Ressourcengewinnung. Ebenso wie die Knappheit physischer Rohstoffe deren Verfügbarkeit für Produktionszwecke einschränkt, limitiert der Mangel an Daten die Fähigkeit dieser Modelle, die Komplexitäten unserer Welt vollständig zu erfassen und zu interpretieren. Die Frage ist, ob die enormen Anstrengungen eines derart ausgeprägten Extraktivismus die Ergebnisse wirklich rechtfertigen.