Sie hatten ein heikles Problem: Trotz hochkarätiger Investitionen in die KI-Forschung hatte der Social-Media-Gigant nur langsam teure KI-freundliche Hardware- und Softwaresysteme für sein Hauptgeschäft eingeführt, was seine Fähigkeit, mit Innovationen in großem Maßstab Schritt zu halten, behinderte, obwohl es sich zunehmend auf KI verließ, um sein Wachstum zu unterstützen, so das Memo, Unternehmenserklärungen und Interviews mit 12 Personen, die mit den Veränderungen vertraut waren und die unter der Bedingung der Anonymität über interne Unternehmensangelegenheiten sprachen.

"Wir haben eine erhebliche Lücke in unseren Werkzeugen, Arbeitsabläufen und Prozessen, wenn es um die Entwicklung für KI geht. Wir müssen hier stark investieren", heißt es in dem Memo des neuen Infrastrukturchefs Santosh Janardhan, das im September auf dem internen Message Board von Meta veröffentlicht wurde und über das jetzt zum ersten Mal berichtet wird.

Um die Arbeit mit KI zu unterstützen, müsste Meta "unser physisches Infrastrukturdesign, unsere Softwaresysteme und unseren Ansatz zur Bereitstellung einer stabilen Plattform grundlegend ändern", heißt es weiter.

Seit mehr als einem Jahr arbeitet Meta an einem umfangreichen Projekt, um seine KI-Infrastruktur auf Vordermann zu bringen. Während das Unternehmen öffentlich eingeräumt hat, dass es bei den KI-Hardwaretrends "ein wenig hinterherhinkt", wurden Details der Überholung - einschließlich Kapazitätsengpässen, Führungswechseln und einem verworfenen KI-Chip-Projekt - bisher nicht bekannt gegeben.

Auf die Mitteilung und die Umstrukturierung angesprochen, sagte Jon Carvill, Sprecher von Meta, dass das Unternehmen "eine nachgewiesene Erfolgsbilanz bei der Entwicklung und dem Einsatz von hochmoderner Infrastruktur in großem Maßstab hat, kombiniert mit tiefem Fachwissen in der KI-Forschung und -Technik."

"Wir sind zuversichtlich, dass wir die Fähigkeiten unserer Infrastruktur weiter ausbauen können, um unsere kurz- und langfristigen Anforderungen zu erfüllen, während wir neue KI-gestützte Erfahrungen in unsere Familie von Apps und Verbraucherprodukten einbringen", sagte Carvill. Er lehnte es ab, zu kommentieren, ob Meta seinen KI-Chip aufgegeben hat.

Janardhan und andere Führungskräfte haben Anfragen für Interviews, die über das Unternehmen gestellt wurden, nicht beantwortet.

Die Umstrukturierung hat die Investitionsausgaben von Meta laut Unternehmensangaben um etwa 4 Milliarden Dollar pro Quartal in die Höhe getrieben - fast das Doppelte der Ausgaben ab 2021 - und das Unternehmen dazu veranlasst, den geplanten Bau von Rechenzentren an vier Standorten zu unterbrechen oder zu streichen.

Grafik: Metas Investitionsschub - https://www.reuters.com/graphics/METAPLATFORMS-ARTIFICIALINTELLIGENCE/dwvkdldgkpm/chart.png

Diese Investitionen fielen in eine Zeit großer finanzieller Engpässe für Meta, das seit November Mitarbeiter in einem Ausmaß entlässt, wie es seit der Dotcom-Pleite nicht mehr der Fall war.

In der Zwischenzeit hat sich ChatGPT von OpenAI, das von Microsoft unterstützt wird, nach seinem Debüt am 30. November zur am schnellsten wachsenden Verbraucheranwendung in der Geschichte entwickelt und ein Wettrüsten unter den Tech-Giganten ausgelöst, die Produkte mit so genannter generativer KI auf den Markt bringen, die nicht nur wie andere KI Muster in Daten erkennt, sondern als Reaktion auf Aufforderungen menschenähnliche schriftliche und visuelle Inhalte erzeugt.

Generative KI verschlingt Unmengen von Rechenleistung, was die Dringlichkeit des Kapazitätswettlaufs bei Meta noch verstärkt, so fünf der Quellen.

ZURÜCKGEFALLEN

Eine der Hauptursachen für die Probleme, so die fünf Quellen, liegt darin, dass Meta die Grafikprozessoreinheit (GPU) erst spät für die KI-Arbeit genutzt hat.

GPU-Chips eignen sich besonders gut für die Verarbeitung von künstlicher Intelligenz, da sie eine große Anzahl von Aufgaben gleichzeitig ausführen können und so die Zeit reduzieren, die für die Verarbeitung von Milliarden von Daten benötigt wird.

Allerdings sind GPUs auch teurer als andere Chips, da der Chiphersteller Nvidia Corp. 80% des Marktes kontrolliert und bei der begleitenden Software eine beherrschende Stellung einnimmt, so die Quellen.

Nvidia hat auf die Bitte um einen Kommentar für diese Geschichte nicht reagiert.

Stattdessen hat Meta bis zum letzten Jahr KI-Workloads größtenteils mit der Flotte von Standard-CPUs (Central Processing Units) des Unternehmens ausgeführt, dem Arbeitspferd der Computerwelt, das seit Jahrzehnten Rechenzentren füllt, aber KI-Arbeiten schlecht erledigt.

Zwei dieser Quellen zufolge hat das Unternehmen auch damit begonnen, einen eigenen Chip zu verwenden, den es intern für die Inferenz entwickelt hat. Dabei handelt es sich um einen KI-Prozess, bei dem Algorithmen, die auf großen Datenmengen trainiert wurden, Urteile fällen und Antworten auf Aufforderungen generieren.

Bis 2021 erwies sich dieser zweigleisige Ansatz als langsamer und weniger effizient als ein Ansatz, der sich auf GPUs stützt, die außerdem flexibler bei der Ausführung verschiedener Arten von Modellen sind als Metas Chip, so die beiden Personen.

Meta lehnte einen Kommentar zur Leistung seines KI-Chips ab.

Als Zuckerberg das Unternehmen auf das Metaverse ausrichtete - eine Reihe digitaler Welten, die durch Augmented und Virtual Reality ermöglicht werden - verlangsamte seine Kapazitätsknappheit die Fähigkeit, KI einzusetzen, um auf Bedrohungen zu reagieren, wie den Aufstieg des Social-Media-Konkurrenten TikTok und die von Apple veranlassten Änderungen beim Anzeigenschutz, sagten vier der Quellen.

Die Stolpersteine erregten die Aufmerksamkeit des ehemaligen Meta-Vorstandsmitglieds Peter Thiel, der Anfang 2022 ohne Erklärung zurücktrat.

In einer Vorstandssitzung vor seinem Ausscheiden sagte Thiel zu Zuckerberg und seinen Führungskräften, dass sie das Kerngeschäft von Meta im Bereich der sozialen Medien zu sehr vernachlässigten und sich zu sehr auf das Metaverse konzentrierten, was das Unternehmen seiner Meinung nach anfällig für die Herausforderung durch TikTok mache, so zwei mit dem Austausch vertraute Quellen.

Meta lehnte es ab, sich zu dem Gespräch zu äußern.

CATCH-UP

Nachdem Meta die für 2022 geplante groß angelegte Einführung eines eigenen Inferenzchips gestoppt hatte, änderte die Unternehmensleitung ihren Kurs und bestellte in diesem Jahr Nvidia-GPUs im Wert von Milliarden von Dollar, so eine Quelle.

Meta lehnte es ab, die Bestellung zu kommentieren.

Zu diesem Zeitpunkt lag Meta bereits einige Schritte hinter anderen Unternehmen wie Google zurück, das 2015 mit dem Einsatz seiner eigenen, speziell angefertigten Version von Grafikprozessoren, der TPU, begonnen hatte.

Im Frühjahr begannen die Führungskräfte mit der Umstrukturierung der KI-Abteilungen von Meta und ernannten dabei zwei neue technische Leiter, darunter Janardhan, den Verfasser des Memos vom September.

Mehr als ein Dutzend Führungskräfte verließen Meta während des monatelangen Umbruchs, wie aus ihren LinkedIn-Profilen und einer mit den Abgängen vertrauten Quelle hervorgeht - ein fast vollständiger Wechsel in der Führung der KI-Infrastruktur.

Als Nächstes begann Meta mit der Umrüstung seiner Rechenzentren, um die neuen GPUs unterzubringen, die mehr Strom verbrauchen und mehr Wärme produzieren als CPUs und die eng aneinander gereiht werden müssen, mit speziellen Netzwerken zwischen ihnen.

Grafik: Meta's U.S. Rechenzentrum Status - https://www.reuters.com/graphics/METAPLATFORMS-ARTIFICIALINTELLIGENCE/mopakdkmzpa/chart.png

Die Einrichtungen benötigten die 24- bis 32-fache Netzwerkkapazität und neue Flüssigkeitskühlsysteme, um die Wärme der Cluster zu bewältigen, so dass sie "völlig neu konzipiert" werden mussten, heißt es in Janardhans Memo und in vier Quellen, die mit dem Projekt vertraut sind, dessen Einzelheiten bisher nicht bekannt gegeben wurden.

Als die Arbeit begann, machte Meta interne Pläne, um mit der Entwicklung eines neuen und ehrgeizigeren internen Chips zu beginnen, der wie ein Grafikprozessor in der Lage wäre, sowohl KI-Modelle zu trainieren als auch Inferenzen durchzuführen. Das Projekt, über das bisher noch nicht berichtet wurde, soll etwa 2025 abgeschlossen sein, so zwei Quellen.

Carvill, der Sprecher von Meta, sagte, dass der Bau von Rechenzentren, der während der Umstellung auf die neuen Designs pausiert wurde, später in diesem Jahr wieder aufgenommen wird. Zu dem Chip-Projekt wollte er sich nicht äußern.

TRADE-OFFS

Während Meta seine GPU-Kapazitäten ausbaut, hat das Unternehmen bisher wenig vorzuweisen, da Konkurrenten wie Microsoft und Google die öffentliche Markteinführung von kommerziellen generativen KI-Produkten vorantreiben.

Finanzchefin Susan Li räumte im Februar ein, dass Meta nicht viel von seiner derzeitigen Rechenleistung für generative Arbeit einsetzt. Sie sagte, dass "im Grunde unsere gesamte KI-Kapazität in Anzeigen, Feeds und Reels fließt", sein TikTok-ähnliches Kurzvideoformat, das bei jüngeren Nutzern beliebt ist.

Vier der Quellen zufolge hat Meta die Entwicklung generativer KI-Produkte erst nach dem Start von ChatGPT im November in den Vordergrund gestellt. Obwohl das Forschungslabor FAIR (Facebook AI Research) seit Ende 2021 Prototypen der Technologie veröffentlicht hat, habe sich das Unternehmen nicht darauf konzentriert, seine viel beachtete Forschung in Produkte umzuwandeln, sagten sie.

Mit dem steigenden Interesse der Investoren ändert sich das. Zuckerberg kündigte im Februar ein neues hochrangiges Team für generative KI an, das, wie er sagte, die Arbeit des Unternehmens in diesem Bereich "ankurbeln" werde.

Chief Technology Officer Andrew Bosworth sagte diesen Monat ebenfalls, dass generative KI der Bereich sei, in den er und Zuckerberg die meiste Zeit investieren, und prognostizierte, dass Meta noch in diesem Jahr ein Produkt herausbringen werde.

Zwei Personen, die mit dem neuen Team vertraut sind, sagten, die Arbeit befinde sich noch in der Anfangsphase und konzentriere sich auf den Aufbau eines Grundmodells, eines Kernprogramms, das später fein abgestimmt und für verschiedene Produkte angepasst werden kann.

Carvill, der Sprecher von Meta, sagte, dass das Unternehmen seit mehr als einem Jahr in verschiedenen Teams an generativen KI-Produkten arbeitet. Er bestätigte, dass sich die Arbeit in den Monaten seit der Ankunft von ChatGPT beschleunigt hat.