IBM hat bahnbrechende Forschungsergebnisse im Bereich der optischen Technologie vorgestellt, die die Art und Weise, wie Rechenzentren generative KI-Modelle trainieren und ausführen, drastisch verbessern könnten. Forscher haben einen neuen Prozess für Co-Packaged Optics (CPO), die nächste Generation der Optiktechnologie, entwickelt, um die Konnektivität innerhalb von Rechenzentren mit Lichtgeschwindigkeit durch Optik zu ermöglichen und so die bestehenden elektrischen Leitungen mit kurzer Reichweite zu ergänzen. Mit der Entwicklung und dem Zusammenbau des ersten öffentlich bekannt gegebenen erfolgreichen polymeren Lichtwellenleiters (PWG) für diese Technologie haben IBM Forscher gezeigt, wie CPO die Art und Weise, wie die Computerindustrie Daten mit hoher Bandbreite zwischen Chips, Leiterplatten und Servern überträgt, neu definieren wird.
Die Glasfasertechnologie überträgt Daten mit hoher Geschwindigkeit über große Entfernungen und bewältigt fast den gesamten weltweiten Handels- und Kommunikationsverkehr mit Licht statt mit Strom. Obwohl Rechenzentren Glasfaserkabel für ihre externen Kommunikationsnetzwerke verwenden, laufen die Kommunikationsleitungen in den Racks der Rechenzentren immer noch überwiegend über kupferbasierte elektrische Leitungen. Diese Drähte verbinden GPU-Beschleuniger, die mehr als die Hälfte ihrer Zeit damit verbringen können, auf Daten von anderen Geräten in einem großen, verteilten Trainingsprozess zu warten, was erhebliche Kosten und Energie verursachen kann.
IBM-Forscher haben einen Weg aufgezeigt, die Geschwindigkeit und Kapazität der Optik in die Rechenzentren zu bringen. In einem technischen Papier stellt IBM ein neues CPO-Prototypmodul vor, das optische Hochgeschwindigkeitsverbindungen ermöglichen kann. Diese Technologie könnte die Bandbreite der Kommunikation in Rechenzentren deutlich erhöhen, die Ausfallzeiten von GPUs minimieren und gleichzeitig die KI-Verarbeitung drastisch beschleunigen.
Diese Forschungsinnovation würde, wie beschrieben, Folgendes ermöglichen: Geringere Kosten für die Skalierung generativer KI durch eine mehr als 5-fache Senkung des Energieverbrauchs im Vergleich zu elektrischen Verbindungen der mittleren Leistungsklasse1, während die Länge der Verbindungskabel im Rechenzentrum von einem auf Hunderte von Metern verlängert wird. Schnelleres Training von KI-Modellen, so dass Entwickler ein Large Language Model (LLM) mit CPO bis zu fünfmal schneller trainieren können als mit herkömmlichen Stromkabeln. CPO könnte die Zeit, die für das Training eines Standard-LLLM benötigt wird, von drei Monaten auf drei Wochen reduzieren, wobei die Leistungssteigerung durch die Verwendung größerer Modelle und mehr GPUs noch zunimmt.
Eine drastische Steigerung der Energieeffizienz von Rechenzentren, die pro trainiertem KI-Modell das Energieäquivalent des jährlichen Stromverbrauchs von 5.000 US-Haushalten einspart. In dem Papier heißt es außerdem, dass diese CPO-Module mit PWG im 50-Mikrometer-Raster die ersten sind, die alle für die Herstellung erforderlichen Stresstests bestanden haben. Die Komponenten werden in Umgebungen mit hoher Luftfeuchtigkeit und bei Temperaturen von -40°C bis 125°C getestet. Außerdem werden mechanische Haltbarkeitstests durchgeführt, um zu bestätigen, dass sich die optischen Verbindungen verbiegen können, ohne zu brechen oder Daten zu verlieren.
Außerdem haben die Forscher die PWG-Technologie bis zu einem Abstand von 18 Mikrometern demonstriert. Die Stapelung von vier PWGs würde bei diesem Raster bis zu 128 Kanäle für die Konnektivität ermöglichen. IBMs anhaltende Führungsrolle in der Halbleiter-F&E CPO-Technologie ermöglicht einen neuen Weg, um die steigenden Leistungsanforderungen der KI zu erfüllen, mit dem Potenzial, die Kommunikation außerhalb des Moduls von elektrisch auf optisch zu ersetzen.
Die CPO-Technologie setzt die führende Rolle von IBM im Bereich der Halbleiterinnovation fort, zu der auch die erste 2-nm-Chiptechnologie, die erste Implementierung von 7-nm- und 5-nm-Prozesstechnologien, Nanosheet-Transistoren, vertikale Transistoren (VTFET), Single-Cell-DRAM und chemisch verstärkte Photoresists gehören. Die Forscher schlossen die Design-, Modellierungs- und Simulationsarbeiten für CPO in Albany, New York, ab, das kürzlich vom US-Handelsministerium als Standort für Amerikas erstes National Semiconductor Technology Center (NSTC), den NSTC EUV Accelerator, ausgewählt wurde. Die Forscher montierten Prototypen und testeten Module in der IBM-Anlage in Bromont, Quebec, einem der größten Standorte für Chipmontage und -tests in Nordamerika.
Die IBM-Fabrik in Bromont ist Teil des Northeast Semiconductor Corridor zwischen den Vereinigten Staaten und Kanada und ist seit Jahrzehnten weltweit führend im Chip Packaging.