Das Inspur Artificial Intelligence Research Institute hat das Sprachmodell Yuan 1.0 vorgestellt: Das größte Sprachmodell der Welt mit 245,7 Milliarden Parametern und 5 TB an Datensätzen. Yuan 1.0 zeichnet sich durch eine beeindruckende Leistung sowohl beim Zero-Shot- als auch beim Little-Shot-Learning aus. Bemerkenswert ist außerdem seine Fähigkeit, Sprachinhalte zu generieren, die oft nicht von menschlich generierten Inhalten zu unterscheiden sind. Ein wissenschaftliches Paper auf arXiv beschreibt die Entwicklung und Optimierung von Yuan 1.0 und die damit verbundenen Testergebnisse.

Inspur hat Yuan 1.0 von Anfang an als chinesisches Sprachmodell entwickelt, was einen einzigartigen Entwicklungsprozess im Vergleich zum Englischen erforderte. Dazu musste Inspur chinesisch-spezifische Herausforderungen bewältigen, wie die Bildung von Token in Sätzen ohne Leerzeichen und das Fehlen eines qualitativ hochwertigen chinesischen Sprachkorpus als Grundlage.

Um die benötigte Rechenleistung zu gewährleisten, wurde ein umfangreiches, dezentrales Lernsystem in die Designarchitektur von Yuan 1.0 integriert. Das System wurde dabei auf 2128 GPUs verteilt.

Mit diesem Lernsystem gewann Yuan 1.0 sowohl in ZeroCLUE als auch in FewClue für den Chinese Language Understanding Evaluation Benchmark (CLUE) den ersten Platz. In ZeroCLUE erzielte Yuan 1.0 eine um 18,3 Prozent höhere Punktzahl als der bisherige Rekord und belegte den ersten Platz bei sechs Aufgaben: Klassifizierung von Themen aus der wissenschaftlichen Literatur sowie von Nachrichten, Produktklassifizierung, natürlichsprachliche Inferenz, Leseverständnis von Redewendungen und Substantiv-Pronomen-Beziehungen. Bei FewCLUE belegte Yuan 1.0 den ersten Platz bei 4 Aufgaben: Klassifizierung von Themen aus der wissenschaftlichen Literatur, Produktklassifizierung, Erkennung von Abstracts und Schlüsselwörtern aus der wissenschaftlichen Literatur und Substantiv-Pronomen-Beziehungen. Vor allem bei der Aufgabe zum Leseverständnis von Redewendungen übertraf Yuan 1.0 menschliche Fähigkeiten.

Yuan 1.0 ist äußerst leistungsfähig bei der Generierung natürlicher Sprache (Natural Language Generating, NLG). Es kann schriftliche Inhalte generieren, die den Turing-Test bestehen. Menschliche Teilnehmer waren nur in weniger als 50 Prozent der Fälle in der Lage, von Yuan 1.0 erstellte Dialoge, Romanfortsetzungen, Nachrichtenartikel, Gedichte und Couplets von den von Menschen erstellten Inhalten zu unterscheiden.

Die herausragende Leistung und die hochentwickelten NLG-Funktionen von Yuan 1.0 sind das Ergebnis zahlreicher Optimierungen in drei wichtigen Bereichen: Modellarchitektur, Ergebniskalibrierung und Datensatzerstellung.

Modellarchitektur

Bei der Modellarchitektur kombiniert das umfangreiche dezentrale Lernsystem in Yuan 1.0 drei verschiedene Strategien: Tensor-, Pipeline- und Datenparallelität. Mit dem Ziel, die Effektivität bei der Nutzung von Rechenressourcen zu maximieren, berücksichtigt das Modell die Parameter, die optimale Ergebnisse liefern und priorisiert die Rechenressourcen dafür. Diese optimierte Architektur ermöglicht die Berechnung von 245,7 Milliarden Parametern mit einer Rechenleistung von 4095 PetaFLOPS bei einem Lernverlust von nur 1,64.

Ergebniskalibrierung

Inspur AI Research hat festgestellt, dass es beim kontextbezogenen Lernen eine Verzerrung in Richtung Vorlagensätze und -bezeichnungen gibt. Diese Verzerrung rührt hauptsächlich von Verteilungsungleichgewichten im Datensatz zwischen Klassen, Beispielen mit einer bestimmten Reihenfolge und Bezeichnungen mit unterschiedlicher Häufigkeit im Lernkorpus her. Um die Auswirkungen der Verzerrung zu minimieren, hat Inspur eine zweistufige Kalibrierungsmethode für das kontextbezogene Lernen entwickelt: eine Kalibrierung der Wahrscheinlichkeitsberechnung und eine Erweiterung der Labels. Dies führt zu einer sichtbaren Verbesserung der Lerngenauigkeit im Laufe der Zeit.

Datensatzerstellung

Inspur entwickelte ein Massive Data Filtering System (MDFS), das auf Spark aufbaut. Ziel ist es, Rohdaten zu bereinigen und zu filtern sowie ein BERT-basiertes Modell zu simulieren, um qualitativ hochwertige Textproben auszuwählen. MDFS besteht aus drei Stufen: Datensammlung, Verlaufsfilterung und Feinabstimmung. Das MDFS erstellte den von Yuan 1.0 verwendeten 5-TB-Korpus durch Filtern von 850 TB Rohdaten aus dem Internet. Dies wurde erreicht, indem das MDFS auf einem Hochleistungscluster mit 36 Knoten ausgeführt wurde. Der daraus resultierende Korpus ist der größte qualitativ hochwertige chinesische Korpus der Welt.

Das vollständige Papier finden Sie unter https://arxiv.org/abs/2110.04725.

Über Inspur AI Research

Das Inspur Artificial Intelligence Research Institute fördert Innovationen im Bereich der KI-Spitzentechnologie durch Forschung in den Bereichen Grundlagenforschung, zukunftsweisende Technologie und angewandte Technologie. Inspur AI Research hat zahlreiche Erfolge bei der Erforschung kognitiver Intelligenz und der Förderung der Anwendung von KI in der Industrie erzielt, einschließlich Innovationen in Hardware und einem Durchbruch bei Software für KI-Anwendungen.