Snowflake Inc. kündigte Snowflake Arctic an, ein Large Language Model (LLM), das als das offenste LLM für Unternehmen auf dem Markt gilt. Mit seiner einzigartigen Mixture-of-Experts (MoE)-Architektur liefert Arctic erstklassige Intelligenz mit unvergleichlicher Effizienz in großem Maßstab. Sie ist für komplexe Unternehmens-Workloads optimiert und übertrifft mehrere Branchen-Benchmarks in den Bereichen SQL-Codegenerierung, Befehlsverfolgung und mehr.

Darüber hinaus veröffentlicht Snowflake die Gewichte von Arctic unter einer Apache 2.0-Lizenz und die Details der Forschung, die zum Training geführt hat, und setzt damit einen neuen Offenheitsstandard für KI-Technologie in Unternehmen. Das Snowflake Arctic LLM ist Teil der Snowflake Arctic Modellfamilie, einer Familie von Modellen, die von Snowflake entwickelt wurde und die besten praktischen Modelle für die Texterkennung für Retrieval-Anwendungsfälle umfasst. Das KI-Forschungsteam von Snowflake, das sich aus einer einzigartigen Zusammensetzung von Forschern und Systemingenieuren zusammensetzt, benötigte für die Entwicklung von Arctic weniger als drei Monate und gab nur etwa ein Achtel der Trainingskosten ähnlicher Modelle aus.

Snowflake, das mit Amazon Elastic Compute Cloud (Amazon EC2) P5-Instanzen trainiert wurde, setzt neue Maßstäbe dafür, wie schnell offene, unternehmenstaugliche Modelle trainiert werden können, und ermöglicht es Benutzern, kosteneffiziente benutzerdefinierte Modelle in großem Maßstab zu erstellen. Als Teil dieser strategischen Bemühungen verbessert das differenzierte MoE-Design von Arctic sowohl die Trainingssysteme als auch die Modellleistung mit einer sorgfältig konzipierten Datenzusammensetzung, die auf die Bedürfnisse von Unternehmen ausgerichtet ist. Arctic liefert außerdem qualitativ hochwertige Ergebnisse, indem es 17 von 480 Milliarden Parametern gleichzeitig aktiviert, um Qualität mit beispielloser Token-Effizienz zu erreichen.

Ein Durchbruch in Sachen Effizienz: Arctic aktiviert während der Inferenz oder des Trainings etwa 50% weniger Parameter als DBRX und 75% weniger als Llama 3 70B. Darüber hinaus übertrifft es führende offene Modelle wie DBRX, Mixtral-8x7B und andere bei der Kodierung (HumanEval+, MBPP+) und der SQL-Generierung (Spider), während es gleichzeitig eine führende Leistung beim allgemeinen Sprachverständnis (MMLU) bietet.