Flexible Trainingspläne erleichtern die Einhaltung von Trainingszeitplänen und -budgets: Während Infrastrukturinnovationen dazu beitragen, die Kosten zu senken und es den Kunden ermöglichen, Modelle effizienter zu schulen, müssen die Kunden dennoch die Rechenkapazität planen und verwalten, die erforderlich ist, um ihre Schulungsaufgaben pünktlich und im Rahmen des Budgets zu erledigen. Aus diesem Grund führt AWS flexible Schulungspläne für SageMaker HyperPod ein. Mit wenigen Klicks können Kunden ihr Budget, das gewünschte Fertigstellungsdatum und die maximale Menge an benötigten Rechenressourcen angeben.

SageMaker HyperPod reserviert dann automatisch Kapazitäten, richtet Cluster ein und erstellt Modellschulungsaufträge, so dass Teams wochenlang Zeit für die Modellschulung sparen. Dies verringert die Unsicherheit, mit der Kunden konfrontiert sind, wenn sie versuchen, große Rechencluster zu beschaffen, um Modellentwicklungsaufgaben zu erledigen. In Fällen, in denen der vorgeschlagene Schulungsplan nicht den angegebenen Zeit-, Budget- oder Rechenanforderungen entspricht, schlägt SageMaker HyperPod alternative Pläne vor, wie z. B. die Ausweitung des Datumsbereichs, das Hinzufügen von mehr Rechenleistung oder die Durchführung der Schulung in einer anderen AWS-Region, als nächstbeste Option.

Sobald der Plan genehmigt ist, richtet SageMaker automatisch die Infrastruktur ein und führt die Schulungsaufträge aus. SageMaker verwendet Amazon Elastic Compute Cloud (EC2) Capacity Blocks, um die richtige Menge an beschleunigten Recheninstanzen zu reservieren, die für den rechtzeitigen Abschluss des Schulungsauftrags erforderlich sind. Durch effizientes Anhalten und Wiederaufnehmen von Trainingsaufträgen, je nachdem, wann diese Kapazitätsblöcke verfügbar sind, stellt SageMaker HyperPod sicher, dass Kunden Zugang zu den Rechenressourcen haben, die sie für die rechtzeitige Fertigstellung des Auftrags benötigen, und zwar ohne manuelle Eingriffe.

Hippocratic AI entwickelt sicherheitsorientierte große Sprachmodelle (LLMs) für das Gesundheitswesen. Um mehrere ihrer Modelle zu trainieren, nutzte Hippocratic AI die flexiblen Trainingspläne von SageMaker HyperPod, um Zugang zu beschleunigten Rechenressourcen zu erhalten, die sie benötigten, um ihre Trainingsaufgaben rechtzeitig zu erledigen. Dies half ihnen, die Trainingsgeschwindigkeit ihrer Modelle um das Vierfache zu erhöhen und ihre Lösung effizienter zu skalieren, um Hunderte von Anwendungsfällen unterzubringen.

Die Entwickler und Datenwissenschaftler von OpenBabylon, einem KI-Unternehmen, das LLMs für unterrepräsentierte Sprachen anpasst, nutzen die flexiblen Trainingspläne von SageMaker HyperPod, um ihren Zugang zu GPU-Ressourcen für die Durchführung umfangreicher Experimente zu optimieren. Mit SageMaker HyperPod haben sie 100 groß angelegte Modellexperimente durchgeführt, die es ihnen ermöglichten, ein Modell zu erstellen, das Ergebnisse bei der Übersetzung vom Englischen ins Ukrainische erzielte. Dank SageMaker HyperPod war OpenBabylon in der Lage, diesen Durchbruch rechtzeitig zu erzielen und gleichzeitig die Kosten effektiv zu verwalten.

Task Governance maximiert die Nutzung des Beschleunigers: Unternehmen stellen zunehmend große Mengen an beschleunigter Rechenkapazität für das Modelltraining bereit. Diese Rechenressourcen sind teuer und begrenzt. Daher benötigen Kunden eine Möglichkeit, die Nutzung zu steuern, um sicherzustellen, dass ihre Rechenressourcen vorrangig für die wichtigsten Aufgaben der Modellentwicklung eingesetzt werden, einschließlich der Vermeidung von Verschwendung oder Unterauslastung. Ohne eine angemessene Kontrolle der Priorisierung von Aufgaben und der Ressourcenzuweisung geraten einige Projekte aufgrund von Ressourcenmangel ins Stocken, während bei anderen die Ressourcen nicht voll ausgeschöpft werden.

Dies stellt eine erhebliche Belastung für die Administratoren dar, die die Ressourcenzuweisung ständig neu planen müssen, während die Datenwissenschaftler sich abmühen, Fortschritte zu erzielen. Dies hindert Unternehmen daran, KI-Innovationen schnell auf den Markt zu bringen und führt zu Kostenüberschreitungen. Mit SageMaker HyperPod Task Governance können Kunden die Nutzung des Beschleunigers für Modelltraining, Feinabstimmung und Inferenz maximieren und so die Kosten für die Modellentwicklung um bis zu 40% senken.

Mit ein paar Klicks können Kunden ganz einfach Prioritäten für verschiedene Aufgaben definieren und Grenzen für die Nutzung von Rechenressourcen pro Team oder Projekt festlegen. Sobald der Kunde die Grenzen für die verschiedenen Teams und Projekte festgelegt hat, weist SageMaker HyperPod die entsprechenden Ressourcen zu und verwaltet automatisch die Aufgabenwarteschlange, um sicherzustellen, dass die wichtigste Arbeit priorisiert wird. Wenn ein Kunde zum Beispiel dringend mehr Rechenleistung für eine Inferenzaufgabe benötigt, die einen kundenorientierten Dienst betreibt, aber alle Rechenressourcen belegt sind, gibt SageMaker HyperPod automatisch nicht ausgelastete Rechenressourcen oder solche, die nicht dringenden Aufgaben zugewiesen sind, frei, um sicherzustellen, dass die dringende Inferenzaufgabe die benötigten Ressourcen erhält.

Wenn dies geschieht, hält SageMaker HyperPod automatisch die nicht dringenden Aufgaben an, speichert den Kontrollpunkt, so dass alle abgeschlossenen Arbeiten intakt sind, und nimmt die Aufgabe automatisch vom zuletzt gespeicherten Kontrollpunkt aus wieder auf, sobald mehr Ressourcen verfügbar sind, um sicherzustellen, dass die Kunden ihre Rechenleistung optimal nutzen. Als schnell wachsendes Startup-Unternehmen, das Unternehmen bei der Entwicklung ihrer eigenen generativen KI-Anwendungen unterstützt, muss Articul8 AI seine Rechenumgebung ständig optimieren, um seine Ressourcen so effizient wie möglich zu nutzen. Mit der neuen Task-Governance-Funktion in SageMaker HyperPod konnte das Unternehmen eine deutliche Verbesserung der GPU-Auslastung feststellen, was zu weniger Leerlaufzeiten und einer beschleunigten End-to-End-Modellentwicklung führte.

Die Möglichkeit, Ressourcen automatisch auf Aufgaben mit hoher Priorität zu verlagern, hat die Produktivität des Teams erhöht und es ihm ermöglicht, neue generative KI-Innovationen schneller auf den Markt zu bringen. Beschleunigen Sie die Modellentwicklung und -bereitstellung mit beliebten KI-Apps von AWS-Partnern in SageMakerViele Kunden verwenden neben SageMaker AI auch erstklassige Tools für die Entwicklung generativer KI- und ML-Modelle, um spezielle Aufgaben zu erledigen, z. B. die Verfolgung und Verwaltung von Experimenten, die Bewertung der Modellqualität, die Überwachung der Leistung und die Sicherung einer KI-Anwendung. Die Integration gängiger KI-Anwendungen in die Arbeitsabläufe eines Teams ist jedoch ein zeitaufwändiger, mehrstufiger Prozess.

Dazu gehören die Suche nach der richtigen Lösung, die Durchführung von Sicherheits- und Compliance-Bewertungen, die Überwachung des Datenzugriffs über mehrere Tools hinweg, die Bereitstellung und Verwaltung der erforderlichen Infrastruktur, der Aufbau von Datenintegrationen und die Überprüfung der Einhaltung von Governance-Anforderungen. AWS macht es seinen Kunden jetzt einfacher, die Leistung spezialisierter KI-Apps mit den verwalteten Funktionen und der Sicherheit von Amazon SageMaker zu kombinieren. Diese neue Funktion nimmt Kunden die Reibung und die schwere Arbeit ab, indem sie es einfach macht, erstklassige generative KI- und ML-Entwicklungsanwendungen von führenden Partnern wie Comet, Deepchecks, Fiddler und Lakera Guard direkt in SageMaker zu entdecken, einzusetzen und zu nutzen.