Multilingual und Open Source: OpenGPT-X veröffentlicht großes KI-Sprachmodell

26. November 2024

Das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort zum Download bereit: »Teuken-7B« umfasst sieben Milliarden Parameter und wurde von Grund auf mit den 24 Amtssprachen der EU trainiert, unter anderem mithilfe von Expertinnen und Experten des Forschungszentrums Jülich sowie des Supercomputers JUWELS. Akteure aus Forschung und Unternehmen können das kommerziell einsetzbare Open-Source-Modell für ihre eigenen Anwendungen der Künstlichen Intelligenz (KI) nutzen. Damit haben die Partner des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Konsortialprojekts OpenGPT-X unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS ein großes KI-Sprachmodell als frei verwendbares Open-Source-Modell mit europäischer Perspektive auf den Weg gebracht.

Für das Training von Teuken-7B kam unter anderem der Superrechner JUWELS am Jülich Supercomuting Centre (JSC) zum Einsatz. Copyright: Forschungszentrum Jülich / Sascha Kreklau

Teuken-7B ist aktuell eines der wenigen KI-Sprachmodelle, die von Grund auf multilingual entwickelt wurden. Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten und erweist sich über mehrere Sprachen hinweg in seiner Leistung als stabil und zuverlässig. Dies bietet insbesondere internationalen Unternehmen mit mehrsprachigen Kommunikationsbedarfen sowie Produkt- und Serviceangeboten einen Mehrwert. Die Bereitstellung als Open-Source-Modell erlaubt es Unternehmen und Organisationen, eigene angepasste Modelle in realen Anwendungen zu betreiben. Sensible Daten können im Unternehmen verbleiben.

Das OpenGPT-X-Team widmete sich neben dem Modelltraining auch zahlreichen Forschungsfragen, zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können. Dazu wurde im Projekt ein multilingualer »Tokenizer« entwickelt. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort. Der entwickelte Tokenizer führte zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Tokenizern, wie etwa Llama3 oder Mistral. Dies kommt insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen können damit Effizienzsteigerungen erreicht werden.

In die Modellentwicklung sind wichtige Forschungsergebnisse aus dem OpenGPT-X-Projekt eingeflossen, wie beispielsweise Tools und Technologien, um sehr große Datenmengen aufzubereiten, leistungsfähige europäische HPC-Infrastrukturen zu nutzen und ein effizientes Modelltraining durchzuführen. Trainiert wurde Teuken-7B mithilfe des Supercomputers JUWELS am Forschungszentrum Jülich. Dieser Rechner ist aktuell der schnellste seine Art in Deutschland und verfügt über 3744 A100 Grafikprozessoren von NVIDIA für das Training großer KI-Modelle. Die Expertise aus dem OpenGPT-X-Projekt floss zudem in die Beschaffung des ersten europäischen Exascale-Supercomputers JUPITER ein, der derzeit am Forschungszentrum Jülich aufgebaut wird. Dieser bietet ab dem nächsten Jahr noch eine vielfach höhere Leistung, um aufwändige KI-Modelle in Deutschland und Europa zu entwickeln.

Neben den beiden Fraunhofer-Instituten und dem Forschungszentrum Jülich haben der KI-Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet. Die in OpenGPT-X entstandene Technologie bietet den Partnern auch zukünftig die Basis für das Training weiterer eigener Modelle.

>>> JSC News: Erfolgreiches Training auf JUWELS Booster – OpenGPT-X veröffentlicht multilinguales KI-Sprachmodell

Ansprechpartner

Dr. Andreas Herten

Co-Lead of division Novel System Architecture design, head of ATML Accelerating Devices PI in Helmholtz Information Program 1, Topics 1 and 2

  • Institute for Advanced Simulation (IAS)
  • Jülich Supercomputing Centre (JSC)
Gebäude 16.3 /
Raum 228
+49 2461/61-1825
E-Mail

Prof. Dr. Stefan Kesselheim

Head of SDL Applied Machine Learning & AI Consultant team PI in Helmholtz Information Program 1, Topic 1

  • Institute for Advanced Simulation (IAS)
  • Jülich Supercomputing Centre (JSC)
Gebäude 14.14 /
Raum 3023
+49 2461/61-85927
E-Mail

Medienkontakt

Tobias Schlößer

Pressereferent

    Gebäude 15.3 /
    Raum R 3028a
    +49 2461/61-4771
    E-Mail
    Letzte Änderung: 27.11.2024