Multilingual und Open Source: KI-Sprachmodell OpenGPT-X
2024-12-05
Das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort auf Hugging Face zum Download bereit. Teuken-7B wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Mrd. Parameter. Forscher können ebenso wie Unternehmen das kommerziell einsetzbare Open-Source-Modell für ihre eigenen Anwendungen der Künstlichen Intelligenz (KI) nutzen. Damit haben die Partner des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Konsortialprojekts OpenGPT-X unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS ein großes KI-Sprachmodell als frei verwendbares Open-Source-Modell als Alternative zu den kommerziellen KI-Lösungen wie Chat-GPT mit europäischer Perspektive auf den Weg gebracht.
Das OpenGPT-X-Team widmete sich neben dem Modelltraining auch zahlreichen Forschungsfragen, zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können. Dazu wurde im Projekt ein multilingualer Tokenizer entwickelt. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort. Der entwickelte Tokenizer führte zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Tokenizern, wie etwa Llama3 oder Mistral. Dies kommt insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen können damit Effizienzsteigerungen erreicht werden.
Ausführliche technische Hintergrundinformationen und Benchmarks sowie eine Übersicht aller Forschungsergebnisse des Projekts OpenGPT-X finden sich auf der Projektwebseite https://opengpt-x.de/en/models/teuken-7b.
DL2MCD nach PI