banner
Heim / Nachricht / Wie die schwedische Nationalbibliothek KI nutzte, um jahrhundertelange Sprachdaten zu erschließen
Nachricht

Wie die schwedische Nationalbibliothek KI nutzte, um jahrhundertelange Sprachdaten zu erschließen

May 10, 2023May 10, 2023

Von Manuskripten aus der Wikingerzeit bis hin zu Sendungen aus den 1970er-Jahren hilft KI bei der Digitalisierung von mehr als 18 Millionen wichtigen Objekten der schwedischen Geschichte

Die schwedische Nationalbibliothek – Kungliga biblioteket – ist dafür verantwortlich, die gedruckten und elektronischen historischen Materialien des Landes zu sammeln und zu bewahren sowie sie der Öffentlichkeit und Forschern zugänglich zu machen.

Was würde ein Stopp der KI-Entwicklung tatsächlich bewirken?

Die Sammlungen umfassen mehr als 18 Millionen Objekte, darunter Bücher, Zeitungen, Zeitschriften, Karten, Fotos und Audioaufnahmen, und reichen mehr als tausend Jahre zurück.

Um diese Sammlungen für Forscher und die Öffentlichkeit zugänglicher zu machen, nutzte das Unternehmen im Rahmen einer umfassenderen Modernisierungsstrategie das leistungsstarke Potenzial der künstlichen Intelligenz (KI).

Während KI oft in einem eher zukunftsorientierten Rahmen diskutiert wird, nutzen viele Organisationen KI, um Einblicke in unsere Vergangenheit zu gewinnen – darunter auch die schwedische Nationalbibliothek. Die Sammlungen der Bibliothek sind umfangreich und vielfältig und wachsen ständig. Eine der größten Herausforderungen bestand darin, die schiere Menge an Material zu verwalten, die es verwaltet.

„Die ältesten Manuskripte, die wir haben, stammen etwa aus der Wikingerzeit“, sagt Love Börjeson, Direktorin von KBLab, dem Datenlabor der Kungliga biblioteket. „Wir haben auch sehr große isländische Sammlungen und sehr große lateinische Sammlungen.“

Die Bibliothek erhält jedes Jahr Millionen neuer Exemplare und es war schwierig, Schritt zu halten. Eine weitere Herausforderung bestand darin, die Sammlungen für Forscher leichter auffindbar zu machen, da die schiere Tiefe der erhaltenen Materialien das Durchsuchen erschwerte.

Börjeson leitet KBLab seit 2019 und ist seit 2021 der Daten- und Infrastrukturleiter von AI Sweden für angewandte Sprachtechnologie. Er arbeitet mit groß angelegten KI-Modellen in High Performance Computing (HPC)-Umgebungen und verfügt über einen Bildungshintergrund in Computational Social Science bei Stamford.

Die Automatisierung der mit der Verwaltung der Sammlungen verbundenen Aufgaben wie Katalogisierung, Erfassung und Aufbewahrung hatte Priorität. Die Bibliothek hoffte auch, die Auffindbarkeit dieser Sammlungen zu verbessern. Nachdem die Bibliothek KI eingeführt hatte, musste sie auch mit den neuesten Forschungsergebnissen und Entwicklungen auf diesem Gebiet Schritt halten und sicherstellen, dass sie die neuesten Tools und Techniken nutzte, um an der Spitze zu bleiben.

Die Bibliothek leitete einen Modernisierungsprozess ein, der die Implementierung einer mehrschichtigen Computerinfrastruktur beinhaltete. Dazu gehörten neue Laptops, Workstations, Server und Supercomputer.

Die schwedische Nationalbibliothek digitalisiert Zeitungen ab dem 17. Jahrhundert sowie Radio- und Fernsehsendungen ab 1979 und elektronische Pflichtexemplare seit 2005.

Es wurde auch an der Digitalisierung jahrhundertelanger Sprachdaten gearbeitet, beginnend mit einem Transformatormodell im Jahr 2019, erkannte jedoch schnell, dass ein leistungsfähigeres System erforderlich war.

Sie installierten in den Jahren 2020 und 2021 zwei vom schwedischen Anbieter AddPro erworbene Nvidia DGX-Systeme für die lokale KI-Entwicklung, die sie auf noch größere Läufe auf GPU-basierten Supercomputern in der EU vorbereiten würden.

Die Bibliothek nutzt Nvidia NeMo Megatron, ein PyTorch-Framework zum Trainieren großer Sprachmodelle (LLMs), sowie KI-Tools zum Transkribieren von Audio in Text. Über diese Plattformen können Rechercheure gezielt nach Radiosendungen suchen.

Historiker, Archäologen, Musiker und Datenwissenschaftler setzen KI ein, um historische Momente neu darzustellen. Wie so viele Geschichten aus der Entwicklung des modernen Computings basiert der Erfolg mit KI auf den Werten Zusammenarbeit, Gelegenheit und Experimentieren.

Mehr lesen

Das Team entwickelt außerdem Modelle zur Textgenerierung und hofft, mithilfe von KI Videos verarbeiten und automatische Beschreibungen generieren zu können. Die Bibliothek hat außerdem mit der Universität Göteborg zusammengearbeitet, um unter Verwendung der Labormodelle nachgelagerte Apps für die Sprachforschung zu entwickeln.

Eine der bedeutendsten Errungenschaften der Bibliothek ist ein KI-basiertes System namens Swedish Language Models (SweLL), das eingesetzt wurde, um die Herausforderung der Digitalisierung und Erschließung jahrhundertelanger Sprachdaten zu bewältigen. SweLL nutzt maschinelle Lernalgorithmen, um schwedische Texte zu analysieren, Sprachmuster und Syntax zu lernen und handgeschriebene Dokumente in digitalen Text zu transkribieren. Das System korrigiert außerdem Rechtschreibfehler und markiert und kategorisiert Texte automatisch nach Themen, Zeitraum und Autor.

SweLL hat die Zugänglichkeit von Sprachdaten verbessert. Für Forscher und Lernende ist es einfacher, auf die schwedischen Sprachdaten zuzugreifen, was eine schnelle und genaue Suche und Analyse von Sprachmustern und -trends ermöglicht. Darüber hinaus entwickelte die Bibliothek mehr als 24 Open-Source-Transformatormodelle mit Nvidia DGX-Systemen, die über Hugging Face erhältlich sind und es Forschern ermöglichen, spezielle Datensätze für mengenorientierte Forschung zu erstellen.

Die Bibliothek digitalisiert eine beträchtliche Menge historischer Textdaten, um sie in den kommenden Jahren besser zugänglich zu machen. LLMs haben es auch Nichtforschern wie Journalisten erleichtert, mit den Daten zu interagieren.

„Sie können Fragen stellen wie ‚Was sind die Gefühle in den Schlagzeilen der Zeitungen während des Konflikts in der Ukraine?‘“, sagt Börjeson. „Es war traurig, dann im letzten Herbst positiv, dann wieder negativ. Man kann solche quantitativen Fragen stellen, ohne tatsächlich auf Daten zuzugreifen.“

Warum Frankfurt die Ausbreitung von Rechenzentren eindämmtWie Leonardo in 13 Monaten die sichere Cloud einführteIntels FaceCatcher hofft, Deepfakes auszurotten

Die Überwindung rechtlicher und technischer Hürden bei der Datenverarbeitung kann zwar zeitaufwändig, aber machbar sein. LLMs bergen beim Verschieben von Daten das Risiko, falsche Nachrichten zu produzieren, was minimiert werden kann, indem die Rechenressourcen nahe an den Daten gehalten werden.

Börjeson ist mit der Entscheidung der Institution, stark in lokale Rechenressourcen zu investieren, zufrieden, da sich dies tatsächlich kurzfristig auszahlt, geschweige denn, dass es eine Weile dauert. „Es hat unseren Datenwissenschaftlern ermöglicht, beim Training von KI-Modellen kompetenter zu sein“, sagt er und fügt hinzu, dass die Ergebnisse erheblich und schnell waren.

Die Investition hat den Zeit- und Kostenaufwand für die Datenverarbeitung, die zuvor zeit- und ressourcenintensiv war, deutlich reduziert. KI hat auch den Weg für neue Entdeckungen geebnet, indem sie bisher unbekannte Sprachmuster identifiziert und zu neuen Erkenntnissen über die Geschichte und Kultur Schwedens geführt hat.

Unerwarteterweise kam das Projekt auch anderen Organisationen zugute, darunter Regionalbibliotheken, Privatunternehmen und der schwedischen Regierung. Zu diesen Vorteilen gehören die Feinabstimmung der Position einer Bushaltestelle in Nordschweden und die Verringerung des bürokratischen Arbeitsaufwands für Gerichte und Polizeibeamte.

Eine tägliche Dosis IT-Neuigkeiten, Rezensionen, Funktionen und Erkenntnisse direkt in Ihren Posteingang!

Rene Millman ist ein freiberuflicher Autor und Rundfunksprecher, der sich mit Cybersicherheit, KI, IoT und der Cloud beschäftigt. Er arbeitet außerdem als beitragender Analyst bei GigaOm und war zuvor als Analyst für Gartner tätig, der den Infrastrukturmarkt abdeckte. Er hat zahlreiche Fernsehauftritte absolviert, um seine Ansichten und sein Fachwissen zu Technologietrends und Unternehmen zu äußern, die unser Leben beeinflussen und prägen. Sie können Rene Millman auf Twitter folgen.

OpenAI zielt darauf ab, generative KI-„Halluzinationen“ mit einer neuen Trainingsmethode zu reduzieren

Dell CTO: KI ist nichts im Vergleich zum bevorstehenden Quantensturm

Spotify wird im Rahmen einer „strategischen Neuausrichtung“ 2 % seiner Belegschaft entlassen

Von Rory Bathgate, 26. Mai 2023

Von David Howell, 25. Mai 2023

Von John Nolan 24. Mai 2023

Von Sandra Vogel 24. Mai 2023

Von Rene Millman, 23. Mai 2023

Von Ross Kelly, 22. Mai 2023

Von Rory Bathgate, 19. Mai 2023

Von Rory Bathgate, 19. Mai 2023

Von Simon Aldous, 17. Mai 2023

Von Rory Bathgate, 16. Mai 2023

Von Fleur Doidge, 16. Mai 2023

Gesendet

Gesendet

Gesendet

Gesendet

Eine tägliche Dosis IT-Neuigkeiten, Rezensionen, Funktionen und Erkenntnisse direkt in Ihren Posteingang!

Vielen Dank, dass Sie sich bei ITPro angemeldet haben. Sie erhalten in Kürze eine Bestätigungs-E-Mail.

Es gab ein Problem. Bitte aktualisieren Sie die Seite und versuchen Sie es erneut.