banner
Heim / Nachricht / Wie die Liquid Neural Networks des MIT KI-Probleme von der Robotik bis zum Selbst lösen können
Nachricht

Wie die Liquid Neural Networks des MIT KI-Probleme von der Robotik bis zum Selbst lösen können

Jul 21, 2023Jul 21, 2023

Besuchen Sie unsere On-Demand-Bibliothek, um Sitzungen von VB Transform 2023 anzusehen. Registrieren Sie sich hier

In der aktuellen Landschaft der künstlichen Intelligenz (KI) hat die Begeisterung für große Sprachmodelle (LLMs) zu einem Wettlauf um die Schaffung immer größerer neuronaler Netze geführt. Allerdings kann nicht jede Anwendung den Rechen- und Speicherbedarf sehr großer Deep-Learning-Modelle unterstützen.

Die Einschränkungen dieser Umgebungen haben zu einigen interessanten Forschungsrichtungen geführt. Flüssige neuronale Netze, eine neuartige Deep-Learning-Architektur, die von Forschern des Computer Science and Artificial Intelligence Laboratory am MIT (CSAIL) entwickelt wurde, bieten eine kompakte, anpassungsfähige und effiziente Lösung für bestimmte KI-Probleme. Diese Netzwerke sind darauf ausgelegt, einige der inhärenten Herausforderungen traditioneller Deep-Learning-Modelle zu bewältigen.

Flüssige neuronale Netze können neue Innovationen in der KI vorantreiben und sind besonders spannend in Bereichen, in denen traditionelle Deep-Learning-Modelle Schwierigkeiten haben, wie etwa Robotik und selbstfahrende Autos.

„Die Inspiration für flüssige neuronale Netze war das Nachdenken über die bestehenden Ansätze des maschinellen Lernens und die Überlegung, wie sie zu den sicherheitskritischen Systemen passen, die Roboter und Edge-Geräte bieten“, sagte Daniela Rus, Direktorin von MIT CSAIL, gegenüber VentureBeat. „Auf einem Roboter kann man nicht wirklich ein großes Sprachmodell ausführen, weil dafür nicht wirklich die Rechenleistung und der Speicherplatz vorhanden sind.“

VB Transform 2023 On-Demand

Haben Sie eine Sitzung von VB Transform 2023 verpasst? Registrieren Sie sich, um auf die On-Demand-Bibliothek aller unserer vorgestellten Sitzungen zuzugreifen.

Rus und ihre Mitarbeiter wollten neuronale Netze schaffen, die sowohl präzise als auch recheneffizient sind, damit sie auf den Computern eines Roboters laufen können, ohne dass eine Verbindung zur Cloud erforderlich ist.

Gleichzeitig ließen sie sich von der Forschung an biologischen Neuronen inspirieren, die in kleinen Organismen vorkommen, beispielsweise dem Wurm C. Elegans, der mit nicht mehr als 302 Neuronen komplizierte Aufgaben ausführt. Das Ergebnis ihrer Arbeit waren flüssige neuronale Netze (LNN).

Flüssige neuronale Netze stellen eine deutliche Abkehr von traditionellen Deep-Learning-Modellen dar. Sie verwenden eine mathematische Formel, die weniger rechenintensiv ist und Neuronen während des Trainings stabilisiert. Der Schlüssel zur Effizienz von LNNs liegt in der Verwendung dynamisch anpassbarer Differentialgleichungen, die es ihnen ermöglichen, sich nach dem Training an neue Situationen anzupassen. Dies ist eine Fähigkeit, die in typischen neuronalen Netzen nicht zu finden ist.

„Im Grunde genommen erhöhen wir die Repräsentationslernkapazität eines Neurons gegenüber bestehenden Modellen um zwei Erkenntnisse“, sagte Rus. „Erstens handelt es sich um eine Art wohlerzogenes Zustandsraummodell, das die Neuronenstabilität während des Lernens erhöht. Und dann führen wir Nichtlinearitäten über die synaptischen Eingaben ein, um die Ausdruckskraft unseres Modells sowohl beim Training als auch bei der Inferenz zu erhöhen.“

LNNs verwenden außerdem eine Verkabelungsarchitektur, die sich von herkömmlichen neuronalen Netzen unterscheidet und laterale und wiederkehrende Verbindungen innerhalb derselben Schicht ermöglicht. Die zugrunde liegenden mathematischen Gleichungen und die neuartige Verkabelungsarchitektur ermöglichen es flüssigen Netzwerken, zeitkontinuierliche Modelle zu erlernen, die ihr Verhalten dynamisch anpassen können.

„Dieses Modell ist sehr interessant, weil es nach dem Training basierend auf den Eingaben, die es sieht, dynamisch angepasst werden kann“, sagte Rus. „Und die Zeitkonstanten, die es beobachtet, hängen von den Eingaben ab, die es sieht, und so haben wir durch diese Formulierung des Neurons viel mehr Flexibilität und Anpassungsfähigkeit.“

Eines der auffälligsten Merkmale von LNNs ist ihre Kompaktheit. Beispielsweise benötigt ein klassisches tiefes neuronales Netzwerk rund 100.000 künstliche Neuronen und eine halbe Million Parameter, um eine Aufgabe wie das Halten eines Autos in der Spur zu erfüllen. Im Gegensatz dazu konnten Rus und ihre Kollegen ein LNN trainieren, um die gleiche Aufgabe mit nur 19 Neuronen zu erfüllen.

Diese erhebliche Größenreduzierung habe mehrere wichtige Konsequenzen, sagte Rus. Erstens ermöglicht es die Ausführung des Modells auf kleinen Computern, die in Robotern und anderen Edge-Geräten zu finden sind. Und zweitens wird das Netzwerk mit weniger Neuronen viel besser interpretierbar. Interpretierbarkeit ist eine große Herausforderung im Bereich der KI. Bei herkömmlichen Deep-Learning-Modellen kann es schwierig sein zu verstehen, wie das Modell zu einer bestimmten Entscheidung gelangt ist.

„Wenn wir nur 19 Neuronen haben, können wir einen Entscheidungsbaum extrahieren, der den Auslösemustern und im Wesentlichen dem Entscheidungsfluss im System mit 19 Neuronen entspricht“, sagte Rus. „Für 100.000 und mehr können wir das nicht machen.“

Eine weitere Herausforderung, mit der sich LNNs befassen, ist die Frage der Kausalität. Herkömmliche Deep-Learning-Systeme haben oft Schwierigkeiten, kausale Zusammenhänge zu verstehen, was dazu führt, dass sie falsche Muster lernen, die nichts mit dem Problem zu tun haben, das sie lösen. LNNs hingegen scheinen kausale Zusammenhänge besser zu verstehen, was es ihnen ermöglicht, besser auf unsichtbare Situationen zu verallgemeinern.

Beispielsweise trainierten die Forscher am MIT CSAIL LNNs und mehrere andere Arten von Deep-Learning-Modellen für die Objekterkennung anhand eines Stroms von Videobildern, die im Sommer im Wald aufgenommen wurden. Als das trainierte LNN in einer anderen Umgebung getestet wurde, konnte es die Aufgabe immer noch mit hoher Genauigkeit ausführen. Im Gegensatz dazu kam es bei anderen Arten neuronaler Netze zu einem erheblichen Leistungsabfall, wenn sich die Einstellung änderte.

„Wir haben beobachtet, dass nur die flüssigen Netzwerke die Aufgabe im Herbst und Winter noch erfüllen konnten, weil diese Netzwerke sich auf die Aufgabe konzentrieren und nicht auf den Kontext der Aufgabe“, sagte Rus. „Den anderen Modellen gelang es nicht, die Aufgabe zu lösen, und unsere Hypothese ist, dass das daran liegt, dass die anderen Modelle stark auf der Analyse des Testkontexts und nicht nur der Aufgabe basieren.“

Aus den Modellen extrahierte Aufmerksamkeitskarten zeigen, dass LNNs dem Hauptfokus der Aufgabe, wie der Straße bei Fahraufgaben, und dem Zielobjekt bei der Objekterkennungsaufgabe höhere Werte verleihen, weshalb sie sich an die Aufgabe anpassen können, wenn der Kontext Änderungen. Andere Modelle neigen dazu, ihre Aufmerksamkeit auf irrelevante Teile der Eingabe zu richten.

„Insgesamt konnten wir viel adaptivere Lösungen erzielen, da man in einer Umgebung trainieren kann und diese Lösung dann ohne weitere Schulung an andere Umgebungen angepasst werden kann“, sagte Rus.

LNNs sind in erster Linie für die Verarbeitung kontinuierlicher Datenströme konzipiert. Dazu gehören unter anderem Videostreams, Audiostreams oder Sequenzen von Temperaturmessungen.

„Im Allgemeinen funktionieren flüssige Netzwerke gut, wenn wir Zeitreihendaten haben … man braucht eine Sequenz, damit flüssige Netzwerke gut funktionieren“, sagte Rus. „Wenn Sie jedoch versuchen, die Liquid-Network-Lösung auf eine statische Datenbank wie ImageNet anzuwenden, wird das nicht so gut funktionieren.“

Aufgrund ihrer Beschaffenheit und Eigenschaften eignen sich LNNs besonders für rechenbeschränkte und sicherheitskritische Anwendungen wie Robotik und autonome Fahrzeuge, bei denen Daten kontinuierlich in Modelle für maschinelles Lernen eingespeist werden.

Das MIT CSAIL-Team hat LNNs bereits in Einzelroboterumgebungen getestet und dabei vielversprechende Ergebnisse gezeigt. In Zukunft planen sie, ihre Tests auf Multirobotersysteme und andere Datentypen auszuweiten, um die Fähigkeiten und Grenzen von LNNs weiter zu untersuchen.

Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um Wissen über transformative Unternehmenstechnologie zu erlangen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.

Besuchen Sie unsere On-Demand-Bibliothek, um Sitzungen von VB Transform 2023 anzusehen. Registrieren Sie sich hierDie Mission von VentureBeat