Reinforcement Learning: Dressierter „Computer-Wurm“ balanciert Stab

| |
1 Star2 Stars3 Stars4 Stars5 Stars

Machine Learning oder echtes Nervensystem? Ein in Computercode übertragener Fadenwurm überrascht jedenfalls mit sehr „lebendigen“ Reaktionen.

Fadenwürmer vom Typ „C. elegans“ sehen ziemlich unspektakulär aus. Und sind es auch. Trotzdem oder gerade deswegen sind sie für die Wissenschaft höchst interessant. Das Nervensystem dieser etwa einen Millimeter langen Lebewesen ist nämlich so einfach, dass man seinen Schaltplan aufzeichnen und in einem Computerprogramm nachbilden kann.

Einen solchen künstlichen C. elegans haben Forscher an der TU Wien nun gezielt trainiert, um ihm ein Kunststück beizubringen: Der Computer-Wurm lernte, einen Stab auf seiner Schwanzspitze zu balancieren.

Die Reflex-Systeme als Computercode

In freier Wildbahn muss der Fadenwurm mit knapp über 300 Nervenzellen auskommen. Das genügt aber, um Bakterien zu fressen und auf gewisse äußere Impulse zu reagieren. Spürt er etwa ein Hindernis, schlängelt er sich reflexartig in eine andere Richtung davon.

Fadenwurm Reinforcement Learning
Das neuronale Netz des Wurms reagiert in digitaler Form auf digitale Inputs wie im realen Leben auf Berührungen. (Bild: TU Wien).

Die Nervenzellen und die Stärke der Verbindungen zwischen ihnen legen dabei sein Verhalten fest. Bildet man dieses einfache Reflex-Netzwerk am Computer nach, reagiert der computersimulierte Wurm genauso auf den Zusammenstoß mit einem virtuellen Hindernis wie sein lebendiges Pendant. Und das vollkommen ohne Programmierung, sondern weil dieses Verhalten von vornherein fest in sein neuronales Netz implementiert ist.

Die Aufgabe, die der Wurm mit diesem einfachen Schaltkreis löst, hat eine starke Ähnlichkeit mit einem klassischen Problem aus der Technik – dem Balancieren eines Stabs. Eine typische Aufgabe für einen computergesteuerten Controller. Dabei wird ein Stab am unteren Ende festgehalten, und je nachdem, in welche Richtung er zu kippen droht, wird zur Stabilisierung des Stabes eine Gegenbewegung ausgeführt. Genau wie sich der Wurm beim Zusammenstoß mit einer Wand reflexartig in die Gegenrichtung bewegt, muss auch der Aufhängepunkt des Stabes beim drohendem Kippen rasch bewegt werden.

Reinforcement Learning für gute Reflexe

Diese Aufgabe sollte nun das auf einen Computer übertragene Nervensystem des Wurms nur durch  Modifizieren der Synapsenverbindungen lösen. Genau dieses Verändern der Synapsenstärken charakterisiert auch natürliche Lernprozesse.

Mit Hilfe von „bestärkendem Lernen“ (Reinforcement Learning) – einer speziellen Methode des maschinellen Lernens – wurde das künstliche Reflex-Netzwerk am Computer trainiert und optimiert. Und tatsächlich – das extrem einfache virtuelle Nervensystem balancierte den Stab. Das Ergebnis ist also eine Art Controller, der ein ganz reales technisches Problem löst. Und das ohne auch nur eine Zeile Code zu programmieren. Es reichte einfach das Trainieren eines ursprünglich biologisch entstandenen Nervensystems.

Solche Projekte werfen die spannende Frage auf, ob zwischen Computercode und lebendigen Nervensystemen überhaupt ein fundamentaler Unterschied besteht. Ist maschinelles Lernen und das, was in unserem Gehirn passiert, auf fundamentaler Ebene etwa dasselbe? Für den Fadenwurm C. elegans jedenfalls dürften zwischen der Existenz als rudimentäres Nervensystem im Erdboden oder als virtueller Wurm auf einer Computerfestplatte keine großen Unterschiede bestehen.


 

Erfahren Sie mehr über künstliche Intelligenz und vernetzte eingebettete Systeme auf der electronica cyberphysical systems conference (CPS).

 

 

Fadenwurm (Bild: pixabay/Sadi Yigit)

Der Fadenwurm im Computer - trainiert und optimiert mit Reinforcement Learning. (Bild: pixabay/Sadi Yigit).