27. Juni 2018

Maschinelles Lernen für regelungstechnische Systeme am Beispiel des Doppelpendels

Die Fachgruppen „Intelligente Systeme“ und „Regelungstechnik und Mechatronik“ erforschen zusammen Verfahren des maschinellen Lernens in der Anwendung für regelungstechnische Systeme.

Maschinelle Lernverfahren sind ein Teilgebiet der künstlichen Intelligenz und finden immer mehr Anwendungsfelder. Dabei sind sie in der Lage, Wissen zu generieren, indem sie aus Erfahrungen lernen. In Form von Datensätzen werden ihnen Beispiele vorgegeben, aus denen sie nach Abschluss des Lernvorgangs neues Wissen verallgemeinern können. Das heißt, dass diese Verfahren vorliegende Muster in den Lerndaten erkennen, klassifizieren und daraus Vorhersagen treffen können. Im Rahmen einer Masterarbeit in der Fachgruppe „Regelungstechnik und Mechatronik“ wurde dieses Thema aufgegriffen und in Kooperation mit der Fachgruppe „Intelligente Systeme“ von Prof. Trächtler und Prof. Hüllermeier betreut. Dadurch konnte nach der Aufnahme von Prof. Hüllermeier in das HNI eine erste erfolgreiche Zusammenarbeit begonnen werden. In der Masterarbeit von Michael Hesse, der mittlerweile als wissenschaftlicher Mitarbeiter am RtM tätig ist, ging es dabei um den Einsatz von Reinforcement Learning beim Regelungs- und Steuerungsentwurf am Beispiel eines Doppelpendels.
Für die effektive Regelung eines dynamischen Systems sind ein hohes Systemverständnis und damit ein exaktes physikalisches Modell von großer Bedeutung und daher beruht ein wichtiger Teil der Arbeit eines Ingenieurs im Bereich Regelungstechnik auf der Erstellung von Modellen. Im Gegensatz dazu verwenden maschinelle Lernverfahren einen auf Daten basierenden Ansatz: Sie lernen das dynamische Systemverhalten und die optimale Regelungsstrategie des zugrunde liegenden Systems durch Interaktion mit diesem. Für die spezielle Anwendung bei technischen Systemen ist dabei wichtig, dass das Lernverfahren nur wenige Testiterationen benötigt, um den Verschleiß des Systems möglichst gering zu halten.

Um ein effektives Lernen für technische Systeme umzusetzen, verwenden wir das PILCO-Verfahren, welches in der Lage ist, mit erstaunlich wenigen Testiterationen am Prüfstand ein probabilistisches gelerntes Modell des dynamischen Systems und eine Regelungsstrategie für den Aufschwung des Pendels zu lernen. PILCO steht dabei für „Probabilistic Inference for Learning COntrol“ und benötigt vorab wenig Expertenwissen. Bei Tests war PILCO sehr erfolgreich, herausfordernde Regelungsaufgaben effizient zu lernen. Das Ziel unserer Arbeit war es, den Aufschwung und das Balancieren eines Doppelpendels auf einem Wagen sowohl am Simulationsmodell als auch am realen System mit PILCO zu realisieren. Dafür stehen uns ein validiertes Simulationsmodell und ein realer Prüfstand zur Verfügung. In bisherigen Arbeiten konnte der Aufschwung am realen Doppelpendel durch PILCO noch nicht gezeigt werden, und um dies zu erreichen, wurde der Algorithmus durch uns um zusätzliche Zustandsbeschränkungen, insbesondere die beschränkte Wagenstrecke, in der Auslegung des Reglers ergänzt.

In Tests am realen Doppelpendel zeigte der von uns modifizierte PILCO-Ansatz sehr gute Ergebnisse für den Aufschwung und die Stabilisierung in der oberen instabilen Ruhelage. Trotz der komplexen chaotischen Dynamik des Doppelpendels war das Lernverfahren in der Lage, dieses innerhalb von 27 Lerniterationen in der oberen Ruhelage zu halten und damit die erste erfolgreiche Realisierung dieses Lernverfahrens am echten Doppelpendelprüfstand zu erreichen. In Zukunft soll die Zusammenarbeit zwischen den Fachgruppen „Intelligente Systeme“ und „Regelungstechnik und Mechatronik“ vertieft werden, um die Verwendbarkeit von maschinellen Lernverfahren und künstlicher Intelligenz für den Entwurf von regelungstechnischen Systemen zu erforschen.

zurück zur Übersicht