Schnelleinstieg
Ansprechpartner:
Maschinelles Lernen in der Regelungstechnik
Methoden der künstlichen Intelligenz (KI) durchdringen aktuell unterschiedliche Wissenschaftsdisziplinen, wie z.B. die Bild- oder Sprachverarbeitung, oder auch weitere Disziplinen der Ingenieurwissenschaften. In der Regelungstechnik kommen Verfahren des maschinellen Lernens (ML) zum Einsatz, und zwar sowohl als Alternative zur physikalischen Modellierung dynamischen Verhaltens wie auch als Alternative zu fachspezifischen Methoden des Regelungs- und Steuerungsentwurfs.
In unserer Fachgruppe für Regelungstechnik und Mechatronik interessieren wir uns vor allem für Fragen, wie ML- oder allgemeiner KI-Verfahren sinnvoll die leistungsfähigen fachspezifischen Analyse- und Syntheseverfahren unterstützen oder evtl. auch erweitern können, beispielsweise bei Zusammenhängen oder Entwurfszielen, die schwer physikalisch formulierbar sind. Gleichzeitig wollen wir die Vorteile physikbasierter Verfahren beibehalten, da sie ein hohes Maß an Interpretierbarkeit besitzen und tieferes Systemverständnis ermöglichen, was z.B. für Stabilitätsanalysen oder bei sicherheitskritischen Anwendungen von Bedeutung ist. Eine weitere Frage, der wir nachgehen, ist, wieviel und welches Vorwissen bei datengetriebenen im Vergleich zu modellbasierten Verfahren erforderlich ist. Insgesamt besteht das Ziel eine synergetische, methodische Kombination modell- und datengetriebener Verfahren für den Regelungs-/ und Steuerungsentwurf zu entwickeln, so dass sich hybride Modelle ergeben.
Aufschwung des Doppelpendels durch ML-Methoden
Am Beispiel eines als Laboraufbau vorhandenen Doppelpendels auf einem Wagen haben wir den Aufschwung und die Stabilisierung in der oberen Ruhelage mit einem aus der Literatur bekannten ML-Verfahren PILCO („Probabilistic Inference for Learning Control“) erlernt [HTH+18]. Die Grundlage von PILCO sind Gaußprozess-Regressionen, mit denen iterativ ein dynamisches Modell (äußere Schleife) und in jedem Schritt anhand des jeweils aktuellen Modells eine kombinierte Regelungs-/Steuerungsstrategie (innere Schleife) erlernt werden. Anschließend wird die Regelungs-/Steuerungs-strategie auf das reale Systeme aufgeschaltet und das Systemverhalten anhand der verfügbaren Sensoren gemessen. Dies dient zur Verbesserung des Modells im Folgeschritt. Mit 27 Iterationen gelang der Aufschwung und die Stabilisierung, das untenstehende Video zeigt den schrittweisen Lernvorgang am realen System. Als eine wesentliche Vorabinformation musste dem Lernverfahren neben den 3 Messgrößen auch deren zeitliche Ableitungen, also der gesamte Zustandsvektor, zur Verfügung gestellt werden.
Video: Autonome Regelung eines Doppelpendels auf einem Wagen
Bild 1: Zustandstrajektorien des Doppelpendels auf einem Wagen
Lineare Zustandsbeschreibung mittels des Koopman-Operators
Die Theorie des Koopman-Operators ermöglicht eine operatortheoretische Blickweise auf dynamische Systeme, die theoretischen Grundlagen wurden bereits im Jahr 1931 von Bernard Koopman formuliert. Der Koopman-Operator ist ein linearer, im Allgemeinen unendlich-dimensionaler Operator, der die Dynamik ausgewählter Beobachtungsgrößen (Observablen) eines nichtlinearen dynamischen Systems beschreibt. Durch die numerische Approximation dieses unendlich-dimensionalen Operators auf einen endlich-dimensionalen Operator lassen sich nichtlineare dynamische Systeme durch eine lineare und endlich-dimensionale Zustandsbeschreibung annähern. Dafür wurden in den letzten Jahren verschiedene datengetriebene Verfahren, wie z.B. DMD (Dynamic Mode Decomposition), EDMD (Extended Dynamic Mode Decomposition) oder SINDy (Sparse Identification Of Nonlinear Dynamics) entwickelt.
Die Fachgruppe „Regelungstechnik und Mechatronik“ untersucht das Potential des Koopman-Operators im Kontext des Regelungsentwurfs, beispielsweise für modellprädiktive Regelungen, um mittels des linear approximierten Systems bei gleichbleibender Regelgüte die Rechendauer im Vergleich zum nichtlinearen Modell zu reduzieren.
Projekt autonomer Golfroboter
Zusammen mit dem IFIM (Institut für Industriemathematik) der Universität Paderborn entwickeln wir einen autonomen Roboter für das Putten eines Golfballes als eingängigen Demonstrator für selbstlernende Steuerungen und das Lernen von physikalischen Zusammenhängen. Das Ziel ist es, durch Testschläge ausreichend Informationen sammeln zu können, um anschließend von einem beliebigen Punkt auf dem Green den Ball einlochen zu können. Dieses Ziel erarbeiten wir uns vorwiegend im Rahmen interdisziplinärer studentischer Projektarbeiten mit Studierenden unterschiedlicher Fachrichtungen bspw. zu den Themen Erlernen des Puttens, Konstruktion des Roboters, Bilderfassung und -verarbeitung u.a.m.
Bild 2: Golfroboter
Ausgewählte Veröffentlichungen:
[HTH+18] Michael Hesse, Julia Timmermann, Eyke Hüllermeier, Ansgar Trächtler; A Reinforcement Learning Strategy for the Swing-up of the Double Pendulum on a Cart; Procedia Manufacturing, 2018