Online-Präferenzlernen

Online-Präferenzlernen mit Bandit-Algorithmen

Im Bereich des maschinellen Lernens fasst man unter dem Begriff des mehrarmigen Banditen (multi-armed bandit, MAB) eine Klasse von Online-Lernproblemen zusammen, in denen ein Agent sein Entscheidungsverhalten im Rahmen eines sequenziellen Entscheidungsprozesses optimiert. MABs verbinden praktische Nützlichkeit mit theoretisch interessanten Fragestellungen und haben sich nicht zuletzt deshalb als wichtiges Forschungsthema etabliert. Dieses Projekt widmet sich einer neuen Variante des MAB Problems, das wir als präferenzbasierten mehrarmigen Banditen (PB-MAB) bezeichnen. Anstatt aus stochastischem Feedback in der Form reellwertiger Nutzenwerte für die Wahl einzelner Alternativen zu lernen, kann ein PB-MAB Agent jeweils zwei Alternativen qualitativ miteinander vergleichen. Dieses Projekt verfolgt zwei zentrale Ziele. Durch Konsolidierung bestehender Arbeiten und die Beantwortung offener theoretischer und algorithmischer Fragen soll zunächst ein möglichst vollumfängliches Verständnis des PB-MAB Problems erlangt werden. Darüber hinaus sollen Methoden für praktisch motivierte Erweiterungen des Problems entwickelt werden, und zwar einmal für kontextualisierte PB-MABs, bei denen Präferenzen zwischen Alternativen vom jeweiligen Entscheidungskontext abhängen, und zum anderen PB-MABs mit verallgemeinertem Feedback, die über paarweise Vergleiche hinausgehend Präferenzinformation allgemeinerer Natur zulassen

Förderung: DFG (since 2017)
Kontakt: Eyke Hüllermeier
Kooperation: Robert Busa-Fekete, Yahoo Research