Dans cet exposé, je présenterai les travaux que nous avons menés dans l’apprentissage de comportements alignés sur des valeurs humaines, et j’insisterai particulièrement sur l’aspect “humains dans la boucle”, en quoi il est important, et quels sont les challenges à résoudre. Mes travaux s’inscrivent dans le domaine de l’apprentissage par renforcement, mais je formerai un “pont” dans mon discours vers le domaine de la planification. Je rappellerai tout dabord brièvement le contexte de l’éthique dans l’apprentissage de comportements, et je présenterai le cas d’usage Ethical Smart Grid que nous avons développé et mis à la disposition de la communauté de l’éthique computationnelle. J’expliquerai ensuite l’approche par apprentissage multi-objectif et multi-agent que nous proposons, qui permet d’identifier les situations de “dilemme”, dans lesquelles le système ne sait (initialement) pas comment réagir. Le point crucial de notre approche est l’intégration de l’humain dans la boucle pour résoudre ces situations de dilemme, et apprendre les préférences contextuelles de l’utilisateur. Ensuite, je ferai un retour d’expérience sur un questionnaire que nous avons soumis à un ensemble de chercheurs et étudiants de l’enseignement supérieur, sur l’utilisabilité de notre approche. Ce retour d’expérience servira à souligner à la fois l’importance et les difficultés de l’intégration de l’humain dans la boucle pour les problématiques d’éthique dans la prise de décision automatique. Je conclurai sur quelques pistes que nous avons identifié.
A talk that I gave (in French) at a seminar of the GT ACE – a national workgroup on Computational Aspects of Ethics, about the learning of aligned behaviours and the difficulties it poses with human-in-the-loop.