STAGE 2026 - IA / NPL - Apprentissage des préférences utilisateur - F/H - BERGER LEVRAULT
Stage
Fonction : Non définie
Lieu : Non défini
Date de début : Mon, 08 Dec 2025 15:48:31 Z
Date de fin : 08-01-2026
Rémunération comprise entre € et € par
Description de l'offre

???? Sujet : Apprentissage des préférences utilisateur - personnalisation de la stratégie d’agent IA   ???? Contexte : Au sein de la Direction de la Recherche et de l’Innovation Technologique (DRIT), le Lab IA explore les nouveaux paradigmes d’intelligence artificielle, et en particulier l’intégration des modèles de langage de grande taille (LLMs) dans des systèmes multi-agents intelligents. L’un des défis de ces systèmes d’agents IA modernes est de pouvoir s’adapter à leurs utilisateurs : niveau de technicité attendu, style de communication, granularité des explications, ou encore préférences dans la façon d’exécuter des tâches. Le stage s’inscrit dans une démarche de R&D exploratoire, visant à concevoir et expérimenter un mécanisme d’apprentissage et de personnalisation adaptative permettant à un agent IA de moduler ses réponses et stratégies en fonction du profil et du comportement de chaque utilisateur.  Ce travail s’intègre dans le cadre du projet Athena, une plateforme d’agents IA développée par Berger-Levrault, visant à créer des assistants capables de raisonner, collaborer et s’adapter de manière autonome ????️ Missions : Étudier les approches existantes de personnalisation d’agents IA : apprentissage implicite/explicite des préférences, reinforcement learning from user feedback (RLHF/RLAIF), retrieval personalization, contextual prompt tuning, profilage dynamique. Concevoir une architecture d’agent capable de :                  - observer et enregistrer les interactions utilisateur (préférences, styles, contextes d’usage),                  - apprendre à inférer les préférences implicites (ton, niveau d’explication, format de réponse, etc.),                  - adapter dynamiquement sa stratégie d’orchestration, son prompting ou son contenu généré. Prototyper un système d’apprentissage continu des préférences, connecté à la plateforme d’agents IA Athena. Définir des métriques de satisfaction et de pertinence personnalisée, et mettre en place un protocole expérimental d’évaluation. Approches et technologies envisagées : Techniques de personnalisation :Profilage utilisateur dynamique (embedding comportemental, clustering sémantique) Contextual Prompt Adaptation Few-shot personalization (mémoire courte + profil long terme) Reinforcement Learning from User Feedback (RLHF / RLAIF simplifié) Stack technique :Python, LangChain Vector store pour stockage de préférences  (Weaviate) Streamlit / React pour le tableau de bord de suivi utilisateur LLMs : Mistral Livrables attendus : État de l’art sur les approches de personnalisation d’agents IA et apprentissage des préférences Prototype d’un agent capable d’adapter son comportement à chaque utilisateur Mécanisme de suivi et de visualisation de la personnalisation Rapport sur la performance du modèle d’adaptation et les gains observés

Profil du candidat

Actuellement , 337 offres sont accessibles.
Type de contrat
Indiquez une région