STG - ALH - DATA OFFICE-8310 - Stagiaire Assistant IA / DATA - Chaîne RAG H/F - Crédit Mutuel Arkéa
Stage
Stage de 6 mois à pourvoir sur Brest à compter de mars 2026. Axe 1 : Indexation Hybride (Sémantique + Mots-clés) Mettre en œuvre une stratégie de retrieval hybride combinant : La recherche sémantique (via embeddings) pour la compréhension du sens. La recherche lexicale (ex: BM25, TF-IDF) pour garantir la remontée des documents contenant des termes métiers ou des acronymes spécifiques (que le sémantique seul peut manquer). Évaluer l'équilibre entre ces deux approches. Axe 2 : Expansion de Requête (Multi-Query) Explorer les techniques de "query expansion" pour reformuler la question initiale de l'utilisateur. Développer une approche Multi-Query où un LLM génère plusieurs variantes de la question, en y injectant des synonymes et, surtout, des termes du vocabulaire métier pertinent, afin d'augmenter les chances de "toucher" le bon document. Axe 3 : Filtrage Métadonnées & "Routage Métier" Mettre en place un système de filtrage par silos métiers (ex: produits, périmètres fonctionnels, ...). L'enjeu sera d'associer la requête utilisateur au bon silo avant l'étape de retrieval pour éviter la "contamination" contextuelle. Vous explorerez des méthodes pour : Induire les métadonnées (le silo) à partir de la question de l'utilisateur. Guider l'utilisateur (via l'interface) pour qu'il précise son périmètre de recherche. Synthèse et Benchmark : Mener une campagne d'évaluation rigoureuse pour mesurer l'apport de chaque brique et leur combinaison.