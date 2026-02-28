L'examen oral : vertueux mais non scalable  jusqu'à aujourd'hui

Architecture technique : sous-agents, variables dynamiques et jury de LLM

Ce qui a dysfonctionné  et les corrections apportées

Les chiffres : 42 cents, un miroir pédagogique inattendu

La délibération du jury IA : Gemini trop généreux, Claude trop sévère

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Tout a commencé par un sentiment diffus, mais persistant. Dans le cadre du cours « AI/ML Product Management » co-animé avec Konstantinos Rizakos à la NYU Stern School of Business, les soumissions préalables aux études de cas semblaient anormalement soignées. Pas le genre de « bon étudiant » soigné  plutôt le genre de mémo McKinsey relu par trois équipes d'édition. Panos Ipeirotis l'exprime sans détour sur son blog : l'IA était visiblement dans la boucle, non pas pour augmenter la réflexion des apprenants, mais pour la remplacer.Précision importante : dans un cours entièrement consacré à l'IA et au machine learning, l'utilisation de l'IA n'est pas interdite  elle est activement encouragée. La distinction qu'Ipeirotis cherche à préserver est plus subtile : utiliser l'IA pour amplifier sa propre réflexion est de l'éducation et non lui sous-traiter intégralement sa pensée. Cette nuance, facile à formuler, est devenue presque impossible à détecter dans les productions écrites.Sa réponse initiale fut classique : interroger les étudiants à l'improviste en plein cours. Le résultat fut, selon ses propres mots, « éclairant ». Nombre de ceux qui avaient rendu des travaux structurés et nuancés se révélaient incapables d'en expliquer les choix fondamentaux après deux questions de suivi. L'écart entre les productions écrites et la capacité à les défendre oralement était trop systématique pour être attribué au simple trac. La conclusion s'imposait : si vous ne pouvez pas défendre votre propre travail en temps réel, le document écrit ne mesure pas ce que vous pensez mesurer.Le professeur en tire une conclusion radicale : l'équilibre historique qui permettait aux examens à domicile d'évaluer la compréhension réelle est « mort, révolu, kaput ». Les étudiants peuvent désormais répondre à la quasi-totalité des questions d'examen traditionnelles grâce aux LLM disponibles. Même le repli vers les examens papier en salle ne suffit plus dès lors qu'on cherche à évaluer la contribution individuelle à des projets de groupe  une présentation peut être générée clé en main par NotebookLM ou Gemini sans que l'étudiant ait jamais ouvert le sujet.L'examen oral s'impose naturellement comme la parade : impossible de souffler une réponse à un étudiant en temps réel sans que cela soit détectable, il force la pensée en mouvement, l'application spontanée, la défense de décisions réelles. Mais sa vertu est aussi son talon d'Achille : il ne passe pas à l'échelle.Avec 36 étudiants et deux instructeurs, l'expérience reste gérable  à peine. Mais les demandes d'aménagements s'accumulent instantanément : un vol le 15, trois autres examens ce jour-là, un événement familial. Tous légitimes. Multipliez par dix pour une grande classe, et vous obtenez un cauchemar logistique d'un mois. C'est précisément pourquoi les examens oraux ont progressivement disparu de l'enseignement supérieur à mesure que les effectifs grossissaient.L'idée d'Ipeirotis : utiliser l'IA pour restaurer ce format d'évaluation disparu. Inspiré par des travaux de recherche de Brian Jabarian montrant comment l'IA conduit des entretiens d'embauche, il décide de construire un agent vocal examinateur sur la plateforme ElevenLabs Conversational AI. L'idée peut sembler absurde. Elle ne l'était plus vraiment, à condition d'accepter que le problème à résoudre n'est pas de reproduire un jury humain, mais de mesurer une compréhension réelle à l'échelle.L'examen se déroule en deux parties distinctes. La première porte sur le projet de fin de semestre de chaque étudiant : objectifs, données utilisées, choix de modélisation, métriques d'évaluation, points de défaillance. C'est là que la stratégie « copier-coller dans ChatGPT » s'effondre : improviser des réponses cohérentes sur des décisions spécifiques face à un interlocuteur qui creuse est autrement plus difficile que produire un texte poli. La seconde partie consiste à sélectionner une étude de cas parmi celles étudiées en cours et à répondre à des questions couvrant les thématiques abordées.Techniquement, l'agent est décomposé en sous-agents spécialisés via un système de workflow. Un agent d'authentification vérifie l'identité de l'étudiant avant tout. Un agent dédié au projet injecte les paramètres personnalisés (nom, détails du projet) en variables dynamiques. Un agent de discussion de cas sélectionne et interroge sur une étude de cas. Cette architecture multi-agents n'est pas que cosmétique : elle empêche le système de dériver vers une conversation non bornée et facilite le débogage. La prochaine étape naturelle est d'y connecter un système RAG sur les propres soumissions des étudiants  slides, rapports, notebooks  pour que l'agent puisse citer et sonder précisément leur travail réel.Pour la notation, Ipeirotis s'inspire de l'approche « Council of LLMs » proposée par Andrej Karpathy : trois modèles distincts  Claude, Gemini et ChatGPT  évaluent chaque transcription de manière indépendante, puis consultent les évaluations des autres et révisent leur jugement. Claude joue le rôle de président du jury et synthétise la note finale avec les preuves à l'appui. La délibération imite un jury humain, avec une dynamique de confrontation et de convergence.La première version de l'agent a essuyé des critiques sérieuses. Le problème le plus flagrant : la voix. Les professeurs avaient cloné celle d'un collègue, Foster Provost, dont le clone était techniquement le plus fidèle. Mais les étudiants l'ont trouvée « intense », « condescendante ». L'un d'eux a même signalé que « l'agent lui criait dessus ». L'anxiété de performance, déjà élevée dans un contexte d'examen oral, a été amplifiée par le timbre et le débit de la voix synthétique  une variable à laquelle les concepteurs de l'agent n'avaient pas accordé suffisamment d'importance au départ.Autre écueil majeur : l'agent empilait les questions. Au lieu d'en poser une à la fois, il formulait des requêtes composites (« Expliquez votre choix de métrique, quelles baselines avez-vous testées, pourquoi pas X, et que feriez-vous ensuite ? »), soit quatre questions déguisées en une seule. La charge cognitive pour un étudiant en temps réel devenait ingérable. La correction : une règle stricte dans le prompt  une seule question par tour, le reste est chaîné sur les échanges suivants.La clarification posait également problème : quand un étudiant demandait à l'agent de répéter la question, celui-ci la paraphrasait légèrement différemment, créant l'impression de répondre à un sujet distinct. La correction : instruction explicite de répéter mot pour mot, sans reformulation. Par ailleurs, l'agent interrompait les silences réflexifs trop rapidement. Le délai avant l'intervention a été porté de 5 à 10 secondes  un changement minime en apparence, mais déterminant pour la qualité des réponses.Enfin, la pseudo-aléa de sélection des cas s'est révélée problématique. Demander à un LLM de « choisir aléatoirement » parmi une liste, c'est comme demander à un humain de penser à un chiffre entre 1 et 10 : on obtient beaucoup de 7. L'agent a choisi Zillow dans 88 % des cas tant que cette étude figurait dans la liste. Après son retrait, il s'est verrouillé sur « predictive policing » dans 16 cas sur 21 le lendemain. Ce phénomène, documenté dans la littérature sur les biais des LLM, découle des préférences statistiques encodées dans les données d'entraînement. La solution : générer le nombre aléatoire côté code et le passer comme paramètre déterministe à l'agent  ne jamais déléguer l'aléatoire à un modèle de langage.36 étudiants, 9 jours d'examen, 25 minutes en moyenne par session (de 9 à 64 minutes), 65 messages par conversation en moyenne. Coût total : 15 dollars  8 pour Claude (le modèle le plus sollicité en tant que président du jury), 2 pour Gemini, 0,30 pour OpenAI, et environ 5 pour les minutes vocales ElevenLabs. Soit 0,42 dollar par étudiant, auxquels s'ajoute l'abonnement mensuel ElevenLabs à 99 dollars.L'alternative humaine ? 36 étudiants × 25 minutes × 2 correcteurs = 30 heures de travail. Au tarif d'un assistant d'enseignement (environ 25 $/h), cela représente 750 dollars. À tarif professoral, la réponse est plus simple : on ne fait tout simplement pas d'examens oraux. L'économie d'un facteur 50 est réelle, mais Ipeirotis insiste : le véritable avantage n'est pas le coût, c'est la valeur délivrée.Premier constat surprenant : la durée de l'examen ne corrèle pas avec la note obtenue (r = -0,03). L'examen le plus court  9 minutes  a obtenu le meilleur score (19/20). Le plus long  64 minutes  une note médiocre. Parler longtemps ne signifie pas maîtriser : l'hésitation verbale est en elle-même un signal d'évaluation que les formats écrits sont structurellement incapables de capturer.Deuxième révélation, plus inconfortable pour l'équipe enseignante : l'analyse par thématique a exposé une lacune dans l'enseignement lui-même. Sur le thème « Expérimentation », les étudiants ont obtenu en moyenne 1,94 sur 4  contre 3,39 pour « Formulation du problème ». Trois étudiants (8 %) ont obtenu zéro ; aucun n'a atteint le score maximal. Ipeirotis l'admet sans détour : les tests A/B avaient été survolés en cours. L'évaluateur externe rendu impossible à ignorer a agi comme un miroir tendu à l'enseignant lui-même  une fonction que les examens internes n'assurent jamais.Le premier tour de notation indépendant a révélé des divergences frappantes : Gemini affichait une moyenne de 17/20, Claude de 13,4/20  un écart de 3,6 points, soit la différence entre un B+ et un B-. Claude et OpenAI convergeaient déjà dès ce premier tour (70 % de leurs notes à moins d'un point d'écart). Gemini se comportait en correcteur complaisant, incapable de résister à la tentation de la générosité  un biais possiblement encodé dans son alignement.Après la phase de délibération, l'accord s'est considérablement amélioré : 62 % des notes à moins d'un point d'écart (contre 0 % au premier tour), 85 % à moins de deux points. Gemini a baissé ses notes de 2 points en moyenne après avoir pris connaissance des critiques précises de Claude sur les lacunes en expérimentation. Il ne pouvait plus justifier un 17 face à des arguments factuels et circonstanciés.La qualité du...