Confronté à des rendus d'étudiants trop parfaits pour être honnêtes, Panos Ipeirotis, professeur à la NYU Stern School of Business, a choisi de combattre le feu par le feu. En déployant un agent vocal basé sur ElevenLabs, Claude, Gemini et ChatGPT, il a organisé des examens oraux entièrement automatisés, personnalisés et évalués par un jury de modèles de langage — le tout pour 15 dollars, soit 42 cents par étudiant. Une expérience aussi révélatrice que controversée, qui interroge en profondeur l'avenir de l'évaluation académique à l'ère de l'IA générative.Tout a commencé par un sentiment diffus, mais persistant. Dans le cadre du cours « AI/ML Product Management » co-animé avec Konstantinos Rizakos à la NYU Stern School of Business, les soumissions préalables aux études de cas semblaient anormalement soignées. Pas le genre de « bon étudiant » soigné — plutôt le genre de mémo McKinsey relu par trois équipes d'édition. Panos Ipeirotis l'exprime sans détour sur son blog : l'IA était visiblement dans la boucle, non pas pour augmenter la réflexion des apprenants, mais pour la remplacer.
Précision importante : dans un cours entièrement consacré à l'IA et au machine learning, l'utilisation de l'IA n'est pas interdite — elle est activement encouragée. La distinction qu'Ipeirotis cherche à préserver est plus subtile : utiliser l'IA pour amplifier sa propre réflexion est de l'éducation et non lui sous-traiter intégralement sa pensée. Cette nuance, facile à formuler, est devenue presque impossible à détecter dans les productions écrites.
Sa réponse initiale fut classique : interroger les étudiants à l'improviste en plein cours. Le résultat fut, selon ses propres mots, « éclairant ». Nombre de ceux qui avaient rendu des travaux structurés et nuancés se révélaient incapables d'en expliquer les choix fondamentaux après deux questions de suivi. L'écart entre les productions écrites et la capacité à les défendre oralement était trop systématique pour être attribué au simple trac. La conclusion s'imposait : si vous ne pouvez pas défendre votre propre travail en temps réel, le document écrit ne mesure pas ce que vous pensez mesurer.
Le professeur en tire une conclusion radicale : l'équilibre historique qui permettait aux examens à domicile d'évaluer la compréhension réelle est « mort, révolu, kaput ». Les étudiants peuvent désormais répondre à la quasi-totalité des questions d'examen traditionnelles grâce aux LLM disponibles. Même le repli vers les examens papier en salle ne suffit plus dès lors qu'on cherche à évaluer la contribution individuelle à des projets de groupe — une présentation peut être générée clé en main par NotebookLM ou Gemini sans que l'étudiant ait jamais ouvert le sujet.
L'examen oral : vertueux mais non scalable — jusqu'à aujourd'hui
L'examen oral s'impose naturellement comme la parade : impossible de souffler une réponse à un étudiant en temps réel sans que cela soit détectable, il force la pensée en mouvement, l'application spontanée, la défense de décisions réelles. Mais sa vertu est aussi son talon d'Achille : il ne passe pas à l'échelle.
Avec 36 étudiants et deux instructeurs, l'expérience reste gérable — à peine. Mais les demandes d'aménagements s'accumulent instantanément : un vol le 15, trois autres examens ce jour-là, un événement familial. Tous légitimes. Multipliez par dix pour une grande classe, et vous obtenez un cauchemar logistique d'un mois. C'est précisément pourquoi les examens oraux ont progressivement disparu de l'enseignement supérieur à mesure que les effectifs grossissaient.
L'idée d'Ipeirotis : utiliser l'IA pour restaurer ce format d'évaluation disparu. Inspiré par des travaux de recherche de Brian Jabarian montrant comment l'IA conduit des entretiens d'embauche, il décide de construire un agent vocal examinateur sur la plateforme ElevenLabs Conversational AI. L'idée peut sembler absurde. Elle ne l'était plus vraiment, à condition d'accepter que le problème à résoudre n'est pas de reproduire un jury humain, mais de mesurer une compréhension réelle à l'échelle.
Architecture technique : sous-agents, variables dynamiques et jury de LLM
L'examen se déroule en deux parties distinctes. La première porte sur le projet de fin de semestre de chaque étudiant : objectifs, données utilisées, choix de modélisation, métriques d'évaluation, points de défaillance. C'est là que la stratégie « copier-coller dans ChatGPT » s'effondre : improviser des réponses cohérentes sur des décisions spécifiques face à un interlocuteur qui creuse est autrement plus difficile que produire un texte poli. La seconde partie consiste à sélectionner une étude de cas parmi celles étudiées en cours et à répondre à des questions couvrant les thématiques abordées.
Techniquement, l'agent est décomposé en sous-agents spécialisés via un système de workflow. Un agent d'authentification vérifie l'identité de l'étudiant avant tout. Un agent dédié au projet injecte les paramètres personnalisés (nom, détails du projet) en variables dynamiques. Un agent de discussion de cas sélectionne et interroge sur une étude de cas. Cette architecture multi-agents n'est pas que cosmétique : elle empêche le système de dériver vers une conversation non bornée et facilite le débogage. La prochaine étape naturelle est d'y connecter un système RAG sur les propres soumissions des étudiants — slides, rapports, notebooks — pour que l'agent puisse citer et sonder précisément leur travail réel.
Pour la notation, Ipeirotis s'inspire de l'approche « Council of LLMs » proposée par Andrej Karpathy : trois modèles distincts — Claude, Gemini et ChatGPT — évaluent chaque transcription de manière indépendante, puis consultent les évaluations des autres et révisent leur jugement. Claude joue le rôle de président du jury et synthétise la note finale avec les preuves à l'appui. La délibération imite un jury humain, avec une dynamique de confrontation et de convergence.
Ce qui a dysfonctionné — et les corrections apportées
La première version de l'agent a essuyé des critiques sérieuses. Le problème le plus flagrant : la voix. Les professeurs avaient cloné celle d'un collègue, Foster Provost, dont le clone était techniquement le plus fidèle. Mais les étudiants l'ont trouvée « intense », « condescendante ». L'un d'eux a même signalé que « l'agent lui criait dessus ». L'anxiété de performance, déjà élevée dans un contexte...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
