Combattre le feu par le feu : un professeur lutte contre la tricherie alimentée par l'IAgrâce à des examens oraux automatisés qui coûtent 42 centimes par étudiant
Confronté à des rendus d'étudiants trop parfaits pour être honnêtes, Panos Ipeirotis, professeur à la NYU Stern School of Business, a choisi de combattre le feu par le feu. En déployant un agent vocal basé sur ElevenLabs, Claude, Gemini et ChatGPT, il a organisé des examens oraux entièrement automatisés, personnalisés et évalués par un jury de modèles de langage — le tout pour 15 dollars, soit 42 cents par étudiant. Une expérience aussi révélatrice que controversée, qui interroge en profondeur l'avenir de l'évaluation académique à l'ère de l'IA générative.
Tout a commencé par un sentiment diffus, mais persistant. Dans le cadre du cours « AI/ML Product Management » co-animé avec Konstantinos Rizakos à la NYU Stern School of Business, les soumissions préalables aux études de cas semblaient anormalement soignées. Pas le genre de « bon étudiant » soigné — plutôt le genre de mémo McKinsey relu par trois équipes d'édition. Panos Ipeirotis l'exprime sans détour sur son blog : l'IA était visiblement dans la boucle, non pas pour augmenter la réflexion des apprenants, mais pour la remplacer.
Précision importante : dans un cours entièrement consacré à l'IA et au machine learning, l'utilisation de l'IA n'est pas interdite — elle est activement encouragée. La distinction qu'Ipeirotis cherche à préserver est plus subtile : utiliser l'IA pour amplifier sa propre réflexion est de l'éducation et non lui sous-traiter intégralement sa pensée. Cette nuance, facile à formuler, est devenue presque impossible à détecter dans les productions écrites.
Sa réponse initiale fut classique : interroger les étudiants à l'improviste en plein cours. Le résultat fut, selon ses propres mots, « éclairant ». Nombre de ceux qui avaient rendu des travaux structurés et nuancés se révélaient incapables d'en expliquer les choix fondamentaux après deux questions de suivi. L'écart entre les productions écrites et la capacité à les défendre oralement était trop systématique pour être attribué au simple trac. La conclusion s'imposait : si vous ne pouvez pas défendre votre propre travail en temps réel, le document écrit ne mesure pas ce que vous pensez mesurer.
Le professeur en tire une conclusion radicale : l'équilibre historique qui permettait aux examens à domicile d'évaluer la compréhension réelle est « mort, révolu, kaput ». Les étudiants peuvent désormais répondre à la quasi-totalité des questions d'examen traditionnelles grâce aux LLM disponibles. Même le repli vers les examens papier en salle ne suffit plus dès lors qu'on cherche à évaluer la contribution individuelle à des projets de groupe — une présentation peut être générée clé en main par NotebookLM ou Gemini sans que l'étudiant ait jamais ouvert le sujet.
L'examen oral : vertueux mais non scalable — jusqu'à aujourd'hui
L'examen oral s'impose naturellement comme la parade : impossible de souffler une réponse à un étudiant en temps réel sans que cela soit détectable, il force la pensée en mouvement, l'application spontanée, la défense de décisions réelles. Mais sa vertu est aussi son talon d'Achille : il ne passe pas à l'échelle.
Avec 36 étudiants et deux instructeurs, l'expérience reste gérable — à peine. Mais les demandes d'aménagements s'accumulent instantanément : un vol le 15, trois autres examens ce jour-là, un événement familial. Tous légitimes. Multipliez par dix pour une grande classe, et vous obtenez un cauchemar logistique d'un mois. C'est précisément pourquoi les examens oraux ont progressivement disparu de l'enseignement supérieur à mesure que les effectifs grossissaient.
L'idée d'Ipeirotis : utiliser l'IA pour restaurer ce format d'évaluation disparu. Inspiré par des travaux de recherche de Brian Jabarian montrant comment l'IA conduit des entretiens d'embauche, il décide de construire un agent vocal examinateur sur la plateforme ElevenLabs Conversational AI. L'idée peut sembler absurde. Elle ne l'était plus vraiment, à condition d'accepter que le problème à résoudre n'est pas de reproduire un jury humain, mais de mesurer une compréhension réelle à l'échelle.
Architecture technique : sous-agents, variables dynamiques et jury de LLM
L'examen se déroule en deux parties distinctes. La première porte sur le projet de fin de semestre de chaque étudiant : objectifs, données utilisées, choix de modélisation, métriques d'évaluation, points de défaillance. C'est là que la stratégie « copier-coller dans ChatGPT » s'effondre : improviser des réponses cohérentes sur des décisions spécifiques face à un interlocuteur qui creuse est autrement plus difficile que produire un texte poli. La seconde partie consiste à sélectionner une étude de cas parmi celles étudiées en cours et à répondre à des questions couvrant les thématiques abordées.
Techniquement, l'agent est décomposé en sous-agents spécialisés via un système de workflow. Un agent d'authentification vérifie l'identité de l'étudiant avant tout. Un agent dédié au projet injecte les paramètres personnalisés (nom, détails du projet) en variables dynamiques. Un agent de discussion de cas sélectionne et interroge sur une étude de cas. Cette architecture multi-agents n'est pas que cosmétique : elle empêche le système de dériver vers une conversation non bornée et facilite le débogage. La prochaine étape naturelle est d'y connecter un système RAG sur les propres soumissions des étudiants — slides, rapports, notebooks — pour que l'agent puisse citer et sonder précisément leur travail réel.
Pour la notation, Ipeirotis s'inspire de l'approche « Council of LLMs » proposée par Andrej Karpathy : trois modèles distincts — Claude, Gemini et ChatGPT — évaluent chaque transcription de manière indépendante, puis consultent les évaluations des autres et révisent leur jugement. Claude joue le rôle de président du jury et synthétise la note finale avec les preuves à l'appui. La délibération imite un jury humain, avec une dynamique de confrontation et de convergence.
Ce qui a dysfonctionné — et les corrections apportées
La première version de l'agent a essuyé des critiques sérieuses. Le problème le plus flagrant : la voix. Les professeurs avaient cloné celle d'un collègue, Foster Provost, dont le clone était techniquement le plus fidèle. Mais les étudiants l'ont trouvée « intense », « condescendante ». L'un d'eux a même signalé que « l'agent lui criait dessus ». L'anxiété de performance, déjà élevée dans un contexte d'examen oral, a été amplifiée par le timbre et le débit de la voix synthétique — une variable à laquelle les concepteurs de l'agent n'avaient pas accordé suffisamment d'importance au départ.
Autre écueil majeur : l'agent empilait les questions. Au lieu d'en poser une à la fois, il formulait des requêtes composites (« Expliquez votre choix de métrique, quelles baselines avez-vous testées, pourquoi pas X, et que feriez-vous ensuite ? »), soit quatre questions déguisées en une seule. La charge cognitive pour un étudiant en temps réel devenait ingérable. La correction : une règle stricte dans le prompt — une seule question par tour, le reste est chaîné sur les échanges suivants.
La clarification posait également problème : quand un étudiant demandait à l'agent de répéter la question, celui-ci la paraphrasait légèrement différemment, créant l'impression de répondre à un sujet distinct. La correction : instruction explicite de répéter mot pour mot, sans reformulation. Par ailleurs, l'agent interrompait les silences réflexifs trop rapidement. Le délai avant l'intervention a été porté de 5 à 10 secondes — un changement minime en apparence, mais déterminant pour la qualité des réponses.
Enfin, la pseudo-aléa de sélection des cas s'est révélée problématique. Demander à un LLM de « choisir aléatoirement » parmi une liste, c'est comme demander à un humain de penser à un chiffre entre 1 et 10 : on obtient beaucoup de 7. L'agent a choisi Zillow dans 88 % des cas tant que cette étude figurait dans la liste. Après son retrait, il s'est verrouillé sur « predictive policing » dans 16 cas sur 21 le lendemain. Ce phénomène, documenté dans la littérature sur les biais des LLM, découle des préférences statistiques encodées dans les données d'entraînement. La solution : générer le nombre aléatoire côté code et le passer comme paramètre déterministe à l'agent — ne jamais déléguer l'aléatoire à un modèle de langage.
Les chiffres : 42 cents, un miroir pédagogique inattendu
36 étudiants, 9 jours d'examen, 25 minutes en moyenne par session (de 9 à 64 minutes), 65 messages par conversation en moyenne. Coût total : 15 dollars — 8 pour Claude (le modèle le plus sollicité en tant que président du jury), 2 pour Gemini, 0,30 pour OpenAI, et environ 5 pour les minutes vocales ElevenLabs. Soit 0,42 dollar par étudiant, auxquels s'ajoute l'abonnement mensuel ElevenLabs à 99 dollars.
L'alternative humaine ? 36 étudiants × 25 minutes × 2 correcteurs = 30 heures de travail. Au tarif d'un assistant d'enseignement (environ 25 $/h), cela représente 750 dollars. À tarif professoral, la réponse est plus simple : on ne fait tout simplement pas d'examens oraux. L'économie d'un facteur 50 est réelle, mais Ipeirotis insiste : le véritable avantage n'est pas le coût, c'est la valeur délivrée.
Premier constat surprenant : la durée de l'examen ne corrèle pas avec la note obtenue (r = -0,03). L'examen le plus court — 9 minutes — a obtenu le meilleur score (19/20). Le plus long — 64 minutes — une note médiocre. Parler longtemps ne signifie pas maîtriser : l'hésitation verbale est en elle-même un signal d'évaluation que les formats écrits sont structurellement incapables de capturer.
Deuxième révélation, plus inconfortable pour l'équipe enseignante : l'analyse par thématique a exposé une lacune dans l'enseignement lui-même. Sur le thème « Expérimentation », les étudiants ont obtenu en moyenne 1,94 sur 4 — contre 3,39 pour « Formulation du problème ». Trois étudiants (8 %) ont obtenu zéro ; aucun n'a atteint le score maximal. Ipeirotis l'admet sans détour : les tests A/B avaient été survolés en cours. L'évaluateur externe rendu impossible à ignorer a agi comme un miroir tendu à l'enseignant lui-même — une fonction que les examens internes n'assurent jamais.
La délibération du jury IA : Gemini trop généreux, Claude trop sévère
Le premier tour de notation indépendant a révélé des divergences frappantes : Gemini affichait une moyenne de 17/20, Claude de 13,4/20 — un écart de 3,6 points, soit la différence entre un B+ et un B-. Claude et OpenAI convergeaient déjà dès ce premier tour (70 % de leurs notes à moins d'un point d'écart). Gemini se comportait en correcteur complaisant, incapable de résister à la tentation de la générosité — un biais possiblement encodé dans son alignement.
Après la phase de délibération, l'accord s'est considérablement amélioré : 62 % des notes à moins d'un point d'écart (contre 0 % au premier tour), 85 % à moins de deux points. Gemini a baissé ses notes de 2 points en moyenne après avoir pris connaissance des critiques précises de Claude sur les lacunes en expérimentation. Il ne pouvait plus justifier un 17 face à des arguments factuels et circonstanciés.
La qualité du feedback généré surpasse, selon Ipeirotis, ce que des correcteurs humains produisent habituellement sous contrainte de temps : des résumés structurés en points forts, faiblesses et actions, avec des citations verbatim extraites de la transcription. Pour l'étudiant le mieux noté : une observation précise sur sa maîtrise des compromis de métriques, illustrée par un exemple spécifique qu'il avait donné. Pour un étudiant en difficulté : une consigne d'entraînement détaillée sur la conception de tests A/B, avec les étapes exactes à maîtriser. Spécifique, actionnable, ancré dans la preuve. Ce niveau de granularité est tout simplement impossible à tenir pour un correcteur humain sur des dizaines de copies.
Ce que disent les étudiants : stressant mais perçu comme juste
Seulement 13 % des étudiants ont préféré le format oral IA. 57 % auraient opté pour un examen écrit traditionnel. 83 % ont trouvé l'oral plus stressant. Et pourtant : 70 % ont jugé qu'il évaluait leur compréhension réelle — l'item le mieux noté de tout le questionnaire. Les étudiants acceptent le verdict, même s'ils n'apprécient pas le vecteur.
Ils ont en revanche plébiscité la flexibilité temporelle : pouvoir passer l'examen depuis chez soi, à l'heure de son choix, sur neuf jours. Un avantage logistique majeur qui compense partiellement la sévérité du format. Ipeirotis y voit aussi un avantage pédagogique structurel : puisque les questions spécifiques sont générées en temps réel par l'agent, les sujets d'examen ne peuvent pas fuiter. Les étudiants peuvent s'entraîner autant qu'ils le souhaitent avec le même agent — ce qui ne fait que renforcer leur maîtrise réelle. C'est précisément ainsi que l'apprentissage est censé fonctionner.
Une expérience fondatrice pour l'évaluation à l'ère de l'IA
Ce que l'expérience de Panos Ipeirotis démontre avant tout, c'est que l'IA générative n'a pas seulement créé un problème de tricherie : elle a rendu obsolètes des décennies de pratiques d'évaluation. La réponse ne peut pas se limiter à restaurer le passé — revenir aux examens sur papier est une régression qui ne règle pas le problème fondamental de l'évaluation individuelle dans les travaux collectifs.
L'examen oral automatisé par IA n'est pas une solution parfaite. Il est stressant, techniquement fragile dans ses premières versions, et soulève des questions d'équité et d'accessibilité qui devront être traitées systématiquement — pour les étudiants dyslexiques, malentendants, ou simplement défavorisés par un environnement vocal anxiogène. Mais à 42 cents par étudiant, avec un feedback de qualité supérieure à ce que produisent des correcteurs humains sous pression, une capacité à diagnostiquer les lacunes de l'enseignement lui-même, et l'impossibilité structurelle de faire fuiter les sujets, il représente une piste d'une solidité inhabituelle.
La conclusion d'Ipeirotis est lapidaire : « Combattre le feu par le feu. » L'IA a tué l'examen traditionnel. C'est à l'IA de forger ses successeurs. Les prompts de l'agent vocal et du jury de notation sont publics — une invitation ouverte à la communauté académique à s'emparer de cette approche, à l'améliorer, et à poser collectivement la question que ce professeur new-yorkais a eu le mérite de soulever en premier : comment évalue-t-on la compréhension réelle quand la simulation de la compréhension ne coûte plus rien ?
Sources : blog de Panos Ipeirotis, prompts de l'agent vocal (GitHub), prompts du jury de notation (GitHub), Council of LLMs (GitHub), recherche de Brian Jabarian
Et vous ?
Si un jury de LLM évalue les connaissances de manière plus cohérente qu'un jury humain, cela signifie-t-il que les humains étaient de mauvais évaluateurs — ou que les machines ne mesurent pas ce qui compte vraiment ?
La délibération entre Claude, Gemini et ChatGPT a poussé Gemini vers plus de sévérité. Peut-on parler de « pression sociale » entre IA, et dans quel sens ce mécanisme biaise-t-il l'évaluation finale ?
À 42 cents par étudiant, l'examen oral automatisé pourrait devenir un standard mondial — y compris là où les enseignants qualifiés sont rares. Est-ce une opportunité pédagogique ou un risque d'appauvrissement de la relation éducative ?
La durée d'un examen oral ne corrèle pas avec la note obtenue : le plus court a décroché le meilleur résultat. Qu'est-ce que cela dit de notre rapport culturel à la « démonstration d'effort » dans l'évaluation ?
Vous avez lu gratuitement 1 190 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

