Les évaluations scolaires à grande échelle des élèves reposent sur deux types généraux d'items : les questions à réponses choisies (p. ex., à choix multiples) et les questions à réponses construites, qui englobent les formats à réponses courtes et longues. Dans le cas des évaluations informatisées, les réponses choisies peuvent être corrigées automatiquement par ordinateur. Les formats à réponses construites exigent que les candidats rédigent leurs réponses sous forme textuelle et numérique. La correction humaine des réponses construites comporte un risque de subjectivité et de résultats incohérents, peu fiables et invalides (il faut toutefois reconnaître que la mise en œuvre de procédures de correction strictes peut atténuer ces problèmes). La correction manuelle nécessite également des ressources importantes. Selon Huseyn (2024), « ces deux facteurs, la réduction de la subjectivité et l'amélioration de l'efficacité opérationnelle, sont les principales raisons de l'intérêt croissant pour l'utilisation de la technologie pour l'évaluation automatisée de l'écriture ».[1] Cet article présente un bref aperçu de l'état actuel de la correction électronique des réponses construites et de la mesure dans laquelle elle est prise en compte dans les plans de modernisation des évaluations scolaires à grande échelle au Canada.
La notation automatisée des réponses construites a connu une évolution significative au cours des trois dernières décennies, et les avancées récentes en matière d'IA générative et de traitement automatique du langage naturel (TALN) ont contribué à l'amélioration des technologies de notation. Huseyn explique que « …les développements basés sur l'IA dans le secteur de l'évaluation scolaire, notamment en matière de notation et de rapport, tels que Microsoft Copilot ou les outils OpenAI basés sur GPT, sont considérés comme des assistants intégrés pour répondre aux besoins de notation. Par ailleurs, certains organismes d'évaluation pourraient préférer aller au-delà des assistants intégrés et opter pour des solutions d'évaluation automatisée de l'écriture spécialisées, disponibles sur le marché du primaire et du secondaire, conçues spécifiquement à cet effet, avec des algorithmes d'évaluation entièrement contrôlés. » L'article de recherche de Huseyn propose une analyse comparative (un cadre) pour aider les décideurs à choisir entre les systèmes de notation basés sur GPT et les systèmes spécialisés.
De nombreuses études ont démontré le potentiel croissant de l'IA pour la notation des réponses ouvertes. Par exemple, une étude d'Okubo et al. (2023) a examiné l'utilisation de l'IA pour la notation des items à réponses construites du Programme international pour le suivi des acquis des élèves (PISA).[2] Une vaste collection historique de textes (items de lecture et de culture scientifique) a été utilisée comme données d'entraînement pour développer des modèles de notation de l'IA. Les modèles entraînés ont ensuite été utilisés pour noter les réponses des élèves, et les résultats ont été comparés à ceux des réponses notées par des humains. Les chercheurs ont rapporté que « les distributions de scores estimées à partir des données notées par l'IA et celles notées par des humains sont très cohérentes ; de plus, même les propriétés psychométriques au niveau des items de la majorité ont montré des niveaux élevés de concordance… et cette nouvelle méthodologie de notation de l'IA a atteint un niveau de qualité pratique, même dans le contexte d'une évaluation internationale à grande échelle. »
Une étude d'Atsushi et Eguchi (2023) a exploré l'utilisation de ChatGPT pour la notation automatisée des dissertations.[3] Dans cette étude, les chercheurs ont utilisé 12 100 dissertations en anglais rédigées par des personnes ayant passé le Test of English as a Foreign Language (TOEFL) en 2006 et 2007 et représentant 11 langues maternelles distinctes. Finalement, l'étude a porté sur 1 100 dissertations par langue. Plus précisément, l'étude a utilisé le modèle text-davinci-003 d'OpenAI. Les résultats ont montré que la notation automatisée des dissertations (AES) « … utilisant GPT offre un certain niveau de précision et de fiabilité, et pourrait apporter un soutien précieux aux évaluations humaines. De plus, l'analyse a révélé que l'utilisation de caractéristiques linguistiques pourrait améliorer la précision de la notation. Ces résultats suggèrent que les modèles linguistiques d'IA, tels que ChatGPT, peuvent être utilisés efficacement comme outils d'AES, révolutionnant potentiellement les méthodes d'évaluation et de rétroaction écrites, tant en recherche qu'en pratique. »
Un exemple d'application de l'IA à la notation provient du Royaume-Uni. Comme l'a rapporté Pinkstone (2025)[4], le jury d'examen de l'AQA collabore avec le King's College de Londres pour développer une technologie d'IA destinée à assister les correcteurs d'examens. Dans ce projet, l'IA ne vise pas à remplacer les correcteurs. Les objectifs et applications potentielles sont plutôt les suivants :
« …réduire les erreurs, rendre les barèmes de notation plus justes et fournir un retour d'information plus rapide aux étudiants. »
« …vérifier les notes attribuées par un humain et détecter les scores qui semblent erronément bas ou élevés… »
« …vérifier la qualité des réponses des étudiants grâce à l'apprentissage automatique et à l'analyse du langage, en examinant la pertinence, la véracité, la cohérence et le raisonnement logique d'une réponse. »
« …affiner le barème de notation en cas de faille dans la notation afin de garantir une notation plus juste et de fournir aux étudiants des explications générées par l'IA sur les raisons pour lesquelles ils ont ou non répondu correctement à une question. »
Les responsables du projet garantissent que l'assistant de notation virtuel sera développé en collaboration avec des élèves, des enseignants et des experts du sujet. Le système sera rigoureusement testé avant son lancement, et les réponses construites seront également systématiquement évaluées par des correcteurs humains.
Aux États-Unis, plusieurs juridictions, dont l'Utah, l'Ohio, le Massachusetts et le Texas, utilisent l'IA à diverses fins de notation des évaluations, et de nombreuses autres explorent le potentiel de l'IA pour la notation des réponses construites. Le Massachusetts, par exemple, utilise la notation par IA pour des tests spécifiques. Selon le Département de l'Éducation primaire et secondaire du Massachusetts (DESE)[5], des correcteurs humains sont utilisés pour toutes les questions à réponse construite en éducation civique, en anglais (ELA), en mathématiques et en sciences et technologie/ingénierie. Une combinaison de correcteurs humains et de notation par IA est utilisée pour les dissertations d'ELA. Pour les réponses construites d'ELA (CE2 et CM1) et les dissertations de la CE2 à la 4e année, la notation informatique automatisée fournit une note initiale. Des correcteurs humains formés fournissent une note de lecture rétrospective pour 10 % de toutes les réponses. Pour les productions écrites ELA de 10e année, tous les productions écrites sont notées deux fois, une fois par l'IA et une fois par un correcteur humain.
À partir de 2024, les élèves passant les tests STAAR (Évaluations de la préparation académique) de l'État du Texas ont vu leurs réponses écrites en lecture, écriture, sciences et sciences sociales corrigées automatiquement par ordinateur.[6] La décision de passer à la notation informatisée a été prise à la suite d’une refonte des tests, qui a impliqué la réduction du nombre d'items à choix multiples et l'augmentation significative du nombre de questions/tâches à réponses construites. Pour développer le système de notation, la Texas Education Agency (TEA) a utilisé un échantillon de terrain de 3 000 réponses d'élèves, soumises à deux cycles de notation humaine. À partir de cet échantillon de réponses notées, le moteur de notation automatisé a appris les caractéristiques des réponses et a été programmé pour attribuer des notes identiques à celles qu'un humain aurait attribuées. À mesure que les élèves terminaient leurs tests, le système de notation a d'abord noté toutes les réponses construites. Environ 25 % d'entre elles ont été renotées par des correcteurs humains. Lorsque le système informatique avait une confiance insuffisante dans les notes attribuées, celles-ci ont été réattribuées à des correcteurs humains pour révision. De même, lorsque le système rencontrait un type de réponse que sa programmation ne reconnaissait pas (par exemple, l'utilisation de nombreux mots/expressions argotiques, ou de mots dans d'autres langues que l'anglais), celui-ci était réaffecté à un humain. De plus, un échantillon aléatoire de réponses était automatiquement transmis à un humain pour vérification de l'exactitude du système automatisé.
Au Canada, la majorité des provinces et territoires ont fait passer leurs programmes d'évaluation des élèves à grande échelle du format papier au format informatisé, Vretta agissant comme partenaire technologique pour soutenir cette modernisation. Ces provinces ont mis en place des plateformes numériques incluant la notation humaine en ligne et des flux de travail intégrés conçus pour soutenir la réalisation d'évaluations à grande échelle.
Forts de ces bases, trois provinces ont commencé à analyser, à tester et à intégrer la notation par IA à leurs programmes d'évaluation. Ces provinces, déjà à l'avant-garde des pratiques d'évaluation modernisées, se concentrent désormais sur l'exploitation de l'IA pour soutenir les correcteurs dans leur travail et améliorer la qualité et la cohérence de la notation grâce à des processus de validation intelligents. L'utilisation de l'IA dans ces contextes ne vise pas à remplacer le jugement humain, mais plutôt à accroître l'efficacité opérationnelle, à réduire les écarts de notation et à favoriser l'amélioration continue de la fiabilité des résultats d'évaluation des élèves.
Cette nouvelle vague d'innovation souligne l'engagement du Canada envers une utilisation responsable et progressiste des technologies en éducation, en mettant l'accent sur la qualité, l'équité et la validité du processus de notation. Je crois que l’élan en faveur de l’intégration de l’IA dans la notation devrait s’accroître à mesure que d’autres juridictions observeront ces premières mises en œuvre et évalueront les avantages dans leurs propres contextes.
La recherche a révélé le grand potentiel et les avantages de la notation par l'IA. De plus en plus, les administrations et les organismes d'évaluation mettent en œuvre ou explorent l'utilisation de cette technologie pour la notation des questions et tâches à réponse ouverte. Un prochain article fera le point sur les progrès réalisés dans la mise en œuvre de la notation automatisée par réponses construites au Canada.
Le Dr Jones possède une vaste expérience en évaluation pédagogique à grande échelle et en évaluation de programmes. Il œuvre dans ce domaine depuis près de 40 ans. Avant de fonder RMJ Assessment, il a occupé des postes de haute direction à l'Office de la qualité et de la responsabilité en éducation (OQRE) de l'Ontario, ainsi qu'aux ministères de l'Éducation de la Saskatchewan et de la Colombie-Britannique. À ce titre, il était responsable des initiatives liées à l'évaluation des élèves, des programmes et du curriculum ; aux indicateurs de qualité de l'éducation ; à la planification de l'amélioration des écoles et des conseils scolaires ; à l'accréditation des écoles ; et aux tests provinciaux, nationaux et internationaux.
Le Dr Jones a débuté sa carrière comme enseignant aux niveaux primaire, secondaire et postsecondaire. Il a ensuite été chercheur et cadre supérieur pour une multinationale offrant des services de consultation au Moyen-Orient.
N'hésitez pas à contacter Richard « Rick » à l'adresse richard.jones@rmjassessment.com (ou sur LinkedIn) pour vous renseigner sur les meilleures pratiques en matière d'évaluation à grande échelle et d'évaluation de programmes.