When Specialized Beats General: Embedding-Based vs. Large Language Model Classification for the MEPA Pedagogical Ontology

𝐐𝐮𝐚𝐧𝐝 𝐮𝐧 𝐦𝐨𝐝è𝐥𝐞 𝐬𝐩é𝐜𝐢𝐚𝐥𝐢𝐬é 𝐬𝐮𝐫𝐩𝐚𝐬𝐬𝐞 𝐥𝐞𝐬 𝐋𝐋𝐌

L’équipe iCoSys (HEIA-FR) a contribué à l’article :

“𝘞𝘩𝘦𝘯 𝘚𝘱𝘦𝘤𝘪𝘢𝘭𝘪𝘻𝘦𝘥 𝘉𝘦𝘢𝘵𝘴 𝘎𝘦𝘯𝘦𝘳𝘢𝘭: 𝘌𝘮𝘣𝘦𝘥𝘥𝘪𝘯𝘨-𝘉𝘢𝘴𝘦𝘥 𝘷𝘴. 𝘓𝘢𝘳𝘨𝘦 𝘓𝘢𝘯𝘨𝘶𝘢𝘨𝘦 𝘔𝘰𝘥𝘦𝘭 𝘊𝘭𝘢𝘴𝘴𝘪𝘧𝘪𝘤𝘢𝘵𝘪𝘰𝘯 𝘧𝘰𝘳 𝘵𝘩𝘦 𝘔𝘌𝘗𝘈 𝘗𝘦𝘥𝘢𝘨𝘰𝘨𝘪𝘤𝘢𝘭 𝘖𝘯𝘵𝘰𝘭𝘰𝘨𝘺”

co-écrit par Léonard Noth, Sandy Ingram-Helou, Joris Felder, Morgane Nissille et Bernadette Charlier.

𝐋𝐞 𝐜𝐨𝐧𝐭𝐞𝐱𝐭𝐞

Dans les systèmes d’IA conversationnelle pour l’éducation, il est essentiel de classer correctement les contributions des apprenants selon des concepts pédagogiques précis.

La 𝐌𝐄𝐏𝐀 𝐎𝐧𝐭𝐨𝐥𝐨𝐠𝐲 décrit sept concepts liés aux expériences personnelles d’apprentissage. Sa granularité et les nuances entre ses catégories rendent cette tâche particulièrement difficile pour les modèles généralistes.

𝐂𝐞 𝐪𝐮𝐞 𝐧𝐨𝐮𝐬 𝐚𝐯𝐨𝐧𝐬 𝐭𝐞𝐬𝐭é

Nous avons évalué plusieurs modèles de langage de dernière génération, dont GPT-5 (Standard, Mini et Nano) ainsi que différents modèles Claude.

Tous ont été configurés avec des prompts optimisés et des capacités de raisonnement étendues, puis testés sur un jeu de données de 350 exemples annotés par des experts.

𝐑é𝐬𝐮𝐥𝐭𝐚𝐭

Malgré ces optimisations, les LLM ont obtenu des performances inférieures à celles attendues pour cette tâche de classification hautement spécialisée.

𝐍𝐨𝐭𝐫𝐞 𝐚𝐩𝐩𝐫𝐨𝐜𝐡𝐞

Nous avons développé une solution dédiée combinant :

• Text Embedding 3-Large pour la représentation sémantique des données

• un réseau de neurones feedforward entraîné sur 14’000 exemples équilibrés

Cette approche a atteint une précision de 94 %, soit 12 % de mieux que le meilleur LLM évalué.

𝐀̀ 𝐫𝐞𝐭𝐞𝐧𝐢𝐫

Les LLM sont remarquablement polyvalents, mais ils ne constituent pas toujours la meilleure solution.

Lorsqu’une tâche est bien définie, qu’un cadre conceptuel précis existe et que des données annotées sont disponibles, une architecture spécialisée peut offrir de meilleures performances, tout en étant plus simple et plus efficace à déployer.

Article : https://www.scitepress.org/Papers/2026/144583/144583.pdf