|
||||||
|
Classification des étudiants universitaires de première année selon leurs possibilités estimées de réussite[1]
Jean-Philippe Vandamme*, Nadine Meskens*, Superby Juan-Francisco*
*Facultés Universitaires Catholiques de Mons (FUCaM) Unité de recherches « Mathématiques Appliquées et Aide à la Décision » 151 Chaussée de Binche, 7000 Mons – Belgique vandamme@fucam.ac.be, meskens@fucam.ac.be, superby@fucam.ac.be
Abstract Academic failure among first-year university students has long fuelled a large number of debates. Many educational psychologists have tried to understand and then explain it. Many statisticians have tried to foresee it. Our research aims to be able to classify, as early in the academic year as possible, students into three groups: the "low‑risk" students, who have a high probability of succeeding, the "medium‑risk" students, who may succeed thanks to the measures taken by the university, and the "high‑risk" students, who have a high probability of failing (or dropping out). This article describes our methodology and provides the most significant variables correlated to academic success among all the questions asked to 533 first-year university students during the month of November of academic year 2003-04. Finally, it presents the results of the application of discriminant analysis, neural networks and decision trees aimed at predicting those students' academic success.
Résumé Depuis longtemps, l’échec scolaire en première année universitaire alimente bon nombre de débats. De nombreux psychopédagogues ont tenté de le comprendre puis de l’expliquer. De nombreux statisticiens ont quant à eux essayé de le prévoir. Nos recherches visent à pouvoir classer les étudiants en trois groupes : le groupe des étudiants ayant une forte probabilité de réussir l'année ("low risk"), le groupe des étudiants qui peuvent éventuellement réussir moyennant des actions à mener par l’université ("medium risk") et le groupe des étudiants ayant une forte probabilité d'échouer (ou d'abandonner) ("high risk"). Cet article décrit notre méthodologie et les variables les plus corrélées à la réussite universitaire selon les réponses de 533 étudiants soumis au questionnaire en novembre 2003. Enfin, il présente les résultats obtenus grâce aux analyses discriminantes, aux arbres de décision et aux réseaux de neurones pour prédire la réussite universitaires de ces étudiants.
Mots clés
Arbres de
décision – Réseaux de neurones – Analyses discriminantes – Éducation –
Prédiction
1 Introduction Lorsque nous analysons les résultats des étudiants de première candidature dans les universités francophones de Belgique, nous constatons qu'environ 60 % des étudiants de première génération échouent ou abandonnent en première année. Droesbeke et al. (2001) ont observé que les taux de réussite, de redoublement et d'abandon sont relativement stables depuis plus de 10 ans. Ils ont établi que le taux de réussite des entrants de première candidature provenant de l'enseignement secondaire avoisine les 41%, le taux de redoublement est de l'ordre de 26% et le taux d'abandon est de 33%. Ces chiffres doivent susciter réflexion et conduire à diverses actions susceptibles de réduire le coût économique, social et humain préoccupant qu’entraîne ce taux élevé d’échec en première année. C’est pourquoi, depuis quelques années, la plupart des universités belges offrent des activités supplémentaires au programme requis de première année (enseignement assisté par ordinateur, monitorat,...) en vue de remédier aux lacunes constatées auprès d'étudiants “en situation d'échec” notamment après la session des examens de janvier. En nous basant sur les travaux effectués notamment par Parmentier (1994), nous avons retenu aussi bien des facteurs processuels que structurels pour expliquer la performance académique. Au début de l’année académique 2003-2004, nous avons réalisé et distribué un questionnaire auprès de trois universités belges, distribution qui a été renouvelée en 2004-2005. Nous allons donc être à même de relever les correspondances et les divergences entre les modèles prédictifs obtenus dans des institutions universitaires conduisant à des diplômes à la fois proches et différents. L’échantillon de données utilisé pour obtenir les résultats qui sont présentés ici contient 533 étudiants inscrits dans une université belge, dont 151 ayant dû réussir un examen d’admission universitaire. Chaque étudiant est décrit au moyen de 375 variables relevées par le biais du questionnaire. Une sélection de variables sera donc nécessaire préalablement à un quelconque traitement statistique ou mathématique. La variable à expliquer utilisée pour la construction de nos modèles est une variable à trois modalités, construite a posteriori, regroupant les étudiants selon leur performance académique. Notre objectif final est de pouvoir classer les étudiants en trois groupes : le groupe des étudiants ayant une forte probabilité de réussir l'année (“low risk”), le groupe des étudiants qui peuvent éventuellement réussir moyennant des actions à mener (“medium risk”) et le groupe des étudiants ayant une forte probabilité d'échouer (ou d'abandonner) (“high risk”). Afin de cibler correctement les étudiants qui ont vraiment besoin de mesures d’accompagnement, notre objectif est donc bien de proposer une méthode permettant d’identifier les étudiants “medium risk” le plus tôt possible dans l’année, avant la première session d’examens et ce afin d’optimiser la répartition des ressources pédagogiques visant à lutter contre l’échec scolaire. Afin de proposer une démarche visant à construire un modèle de prédiction de la réussite universitaire, nous présenterons avant tout la méthodologie que nous avons adoptée. Ensuite, nous décrirons les données dont nous disposons, nous présenterons les différents résultats obtenus par les méthodes des arbres de décision et des réseaux de neurones et enfin, nous comparerons leurs performances avec celle de l’analyse discriminante linéaire.
2 Méthodologie Afin de collecter un maximum d’informations pertinentes sur les étudiants de première année universitaire, un questionnaire a été élaboré sur base d’une recherche effectuée par P. Parmentier (1994). Celui-ci a établi que les performances académiques intermédiaires et finales des étudiants sont influencées par trois ensembles de facteurs, en interactions les uns avec les autres, dont le premier regroupe des facteurs structurels ou stables alors que les deux autres sont composés de facteurs processuels ou changeants. Le premier de ces ensembles reprend tout ce qui concerne l'histoire personnelle de l'étudiant (son identité, son passé sociofamilial, son passé scolaire, etc.). Le deuxième peut s'interpréter comme l'expression de l'implication de l'étudiant dans ses études ou de son comportement face à celles-ci (participation à des activités facultatives, rencontre avec ses professeurs pour poser des questions ou obtenir un feedback d'un examen partiel, etc.). Le dernier ensemble de facteurs regroupe toutes les perceptions de l'étudiant (la manière dont il perçoit le contexte académique, ses professeurs, les cours, etc.). En novembre 2003, ce questionnaire a été distribué à des étudiants de première année dans trois universités de la Communauté Française de Belgique. En novembre 2004, l’enquête a été renouvelée auprès des trois mêmes universités belges et a été aussi menée dans une université française. Cela dit, les chiffres présentés ici ne portent que sur les données relatives à l’année académique 2003-2004, c’est-à-dire sur 227 étudiants inscrits en première année en sciences de gestion ou en sciences politiques, 155 étudiants bio-ingénieurs ayant terminé leurs études secondaires, seule condition pour accéder à ce type d’études en Belgique, ce à quoi il faut encore ajouter 151 étudiants ingénieurs civils ayant réussi un examen d’entrée pour pouvoir entamer leurs études. Les questionnaires complétés ont conduit à la construction de la base de données où chaque étudiant est décrit selon un certain nombre de critères ou d’attributs tels que son âge, le niveau d’éducation de ses parents, ses perceptions par rapport au monde universitaire qui l’entoure, etc. Afin d’extraire de cette base de données des connaissances nous permettant de cibler efficacement les étudiants qui ont le plus besoin d’être aidés, ceux à qui il faut consacrer en priorité les ressources limitées dont on dispose pour faire de l’accompagnement pédagogique (tutorat par un étudiant plus âgé, monitorat par un professeur en particulier, etc.), des méthodes statistiques et mathématiques (data mining) ont été utilisées. Notons encore avant d’analyser les données que nous avons récoltées qu’un modèle obtenant de bons taux de classement en validation interne ne nous intéresse bien entendu pas et que seul le pouvoir prédictif sur de nouveaux individus est véritablement significatif. C’est pourquoi nous n’avons jamais travaillé que sur 70 pourcents des étudiants, gardant ainsi les 30 autres pourcents pour la phase de validation.
3 Données Le questionnaire administré comportait 42 questions ou séries de questions, presque exclusivement fermées, desquelles nous avons extrait 148 variables souvent binaires ou à 5 modalités mais parfois aussi codées sous forme de pourcentages. À partir de ces 148 variables, nous en avons créé 227 autres, principalement par re-codification ou par combinaison. Au total, chaque étudiant qui a participé à l’enquête est donc représenté par 375 variables explicatives dans la base de données.
Figure 1 - Construction de la variable de décision
A celles-ci, il faut ajouter une variable un peu particulière : celle qui servira de variable de décision (dirait-on en « Data Mining »), de variable à expliquer (dirait-on en régression). Si on cherche à expliquer la réussite universitaire, on ne dispose de cette variable qu’au mois de septembre qui suit l’administration du questionnaire puisqu’il faut attendre pour savoir si l’étudiant est ou non admis dans l’année supérieure. Notre objectif étant de proposer au cours du premier semestre une découpe en trois groupes d’étudiants selon leur probabilité de réussite, une variable à trois modalités (« low risk », « medium risk », « high risk ») a été construite a posteriori. Cette variable devait être non seulement le reflet des résultats globaux des étudiants mais aussi de leur capacité à évoluer au cours de l’année. Un graphique (Figure 1) mettant en rapport la moyenne des notes obtenues par un étudiant lors de la session de janvier avec son grade académique en fin d’année a permis de mettre clairement en évidence deux groupes extrêmes d’étudiants : ceux qui ayant obtenu lors des examens de janvier une note globale inférieure à 9 sur 20, ont tous échoué à la fin de l’année (à l’exception de deux étudiants) et ceux qui ayant obtenu une note globale en janvier de plus de 14 sur 20, ont tous réussi . Nous avons donc constitué la valeur de la variable de décision en fonction de la zone (gauche, centrale ou droite) dans laquelle l’étudiant se trouvait. Au niveau des variables elles-mêmes à présent, une étude préliminaire réalisée par Vandamme et al. (2005) nous a montré à quel point les variables non corrélées à la variable de décision étaient néfastes à la réalisation de prédiction dans notre domaine d’application. Cette étude avait donc fait l’état des lieux des corrélations entre la variable de décision et chacune des variables provenant de notre enquête. Une variable sur cinq s’était avérée être corrélée (dont plus d’un tiers très fortement) à la performance universitaire. Les plus corrélées concernaient la présence aux cours, les chances de réussite estimées, le bagage scolaire antérieur principalement en mathématique et la manière d’étudier. Des facteurs significativement influents ont donc été trouvés dans chacun des trois groupes de variables et bien que si pas mal de choses se décident déjà avant l’entrée à l’université (facteurs structurels), rien n’est encore définitif et les facteurs processuels renferment aussi une grande part de l’explication des performances académiques. Nous avions aussi noté de très grosses disparités entre chacune des universités. Ainsi, certaines variables particulièrement corrélées pour un jeu de données ne permettaient de mettre en évidence aucun lien avec la réussite universitaire dans un autre jeu de données. Cette observation avait d’ailleurs été confirmée par un test du khi-carré permettant de rejeter de façon incontestable l’indépendance entre la réussite universitaire et l’appartenance à l’une des trois universités de notre échantillon.
4 Résultats Pour atteindre notre objectif et donc réaliser des prédictions sur notre variable de décision, nous avons utilisé plusieurs méthodes qui sont présentées dans ce chapitre : les arbres de décision, les réseaux de neurones et une analyse discriminante linéaire, et avons comparé les résultats obtenus par chacune d’elles.
4.1 Arbre de décision Un arbre de décision (Rakotomalala 1997) est une structure mathématique représentable sous la forme d’un graphe orienté acyclique possédant une racine unique et pour lequel chaque nœud interne représente un test sur une variable du jeu de données. Les branches sortant de chaque nœud correspondent aux différentes réponses possibles au test. Pour une variable continue, le test sera de la forme « si la valeur sur la variable est supérieur à une valeur seuil alors prendre la première branche, sinon prendre la seconde ». Pour les variables catégorielles, à chaque modalité de la variable est associée une des branches sortantes du nœud. Les nœuds terminaux sont appelés feuilles et sont affectés lors de la phase d’apprentissage à l’une des modalités de la variable de décision. Pour réaliser une prédiction sur un nouvel individu, il suffit de lui faire parcourir le graphe jusqu’à une feuille et en fonction de la feuille à laquelle il aboutira le nouvel individu sera affecté à l’une ou l’autre classe de la variable de décision. Nous avons utilisé le logiciel SAS/Enterprise Miner pour construire un tel arbre de décision. Nous avons choisi de construire notre arbre sur base de l’entropie de Shannon et de l’algorithme ID3 (Quinlan 1979) et nous avons obtenu un arbre qui présente l’avantage d’être particulièrement simple à interpréter. La classification des étudiants s’effectue sur base de cinq variables uniquement. Ainsi, par ordre décroissant d’importance, on retrouve une variable sur le taux de participation hebdomadaire de l’étudiant aux cours, une autre sur son sentiment d’avoir fait un bon choix en s’inscrivant dans son université et trois variables moins essentielles portant sur les raisons l’ayant poussé à entrer à l’université ou à entreprendre ce type d’étude.
Tab 1 – Synthèse des résultats de la validation pour les arbres de décision
Par contre, comme le montre le tableau 1, les pourcentages de prédiction correcte en phase de validation ne sont pas très bons : seuls 48,65% des étudiants de la classe 1 ont été bien classés au moyen de l’arbre élaboré ; 18,46% seulement des étudiants de classe 2 ont été effectivement classés en 2 et 60,34% des étudiants de classe 3 ont été classés correctement. Pour les classes extrêmes, on voit que l’arbre de décision s’en sort encore plus ou moins mais ces prédictions concernant les étudiants “medium risk” sont assez farfelues (or, c’est la classe la plus nombreuse avec 40% des étudiants contre 27% dans la classe “high risk” et 33% pour la classe “low risk”). Au total, on obtient un taux global de bonne classification de seulement 40,63%. Les résultats présentés ici portent sur le jeu de données complet, or, il s’est avéré que, au sein de notre échantillon, de grandes différences se marquaient selon l’université à laquelle un étudiant était inscrit. Il serait dès lors plus logique de réaliser trois arbres de décision plutôt qu’un seul. Ce faisant, nous sommes obligé d’utiliser un plus petit nombre d’étudiants pour la construction et la validation de nos arbres. Ces arbres plus petits conduisent néanmoins à des résultats meilleurs en terme de taux de classification correcte : ces taux valent en effet 46,66%, 51,47% et 61,70% selon les trois institutions universitaires de notre échantillon. La diminution du nombre d’exemples utilisables pour l’apprentissage semble donc être moins problématique à gérer pour la méthode des arbres de décision que l’hétérogénéité des profils d’étudiants inscrits dans les différentes universités étudiées ici.
4.2 Réseaux de neurones Les réseaux de neurones (Dreyfus et al. 2002) sont des outils très utilisés pour la classification, l’estimation ou la prédiction. Ils tentent de modéliser par un algorithme itératif le fonctionnement du cerveau humain. Pour ce faire, ils utilisent une architecture paramétrable de neurones connectés les uns aux autres qui se décompose en trois zones : la couche d’entrée, la ou les couches cachées et la couche de sortie. Les variables du problème sont traitées et pondérées par la couche d’entrée qui envoie ensuite des informations à la ou les couches cachées qui en combinant toutes ces informations renvoie(nt) une valeur au neurone de sortie constituant de la sorte une estimation pour la variable de décision. Sur base de notre ensemble d’apprentissage contenant 70% des individus, nous avons construit un modèle au moyen de la procédure de réseaux de neurones de SAS/Enterprise Miner. Le modèle qui a été retenu est un perceptron multicouche, dont la fonction d’activation est une tangente hyperbolique, possédant une couche cachée contenant trois neurones, et utilisant un neurone de sortie pour réaliser les prédictions sur notre variable de décision. L’application d’une procédure de sélection de variables en amont de l’utilisation du réseau de neurones nous a permis de déterminer la liste des variables à utiliser dans le modèle et de facto le nombre de neurones d’entrée. Ces variables sont au nombre de 23 et elles balayent l’ensemble des catégories du modèle de Parmentier. A titre d’exemples, elles vont de l’âge de l’étudiant(e) au pourcentage de cours suivis en moyenne sur une semaine en passant par une série de mesures sur les motivations qui ont poussé l’étudiant(e) à choisir son université, le nombre d’heures de mathématiques suivies dans le secondaire ou encore sa moyenne en fin de terminale.
Tab 2 – Synthèse des résultats de la validation pour les réseaux de neurones
Comme le montre le tableau 2, les taux de classification correcte ne sont pas non plus transcendants, même s’ils sont légèrement supérieurs à ceux du tableau 1, le pourcentage global d’étudiants bien classés atteignant 51,88% pour les réseaux de neurones. Par contre, les résultats obtenus lors de la découpe de notre échantillon selon l’appartenance aux différentes universités ne sont pas meilleurs que ceux du paragraphe précédent : ainsi, on obtient 55,55%, 55,88% et 57,45% de prédictions correctes pour les trois sous-échantillons. Il faut sans doute comprendre par là que la diminution de la taille des ensembles d’apprentissage est très préjudiciable à une méthode comme celle des réseaux de neurones.
4.3 Analyse discriminante linéaire L’objectif de l’analyse discriminante (Palm 1999) est de permettre de classer un individu dans un des g groupes auxquels il pourrait appartenir (dans ce cas-ci, g vaut 3). Pour y parvenir, la méthode consiste à déterminer une règle d’affectation en se basant sur p variables caractérisant chaque individu à classer. Cette règle d’affectation est définie au vu de g échantillons prélevés dans chacun des groupes. Pour une analyse discriminante linéaire, on calcule ensuite la probabilité qu’a un individu à classer d’appartenir à chacun des g groupes en fonction de la distance qu’il le sépare de chacun des g centres de gravité des groupes. On affecte l’individu au groupe pour lequel il a la plus forte probabilité d’appartenance ou, autrement dit, le groupe dont il est le plus proche dans un espace à p dimensions. Il faut quand même noter que pour utiliser cette méthode, il faut que les g populations relatives aux g groupes soient normales à p dimensions et de matrices de variances et covariances égales. Nous supposerons qu’il en est ainsi car ces conditions d’application ne semblent pas être très préjudiciables lorsque les données s’écartent un peu de cette situation idéale. Une sélection préalable de variables via une stratégie « stepwise » (réalisée avec le logiciel SAS) a permis de retenir pour la construction des fonctions discriminantes 21 variables qui correspondent à peu de choses près à celles retenues pour les réseaux de neurones.
Tab 3 – Synthèse des résultats de la validation pour l’analyse discriminante linéaire.
L’analyse des résultats du tableau 3 montre un taux global de classification correcte de 57,35%, soit le moins mauvais résultat des trois méthodes. Ce taux est dans la moyenne des taux obtenus lorsque l’on s’intéresse séparément aux trois universités pour lesquelles on obtient 46,85%, 57,17% ou 61,93%.
5 Conclusions et perspectives Les résultats obtenus par les méthodes de prédiction nous permettent de conclure que les taux de prédiction obtenus en validation ne sont pas extraordinaires. Les disparités importantes notées entre les réalités des trois universités dont proviennent notre échantillon n’ont pas non été bénéfiques pour les taux de classification correcte obtenus par chacune des trois méthodes. Cela dit, l’analyse discriminante et dans une moindre mesure les réseaux de neurones semblent pouvoir conduire à des résultats intéressants à condition, toutefois, qu’à l’avenir nous augmentions la taille de nos échantillons par université en incorporant les données provenant d’une année académique supplémentaire par exemple. Les facteurs influant sur la réussite universitaire seront-ils stables d’année en année au sein d’une même université ? Est-il possible de trouver des réalités communes aux différentes universités étudiées et pouvant être utilisées pour réaliser des prédictions comme les nôtres ? Notre variable de décision était-elle construite de la manière la plus appropriée pour atteindre notre objectif ? Une combinaison de méthodes de prédiction différentes peut-elle conduire à l’amélioration des résultats globaux ? Trouvera-t-on de grandes différences en franchissant les frontières ? Les facteurs influents seront-ils semblables ? Autant de questions aujourd’hui sans réponse mais qui pourraient en trouver une dans les mois qui viennent.
6 Bibliographie
Dreyfus, G., Martinez, J.M., Samuelides, M., Gordon, M.B., Badran, F., Thiria S., et Herault, L. (2002). Réseaux de neurones. Paris : Eyrolles. Droesbeke, J.-J., Hecquet, I., Wattelar, C. (2001). La population étudiante. Paris : Ellipses. Entwistle, N. (1988). Motivational factors in students' approaches to learning. In R.R. Schmeck (Ed.), Learning strategies and learning styles (pp. 21-51). New York: Plenum. Laurent, G., Kapferer, J.N. (1986). Les profils d’implication. Recherche et applications en marketing, n°1, 41-57. Palm, R. (1999). L’analyse discriminante décisionnelle : principes et application. Notes stat. Inform. Gembloux, Vol. 99, n°4, 1-41. Parmentier, P. (1994). La réussite des études universitaires: facteurs structurels et processuels de la performance académique en première année en médecine (thèse). Louvain : Faculté de Psychologie et des Sciences de l’Éducation, Université Catholique de Louvain. Quinlan, J.R. (1979). Discovering rules by induction from large collections of examples. Edinburgh : Ed. Expert Systems in the Micro Electronic Age, Edinburgh University Press. Rakotomalala, R. (1997). Graphes d'induction (thèse). Lyon: Université Claude Bernard. Rothschild, M.L. (1984). Perspectives on Involvement : Current Problems and Future Directions. Advances in Consumer Research, Vol.11, 216-217. Vandamme, J.-Ph., Meskens, N., Artiba, A. (2005). Comparaison de méthodes sur un modèle de prédiction de la réussite universitaire. The second international congress on quality management education and training systems, Casablanca.
[1] Cette recherche est financée par le "Programme Pôles d'attraction interuniversitaires - État belge - Services fédéraux des affaires scientifiques techniques et culturelles".
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Toptab Themeset by Webstyle 4 |