Doorgaan naar hoofdinhoud

Kan AI studie-uitval in het mbo voorspellen?

Uitval van studenten is een groot vraagstuk in het mbo. Het zou mooi zijn als artificial intelligence (AI) kan helpen om voorspellingen te doen over deze uitval. Misschien kan intelligente technologie in een grote dataset patronen herkennen en daarmee ontdekken welke factoren écht een rol spelen. De ‘traditionele’ voorspellers hebben het namelijk niet altijd bij het rechte eind.

Logo Kennisnet

Door de redactie

8 oktober 2022
10 minuten lezen

Irene Eegdeman, sportdocent bij ROC TOP, deed hier een promotieonderzoek naar. Kan AI studie-uitval voorspellen? En hoe zit het met de inschatting door docenten?

Studie-uitval is hoog

Bij de Sportacademie van ROC TOP in Amsterdam stopt in de loop van de opleiding zo’n 40 procent van de mbo-studenten. Ze kiezen voor andere opleidingen of stoppen helemaal met onderwijs. Ook in andere mbo-instellingen en bij het hoger onderwijs is studie-uitval een belangrijk thema. Eegdeman was benieuwd of ze aan de hand van studentdata voorspellingen kon doen over studiesucces en studie-uitval. Ze onderzocht dit samen met Ilja Cornelisz, Chris van Klaveren en Martijn Meeter van Amsterdam Center for Learning Analytics (Vrije Universiteit Amsterdam).

Uitvalcijfers

Eegdeman beschikte over verschillende gegevens en mogelijke voorspellers van studie-uitval van de afgelopen jaren, of ze wist deze te achterhalen. Denk aan de AMN-scores, eindexamencijfers of de verwachtingen die studenten zelf van tevoren hadden over de opleiding. Deze gegevens kon ze naast de daadwerkelijke uitvalcijfers leggen, want die zijn immers ook bekend.

Traditionele voorspellers hadden het mis

Eerst nam ze traditionele voorspellers onder de loep. De bekende AMN Talentscan, die veel studenten aan het begin van de opleidingen bij de Sportacademie doen, bleek geen goede voorspeller te zijn van studie-uitval, terwijl dat wel werd gedacht. Ook de verwachtingen die studenten zelf van tevoren hadden over hun studie, bleken een slechte voorspeller van succes.

Veel variabelen onderzocht met AI

Toen was het de beurt aan AI. Eegdeman testte verschillende algoritmen en voedde deze met beschikbare data over studenten. Ze paste de algoritmes toe op een groep van 409 sportstudenten uit vier cohorten. Ze onderzocht veel verschillende variabelen, van leeftijd tot behaalde cijfers tot scores op persoonlijkheidstesten (uit de AMN).

De verwachtingen die studenten van tevoren zelf hadden over de studie, bleken een slechte voorspeller van studiesucces

Trainingsset

Zoals het gaat met machine learning kreeg het algoritme eerst een trainingsset met studentendata te verwerken. Na voldoende training en feedback (het algoritme krijgt terug wanneer er inderdaad sprake is geweest van uitval en wanneer niet) kon het algoritme aan de slag met de data van de overige studenten. “De computer ziet daarbij verbanden tussen variabelen en uitval die wij met het blote oog niet zien”, legt Eegdeman uit. “Het algoritme bepaalt dan welke variabelen wél bijdragen aan een goede voorspelling en welke niet. Bovendien zijn het lerende algoritmen, dus bij iedere nieuwe set data wordt opnieuw gecheckt welke variabelen relevant zijn.”

Bij het onderzoek lag de focus op twee aspecten: 

  1. Hoe goed zijn de voorspellingen (precisie)? Met andere woorden: hoe vaak had het algoritme het bij het rechte eind?  
  2. Hoeveel potentiële uitvallers signaleert het algoritme bij een bepaald percentage van de steekproef (sensitiviteit)?  

Het eerste punt spreekt voor zich: het is belangrijk om te onderzoeken of algoritmen überhaupt bruikbaar zijn voor dit soort voorspellingen. Het tweede punt betreft een praktische kant van studie-interventies. “Je kunt nooit iedereen uitgebreid spreken tijdens de opleiding. Je zou daarom willen dat het algoritme met een steekproef van zo weinig mogelijk studenten zoveel mogelijk potentiële studie-uitvallers signaleert.”  

Voorspellingen van docenten

Docenten hebben niet als hoofdtaak om een voorspelling te doen over studie-uitval, maar het past natuurlijk wel bij hun werk om een inschatting te maken van studenten. Gaan ze het halen of niet? De school vraagt die inschatting ook bij overgangsgesprekken en op het moment dat er een bindend studieadvies wordt gegeven. Zo’n oordeel hangt vaak af van de eerste cijfers en resultaten én van het inschattingsvermogen en de ervaring van de docent.

Des te interessanter is het om ook te kijken hoe goed docenten zijn in het voorspellen van uitval. Negen docenten deden mee aan het onderzoek. Ze bleken, zeker in het begin van de sportopleiding, best goed te zijn in die voorspellingen.

Bruikbare voorspellingen door docent en AI

Is intelligente technologie in te zetten als hulpmiddel om studie-uitval te voorzien? Uit het onderzoek op ROC TOP bij studenten (en docenten) sport bleek het volgende:

  • Bruikbare voorspellingen – Kunstmatige intelligentie kan voorspellingen doen over studie-uitval. Bepaalde algoritmen doen het goed, andere minder goed. Het verschil tussen de algoritmen was overigens niet zo groot.
  • AI wordt steeds accurater – Hoe verder in de tijd, hoe accurater de voorspellingen met AI worden. Direct aan het begin van de opleiding is de voorspelling niet veel beter dan het gemiddelde kansniveau, maar vanaf het eind van het eerste semester en in latere semesters worden de voorspellingen steeds beter.
  • Voorspellingen door docenten – Bij de start van deze opleiding blijken ook docenten goede voorspellingen te doen over uitval. Beter zelfs dan de algoritmen. Naarmate het studiejaar vordert, doet het algoritme het juist beter.

Horizontaal staat de hoeveelheid gecheckte studenten, verticaal de precisie (hoe vaak werd een uitvaller ‘gedetecteerd’). Hoe steiler de lijn omhoog aan het begin, hoe vaker een uitvaller werd gevonden, dus hoe beter de voorspelling is. Bij de start van de opleiding maken docenten een betere inschatting dan de algoritmen.

Aan het eind van periode 1 is de precisie van de algoritmen toegenomen. Ook daar zijn nu steile lijnen te zien aan het begin, ze pikken de potentiële uitvallers er vaker uit.

LASSO en SVM 

In deze studie zijn de algoritmen GPA, LASSO, SVM en RF getest. Het beste resultaat kwam naar voren via de LASSO (Least Absolute Shrinkage and Selection Operator) en SVM (Support Vector Machine). “Dat betekent nu niet dat het ene algoritme altijd mindere resultaten geeft dan het andere, maar in deze context en met deze dataset werken LASSO en SVM blijkbaar het best.”  

Verbeteren van modellen

Eegdeman is tevreden met de uitkomsten van dit onderzoek. Tegelijkertijd is er nog genoeg om verder te onderzoeken. “De eerste vraag was: kunnen we op deze manier algoritmes inzetten om voorspellingen te doen, aan de hand van voldoende data? Het antwoord hierop is ja, dus daar kunnen we mee verder. We zouden zoiets kunnen uitrollen op een school. Dat is al een mooie uitkomst. De tweede vraag ging over de resultaten, en we zien dat we de modellen nog wel kunnen verbeteren om een betere voorspelling te doen.”

In het begin was de voorspelling door AI nog wiebelig, geeft Eegdeman aan. “Dat is ergens wel jammer, want we willen natuurlijk juist al aan het begin van de opleiding kunnen zien bij welke studenten de kans op uitval groter is, en niet pas als de eerste cijfers bekend worden. We zoeken dus nog naar data die de voorspellingen beter kan maken.”

Vervolgonderzoek

Er is meer onderzoek nodig om algemene uitspraken te kunnen doen. “Dit gaat natuurlijk ook maar over één opleiding met één type studenten (en docenten), maar misschien krijg je bij andere opleidingen andere uitkomsten. Of kom je erachter dat het algoritme het toch niet zo goed doet ten opzichte van voorspellingen die docenten doen. Mijn aanname is dat de combinatie van docentinformatie en het algoritme het beste resultaat zal geven, maar dat moeten we verder onderzoeken.”

“We zagen bij dit onderzoek dat AI uit de eerste 20 procent van de studenten al 40 procent van de uitvallers wist te detecteren. Het blijft natuurlijk statistiek en het gaat in dit onderzoek om voorspellingen achteraf, maar toch is dit een interessant gegeven. We kunnen met dit model, zeker naarmate het nog beter wordt in voorspellen, geïnformeerd een keuze maken: ‘Deze student kun je beter nu al uitnodigen voor een interventie, want hij of zij heeft een verhoogde kans om uit te vallen.’ De hoop is dat die interventies dan ook effectiever worden, maar daar is nog geen onderzoek naar gedaan.”

Horizontaal staat de hoeveelheid gecheckte studenten, verticaal de sensitiviteit (hoeveel uitvallers worden ontdekt). Als alle studenten gecheckt zijn, zijn automatisch ook alle uitvallers ontdekt. De vraag is of het algoritme in staat is om bij een kleinere steekproef relatief meer uitvallers te detecteren. Aan het begin van de opleiding is dat nog niet zo (rond kansniveau).

Aan het eind van de eerste periode scoren de algoritmen boven kansniveau. Uit de eerste 20 procent halen ze ongeveer 40 procent van de uitvallers. Informatie die AI geeft zou dus kunnen helpen om goed geïnformeerde keuzes te maken – welke studenten kunnen we het beste benaderen voor een interventie?

Factoren voor studie-uitval

Dat is voor studiebegeleiders natuurlijk de hamvraag. Op basis van één onderzoek is het moeilijk algemene uitspraken te doen. Het onderzoek was ook vooral bedoeld om deze methode en het model te testen. Wel noemt Eegdeman een aantal variabelen die goed zijn om mee te nemen. “Hoe hoger het gemiddelde eindexamencijfer waarmee studenten binnenkomen, hoe lager het uitvalpercentage tijdens de opleiding. Ook lijkt het erop dat hoe eerder studenten zich aanmelden voor een studie, hoe lager de kans is op uitval. Ook aanwezigheid/afwezigheid van een student lijkt een goede indicatie te geven.”

Mijn aanname is dat de combinatie van docentinformatie en het algoritme het beste resultaat zal geven, maar dat moeten we verder onderzoeken

Goed datamanagement

Wat Eegdeman betreft kan het datamanagement op scholen nog beter worden geregeld. Zo heeft ze bijvoorbeeld de eindexamencijfers van studenten handmatig moeten invoeren om ze als variabele in het onderzoek te kunnen gebruiken. Ook vermoedt ze dat aanwezigheid van studenten een goede indicatie geeft over studiesucces. “Maar dan moet deze presentie natuurlijk wel actueel zijn en kloppen. De DUO-meldingen (meer dan 16 uur afwezig) zijn nu de enige betrouwbare gegevens. Leerlingadministratiesystemen zijn vooral bedoeld om gegevens in te voeren. Het is niet eenvoudig om gegevens uit die systemen te halen om hiermee goed onderzoek te kunnen doen.”

Ethische kant

Dit promotieonderzoek is wat Eegdeman betreft een belangrijke stap voor het vervolg. Ze werkt toe naar een methode waarmee ze bij de juiste studenten effectieve interventies kan doen, op basis van goede data en effectstudies. Dat hier nog veel bij komt kijken, is duidelijk. “Alleen al het feit dat we met artificial intelligence naar studentgegevens willen kijken, heeft gevolgen. We willen hier zorgvuldig mee omgaan. Studenten, ouders en docenten moeten hier goed bij worden betrokken en het is ook belangrijk om de ethische kant goed met elkaar te bespreken. Willen we AI een rol geven om te beoordelen wie je wel en niet gaat uitnodigen voor een gesprek? Wat hierbij meespeelt is dat mensen AI kunnen zien als iets onbekends en iets engs. Dat is het niet, het is een techniek. Maar wel een techniek waarvan je moet weten wanneer en waarom je hem inzet.”

Aandachtspunten en tips

Zelf aan de slag met AI in het onderwijs? Hou dan rekening met onderstaande aandachtspunten en tips.

Bruikbaar hulpmiddel

Artificial intelligence is niet dé oplossing om studie-uitval te voorspellen. Het is een bruikbaar hulpmiddel om beter gefundeerde keuzes te maken. Scholen kunnen dit inzetten, maar resultaten kunnen per school, per studie en zelfs per algoritme verschillen. Hiervoor is meer onderzoek nodig.

De mens voedt het algoritme

Algoritmen maken duidelijk wat we al deden. Dat is goed om te beseffen. Het is uiteindelijk de mens die het algoritme voedt met data. Het algoritme maakt duidelijk welke data we verzameld hebben en (bewust of onbewust) hebben gelabeld. Mede op basis daarvan nemen we beslissingen.

Data op orde

Om data op een goede manier in te zetten (ook bij het gebruik van AI) is informatiemanagement van groot belang. De benodigde dataset voor een goede analyse moet bijvoorbeeld actueel zijn en het moet niet te veel moeite kosten om over deze data te kunnen beschikken. Dit betekent dus iets voor het informatiemanagement op school – misschien is hier een extra investering nodig.

Artikelen van Irene Eegdeman

Irene Eegdeman heeft een aantal wetenschappelijke artikelen gepubliceerd over haar onderzoek, onder andere:

De onderwerpen waarover wij publiceren