Onderwijskundig onderzoek

Hattie’s Visible Learning: heilige graal of pseudowetenschap?

Tegen het eind van mijn zomervakantie werd het artikel “How to engage in pseudoscience with real data: A criticism of John Hattie’s arguments in Visible Learning from the perspective of a statistician” van Pierre Jérôme Bergeron met mij gedeeld. Bergeron is ‘private statistical consultant’ en ‘adjunct professor’ bij de afdeling ‘Mathematics and Statistics’ van de Universiteit van Ottawa. Ik ben meer van de woorden dan van de cijfers. Maar dit artikel over de manier waarop de zeer bekende Nieuw-Zeelandse prof. John Hattie in zijn magnum opus, de meta-meta-analyse “Visible Learning – A Synthesis of Over 800 Meta-Analyses Relating to Achievement” (2008) (VL), pseudowetenschap zou bedrijven, boeide mij weer buitengewoon.

Weer? Ja, want al eerder, een jaar of drie geleden, was ik in de ban geraakt van kennelijk fundamentele fouten in VL via de posts dd. 2014 van ollieorange2, een Britse wiskundige. Deze verwees ter bekrachtiging van zijn bevindingen naar de Noorse wiskundige en statisticus prof. Arne Kare Topphol. Topphol had een paar jaar eerder in een artikel “Kan vi stole på statistikkbruken i utdanningsforskinga?/Can we trust the use of statistics in educational research?”, Norsk Pedagogisk Tidsskrift, no. 6/2011 (via de door mij gevonden hyperlinks niet meer te lokaliseren) vastgesteld dat Hattie een van de twee (sic) in VL toegepaste statische maten, de zogenaamde Common Language Effect Size (CLE), niet goed zou hebben begrepen en in elk geval verkeerd zou hebben geïnterpreteerd. In een ietwat tegenstribbelende reactie begin 2012 bevestigde Hattie een en ander, maar leek hij Topphols kritiek meteen te willen bagatelliseren:

“Yes, I did use a slightly different notion [of the CLEs] to McGraw and Wong. […] – but … I read another updated article that was a transformation of their method – but see I did NOT say this in the text. […] – the good news is that no one has ever used the CLE part of the book (that I know of); […] and if in an doubt the effect sizes are the focus of the book.” (Cursivering van mij).

Hattie beloofde Topphol een referentie voor dat ‚updated article’ te sturen én de fouten in een nieuwe druk van VL te verbeteren. Of Topphol die referentie ooit heeft ontvangen, denk ik niet; Topphol suggereerde nl. al meteen dat die update niet bestond. De CLE-fouten in VL werden echter per maart 2015 hersteld, maar alleen in de vertaalde versie(s?) van VL (zie commentaar ollieorange2, d.d. 9 maart 2015). Van groter belang dan de CLE-fouten leek mij het punt dat Topphol eigenlijk wilde maken:

“My main concern in this article is thus to call for care and thoroughness when using statistics. The credibility of educational research relies heavily on the fact that we can trust its use of statistics. In my opinion, Hattie’s book is an example that shows that we unfortunately cannot always have this trust.”

Parallel aan de posts van ollieorange2 en de reacties daarop ontstond er een soortgelijke discussie over het belang van correcte toepassing van statische maten in sociaal-wetenschappelijk onderzoek na de recensie van VL van Neil Brown, een ‘computing education researcher’ aan het King’s College in London. De recensie dateert van augustus 2013; de discussie die daarop volgde, duurde voort tot in maart 2017 en ging vooral over de onjuiste interpretatie van de tweede door Hattie gebruikte statistische maat, Effect Size (ES) Cohen’s d.

Een van de discussianten was George Lilley, o.m. wiskundige, Australië (saillant detail: Hattie werkt nu in Australië). Die besloot eind 2015 een m.i. reuze nuttige site te openen om alle tot dan toe gepubliceerde kritiek en reacties te bundelen en om verder onderzoek naar de toepassing en interpretatie van de twee in VL gebruikte statistische maten aan te moedigen en te stroomlijnen.

Op 1 december 2014 was er intussen een boze post verschenen van de Nieuw-Zeelander (sic) Kelvin Smythe, voormalig onderwijzer, schooldirecteur, lector en inspecteur, maar vanaf midden jaren negentig actief als publicist. De post draagt als titel “Hattie’s research: egregious errors” en was de opmaat naar een reeks berichten onder de kop “Hattie’s research: Is wrong Part 1” tot en met 5. Smythe gaat daarin steeds harder schreeuwen tegen Hattie en sluit zijn reeks af met de getergde en daardoor best grappige blog “John Hattie: your research is now a con”, maart 2017. Smythe moet zich hebben ontwikkeld de meest irritante luis in de pels van imperator Hattie, om het in het idioom van Smythe uit te drukken.

En dan nu het overigens wat chagrijnige artikel van Bergeron van augustus 2017. Ik citeer:

“Fundamentally, Hattie’s method is not statistically sophisticated and can be summarized as calculating averages and standard deviations, the latter of which he does not really use. He uses bar graphs (no histograms) and is capable of using a formula that converts a correlation into Cohen’s d (which can be found in Borenstein, Hedges, Higgins, & Rothsten, 2009), without understanding the prerequisites for this type of conversion to become valid. He is guilty of many errors, but his main errors correspond to two of the three major errors in science cited by Allison, Brown, George, and Kaiser (2016) in Nature:
1. Miscalculation in meta-analyses
2. Inappropriate baseline comparisons.”

Kwestie 1 verwijst naar de bovengenoemde CLE-kwestie. Kwestie 2 slaat op de door Hattie gebruikte ES-maat. Ik citeer weer:

”The other calculation errors are not so much numerical as they are related to inappropriate baseline comparisons and to the absence of methodological rigor. Hattie believes that we can compare effect sizes because Cohen’s d is a measure without a unit and gives examples of calculations:

Effect Size = [MEAN (treatment) – MEAN (control)]/ Standard Deviation
Effect Size = [MEAN (end of treatment) – MEAN (beginning of treatment)]/ SD

These two types of effects are not equivalent and cannot be directly compared.”

Deze argumentatie is ook op de Lilley’s site terug te vinden en wordt als volgt afgesloten:

“However, even though Hattie takes the time to explain the above two methods, and the issue if you mix them up, many of meta-analyses in VL do NOT use randomised control groups, as in method 1, nor before and after treatment means, as in method 2, but rather some form of correlation which is later morphed into an effect size!” (Cursivering van mij).

Concreet betekent dit volgens mij bijvoorbeeld dat de ranking in Hattie’s ranking er ook heel anders zou kunnen uitzien…

Even los van alle emotie van Smythe, de aard, de ernst en de omvang van de kwesties die Smythe in met name zijn laatste blog opsomt en die ook op de site van Lilley worden besproken, het is hoe dan ook verpletterend. Het gaat niet alleen maar om de CLEs en de gebruikte ES, het gaat ook om Hattie’s interpretaties van meta-analyses, het belang en de kwaliteit van de door hem geanalyseerde meta-analyses, de in de meta-analyses figurerende test- en controlegroepen in termen van omvang en representativiteit, het soms beperkte aantal door Hattie gebruikte meta-analyses als basis voor generalisaties, de lastige naspeurbaarheid (ook al genoemd door prof. Theo Wubbels) enz. Ertussendoor fietst heel hinderlijk de verdenking van politieke belangenverstrengeling (i.e. Hattie’s invloed op het onderwijsbeleid van Nieuw-Zeeland en Australië).

Of en in hoeverre alle kritiek terecht is, in hoeverre er persoonlijke vendetta’s worden uitgevochten, stokpaardjes worden bereden enz., het is niet aan mij als docent om dat te beoordelen. Maar er is – gegeven het enorme belang van Hattie’s werk voor onderwijs en… onderwijsbeleid – één vraag die de laatste dagen van mijn zomervakantie blijft teisteren en dat is de vraag die Topphol al in 2011 stelde: hoe geloofwaardig is VL nu eigenlijk? Je kunt dan wel als de schooldirecteur Stuart Lord roepen: “Although effect sizes are unquestionably important to his thesis, the resulting work is poorly represented by a few tables” en daarmee de kritiek op bijv. het tabelletje met de ranking net zo bagatelliseren als Hattie de fundamentelere kritiek van Topphol leek te willen bagatelliseren. Maar het zijn toch uiteindelijk dat soort tabelletjes die telkens weer in dia-workshops over effectief leren in de schoolaula’s opduiken. En het zijn diezelfde tabelletjes die allerlei afgeleide discussies over wat wel en niet zou werken in de les, stevig beïnvloeden (denk aan de discussie over klassengrootte en lees vooral dit eens; wat moet ik hier als docent anders mee dan maar weer eens uitgaan van mijn ervaring en mijn gezonde verstand…).

Het was een artikel van Times Educational Supplement (TES), november 2008, dat VL al snel na publicatie via de kop “Research reveals teaching’s Holy Grail” een welhaast onaantastbare status gaf. En nu lezen we dat Hattie in VL pseudowetenschap zou hebben bedreven. In heilige gralen heb ik nooit zo geloofd. Maar mijn vertrouwen in Hattie’s VL heeft toch een knauw gekregen: is die studie vóór publicatie eigenlijk wel gepeerreviewed; waarom inderdaad niet even een statisticus raadplegen; waarom zo benauwd omgaan met kritiek? Mij lijkt: VL is een rijke bron van inspiratie voor een zinrijk gesprek met collega’s over de vraag welke interventie wel en niet in mijn lessen zou kunnen werken, waarbij ik helaas maar één zekerheid heb, nl. dat het effect van zo’n interventie uiteindelijk en in elk geval wordt bepaald door mijn relatie met klas x op moment y in situatie z.

Voor een keurig overzicht van de receptie in Duitsland klik hier.

Rene van Dijk

4 gedachtes over “Hattie’s Visible Learning: heilige graal of pseudowetenschap?

  1. Hattie’s Humbug. Een correcte benadering van zijn data zou lineaire regressie zijn, en dan is de richtingscoëfficient de sleutel tot effectmeting (echter: lineaire regressie vergt een heel kritisch en vakkundig oog!) Verschil in gemiddelden als maat voor “EffectSize” nemen, zoals Hattie doet, is werkelijk oliedom, zoals met eenvoudige voorbeeldjes is aan te tonen. De hele Hattie-hype is niet anders dan stuitende ongecijferdheid.

    Like

  2. De belangrijkste vraag is denk ik of het wel mogelijk is om een getal te koppelen aan onderzoeken in het onderwijs. Er zijn zoveel variabelen die een rol spelen dat het welhaast onmogelijk is om er een geldig getal aan te koppelen. Hattie lijkt zijn systematiek geleend te hebben van o.a. medische onderzoeken maar die zijn over het algemeen eenduidiger in hun opzet en eenduidiger in het geven van het resultaat.

    De twee genoemde formules geven grofweg twee verschillende soorten onderzoek aan: meer wetenschappelijk onderzoek (met controle groepen) maar daar zijn er niet zo veel van want dat is enorm tijdrovend danwel duur. En praktijk onderzoeken die vaker voorkomen en makkelijker zijn uit te voeren. Het lijkt niet zo onlogisch om deze twee onderzoeken met elkaar te koppelen, en dan is “some form of correlation” niet zo gek.

    Je opmerking “Concreet betekent dit volgens mij bijvoorbeeld dat de ranking in Hattie’s ranking er ook heel anders zou kunnen uitzien…” is wel heel breed. Er zijn vele redenen waarom de ranking er anders uit zou kunnen zien. Als Hattie andere onderzoeken zou gebruiken is een verschuiving ook te verwachten. En ook heeft Hattie keuzes gemaakt om onderzoeken bij elkaar te nemen en ook dat kan discutabel zijn.
    [citation needed] zou ik zeggen.

    Hattie neemt ook gemiddelden van interventies die misschien niet zomaar handig zijn. Je kan niet zeggen dat het gemiddeld wel een aangename temperatuur is als je hoofd in de oven zit en je voeten in de diepvriezer. Maar Hattie geeft vaak voldoende informatie om hier wat dieper op in te gaan. In de personeelskamer hoor ik soms een losse opmerking “ik geef geen huiswerk WANT huiswerk werkt niet”. Maar dat is te kort door de bocht. Als je iets verder leest zie je dat er vele soorten huiswerk zijn en vele momenten dat je die kan geven, en dat er altijd zinvolle soorten huiswerk te maken zijn.

    In de jaren sinds de publicatie heb ik geen onderzoek gezien die de ranking drastisch door elkaar schud. Weet iemand een publicatie die bijvoorbeeld het geven van feedback (bij Hattie een groot effect) naar het andere kant van het spectrum heeft geschoven? Ik zie dat ook niet met herberekeningen van de getallen naar aanleiding van de foutief gebruikte formules. En Hattie zegt dat volgens mij ook. Er zijn fouten gemaakt maar als je die corrigeert dan blijft de ranking min of meer gelijk.

    Ik sluit me aan bij je opmerking onderaan: gebruik de publicatie als inspiratiebron en zoek naar wat werkt bij jou in jou klas. En het helpt denk ik als we de getallen bij het effect gewoon weg laten in het gesprek.

    Vorig jaar heeft Hattie samen met Donoghue een artikel geschreven over leerstrategieën (Learning strategies: a synthesis and conceptual model) waar ze gebruik maken van het effect waarbij ze aangeven welk component in welke fase van het leren zinvol kan zijn. Los van de genoemde getallen kan ik hier wel mee uit de voeten richting leerlingen. Veel zaken “voelen” goed en kloppen met mijn persoonlijke ervaring. En andere dingen zijn meer twijfelachtig. Het zal altijd zo zijn voor mijn lessen en mijn leerlingen en mijn vak.

    Een voorbeeld is dat Hattie, in bovengenoemd artikel, “slaap” een effect toekent van -0,05 (negatief effect). Carl Wieman (Nobel prijs winnaar Natuurkunde 2001) geeft slaap echter een veel belangrijker rol. Maar doorlezen helpt ook hier. In de door Hattie gebruikte onderzoeken hebben de hoeveelheid slaap nooit een rol gespeeld. Er zijn geen onderzoeken gebruikt waarbij slaaptekort van belang is. Hij zegt eigenlijk dat slaap er niet toe doet (zolang je maar genoeg slaapt). Maar dit is geen startpunt voor de game verslaafde leerling die nagenoeg niet meer tot slapen komt. De gebruikte onderzoeken helpen je dan niet.

    Like

    1. Thanks, Bernard. To answer your question – In the years since the publication I have not seen any research that shakes up the ranking drastically. Does anyone know a publication that, for example, has given feedback (with Hattie a big effect) to the other side of the spectrum?

      There have been a few published reviews that have shown that Hattie’s effect sizes can change depending on how they are calculated-

      Prof Tim Shannahan (2017) has shown that Hattie is double counting research papers as they are used in multiple meta -analyses. He also shows effect sizes and rankings drastically change is weighted averages are used.

      Prof Christov Wecker et al (2016) and Plant (2014) show the same mistakes and give different examples.

      Prof John O’Neill has asked Hattie to remive studies not done on school students and recalaclulate effect sizes.

      Prof Dylan Wiliam has asked Hattie to recalculate effect sizes based on the time over which the study runs and the age of the students.

      I’ve put together a blog with all these details plus I’ve added other stuff, e.g., you can look at how reducing disruptive behaviour can drop from #80 down to #3 here-
      https://visablelearning.blogspot.com.au/p/behaviour.html

      Like

Plaats een reactie