Blogpost: Tau

B-Team: Statistieken

04-02-2022 door *Tau* 42 reacties

Wiskunde, statistieken, …
Sommige mensen krijgen de kriebels wanneer ze deze woorden horen.
En toch komen ze hier op Hebban heel vaak terug!

Hoeveel bloggers tonen ons op het einde van de maand of het jaar immers niet hoeveel boeken en/of bladzijden ze gelezen hebben, hoe vaak elk genre aan bod kwam, …
Sommigen gieten deze cijfers en percentages ook nog eens in mooie tabellen of grafieken.

Verder zijn er ook lezers die heuse thema-boekenlijsten aanleggen. Wie houdt van wiskunde kan hier terecht om de lijst van Gigi te bekijken en eventueel van nieuwe inspiratie te voorzien.

En wat denk je hiervan? Lezeres Hilde had het gevoel dat auteur Jonas Moström wel erg lange zinnen gebruikte in zijn boek Dominomoord. Marvin nam de proef op de som. Niet alleen vond hij een interessant grafiekje waarin je per genre ziet wat het gemiddeld aantal woorden per zin is, maar hij ging nog een stapje verder door zijn programmeerkunsten los te laten op enkele e-books. Het resultaat kan je hier lezen.

Ook de grote baas van Hebban - de CPNB, oftewel: Stichting Collectieve Propaganda van het Nederlandse Boek - heeft naar jaarlijkse gewoonte eind januari een aantal interessante statistieken gepost.
Allereerst is er de Top 100 van de bestverkochte boeken. Wist je dat deze lijst al sinds 1997 jaarlijks door de CPNB wordt bekend gemaakt? En wist je dat je deze lijst ook op Hebban kan raadplegen (en dus meteen boeken aan je 'wil ik lezen'-lijst kan toevoegen)?
Daarnaast is er ook een Top 100 meest uitgeleende boeken. Deze jaarlijkse lijst zag pas in 2015 het licht.
Leuke weetjes over beide lijsten zijn hier verzameld.
Tenslotte kan je ook de Nederlandse boekenmarkt 2021 in cijfers ontdekken!

Heb je door deze toplijsten zin gekregen om er zelf ook eens eentje samen te stellen? Neem dan hier een kijkje en maak samen met de andere Bohseanen een top 5 van Bohse-columns!
Volgende week vrijdag wordt er een artikel geplaatst waaronder je vanaf dan (maar verder onbeperkt in tijd, dus ook later is je reactie nog steeds van harte welkom!) je lijst kan plaatsen.

In de reacties op één van de vorige blogs van het B-Team kwam het onderwerp 'statistieken' trouwens ook aan bod.
Al lachend vertelde ik toen iets wat een familielid altijd zei: "Heb jij ooit al aan je dokter gevraagd met hoeveel percent hij/zij geslaagd is? Want stel dat je dokter maar met 60% slaagde, dan betekent dit dat hij 1 keer op 3 een verkeerde diagnose stelt."
Waarop Sacha heerlijk repliceerde dat zij toch banger was om een vliegtuigontwerper tegen te komen die met slechts 60% geslaagd was. En toen ging de bal aan het rollen. Want wat als we die combineerden met een piloot die slechts 60% behaalde, opperde Joseph. Daarop wees Glawen ons erop dat we ook het met 60% geslaagd onderhoudspersoneel niet mochten vergeten. Waarna ik de kansen nog verder verkleinde door er ook nog eens een luchtverkeersleider bij te halen die met 60% slaagde. De kansen om ongedeerd uit het vliegtuig te komen, werden zienderogen kleiner. Meer nog, we zaten nog maar aan 13% !
Toen Bohse ons er op wees dat dit perfect voer was voor een nieuwe column, ging Joseph Roelands daar enthousiast op in. Gelukkig stelt hij ons vandaag gerust en vernemen we dat het allemaal nog zo'n vaart niet loopt ;-)

‘Als een dokter, slaagt met een score van slechts 60%, dan heeft hij 1 van de 3 diagnoses verkeerd.’ Die uitspraak, die uiteraard wel heel grappig (bedoeld) is, triggerde een paar weken geleden daarna een hele uitwisseling over de veiligheid van het vliegverkeer. Sacha - die ons de week erna een inkijkje gunde - begon dit, door zich meer zorgen te maken over een piloot met dergelijke cijfers. En wie anders dan Bohse en Tau, daagden ons vervolgens uit om een blog te wijden aan dat spelen met cijfers, percentages en statistieken.

En tsja, dan raak je bij mij een gevoelige snaar. Weer een snaar uit het verleden. Vertelde ik in een vorige blog al iets over de lagere school, dit sluit daar mooi bij aan. Want op de 6e klas van de lagere school (tegenwoordig groep 8 – in elk geval, de laatste klas voor de middelbare school), gaf onze onderwijzeres (je weet wel, die non die na een half jaar er de brui aan gaf) ons voor het eerst ‘huiswerk’. Het stelde niet veel voor, maar gewoon, om alvast te wennen aan het huiswerk dat je daarna op de middelbare school kreeg.
Ik kende het principe huiswerk wel, van mijn oudere zus, maar nu moesten we dus zelf ook thuis wat doen. We kregen een soort A5-scheurblok mee, 80 vellen, met de bedoeling, om elke week op maandag (na het weekeinde) 2 vellen in te leveren. Het waren sommen. De eerste vellen waren makkelijk, daarna steeds moeilijker, met ook staartdelingen, waar we pas net aan begonnen waren. Maar ja, ik hield van rekenen. Dus, op vrijdag middag, met het blok in mijn hand naar huis gerend en aan de slag. 0m 17:30 waren de 80 vellen ingevuld. Ik vond het heerlijk om te doen. Op maandag leverde ik dus niet twee vellen, maar het hele blok in. Ze was woedend. Dat was niet de bedoeling, en dat kon ook niet, en mijn vader of mijn zus hadden me vast ermee geholpen. Ik in tranen en het heeft mijn ouders twee weken gekost om haar ervan te overtuigen dat ik het zelf had gedaan. Het is nooit meer goed gekomen tussen ‘zuster Yvonette’ en mij. Ik was als de dood voor dat mens.

Maar mijn liefde voor rekenen is nooit meer weg gegaan. Ik las er boeken over en was gek op raadsels, waarvan je op gevoel de uitkomst niet gelooft. Zoals deze. Hoe groot moet de groep zijn, om de kans op 2 mensen met dezelfde verjaardag, groter dan 50% te maken? Met 365/366 dagen in een jaar, gaan de meeste mensen ‘gevoelsmatig’ voor iets van 180 ofzo, de helft. Maar het antwoord is (reken maar na, of ik reken het jullie een keer voor in de commentaren): 22!!
Dat voelt zo tegenstrijdig. En het werd me op hele jonge leeftijd al duidelijk dat de wiskunde iets is waarbij je niet heel vaak baat hebt bij je eerste ingeving of je ‘gevoel’. Je moet begrijpen hoe het in elkaar zit en dan eraan gaan rekenen. Dat is, jaja, ik kom nog op die vliegtuigen, nog erger als het gaat om statistieken. Daar zijn mensen nog slechter in als ze moeten voelen of inschatten, hoe groot de kans is op, etc.. De afgelopen 2 jaren hebben we een bedroevende hoeveelheid voorbeelden gezien van mensen in de media (inclusief wat zichzelf ‘journalist’ noemt) die conclusies uit cijfers trekken die gewoon verifieerbaar niet kloppen als je naar de statistieken kijkt. Ik zou een heel blog kunnen wijden aan hoe mensen van beide zijden van het ‘Corona-spectrum’ beïnvloed worden door middel van onvolledige cijfers, (bewust) slechte statistische analyse en schijnwaarheden. Allemaal verifieerbaar incorrect. Maar ik doe het niet. Dat is voor mij wellicht nog een groter taboe geworden dan de eerder genoemde politiek en religie. Een wespennest waar ik lekker bij vandaan blijf.

De meest gemaakte fout, is om een onderzoeksresultaat (die op zich klopt) door te trekken naar waar het niet kan. Voorbeeld: in de krant staat; ‘Rode auto’s hebben 4x meer kans om een ongeluk te krijgen.’ Eronder staat een artikel van een ‘journalist’ die op basis van de cijfers van het vorige jaar, de mensen afraadt(!) om een rode auto te kopen. Maar welke cijfers baseert hij zich op? Relatief gezien zijn rode auto’s 4x vaker bij ongelukken betrokken dan andere kleuren. Dan lijkt(!) de conclusie van de journalist toch correct. Maar hij is het niet.
Je hebt veel meer gegevens nodig. Bijvoorbeeld. Jongeren, tussen 18 en 24, kopen gemiddeld veel vaker een rode auto, dan oudere mensen. En diezelfde jongeren hebben gemiddeld 5x zoveel ongelukken. Daarom zijn rode auto’s vaker betrokken bij ongelukken. Niet vanwege de kleur, maar vanwege de gemiddelde bestuurder die zo’n kleur kiest. Dus het advies om geen rode auto te kopen, is klinkklare onzin. De correlatie tussen de kleur en het aantal ongelukken (die er wel degelijk is) wordt vertaald naar een causaliteit tussen die twee (die er NIET is).

Terug naar de dokter en de piloten. Zelfs al zou een dokter met 60%-score zijn papiertje hebben gehaald. Dat zal niet de score zijn van zijn ‘correcte diagnoses’. Ten eerste is 90% van wat er de praktijk binnenloopt heel eenvoudig. Er is geen gelijke spreiding over alle mogelijke ziektes en diagnose-uitdagingen. Daarnaast wordt er ook geen rekening gehouden met de integriteit van de arts. Als het goed is, weet hij precies waar zijn ‘zwaktes’ liggen en zal hij bij een moeilijke diagnose, eerder om een second opinion vragen of je doorsturen naar een specialist.
Natuurlijk worden er fouten gemaakt, en elke fout is er 1 teveel. En natuurlijk zitten er arrogante figuren tussen die dat percentage wat opschroeven. Maar je zult altijd over een veel en veel hoger percentage correcte diagnoses spreken, dan in de grap aangegeven. Zo ook bij piloten, waar je bovendien met 60% niet slaagt en er altijd meerdere piloten tegelijk aanwezig zijn die elkaar kunnen corrigeren (nog los van de overweldigende hoeveelheid technische ondersteuning). Hetgeen vliegen nog steeds de veiligste manier van vervoer maakt.

Ik ben nog steeds gek op statistieken. Maar heb mijn jeugdige opwinding over het verkeerd gebruik ervan afgeleerd. Ik lig nog regelmatig in een deuk over krantenberichten of nieuwsitems. En leg het graag uit aan degene die er iets meer van wil weten.

Reacties op: B-Team: Statistieken