a. Betrouwbaarheid
De betrouwbaarheid van een test laat zien in hoeverre die test bij herhaald meten hetzelfde resultaat geeft. Als u de betrouwbaarheid van uw personenweegschaal wilt weten, gaat u meerdere keren kort na elkaar op die weegschaal staan. Varieert uw gewicht meer dan 5 kg, dan is die weegschaal volstrekt onbetrouwbaar om uw gewicht mee te controleren. Variëren de meetwaarden minder dan 1 kg, dan is de weegschaal redelijk betrouwbaar voor dat doel en betrouwbaarder naarmate de variatie kleiner is.
De betrouwbaarheid van een test wordt aangeduid met een getal tussen de 0 en 1. Bij een betrouwbaarheid van 0 kunt u net zo goed een dobbelsteen gooien. Bij een betrouwbaarheid van 1 is de test volledig betrouwbaar. Een weegschaal geeft dan steeds precies hetzelfde gewicht aan. Perfect (100%) betrouwbare tests bestaan echter niet, niet bij weegschalen en niet bij dopingtests.
Hoe binnen de antidopingwereld met de betrouwbaarheid van dopingtests wordt omgegaan, illustreert de Floyd Landis-casus. Deze Amerikaanse wielrenner werd in 2006 zijn Tourzege afgenomen vanwege een te hoge testosteron/epitestosteron verhouding. Het afgenomen monster werd drie keer geanalyseerd met als uitkomsten: 4,9:1, 5:1 en 11,4:1. Het verschil tussen de eerste twee verhoudingswaarden lijkt een aanvaardbare meetafwijking te zijn, De derde meetwaarde maakt de analyse echter ongeschikt om te beoordelen of Landis doping gebruikte. Deze waarde wijkt zo sterk van de andere twee af, dat dat de analyse als geheel onbetrouwbaar maakt.
Betrouwbaarheid analyse Floyd Landis dopingmonster
Drie analyses van het dopingmonster van Landis gaven testosteron:epitestosteron (t:e) verhoudingen van respectievelijk 4,9:1, 5:1 en 11,3:1 waren. De kritische testscore was 4:1.
De gemiddelde t:e-verhouding in deze steekproef is dan 7,07:1 met een standaardfout van 3,67:1. Het 95% betrouwbaarheidsinterval heeft dan een ondergrens van -0,12:1 en een bovengrens 14,25:1. Met andere woorden de werkelijke t:e-verhouding in de urine van de Amerikaan ligt dan voor 95% zeker tussen de -0,12:1 en 14,40:1. Het zal duidelijk zijn dat een tests met een dusdanig breed betrouwbaarheidsinterval ongeschikt is voor het doel waarvoor ze gebruikt is: mensen sanctioneren.
De z-score van de kritische testscore is dan (4–7,07)/3,67 = 0,84. De kans dat de werkelijke testosteron/epitestosteron verhouding van Landis lager was dan 4:1 is dan circa 20%.
Ter verduidelijking: voorgaande explicatie laat niet zien of Landis wel of geen testosteron gebruikte. Ze geeft slechts aan dat de gebruikte analyse te onbetrouwbaar is voor het doel waarvoor ze gebruikt is. In werkelijkheid kan Landis testosteronwaarde zelfs lager geweest zijn dan zijn epitestosteronwaarde.Als u vindt dat ik mijn conclusies op wel erg weinig waarden basseer, heeft u gelijk. Maar dit is alles wat beschikbaar is.
Ook laat deze uitleg niet zien of de kritische testscore van 4:1 reëel is. De uitleg gaat uit van de kritische testscore zoals die door het WADA werd vastgesteld. Vlak voor de Floyd Landis casus werde deze kritische score verlaagd van 6:1 naar 4:1, zonder dat deze velaging duidelijk gemotiveerd werd.
[ID-174] - © 2007- heden - Dr. Bram Brouwer, Mantgum
Desondanks communiceerde de antidopingwereld in eerste instantie alleen de meest onbetrouwbare score (11,4:1) van de drie.[4; 17].
b. Validiteit
Betrouwbare tests zijn niet automatisch ook valide: de mate waarin de test meet wat ze beoogt te meten. Als uw personenweegschaal aangeeft dat u gemiddeld 75 kg weegt, betekent dat niet dat u ook 75 kg weegt. Uw echte en gemeten gewicht kunnen verschillen en dat verschil is afhankelijk van de validiteit van de weegschaal. Het weegresultaat wordt dan mede beïnvloed door andere, vaak onbekende, factoren. U wilt bijvoorbeeld uw ‘schone’ gewicht weten, maar u weegt zich met kleren aan. Die meting is minder valide voor uw ‘schone’ gewicht. Het meetresultaat wordt immers beïnvloed door het kledinggewicht.
Net als betrouwbaarheid wordt de validiteit van een test aangeduid met een getal tussen 0 en 1. Tests met een validiteit van 0 zeggen niets over wat ze willen zeggen: zoals het weer voor morgen voorspellen met de voetbaluitslagen van vorige week. Tests met een validiteit van 1 meten precies wat ze beogen te meten. Maar zoals 100% betrouwbare tests niet bestaan, bestaan 100% valide tests ook niet.
c. Betrouwbaarheid vs. validiteit
Betrouwbare tests zijn niet automatisch ook valide en andersom zijn valide tests niet zondermeer betrouwbaar. Je kunt bijvoorbeeld met een slechte (niet valide) meetlat heel betrouwbaar steeds dezelfde foute afstand meten.
Goede tests moeten zowel voldoende betrouwbaar als valide zijn voor het doel waarvoor ze worden gebruikt. Tests die doorslaggevend zijn in procedures waarin mensen worden gesanctioneerd (zoals dopingtests) moeten wat betreft betrouwbaarheid en validiteit aan extra strenge eisen voldoen. We mogen immers niet accepteren dat iemand wordt gestraft voor een overtreding waarvan bijvoorbeeld voor slecht 65% zeker is dat die overtreding werkelijk plaatsvond.
Van dopingtests worden de betrouwbaarheids- en validiteitswaarden niet vrijgegeven, zodat we de kwaliteit van deze tests niet kunnen beoordelen. Waarom die waarden achter gehouden worden, weten we niet. Als ze robuuste tests zouden aantonen, verwachten we dat men ze graag vrijgeeft. Betekent dit dat de betrouwbaarheids- en validiteitsniveaus van dopingtests onvoldoende zijn om mensen te sanctioneren? De hiervoor besproken Landis-casus en het Tooltip tekst(Les 1) lieten zien dat men binnen de antidopingwereld op z’n minst slordig lijkt om te gaan met deze voor een juist oordeel cruciale grootheden.