Een van de punten die regelmatig aan bod komt in discussies over diagnostiek. Is die van de betrouwbaarheid. De voortrekkers van de DSM wezen er vaak op dat DSM misschien wel tekort schiet op het punt van validiteit (“diagnoses in the DSM-III, DSM-III-R, and DSM-IV are best understood as useful placeholders, based on careful description, but not on deeper understanding” Bernstein, 2011, p. 7), maar poneerden in één beweging dat de betrouwbaarheid wel goed is.
Volgens mij is dat een van de te doorprikken mythes van de DSM.
Als aanloop naar DSM-III berekenden Spitzer (die later voorzitter werd van de DSM-III commissie) en Fleiss betrouwbaarheidsstatistieken (kappa coëfficiënten) voor eerder gepubliceerde betrouwbaarheidsonderzoeken uit de jaren 50, 60 en 70. Langs deze weg becijferden ze hoe goed twee beoordelaars overeenstemden wanneer ze een diagnostisch oordeel moesten geven. Fleiss stelde dat waarden van .75 of meer duiden op excellente betrouwbaarheid, waarden van .40 tot .75 op matige tot goede betrouwbaarheid en waarden lager dan .40 op zwakke betrouwbaarheid. Uit de resultaten van Spitzer en Fleiss blijkt dat enkel voor de diagnose ‘organisch hersensyndroom’ sprake is van excellente betrouwbaarheid. Voor de meeste andere diagnostische hoofdcategorieën was de betrouwbaarheid matig tot goed (mentale achterstand: kappa = .72; alcoholisme: kappa =.71; psychose: kappa =.55; affectieve stoornis: kappa = .41; persoonlijkheidsstoornis of neurose: kappa =.44), en voor de categorie ‘psycho-fysiologische reactie’ was de betrouwbaarheid zwak, met een kappa-waarde van .38.
Door vanaf DSM-III expliciete classificatiecriteria in te voeren, en diagnostici aan te sporen om bij het stellen van diagnosen niet langer te redeneren vanuit paradigmatische gevallen maar vanuit de inclusie- en exclusiecriteria, wou men de diagnostische betrouwbaarheid verbeteren. De ontwikkelaars van DSM-5 loven dit streven van hun voorgangers en lijken de betrouwbaarheid van het DSM-systeem te beschouwen als een wetenschappelijke verworvenheid. Het is dus maar de vraag of deze lof en deze aanname terecht zijn.
Verschillende grootschalige onderzoeken wijzen alvast op het tegendeel en tonen aan dat matig tot goede overeenkomsten tussen beoordelaars nog steeds eerder regel dan uitzondering zijn. Dit blijkt bijvoorbeeld uit een grootschalig onderzoek met het SCID-interview voor DSM-III diagnostiek (Williams et al., 1992). Vijfentwintig clinici met een grondige training in dit interview en optimale ondersteuning bij het stellen van diagnosen werden hierbij gevraagd om telkens met een andere beoordelaar ofwel een deel van een steekproef met 390 patiënten te diagnosticeren, ofwel een deel van een steekproef met 202 niet-patiënten. Vanuit de criteria van Fleiss beschouwd, was de betrouwbaarheid voor de beoordeling van huidige stoornissen bij niet-patiënten zwak (kappa = .37). Bij patiënten was de betrouwbaarheid over het algemeen matig tot goed (kappa = .61). Concreet werden in dit onderzoek 18 types stoornissen beoordeeld. Slechts voor 4 stoornissen werd een excellente betrouwbaarheid vastgesteld (bipolaire stoornis: kappa = .84; alcoholmisbruik: kappa = .75; misbruik van andere drugs: kappa = .84; bulimia nervosa: kappa = .86). Voor 13 andere stoornissen was de betrouwbaarheid matig tot goed, en voor één categorie was de betrouwbaarheid eerder zwak (dysthymie: kappa = .40).
Deze cijfers zijn niet spectaculair beter dan betrouwbaarheidsstatistieken die Spitzer en Fleiss in 1974 publiceerden over de ‘onbetrouwbare’ pre-DSM diagnostiek.
Voor DSM-IV diagnostiek is het verhaal niet veel rooskleuriger. Bijvoorbeeld in een studie over gedragsstoornissen ontwikkelden onderzoekers op basis van de DSM-IV-criteria een korte beschrijving van een jongere die voldoet aan de inclusiecriteria voor een gedragsstoornis (Kirk & Hsieh, 2004). Deze beschrijving legden ze voor aan een steekproef van 1334 psychiaters, psychologen en sociaal werkers met gemiddeld 20,7 jaar werkervaring. De beoordelingen liepen substantieel uiteen: 29 verschillende klinische stoornissen werden naar voor geschoven als hoofddiagnose en slechts 45,5procent stelde een gedragsstoornis vast, wat duidt op zwakke betrouwbaarheid. Verder onderzoek van de dataset maakte trouwens duidelijk dat korte mededelingen over de etniciteit van de jongere, evenals ervaring en type specialisering van professionals de diagnosestelling substantieel beïnvloedden.
Specifiek voor DSM-5 zijn er voorlopig nog geen veldonderzoeken gepubliceerd naar de betrouwbaarheid van het systeem. Wel liet het DSM-5 comité intussen weten welke normen ze zullen hanteren om kappa coëfficiënten te beoordelen, waarbij ze aangeven dat een waarde van meer dan .80 ’almost miraculous’ zou zijn, een waarde tussen .60 en .80 ’cause for celebration’, een waarde tussen .40 en .60 ’a realistic goal’ en een waarde tussen .20 en .40 ’acceptable’. Zowel Frances (de voorzitter van de DSM-IV commissie) als Spitzer signaleerden terecht dat deze betrouwbaarheidscriteria een stuk lager zijn dan de normen die gewoonlijk worden gehanteerd. Frances vermoedt dat de eerste resultaten uit vooronderzoek met DSM-5 niet zo denderend zijn en dat de lagere normen nu reeds worden gelanceerd om dit feit te verdoezelen.
Meer lezen?
Vanheule, S. (2012). Hij komt, hij komt! Kritische reflecties bij DSM-5. Tijdschrift voor Klinische Psychologie. –> binnenkort beschikbaar.
Vanheule, S. (2012). Diagnosis in the field of psychotherapy: A plea for an alternative to the DSM-5.x. Psychology and Psychotherapy: Theory, Research and Practice, 85, 128-142.
(zie: http://www.psychoanalysis.ugent.be/index.php?position=4x1x0&page=Vanheule%20Stijn#.UKXrtqVfTgJ)