Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 19
1.2 Signifikanz (p-Wert)Um welches Problem geht es in diesem Unterkapitel?Im Rahmen einer wissenschaftlichen Studie können in der Regel nicht allePatienten untersucht werden. Das führt zu dem Problem, dass von einer Aus-wahl (Stichprobe) auf die Grundgesamtheit (Population) geschlossen werdenmuss. Wie aber ist es möglich, von einigen wenigen etwas über al e auszusa-gen? Derartige Aussagen sind grundsätzlich mit gewissen Unsicherheiten be-haftet. Wenn eine Therapie bei den Patienten der Stichprobe wirkt, ist siedann auch bei al en Patienten wirksam? Und wenn ja, wie können wir das wis-sen, wenn wir gar nicht al e untersucht haben? Der p-Wert (von lat. probabili-tas: Wahrscheinlichkeit) liefert Informationen über die Wahrscheinlichkeit,mit der man sich irrt, wenn man annimmt, ein in der Stichprobe gefundenerUnterschied sei auch in der Population vorhanden.Wenn Sie dieses Unterkapitel gelesen haben, können Sie folgende Fragenbeantworten:Wie können Aussagen über die Population ausgehend von einer Stichpro-Was ist der p-Wert und in welchem Zusammenhang steht er mit statisti-Welche Fehlentscheidungen sind beim Schließen von der Stichprobe aufWarum ist es problematisch, im Rahmen einer Studie sehr viele statistischeWas sind ein- und zweiseitige Hypothesen und worin liegen mögliche Ge-fahren, wenn man eine zweiseitige Hypothese im Nachhinein zu einer ein-SchlüsselbegriffeSignifikanz, Signifikanzniveau, wissenschaftliche Hypothesen, Das Schließen von einer Stichprobe auf die GrundgesamtheitFrau Alma Tiener züchtet seit dreißig Jahren Dalmatiner. Durch sorgfältigeAuswahl ist es ihr gelungen, einen neuen Typus zu erschaffen: schwarze Dal-
Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 20
matiner mit weißen Punkten (die sogenannten„Höl endalmatiner“). Im Laufe der Zeit stel t sichjedoch heraus, dass es bei den Höl endalmatinernöfter zu Taubheit kommt als bei den herkömmli-chen, schwarzgepunkteten Dalmatinern. (Taub-heit ist allgemein ein Problem bei Tieren dieserHunderasse.) Deshalb entschließt sich Frau Tie-ner, bei den folgenden Würfen die Sache genauerzu untersuchen. Sie besitzt jeweils fünf Zucht-hündinnen und ermittelt bei jedem Wurf den An-teil der tauben Hunde. Bei den herkömmlichen Dalmatinern waren unter deninsgesamt 30 Welpen 4 auffäl ige (4 von 30, das sind 13,3 %), bei den Höl en-dalmatinern fand sie 6 auffäl ige Welpen unter 26 (6 von 26, das sind 23,1 %).Frau Tiener veral gemeinert deshalb auf al e künftigen Würfe und sagt: „Mei-ner Erfahrung nach ist der Anteil tauber Hunde unter den Höl endalmatinernsignifikant höher als unter den herkömmlichen Dalmatinern.“Die Bedeutung des Wortes „signifikant“Wir wol en nun erkunden, was es mit dem Wort „signifikant“ auf sich hat. Istes gerechtfertigt, dass Frau Tiener von einem signifikanten Ergebnis spricht,weil in der einen Gruppe 13,3 % und in der anderen 23,1 % der Tiere auffäl igsind und sie es deshalb als erwiesen erachtet, dass dieser Unterschied auch inder Population vorhanden sei? „Signifikant“ bedeutet so viel wie „überzufäl-lig“, das heißt, ein in der Stichprobe gefundener Unterschied wird nicht mehrauf bloßen Zufal zurückgeführt, sondern es ist davon auszugehen, dass der ge-fundene Unterschied auch „in Wirklichkeit“, also in der Population, besteht.Führen wir das Gedankenexperiment weiter und nehmen an, dass es schonsehr viele Züchter von Höllendalmatinern gibt. Von allen registrierten Dal-matinern und Höl endalmatinern werden je 30 Hunde entnommen, sodasswir nun zwei Stichproben mit jeweils 30 Tieren haben (siehe Abbildung 1.5).Wir wissen bereits, dass es sehr viele Möglichkeiten gibt, solche Stichprobenzu entnehmen. Das Ziel ist, aufgrund der beiden konkreten Stichproben et-was über die Populationen (das sind die Populationen der normalen und derHöllendalmatiner) auszusagen. Und wir haben auch schon festgestellt, dassdie Anteile auffäl iger Hunde in Stichproben aus ein und derselben Populati-on eben je nach Stichprobe selbst vari eren werden, je nachdem, welche Indi-viduen „zufäl ig“ in die Stichprobe kommen.
Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 21
Abb. 1.5: Stichproben der Dalmatiner und Höl endalmatinerFür das Verständnis des p-Wertes sind nun folgende zwei Gedankengänge be-Gedankengang 1: Selbst wenn es „in Wirklichkeit“, also in den beiden Popu-lationen der normalen und der Höl endalmatiner, keinen Unterschied in derHäufigkeit tauber Hunde gibt, wird deren Anteil in den beiden Stichprobenziemlich sicher unterschiedlich sein!Die Gretchenfrage lautet daher: Ist der unterschiedliche Anteil nur zufäl ig –zufällig bedingt durch die Zufälligkeit, mit der die jeweils 30 Hunde ausge-wählt wurden – oder ist dieser zu erwartende Unterschied dadurch zustandegekommen, dass es in der Population der Höl endalmatiner tatsächlich mehrGedankengang 2: Wir haben bereits festgestel t, dass Aussagen über die Po-pulation aufgrund von Stichproben stets mit Unsicherheit behaftet sind, wirkönnen nichts mit absoluter Sicherheit sagen. Sicherheit wäre nur dann gege-ben, wenn wir die gesamte Population untersuchen würden.Das bedeutet leider: Selbst wenn wir ein signifikantes Ergebnis erhalten –das heißt, selbst wenn wir aufgrund entsprechender Stichprobendatenschlussfolgern, dass es in der Population der Höllendalmatiner mehr taubeTiere als in der Population der normalen Dalmatiner gibt –, könnte es sein,dass wir uns irren. Mit anderen Worten: Es könnte sein, dass sich die beiden
Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 22
Populationen trotz der Signifikanz, die sich aus den Stichproben ergibt, nichtunterscheiden. Aber, und das ist das Gute: So ein Irrtum wäre ziemlich un-Und jetzt zum p-Wert: Wenn der p-Wert (zur Erinnerung: p steht für proba-bilitas: Wahrscheinlichkeit) eine bestimmte Höhe nicht übersteigt (zumeist:kleiner oder gleich 0,05 [= 5 %] ist), dürfen wir schlussfolgern, dass es in derPopulation der Höllendalmatiner wirklich mehr taube Tiere gibt. Natürlichkönnte diese Schlussfolgerung falsch sein, aber es ist sehr unwahrscheinlich,Wie groß darf der p-Wert sein, damit das Ergebnis signifikant ist? Diese Fragekann nicht einheitlich beantwortet werden, etabliert haben sich die Gren-zen 5 %, 1 % und 0,1 % (bzw., was äquivalent ist: p ≤ 0,05, p ≤ 0,01 und p ≤ 0,001). Das heißt: Wenn der p-Wert höchstens 0,05 bzw. 0,01 oder 0,001beträgt, dann haben wir ein signifikantes Ergebnis auf dem 5 %-, dem 1 %-bzw. dem 0,1 %-Niveau. Die Signifikanzniveaus sind übrigens völ ig wil kür-lich gewählt, was berechtigterweise oft kritisiert wird. Es kann durchaus sein,dass in einer Studie ein einziger Patient den Ausschlag gibt zwischen nicht sig-nifikant und signifikant (neben weiteren möglichen Einflüssen, die das Züng-lein an der Waage spielen können). Der p-Wert selbst ist übrigens stets das Resultat eines statistischen Tests (wiebeispielsweise des t-Tests, einer Korrelationsrechnung oder einer Varianzana-lyse), also eines Rechenvorganges, der nach bestimmten Regeln abläuft.Doch sehen wir uns an, wie solch ein p-Wert in Publikationen üblicherwei-“For al statistical tests a 5 % significance level was considered acceptable and usedthroughout the analysis . . Scores for these primary ef icacy variables decreased sig-nificantly (p = 0.000 . .) for both groups by the end of the treatment.”Agublia, E., Cacacchia, M., Cassano, G. B., Faravel i, C., Ferrari, G., Giordano, P.,Pancheri, P., Ravizza, L., Trabucchi, M., Bolino, F., Scarpato, A., Berardi, D., Pro-venzano, G., Brugnol , R. & Rozzini, R. (1993). Double-blind study of the efficacyand safety of sertraline versus fluoxetine in major depression. International Clini-cal Psychopharmacology, 8, 197–202.
Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 23
In dieser Studie wurden Sertraline und Fluoxetine hinsichtlich ihrer Wirk-samkeit zur Behandlung von Depression verglichen. Als Grenze, bis zu derein Ergebnis als signifikant akzeptiert wurde, sind 5 % angegeben. Als „pri-mary efficacy variables“ wurden die Testwerte von zwei psychologischenTests zur Diagnostik von Depression verwendet (es handelte sich um dieTests HAMD und CGI). Berechnet wurde u. a., ob sich die Testwerte vonHAMD und CGI über die Behandlungsdauer veränderten. (Dazu musstendie Patienten der beiden Gruppen „Sertraline“ und „Fluoxetine“ dieseTests mehrmals bearbeiten.) Die Autoren hatten somit für alle Patientendieser Gruppen einen Anfangs- und einen Endwert, wodurch die Differenzzwischen diesen beiden Zeitpunkten berechnet werden konnte. Aufgrunddes angeführten p-Wertes von p = 0,000 war der in den Stichproben (Stich-probe 1: Patienten, die Sertraline bekamen; Stichprobe 2: Patienten, dieFluoxetine bekamen) gefundene Unterschied in der Veränderung der Test-werte von HAMD und CGI zwischen diesen beiden Gruppen signifikant,das heißt: Die Patienten der Sertraline- und Fluoxetine-Gruppen wiesen ei-ne signifikant unterschiedliche Veränderung der HAMD- und CGI-Wertezwischen den beiden Messzeitpunkten auf. Dies bedeutet: Die ermitteltenStichprobenunterschiede bestehen mit hoher Wahrscheinlichkeit auch inder Population! Wäre der p-Wert größer als 5 % (bzw. 0,05), zum Beispiel p = 0,12 (bzw. 12 %), wäre das Ergebnis nicht signifikant und die Schluss-folgerung würde lauten: Der gefundene Unterschied in der Veränderungder HAMD- und CGI-Werte zwischen den Gruppen „Sertraline“ und„Fluoxetine“ müsste auf den Zufal zurückgeführt werden, wäre also durchzufäl ige Stichprobenschwankungen zu erklären.Wir haben bisher festgestel t: ❚ Der p-Wert gibt Auskunft darüber, ob ein Resultat signifikant ist oder ❚ Damit wir ein Ergebnis als signifikant bezeichnen, darf der p-Wert eine bestimmte Höhe nicht überschreiten, wobei es unterschiedliche Gren-zen gibt: nicht höher als 5 % oder 1 % oder 0,1 %. (Diese Grenzen hei-ßen Signifikanzniveau und es wird aufgrund inhaltlicher Überlegungenvor jeder statistischen Auswertung festgelegt, welche dieser drei Grenzen❚ Der p-Wert informiert uns über die Wahrscheinlichkeit, dass wir uns ir- ren, wenn wir eine bestimmte Schlussfolgerung über die Population
Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 24
Wenn wir die letzte Feststel ung mit anderen Worten ausdrücken und sagen,dass wir eine richtige Schlussfolgerung über die Population treffen, so müssenwir uns noch Gedanken darüber machen, was mit „richtiger Schlussfolge-Das wissenschaftliche Vorgehen zeichnet sich u. a. dadurch aus, dass sehr ge-naue Hypothesen darüber aufgestel t werden, was man erwartet oder nicht er-wartet. Im Al tag verwenden wir ebenfal s Hypothesen, die uns aber sehr oftgar nicht bewusst sind. Wenn wir etwa eine Person aufgrund der Art, wie siesich kleidet, in eine „Schublade“ stecken, so denken wir meistens nicht expli-zit darüber nach. Es geschieht einfach. Unsere impliziten Hypothesen könn-❚ Wer Markenkleidung trägt, ❚ Wer Markenkleidung trägt, ❚ Wer sich schlampig kleidet, müssen empirisch überprüfbar sein. Ein statistischer Test hat die Aufgabe, aufder Basis von Datenmaterial diese Hypothesen zu bestätigen oder zu verwer-fen. Im eben genannten Al tagsbeispiel ist die Kleidung sozusagen das Daten-material, von dem wir ausgehen, und wir benutzen implizit unsere Werte,Einstellungen, Erfahrungen etc., um unsere Alltagshypothesen zu überprü-fen. Und meistens neigen wir dazu, das, was wir glauben, zu bestätigen. Dashat viel mit Vorurteilen, mit vorgefassten Meinungen zu tun.Im Idealfal geht der empirisch arbeitende Wissenschaftler ohne Vorurteileund feste Erwartungen an seine Studie, obwohl er natürlich auch Annahmentrifft, die er zu bestätigen sucht. Die Logik des statistischen Tests beinhaltet al-lerdings eine Art Pessimismus. Was heißt das? Um dies zu verstehen, müssenwir unseren Blick auf zwei wichtige Begriffe richten: die Nul hypothese und
Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 19 1.2 Signifikanz (p-Wert)Um welches Problem geht es in diesem Unterkapitel?Im Rahmen einer wissenschaftlichen Studie können in der Regel nicht alle Patienten untersucht werden. Das führt zu dem Problem, dass von einer Aus- wahl (Stichprobe) auf die Grundgesamtheit (Population) geschlossen werden muss. Wie aber ist es möglich, vo
i n t e r n a t i o n a l j o u r n a l o f m e d i c a l i n f o r m a t i c s 7 6 S ( 2 0 0 7 ) S205–S211j o u r n a l h o m e p a g e : w w w . i n t l . e l s e v i e r h e a l t h . c o m / j o u r n a l s / i j m i Incident reporting schemes and the need for a good story J. Rooksby , R.M. Gerry , A.F. Smith a Computing Department, Lancaster University, UK b Department