Klicpera layout2

Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 19 1.2 Signifikanz (p-Wert)Um welches Problem geht es in diesem Unterkapitel?Im Rahmen einer wissenschaftlichen Studie können in der Regel nicht alle Patienten untersucht werden. Das führt zu dem Problem, dass von einer Aus- wahl (Stichprobe) auf die Grundgesamtheit (Population) geschlossen werden muss. Wie aber ist es möglich, von einigen wenigen etwas über al e auszusa- gen? Derartige Aussagen sind grundsätzlich mit gewissen Unsicherheiten be- haftet. Wenn eine Therapie bei den Patienten der Stichprobe wirkt, ist sie dann auch bei al en Patienten wirksam? Und wenn ja, wie können wir das wis- sen, wenn wir gar nicht al e untersucht haben? Der p-Wert (von lat. probabili- tas: Wahrscheinlichkeit) liefert Informationen über die Wahrscheinlichkeit, mit der man sich irrt, wenn man annimmt, ein in der Stichprobe gefundener Unterschied sei auch in der Population vorhanden. Wenn Sie dieses Unterkapitel gelesen haben, können Sie folgende Fragen beantworten:Wie können Aussagen über die Population ausgehend von einer Stichpro- Was ist der p-Wert und in welchem Zusammenhang steht er mit statisti- Welche Fehlentscheidungen sind beim Schließen von der Stichprobe auf Warum ist es problematisch, im Rahmen einer Studie sehr viele statistische Was sind ein- und zweiseitige Hypothesen und worin liegen mögliche Ge- fahren, wenn man eine zweiseitige Hypothese im Nachhinein zu einer ein- SchlüsselbegriffeSignifikanz, Signifikanzniveau, wissenschaftliche Hypothesen, Das Schließen von einer Stichprobe auf die GrundgesamtheitFrau Alma Tiener züchtet seit dreißig Jahren Dalmatiner. Durch sorgfältige Auswahl ist es ihr gelungen, einen neuen Typus zu erschaffen: schwarze Dal- Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 20 matiner mit weißen Punkten (die sogenannten „Höl endalmatiner“). Im Laufe der Zeit stel t sich jedoch heraus, dass es bei den Höl endalmatinern öfter zu Taubheit kommt als bei den herkömmli- chen, schwarzgepunkteten Dalmatinern. (Taub- heit ist allgemein ein Problem bei Tieren dieser Hunderasse.) Deshalb entschließt sich Frau Tie- ner, bei den folgenden Würfen die Sache genauer zu untersuchen. Sie besitzt jeweils fünf Zucht- hündinnen und ermittelt bei jedem Wurf den An- teil der tauben Hunde. Bei den herkömmlichen Dalmatinern waren unter den insgesamt 30 Welpen 4 auffäl ige (4 von 30, das sind 13,3 %), bei den Höl en- dalmatinern fand sie 6 auffäl ige Welpen unter 26 (6 von 26, das sind 23,1 %). Frau Tiener veral gemeinert deshalb auf al e künftigen Würfe und sagt: „Mei- ner Erfahrung nach ist der Anteil tauber Hunde unter den Höl endalmatinern signifikant höher als unter den herkömmlichen Dalmatinern.“ Die Bedeutung des Wortes „signifikant“Wir wol en nun erkunden, was es mit dem Wort „signifikant“ auf sich hat. Ist es gerechtfertigt, dass Frau Tiener von einem signifikanten Ergebnis spricht, weil in der einen Gruppe 13,3 % und in der anderen 23,1 % der Tiere auffäl ig sind und sie es deshalb als erwiesen erachtet, dass dieser Unterschied auch in der Population vorhanden sei? „Signifikant“ bedeutet so viel wie „überzufäl- lig“, das heißt, ein in der Stichprobe gefundener Unterschied wird nicht mehr auf bloßen Zufal zurückgeführt, sondern es ist davon auszugehen, dass der ge- fundene Unterschied auch „in Wirklichkeit“, also in der Population, besteht. Führen wir das Gedankenexperiment weiter und nehmen an, dass es schon sehr viele Züchter von Höllendalmatinern gibt. Von allen registrierten Dal- matinern und Höl endalmatinern werden je 30 Hunde entnommen, sodass wir nun zwei Stichproben mit jeweils 30 Tieren haben (siehe Abbildung 1.5). Wir wissen bereits, dass es sehr viele Möglichkeiten gibt, solche Stichproben zu entnehmen. Das Ziel ist, aufgrund der beiden konkreten Stichproben et- was über die Populationen (das sind die Populationen der normalen und der Höllendalmatiner) auszusagen. Und wir haben auch schon festgestellt, dass die Anteile auffäl iger Hunde in Stichproben aus ein und derselben Populati- on eben je nach Stichprobe selbst vari eren werden, je nachdem, welche Indi- viduen „zufäl ig“ in die Stichprobe kommen. Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 21 Abb. 1.5: Stichproben der Dalmatiner und Höl endalmatiner Für das Verständnis des p-Wertes sind nun folgende zwei Gedankengänge be- Gedankengang 1: Selbst wenn es „in Wirklichkeit“, also in den beiden Popu- lationen der normalen und der Höl endalmatiner, keinen Unterschied in der Häufigkeit tauber Hunde gibt, wird deren Anteil in den beiden Stichproben ziemlich sicher unterschiedlich sein! Die Gretchenfrage lautet daher: Ist der unterschiedliche Anteil nur zufäl ig – zufällig bedingt durch die Zufälligkeit, mit der die jeweils 30 Hunde ausge- wählt wurden – oder ist dieser zu erwartende Unterschied dadurch zustande gekommen, dass es in der Population der Höl endalmatiner tatsächlich mehr Gedankengang 2: Wir haben bereits festgestel t, dass Aussagen über die Po- pulation aufgrund von Stichproben stets mit Unsicherheit behaftet sind, wir können nichts mit absoluter Sicherheit sagen. Sicherheit wäre nur dann gege- ben, wenn wir die gesamte Population untersuchen würden. Das bedeutet leider: Selbst wenn wir ein signifikantes Ergebnis erhalten – das heißt, selbst wenn wir aufgrund entsprechender Stichprobendaten schlussfolgern, dass es in der Population der Höllendalmatiner mehr taube Tiere als in der Population der normalen Dalmatiner gibt –, könnte es sein, dass wir uns irren. Mit anderen Worten: Es könnte sein, dass sich die beiden Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 22 Populationen trotz der Signifikanz, die sich aus den Stichproben ergibt, nicht unterscheiden. Aber, und das ist das Gute: So ein Irrtum wäre ziemlich un- Und jetzt zum p-Wert: Wenn der p-Wert (zur Erinnerung: p steht für proba- bilitas: Wahrscheinlichkeit) eine bestimmte Höhe nicht übersteigt (zumeist: kleiner oder gleich 0,05 [= 5 %] ist), dürfen wir schlussfolgern, dass es in der Population der Höllendalmatiner wirklich mehr taube Tiere gibt. Natürlich könnte diese Schlussfolgerung falsch sein, aber es ist sehr unwahrscheinlich, Wie groß darf der p-Wert sein, damit das Ergebnis signifikant ist? Diese Frage kann nicht einheitlich beantwortet werden, etabliert haben sich die Gren- zen 5 %, 1 % und 0,1 % (bzw., was äquivalent ist: p 0,05, p 0,01 und p 0,001). Das heißt: Wenn der p-Wert höchstens 0,05 bzw. 0,01 oder 0,001 beträgt, dann haben wir ein signifikantes Ergebnis auf dem 5 %-, dem 1 %- bzw. dem 0,1 %-Niveau. Die Signifikanzniveaus sind übrigens völ ig wil kür- lich gewählt, was berechtigterweise oft kritisiert wird. Es kann durchaus sein, dass in einer Studie ein einziger Patient den Ausschlag gibt zwischen nicht sig- nifikant und signifikant (neben weiteren möglichen Einflüssen, die das Züng- lein an der Waage spielen können). Der p-Wert selbst ist übrigens stets das Resultat eines statistischen Tests (wie beispielsweise des t-Tests, einer Korrelationsrechnung oder einer Varianzana- lyse), also eines Rechenvorganges, der nach bestimmten Regeln abläuft. Doch sehen wir uns an, wie solch ein p-Wert in Publikationen üblicherwei- “For al statistical tests a 5 % significance level was considered acceptable and used throughout the analysis . . Scores for these primary ef icacy variables decreased sig- nificantly (p = 0.000 . .) for both groups by the end of the treatment.” Agublia, E., Cacacchia, M., Cassano, G. B., Faravel i, C., Ferrari, G., Giordano, P., Pancheri, P., Ravizza, L., Trabucchi, M., Bolino, F., Scarpato, A., Berardi, D., Pro- venzano, G., Brugnol , R. & Rozzini, R. (1993). Double-blind study of the efficacy and safety of sertraline versus fluoxetine in major depression. International Clini- cal Psychopharmacology, 8, 197–202. Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 23 In dieser Studie wurden Sertraline und Fluoxetine hinsichtlich ihrer Wirk- samkeit zur Behandlung von Depression verglichen. Als Grenze, bis zu der ein Ergebnis als signifikant akzeptiert wurde, sind 5 % angegeben. Als „pri- mary efficacy variables“ wurden die Testwerte von zwei psychologischen Tests zur Diagnostik von Depression verwendet (es handelte sich um die Tests HAMD und CGI). Berechnet wurde u. a., ob sich die Testwerte von HAMD und CGI über die Behandlungsdauer veränderten. (Dazu mussten die Patienten der beiden Gruppen „Sertraline“ und „Fluoxetine“ diese Tests mehrmals bearbeiten.) Die Autoren hatten somit für alle Patienten dieser Gruppen einen Anfangs- und einen Endwert, wodurch die Differenz zwischen diesen beiden Zeitpunkten berechnet werden konnte. Aufgrund des angeführten p-Wertes von p = 0,000 war der in den Stichproben (Stich- probe 1: Patienten, die Sertraline bekamen; Stichprobe 2: Patienten, die Fluoxetine bekamen) gefundene Unterschied in der Veränderung der Test- werte von HAMD und CGI zwischen diesen beiden Gruppen signifikant, das heißt: Die Patienten der Sertraline- und Fluoxetine-Gruppen wiesen ei- ne signifikant unterschiedliche Veränderung der HAMD- und CGI-Werte zwischen den beiden Messzeitpunkten auf. Dies bedeutet: Die ermittelten Stichprobenunterschiede bestehen mit hoher Wahrscheinlichkeit auch in der Population! Wäre der p-Wert größer als 5 % (bzw. 0,05), zum Beispiel p = 0,12 (bzw. 12 %), wäre das Ergebnis nicht signifikant und die Schluss- folgerung würde lauten: Der gefundene Unterschied in der Veränderung der HAMD- und CGI-Werte zwischen den Gruppen „Sertraline“ und „Fluoxetine“ müsste auf den Zufal zurückgeführt werden, wäre also durch zufäl ige Stichprobenschwankungen zu erklären. Wir haben bisher festgestel t:
Der p-Wert gibt Auskunft darüber, ob ein Resultat signifikant ist oder
Damit wir ein Ergebnis als signifikant bezeichnen, darf der p-Wert eine
bestimmte Höhe nicht überschreiten, wobei es unterschiedliche Gren- zen gibt: nicht höher als 5 % oder 1 % oder 0,1 %. (Diese Grenzen hei- ßen Signifikanzniveau und es wird aufgrund inhaltlicher Überlegungen vor jeder statistischen Auswertung festgelegt, welche dieser drei Grenzen Der p-Wert informiert uns über die Wahrscheinlichkeit, dass wir uns ir-
ren, wenn wir eine bestimmte Schlussfolgerung über die Population Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 24 Wenn wir die letzte Feststel ung mit anderen Worten ausdrücken und sagen, dass wir eine richtige Schlussfolgerung über die Population treffen, so müssen wir uns noch Gedanken darüber machen, was mit „richtiger Schlussfolge- Das wissenschaftliche Vorgehen zeichnet sich u. a. dadurch aus, dass sehr ge- naue Hypothesen darüber aufgestel t werden, was man erwartet oder nicht er- wartet. Im Al tag verwenden wir ebenfal s Hypothesen, die uns aber sehr oft gar nicht bewusst sind. Wenn wir etwa eine Person aufgrund der Art, wie sie sich kleidet, in eine „Schublade“ stecken, so denken wir meistens nicht expli- zit darüber nach. Es geschieht einfach. Unsere impliziten Hypothesen könn- Wer Markenkleidung trägt,
Wer Markenkleidung trägt,
Wer sich schlampig kleidet,
müssen empirisch überprüfbar sein. Ein statistischer Test hat die Aufgabe, auf der Basis von Datenmaterial diese Hypothesen zu bestätigen oder zu verwer- fen. Im eben genannten Al tagsbeispiel ist die Kleidung sozusagen das Daten- material, von dem wir ausgehen, und wir benutzen implizit unsere Werte, Einstellungen, Erfahrungen etc., um unsere Alltagshypothesen zu überprü- fen. Und meistens neigen wir dazu, das, was wir glauben, zu bestätigen. Das hat viel mit Vorurteilen, mit vorgefassten Meinungen zu tun. Im Idealfal geht der empirisch arbeitende Wissenschaftler ohne Vorurteile und feste Erwartungen an seine Studie, obwohl er natürlich auch Annahmen trifft, die er zu bestätigen sucht. Die Logik des statistischen Tests beinhaltet al- lerdings eine Art Pessimismus. Was heißt das? Um dies zu verstehen, müssen wir unseren Blick auf zwei wichtige Begriffe richten: die Nul hypothese und

Source: http://www.benesch.co.at/wp-content/uploads/2011/05/Klinische-Studien-Leseprobe.pdf

Klicpera layout2

Klinische Studien_KORR1_Musterseiten 06.09.13 07:13 Seite 19 1.2 Signifikanz (p-Wert)Um welches Problem geht es in diesem Unterkapitel?Im Rahmen einer wissenschaftlichen Studie können in der Regel nicht alle Patienten untersucht werden. Das führt zu dem Problem, dass von einer Aus- wahl (Stichprobe) auf die Grundgesamtheit (Population) geschlossen werden muss. Wie aber ist es möglich, vo

Doi:10.1016/j.ijmedinf.2006.05.019

i n t e r n a t i o n a l j o u r n a l o f m e d i c a l i n f o r m a t i c s 7 6 S ( 2 0 0 7 ) S205–S211j o u r n a l h o m e p a g e : w w w . i n t l . e l s e v i e r h e a l t h . c o m / j o u r n a l s / i j m i Incident reporting schemes and the need for a good story J. Rooksby , R.M. Gerry , A.F. Smith a Computing Department, Lancaster University, UK b Department

© 2010-2018 PDF pharmacy articles