Glossar zur Biostatistik

Auf dieser Seite werden Begriffe der Biostatistik erlÀutert. Das Glossar befindet sich in stetigem Aufbau. Anregungen werden gerne entgegen genommen!

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
A

abhÀngige Stichprobe

Bei abhÀngigen Stichproben können die Elemente der Stichproben einander paarweise zugeordnet werden, was zum Beispiel bei Messwiederholungen der Fall ist. AbhÀngige Stichproben verlangen andere Auswertungsmethoden als unabhÀngige Stichproben.

abhÀngige Variable / Zielgrösse

Die abhÀngige Variable verÀndert sich in AbhÀngigkeit von einer oder mehreren unabhÀngigen Variablen. Das Ziel in klinischen Studien ist es, einen Zusammenhang zwischen möglichen Einflussfaktoren (unabhÀngige Variablen) und der eigentlichen Zielgrösse (abhÀngige Variable) herzustellen.

absolute HĂ€ufigkeit

Absolute HÀufigkeiten werden bei nominalen und ordinalen Variablen berechnet und geben an, wie hÀufig jede AusprÀgung beobachtet wird.

absolutes Risiko (AR)

Das absolute Risiko ist die Rate eines ungĂŒnstigen Ereignisses in einer bestimmten Population. Wenn also zum Beispiel 45 TodesfĂ€lle in einer Behandlungsgruppe von insgesamt 1250 Patienten auftreten, dann betrĂ€gt das absolute Risiko 0.036 oder 3.6% (45/1250).

absolute Risikoreduktion (ARR)

In klinischen Studien ist die absolute Risikoreduktion wie auch die relative Risikoreduktion ein Mass, um die Wirksamkeit zweier Behandlungen zu vergleichen im Bezug auf die Verhinderung eines ungĂŒnstigen Ereignisses. Die absolute Risikoreduktion wird berechnet aus der Differenz zwischen den Ereignisraten zweier Vergleichsgruppen. Wenn also zum Beispiel bei der Behandlung A 45 von 1250 (3.6%) Patienten sterben versus 20 von 1250 (1.6%) bei Behandlung B, dann betrĂ€gt die absolute Risikoreduktion 2% (3.6% - 1.6%) fĂŒr Behandlung B im Vergleich zu Behandlung A.

adaptives Design

Ein adaptives Design lĂ€sst vielfĂ€ltige Änderungen im Studiendesign zu wie zum Beispiel Änderung des Stichprobenumfangs, des Endpunktes, Verwerfung von Studienarmen etc. Alle potentiellen Adaptionen, welche aufgrund von Interimsergebnissen implementiert werden, mĂŒssen aber im Protokoll spezifiziert sein. Adaptive Designs verlangen eine viel aufwĂ€ndigere Studienplanung und sind komplizierter in der Datenanalyse als klassische Studiendesigns. Sie sind einfacher mit einem Bayes'schen als mit einem frequentistischen Ansatz zu verwirklichen.

α-Fehler

Der α-Fehler oder auch Fehler 1. Art liegt vor, wenn die Nullhypothese verworfen wird, obwohl sie fĂŒr die Grundgesamtheit gilt. Die Wahrscheinlichkeit, einen α-Fehler zu begehen (=Signifikanzniveau), muss vor dem Hypothesentest festgelegt werden und liegt ĂŒblicherweise bei 5% oder 1%.

Alternativhypothese

Die Alternativhypothese H1 beschreibt die Arbeitshypothese, d.h. die eigentlich interessierende Annahme. Die Statistik testet aber niemals die Alternativhypothese, sondern immer nur ihr Gegenteil, die Nullhypothese. Die Alternativhypothese kann gerichtet (z.B. ÎŒA > ÎŒB) oder ungerichtet (z.B. ÎŒA ≠ ÎŒB) sein. Bei gerichteten Hypothesen kommen einseitige Tests zur Anwendung, bei ungerichteten Hypothesen zweiseitige Tests. Daneben unterscheidet man auch noch einfache von zusammengesetzten Hypothesen. Eine Alternativhypothese heisst einfach, wenn sie genau ein Element enthĂ€lt (z.B. ÎŒA - ÎŒB= 6.0), und zusammengesetzt, wenn sie mehr als ein Element enthĂ€lt (z.B. ÎŒA - ÎŒB > 6.0). Einfache Alternativhypothesen kommen in klinischen Studien jedoch eher selten vor.

ANOVA / Varianzanalyse

ANOVA steht fĂŒr analysis of variance (Varianzanalyse). Varianzanalytische Methoden sind eine Erweiterung des t-Tests auf mehr als zwei Gruppen (einfaktorielle ANOVA) bzw. mehr als eine unabhĂ€ngige Variable (mehrfaktorielle ANOVA). Das Prinzip der ANOVA besteht darin, dass die Gesamtvarianz aller Messwerte aufgeteilt wird in die Varianz zwischen den Gruppen (=Treatmenteffekt / erklĂ€rte Varianz) und auf die Varianz innerhalb der Gruppen (=Fehlervarianz / nicht-erklĂ€rte Varianz). Mit der PrĂŒfgrösse F wird schliesslich das VerhĂ€ltnis von erklĂ€rter und nicht-erklĂ€rter Varianz geprĂŒft. Wenn Mittelwerte aus unterschiedlichen Populationen stammen, dann ist die erklĂ€rte Varianz grösser als die nicht-erklĂ€rte Varianz und F somit grösser als 1.

Area under the curve (AUC)

Die area under the curve (AUC), zu Deutsch die FlĂ€che unter der ROC (receiver operating characteristic) Kurve, eignet sich in der medizinischen Diagnostik, um die GĂŒte eines diagnostischen Tests zu quantifizieren. Bei der Entwicklung eines neuen diagnostischen Tests stellt sich immer die Frage, wie gut der Test die Kranken von den Gesunden unterscheiden kann (s. auch SensitivitĂ€t und SpezifitĂ€t). Die TrennschĂ€rfe des Tests lĂ€sst sich dabei gut mit der ROC Kurve visualisieren. Die AUC ĂŒbersetzt die GĂŒte der ROC Kurve in einen Masszahl, wobei der Wertebereich der AUC zwischen 0 und 1 liegt. Ein Wert von 0.5 entspricht der Diagonalen und wĂŒrde bedeuten, dass die HĂ€lfte aller Kranken und die HĂ€lfte aller Gesunden richtig erkannt werden, was nicht besser als einfaches Raten ist. Idealerweise möchte man eine AUC, welche möglichst nahe bei 1 liegt.



Diese Abbildung vergleicht zwei ROC Kurven. Der diagnostische Test, welcher durch die grĂŒne ROC Kurve dargestellt ist, schneidet dabei deutlich besser ab. Die AUC der grĂŒnen ROC Kurve ist grösser als die AUC der blauen ROC Kurve.

arithmetisches Mittel

Das arithmetische Mittel ist eine Masszahl fĂŒr die zentrale Tendenz einer Verteilung und wird berechnet durch die Summe aller Werte einer Variablen geteilt durch die Anzahl der Untersuchungseinheiten. Voraussetzung fĂŒr die Berechnung des arithmetischen Mittels ist ein mindestens intervallskaliertes Skalenniveau.



Das arithmetische Mittel reagiert empfindlich auf Extremwerte und Ausreisser. Einige wenige extrem grosse Werte können also zum Beispiel das arithmetische Mittel nach oben verschieben.

Assoziationsmass

Assoziationsmasse sind Kennwerte, welche die StĂ€rke und allenfalls die Richtung eines statistischen Zusammenhangs zweier Variablen angeben. Der Wertebereich von Assoziationsmassen liegt gemĂ€ss Konvention zwischen -1 und +1 bzw. zwischen 0 und 1 fĂŒr nominalskalierte Daten. Die Richtung des Zusammenhangs ist nur bei mindestens ordinalskalierten Daten interpretierbar, wobei -1 fĂŒr einen perfekten negativen und +1 fĂŒr einen perfekten positiven Zusammenhang steht. Der Wert 0 drĂŒckt statistische UnabhĂ€ngigkeit beider Variablen aus.

asymptotischer Test

Asymptotische Tests beruhen auf der Annahme, dass die SchĂ€tzwerte einer theoretischen Verteilungsfunktion (wie z.B. der ΧÂČ-Verteilung oder t-Verteilung) folgen. Die AnnĂ€herung an die theoretische Verteilungsfunktion wird mit zunehmendem Stichprobenumfang besser. Bei kleinen und/oder schief verteilten Stichproben sind asymptotische Approximationen von Teststatistiken jedoch unzulĂ€ssig. Bei kategorialen Daten werden im Falle kleiner und/oder schief verteilter Stichproben exakte Tests oder Monte-Carlo-Simulationen zur SchĂ€tzung von PrĂŒfverteilungen angewendet.

attributables Risiko

Das attributable Risiko ist ein epidemiologischer Begriff und wird berechnet aus der Differenz zweier Inzidenzraten. Es ist eine Masszahl, um den Einfluss eines Risikofaktors auf eine bestimmte Erkrankung zu beschreiben. Wenn also in einer Population z.B. 10% der Personen, die einem Risikofaktor ausgesetzt sind, eine bestimmte Krankheit entwickeln und nur 5% der Personen, die dem Risikofaktor nicht ausgesetzt sind, dann betrÀgt das attributable Risiko 5% (10%-5%).

AusprÀgungen

AusprÀgungen nennt man die Werte, welche eine Variable annehmen kann. Geschlecht hat also zwei AusprÀgungen, nÀmlich mÀnnlich und weiblich. Die verschiedenen AusprÀgungen einer Variable sollten vollstÀndig und sich gegenseitig ausschliessend sein.

Ausreisser

Ausreisser können als Werte bezeichnet werden, welche mit dem Rest der Werte unvereinbar erscheinen. Davon abzugrenzen sind Extremwerte, welche sich am obersten und untersten Rand einer Verteilung befinden und nicht zwangslĂ€ufig als Ausreisser gelten. Es gibt kein objektives Kriterium fĂŒr den Entscheid, ob ein Wert als Ausreisser zu definieren ist oder nicht. Auf jeden Fall ist es ratsam, vor der Analyse empirischer Daten eine Kontrolle auf Ausreisser durchzufĂŒhren. Offenbar fehlerhafte Werte sollten korrigiert oder durch plausible Werte ersetzt werden. Im Falle von nicht fehlerhaften Werten können robuste SchĂ€tzverfahren zur Anwendung kommen.
B

Balkendiagramm

Das Balkendiagrammen ist besonders dazu geeignet, die Beziehung zwischen zwei Variablen darzustellen, von welchen eine ĂŒblicherweise eine quantitative und die andere eine qualitative oder eine in Klassen gruppierte, quantitative Variable ist. Die Werte der ersten Variablen werden durch Balken proportionaler LĂ€nge dargestellt, wobei ein Balke fĂŒr jede Kategorie der zweiten Variablen erstellt wird. Mit gestapelten Balken oder nebeneinander versetzten Balken können auch mehr als zwei Variablen miteinander kombiniert werden. Daneben wird das Balkendiagramm auch als graphische Darstellung fĂŒr die HĂ€ufigkeitsverteilung ordinaler oder nominaler Variablen genutzt. Im Unterschied zum Histogramm berĂŒhren sich die benachbarten Balken nicht.


Bayes'scher Ansatz

Der Bayes’sche Ansatz geht von einem subjektivistischem Wahrscheinlichkeitsbegriff aus. Hierbei spielt das A-priori-Wissen wie z.B. Erfahrungen und persönliche EinschĂ€tzungen eine entscheidende Rolle. Ausgehend von einer ersten Bewertung eines Sachverhalts muss die Situation jeweils nach Vorliegen bislang unbekannter Fakten neu eingeschĂ€tzt werden. Der Bayes'sche Ansatz berechnet fĂŒr einen Parameter also eine A-posteriori-Wahrscheinlichkeitsverteilung, welche abgeleitet ist von den beobachteten Daten sowie der A-priori-Wahrscheinlichkeitsverteilung fĂŒr den betreffenden Parameter. Da die A-posteriori-Wahrscheinlichkeitsverteilung nach jeder neuen Beobachtung laufend aktualisiert wird, sind Interimsanalysen jederzeit möglich. Der Bayes'sche Ansatz ist jedoch komplizierter in der Datenanalyse als der frequentistische Ansatz.

ÎČ-Fehler

Der ÎČ-Fehler oder auch Fehler 2. Art liegt vor, wenn man die Nullhyphothese beibehĂ€lt, obwohl in der Grundgesamtheit die Alternativhypothese gilt.

Bias

Mit Bias bezeichnet man systematische Abweichungen eines SchĂ€tzwertes vom wahren Wert. Ein Bias kann durch Fehler im Studiendesign, in der StudiendurchfĂŒhrung oder auch in der Datenanalyse und Dateninterpretion zustande kommen. Verblindung und Randomisierung sind z.B. wichtige Design-Instrumente, um einen möglichen Bias zu verhindern.

binÀre Variable / dichotome Variable

BinĂ€re oder dichotome Variablen sind nominale Variablen mit nur zwei AusprĂ€gungen. Geschlecht ist ein typisches Beispiel fĂŒr eine binĂ€re Variable.

Binomialverteilung

Man stelle sich ein Experiment vor, bei der zwei Möglichkeiten 0 und 1 gegeben sind, die mit der Wahrscheinlichkeit p bzw. 1-p auftreten. Die Binomialverteilung quantifiziert die Wahrscheinlichkeit, in n Versuchen genau k Einsen zu erhalten, wobei gilt

ÎŒ=n p und σÂČ=n p (1-p).

Beispiel einer Binomialverteilung: Wahrscheinlichkeit fĂŒr die Anzahl Sechser in 10 WĂŒrfen mit einem WĂŒrfel.

Wenn wir beispielsweise eine Umfrage durchfĂŒhren, um die PrĂ€valenz p einer bestimmten Krankheit in einer Population zu schĂ€tzen, dann hat jeder Teilnehmer der Stichprobe eine Wahrscheinlichkeit von p, an dieser Krankheit zu leiden, und die Anzahl der Personen mit Krankheit wird deshalb einer Binomialverteilung folgen. Die Binomialverteilung erlaubt es uns darum zum Beispiel anzugeben, wie prĂ€zise der SchĂ€tzwert der PrĂ€valenz ist.

Bland-Altman Plot

Der Bland-Altman Plot ist eine geeignete Darstellungsmethode fĂŒr den Vergleich zweier Messmethoden oder die Wiederholbarkeit einer Messmethode. Dabei wird die Differenz von zwei Messungen gegen den Mittelwert der zwei Messungen abgetragen. Zur besseren Interpretation werden zusĂ€tzlich der Mittelwert der Differenzen und die obere und untere Grenze seines 95%-Konfidenzintervalles als gerade Linien gezeigt. Der Bland-Altman Plot erlaubt es zum Beispiel, den Grad der Übereinstimmung oder das Vorliegen systematischer Messfehler zu beurteilen.



Mit Hilfe des Bland-Altman Plots kann etwas darĂŒber ausgesagt werden, wie gross die Abweichungen sind, ob eine Messmethode systematisch höhere Werte liefert als die andere Messmethode und ob beispielsweise die Abweichungen mit zunehmenden Messwerten zu- oder abnehmen.

Blockrandomisierung

Bei der Blockrandomisierung werden BlocklÀngen definiert, innerhalb derer das RandomisierungsverhÀltnis abgebildet sein muss. Werden die Studienteilnehmer also zum Beispiel in einem 1:1 VerhÀltnis zu den zwei Behandlungsgruppen A und B randomisiert, so können bei einer BlocklÀnge von 4 folgende Randomisierungsmuster vorkommen: AABB, ABAB, ABBA, BAAB, BABA, BBAA. Damit die nÀchste Zuteilung weniger leicht erraten werden kann, können BlocklÀngen auch variiert werden. Mit der Blockrandomsierung wird sichergestellt, dass die Behandlungsgruppen gleich gross sind.

Bonferroni-Korrektur

Die Wahrscheinlichkeit, einen α-Fehler zu begehen, entspricht dem gewĂ€hlten Signifikanzniveau und ist relativ klein (ĂŒblicherweise 5%). Testet man in derselben Stichprobe aber k Nullhypothesen, dann steigt die Wahrscheinlichkeit mit k dramatisch, dass man mindestens eine Nullhypothese fĂ€lschlicherweise verwirft:



GemĂ€ss dieser Formel betrĂ€gt die Wahrscheinlichkeit, bei mindestens einer getesteten Hypothesen einen α-Fehler zu machen, also 10%, 14%, 23%, 40% fĂŒr 2, 3, 5, 10 getestete Hypothesen. Um eine solche Inflation des α-Risikos zu verhindern, muss das Signifikanzniveau angepasst werden. Die Bonferroni-Korrektur stellt einen einfachen, wenn auch relativ konservativen Lösungsansatz dar, der darin besteht, dass das gewĂ€hlte Signifikanzniveau durch die Anzahl der zu testenden Hypothesen geteilt wird. Bei einem globalen Signifikanzniveau von 5% mĂŒsste bei 5 getesteten Hypothesen folglich das individuelle Signifikanzniveau auf 1% gesenkt werden.

Boxplot

Ein Boxplot (auch Box-Whisker-Plot) ist eine graphische Darstellung der HÀufigkeitsverteilung einer stetigen Variable. Anhand eines Boxplots können die zentrale Tendenz, die Streuung, die Schiefe und die Spannweite einer Verteilung abgelesen werden.



Die Box umfasst die mittleren 50% aller Werte. Die BoxlĂ€nge entspricht damit dem Interquartilabstand. Der Median wird durch einen Strich in der Box dargestellt. Seine Lage innerhalb der Box lĂ€sst RĂŒckschlĂŒsse auf die Schiefe der Daten zu. So liegt bei symmetrischen Verteilungen der Median in der Mitte der Box. Die Whiskers werden unterschiedlich definiert. Manchmal wird mit den Whiskers die Spannweite dargestellt, manchmal werden innerhalb der Whiskersgrenzen 80%, 90%, 95% oder 98% aller Werte dargestellt. In diesem Fall werden alle Werte, die ausserhalb dieses Bereiches liegen, als Punkte gekennzeichnet. Bei der Tukey-Methode endet der Whisker bei dem Wert, der nicht weiter als 1.5 BoxlĂ€ngen vom benachbarten Boxrand entfernt ist. Gelegentlich werden hier auch noch milde von extremen Ausreissern unterschieden. Alle Werte, die mehr als 1.5 bis 3 BoxlĂ€ngen vom benachbarten Boxrand entfernt sind, werden zum Beispiel in Form von Kreisen als milde Ausreisser gekennzeichnet. Werte, die mehr als 3 BoxlĂ€ngen vom benachbarten Boxrand entfernt sind, werden zum Beispiel in Form von Sternchen als extreme Ausreisser gekennzeichnet.
C

Case-Control-Studien / Fall-Kontroll-Studien

Case-Control-Studien sind retrospektive, epidemiologische Studien, welche den Zusammenhang zwischen potentiellen Risikofaktoren und einer bestimmten Erkrankung untersuchen. Zu diesem Zweck wird zuerst eine Gruppe von Personen mit der Erkrankung (=Cases) und ein Gruppe von Personen ohne die Erkrankung (=Controls) ausgewĂ€hlt. Anschliessend wird in beiden Gruppen die Exposition gegenĂŒber den potentiellen Risikofaktoren ermittelt und untersucht, ob die Exposition zwischen den beiden Gruppen unterschiedlich war. Case-Control-Studien sind relativ kostengĂŒnstig und eignen sich besonders zur Untersuchung von seltenen Krankheiten. Sie sind aber auch anfĂ€llig auf systematische Verzerrungen, welche mit der Auswahl der FĂ€lle, der Auswahl der Kontrollen, der möglicherweise fehlerhaften Verblindung bei der Datenerhebung, einem möglichen Bias bei der Erinnerung an die Exposition sowie einem möglichen Confounding zu tun haben.

Chi-Quadrat-Test

Dieser Begriff wird bald in das Glossar aufgenommen.

Chi-Quadrat-Verteilung

Gegeben sei eine standardnormalverteilte Zufallsvariable Z. Das Quadrat dieser Zufallsvariablen bezeichnet man als ΧÂČ-verteilte Zufallsvariable. WĂŒrden (theoretisch unendlich) viele ΧÂČ-Werte aus zufĂ€llig gezogenen Z-Werten ermittelt, erhalten wir eine stetige Chi-Quadrat-Verteilung. Wenn wir n unabhĂ€ngige, standardnormalverteilte Zufallsvariablen quadrieren und addieren, resultiert eine ΧÂČ-Verteilung mit n Freiheitsgraden. Die Anzahl der Freiheitsgrade kennzeichnet also die Anzahl der frei wĂ€hlbaren Z-Werte, die in die Berechnung eines ΧÂČ-Wertes eingehen. Die ΧÂČ-Verteilung ist rechts-schief mit Erwartungswert ÎŒ = n und Varianz σÂČ = 2 n und nĂ€hert sich mit zunehmendem n einer Normalverteilung.

Cohen's Kappa

Der Kappa-Koeffizient nach Cohen ist ein Mass fĂŒr die Interrater (d.h. die Bewertung durch unterschiedliche Beurteiler) und Intrarater (d.h. die wiederholte Bewertung durch denselben Beurteiler) Übereinstimmung bezĂŒglich kategorialen Merkmalen. Er gibt Aufschluss ĂŒber die ReliabilitĂ€t einer Messung. Wenn es beispielsweise um eine Diagnose mit den möglichen Kategorien „gesund“ und „krank“ geht, lassen sich die beobachteten HĂ€ufigkeiten der Übereinstimmung zweier Beurteiler in Form einer Vierfeldertabelle darstellen:



Übereinstimmende Beurteilungen finden sich in der Hauptdiagonalen (a und d), abweichende Beurteilungen in den ĂŒbrigen Zellen (b und d). WĂŒrde man als ReliabilitĂ€tsmass nur den Anteil der ĂŒbereinstimmenden Beurteilungen an der Gesamtzahl der Beurteilungen definieren, so wĂŒrde man die Übereinstimmung ĂŒberschĂ€tzen, weil ein gewisses Mass an Übereinstimmung auch dann zu erwarten ist, wenn die beiden Beurteiler rein zufĂ€llig urteilen wĂŒrden. Die Formel des Kappa-Koeffizienten misst deshalb den zufallskorrigierten Anteil ĂŒbereinstimmender Bewertungen. Der Kappa-Koeffizient unterscheidet allerdings nur pauschal zwischen Übereinstimmung und Nicht-Übereinstimmung. Bei ordinalem Messniveau der Bewertungskategorien wiegen Abweichungen um mehrere Kategorien jedoch hĂ€ufig schwerer als Abweichungen um lediglich eine Kategorie. Der gewichtete Kappa-Koeffizient berĂŒcksichtigt dies, indem die Formel fĂŒr den Kappa-Koeffizient durch geeignete Gewichte zwischen 0 und 1 modifiziert wird. Es gibt allgemeine Richtwerte, wie der Kappa-Koeffizient zu interpretieren ist:



Man muss sich aber bewusst sein, dass der Wert des Kappa-Koeffizienten abhĂ€ngig ist von der Verteilung der RandhĂ€ufigkeiten und der Anzahl der Klassifikationskategorien. Bei einer symmetrischen Verteilung der RandhĂ€ufigkeiten (wenn also z.B. Bewerter 1 und Bewerter 2 sich kaum unterscheiden in der Anzahl ihrer positiven und negativen Diagnosen) und einer stark unbalancierten Verteilung der Kategorien (wenn also z.B. eine Kategorie insgesamt viel hĂ€ufiger vorkommt als die andere), wird der Kappa-Koeffizient tendenziell kleiner. Auch beim Vorliegen mehrerer Kategorien wird eine ĂŒbereinstimmende Klassifikation automatisch schwieriger, was zu einem kleineren Kappa-Wert fĂŒhrt. Bei der Interpretation des Kappa-Koeffizienten ist es darum unerlĂ€sslich, auch die dazugehörige Klassifikationstabelle zu kennen.

Compliance

Compliance in klinischen Studien bedeutet, dass Studienteilnehmer die studienbezogenen Anweisungen befolgen. Die Compliance der Studienteilnehmer muss dokumentiert werden, da fehlende Compliance die Ergebnisse verzerren kann.

Confounding

Mit Confounding bezeichnet man eine ErgebnisverfÀlschung, die dadurch zustande kommt, dass ein Störfaktor sowohl mit dem PrÀdiktor als auch mit dem Outcome sehr stark assoziiert ist. Confounding lÀsst sich mittels Studiendesign (z.B. Randomisierung) oder statistischer Verfahren bei der Datenanalyse (z.B. Stratifizierung) kontrollieren.

Cox Regression

Die Cox Regression ist eine Methode zur Analyse von Überlebensdaten. Wie auch die multiple lineare oder logistische Regression wird sie eingesetzt, wenn der Effekt mehrerer Einflussfaktoren auf eine Zielvariable untersucht werden soll. Da wir es bei Überlebensdaten mit zensierten Daten zu tun haben, ist die lineare Regression hier keine geeignete Auswertungsstrategie. Auch die logistische Regression stellt keine Alternative dar, da unterschiedlich lange Beobachtungszeiten vorliegen. Das Cox Modell erlaubt es, den Hazard – salopp gesprochen das unmittelbare Risiko – fĂŒr eine Person im Hinblick auf das zu interessierende Ereignis zu schĂ€tzen. Die Cox Regression geht von der Voraussetzung aus, dass die Effekte der unabhĂ€ngigen Variablen auf das Überleben ĂŒber die Zeit konstant sind ("proportional hazards assumption"). Der Hazard bezeichnet die Wahrscheinlichkeit pro Zeiteinheit, dass eine Person innerhalb eines kleinen Zeitintervalls das betreffende Ereignis erfĂ€hrt, falls sie bis zum Beginn dieses Zeitintervalls ĂŒberlebt hat. Die Hazard Ratio gibt das unmittelbare Risiko fĂŒr einen Anstieg um eine Einheit an. FĂŒr binĂ€re Variablen (z.B. Rauchen: ja versus nein) wĂŒrde eine Hazard Ratio von 1.5 bedeuten, dass das unmittelbare Risiko fĂŒr das Eintreten des Ereignisses bei Rauchen um 50% erhöht ist. Bei stetigen Variablen (z.B. Alter in Jahren) bedeutet die Hazard Ratio ebenfalls das unmittelbare Risiko fĂŒr einen Anstieg um eine Einheit (im Beispiel von Alter also 1 Jahr). Bei stetigen Variablen sind solche kleinen Differenzen hĂ€ufig wenig aussagekrĂ€ftig, und man möchte eher die Hazard Ratio fĂŒr eine grössere Differenz kennen. BetrĂ€gt die Hazard Ratio fĂŒr Alter beispielsweise 1.04, so errechnet sich die Hazard Ratio fĂŒr einen Anstieg von 10 Jahren folgendermassen: Wenn ÎČ=log(1.04) ist, dann ist die Hazard Ratio fĂŒr 10 Jahre exp(ÎČ5)=1.48. Bei einer Zunahme von 10 Jahren steigt das unmittelbare Risiko fĂŒr das Eintreten des Ereignisses also um 48%. Der Einfluss einer unabhĂ€ngigen Variable auf die Überlebenszeit wird dabei immer fĂŒr die Effekte der anderen Einflussgrössen adjustiert, mit anderen Worten wird der Effekt einer Einflussgrösse geschĂ€tzt, indem die anderen Einflussgrössen konstant gehalten werden.

Cramér's V

Der von CramĂ©r vorgeschlagene Koeffizient V ist ein Assoziationsmass fĂŒr nominale Daten, das auf dem χÂČ-Wert beruht. WĂ€hrend der χÂČ-Test prĂŒft, ob ein Zusammenhang zwischen zwei nominalskalierten Variablen besteht, ist es nicht möglich, aufgrund des χÂČ-Wertes auf die StĂ€rke des Zusammenhangs zu schliessen. Da es die Konvention will, dass Assoziationsmasse fĂŒr nominale Daten in einem Wertebereich zwischen 0 und 1 liegen, wird der χÂČ-Wert also in diesem Sinne normiert, wobei 1 einen perfekten Zusammenhang und 0 die vollstĂ€ndige UnabhĂ€ngigkeit der beiden Variablen charakterisiert. Da bei gegebenem Zusammenhang der χÂČ-Wert mit steigender Stichprobengrösse grösser wird, soll das Assoziationsmass zudem gegenĂŒber der Stichprobengrösse unempfindlich sein. Die auf dem χÂČ-Konzept beruhenden Assoziationsmasse wie Phi, CramĂ©r’s V und der Kontingenzkoeffizient unterscheiden sich dabei nur in der Art der Normierung. Die Formel fĂŒr CramĂ©r's V lautet:



Dabei bezeichnet r die Anzahl der Zeilen und k die Anzahl der Spalten. Der Ausdruck ‚min‘ bedeutet, dass in die Berechnung des Koeffizienten von der Zahl der Zeilen und der Zahl der Spalten lediglich die kleinere Zahl eingeht. Bei einer 2x2-Tabelle ist V identisch mit Phi.

Cross-over-Design

Bei Cross-over-Studien erhalten die Patienten in zeitlicher Reihenfolge und mit dazwischen liegender Wash-out-Phase zwei oder mehr experimentelle Behandlungen. Die Patienten werden vorab in zwei Gruppen randomisiert, von denen die eine Gruppe zuerst das Verum und anschliessend Placebo erhĂ€lt, wĂ€hrend die andere Gruppe zuerst Placebo und anschliessend das Verum erhĂ€lt. Mit diesem Vorgehen möchte man Zeit- oder Wechselwirkungseffekte ausschliessen. Ausgewertet werden Cross-over-Studien mit Tests fĂŒr abhĂ€ngige Stichproben. Der Vorteil von Cross-over-Studien besteht darin, dass kleinere Fallzahlen als bei einem Parallelgruppen-Design benötigt werden. Ein Cross-over-Design kann aber nur bei symptomatischen Behandlungen eingesetzt werden, wo sichergestellt werden kann, dass die Wirkung des Verums zu Beginn der Placebotestphase nicht mehr vorhanden ist. Mögliche Carry-over-Effekte sind aber schwierig nachzuprĂŒfen und stellen die eigentliche Schwachstelle dieses Designs dar.
D

deskriptive Statistik

Als deskriptive Statistik bezeichnet man statistische Methoden zur Beschreibung der Daten in Form von Graphiken, Tabellen oder einzelnen Kennwerten.

dichotome Variable / binÀre Variable

Dichotome oder binÀre Variablen sind nominale Variablen mit nur zwei AusprÀgungen. Geschlecht ist ein typisches Beispiel einer dichotomen Variable.

diskret

Eine Variable mit nur ganzzahligen AusprÀgungen (z.B. Anzahl Kinder) wird als diskret bezeichnet. Zu unterscheiden davon sind stetige Messdaten. Diskrete Messdaten werden anders (z.B. mit Balkendiagramm) als stetige Daten (z.B. mit Boxplot, Histogramm) dargestellt.

Dispersionsmasse

Dispersionsmasse sind Kennwerte, welche die Unterschiedlichkeit oder VariabilitĂ€t der AusprĂ€gungen eines Merkmals in einem Kollektiv kennzeichnen. Beispiele fĂŒr Dispersionsmasse sind die Standardabweichung oder der Interquartilbereich.

Dummy-Variable

Dummy-Variablen sind kĂŒnstlich erzeugte binĂ€re Variablen mit den AusprĂ€gungen 0 fĂŒr "falsch" und 1 fĂŒr "wahr". Bei einem p-stufigen nominalen Merkmal resultieren p-1 Dummy-Variablen. Die Variable "Blutgruppe" beispielsweise mit den vier AusprĂ€gungen A, B, AB und 0 wĂŒrde folgendes dreiteiliges Codierungsmuster aufweisen:
A:   1 0 0
B:   0 1 0
AB: 0 0 1
0:   0 0 0
E

Effektgrösse

Als Effektgrösse bezeichnet man einen Unterschied, der zwischen zwei Stichproben mindestens bestehen muss, um von einem klinisch relevanten Unterschied sprechen zu können.

Einflussgrösse / unabhÀngige Variable

Einflussgrössen sind Merkmale, die einen Einfluss auf die Zielgrösse einer Untersuchung haben. Das Ziel in klinischen Studien ist es, einen Zusammenhang zwischen möglichen Einflussfaktoren (unabhÀngige Variablen) und der eigentlichen Zielgrösse (abhÀngige Variable) herzustellen.

einseitiger Test

FĂŒr die DurchfĂŒhrung eines einseitigen Tests muss eine gerichtete Alternativhypothese vorliegen. Man setzt also voraus, dass eine neue Behandlung besser als (und nicht einfach ungleich wie) eine Kontrollbehandlung ist. Einseitige Tests sind weniger konservativ als zweiseitige Tests, weshalb sie eher unĂŒblich sind. Wenn nicht begrĂŒndet werden kann, warum die neue Behandlung nicht schlechter als die Kontrollbehandlung sein kann, sollte auf einseitige Tests verzichtet werden.

Einstichprobentest

Bei einem Einstichprobentest soll ĂŒberprĂŒft werden, ob eine Stichprobe zu einer bestimmten Verteilung gehört oder ob ein Parameter (z.B. Mittelwert) einen bestimmten Wert hat. Beim Einstichproben t-Test wird also zum Beispiel geprĂŒft, ob eine Zufallsstichprobe zu einer Grundgesamtheit mit bekanntem Mittelwert gehört.

Endpunkt

Üblicherweise wird zwischen primĂ€ren und sekundĂ€ren Endpunkten unterschieden. Als primĂ€rer Endpunkt wird diejenige Variable gewĂ€hlt, welche eindeutige Evidenz ĂŒber die der klinischen Studie zugrunde liegende hauptsĂ€chliche Forschungshypothese erbringen kann. Im Allgemeinen gibt es nur einen primĂ€ren Endpunkt; dieser wird bei der Berechnung der Fallzahl berĂŒcksichtigt. SekundĂ€re Endpunkte sind Variablen, welche den primĂ€ren Endpunkt unterstĂŒtzen oder in Bezug zu sekundĂ€ren Forschungshypothesen stehen.

Erwartungswert

Der Erwartungswert einer Zufallsvariablen entspricht dem Wert, den man im Durchschnitt bei unbegrenzter Wiederholung des Experimentes erwartet, m.a.W. wenn man alle AusprĂ€gungen der Zufallsvariablen und ihre jeweiligen Auftretenswahrscheinlichkeiten berĂŒcksichtigt.

Exzess / Kurtosis

Der Exzess gibt als Masszahl an, ob eine Verteilung breitgipflig (Exzess > 0) oder schmalgipflig (Exzess < 0) ist. Der Exzess einer Normalverteilung betrĂ€gt +3, wobei ĂŒbliche Statistikprogramme diese Konstante abziehen und bei einer Normalverteilung von einem Exzess von 0 ausgehen.
F

faktorielles Design

Beim faktoriellen Design werden 2 oder mehr Interventionen gleichzeitig untersucht. Wenn beispielsweise zwei Faktoren A und B berĂŒcksichtigt werden sollen, wobei Faktor A zwei AusprĂ€gungen und Faktor B drei AusprĂ€gungen hat, dann sind 2x3 Kombinationen von Interventionen möglich. Die Studienteilnehmer mĂŒssten demnach zu einer von sechs möglichen Behandlungsgruppen randomisiert werden. Mit einem faktoriellen Design können sowohl die Haupteffekte als auch die Interaktionseffekte analysiert werden. Der grosse Vorteil des faktoriellen Designs bei der Analyse von Hautpeffekten liegt darin, dass weniger Patienten benötigt werden als wenn man dieselben Hypothesen in Einzelstudien prĂŒfen wĂŒrde. Liegen hingegen Interaktionen vor, so benötigt man auch beim faktoriellen Design bedeutend mehr Patienten.

Fall-Kontroll-Studien / Case-Control-Studien

Fall-Kontroll-Studien sind retrospektive, epidemiologische Studien, welche den Zusammenhang zwischen potentiellen Risikofaktoren und einer bestimmten Erkrankung untersuchen. Zu diesem Zweck wird zuerst eine Gruppe von Personen mit der Erkrankung (=FĂ€lle) und ein Gruppe von Personen ohne die Erkrankung (=Kontrollen) ausgewĂ€hlt. Anschliessend wird in beiden Gruppen die Exposition gegenĂŒber den potentiellen Risikofaktoren ermittelt und untersucht, ob die Exposition zwischen den beiden Gruppen unterschiedlich war. Fall-Kontroll-Studien sind relativ kostengĂŒnstig und eignen sich besonders zur Untersuchung von seltenen Krankheiten. Sie sind aber auch anfĂ€llig auf systematische Verzerrungen, welche mit der Auswahl der FĂ€lle, der Auswahl der Kontrollen, der möglicherweise fehlerhaften Verblindung bei der Datenerhebung, einem möglichen Bias bei der Erinnerung an die Exposition sowie einem möglichen Confounding zu tun haben.

Fallzahlplanung

Die Fallzahlplanung ist bei klinischen Studien aus ökonomischen und ethischen GrĂŒnden erforderlich. Sie soll sicher stellen, dass ein klinisch relevanter Unterschied tatsĂ€chlich auch statistisch signifikant wird. Die Fallzahl wird in AbhĂ€ngigkeit des Analyseverfahrens, des gewĂ€hlten Signifikanzniveaus, der TeststĂ€rke (Power), der Effektgrösse und der Varianz bestimmt.

Fehler 1. Art / α-Fehler

Der Fehler 1. Art oder auch α-Fehler liegt vor, wenn die Nullhypothese verworfen wird, obwohl sie fĂŒr die Grundgesamtheit gilt. Die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen (=Signifikanzniveau), muss vor dem Hypothesentest festgelegt werden und liegt ĂŒblicherweise bei 5% oder 1%.

Fehler 2. Art / ÎČ-Fehler

Der Fehler 2. Art oder auch ÎČ-Fehler liegt vor, wenn man die Nullhyphothese beibehĂ€lt, obwohl in der Grundgesamtheit die Alternativhypothese gilt.

Fisher's exact test

Der Fisher's exact test kann in seiner Anwendung mit dem Chi-Quadrat-Test verglichen werden. Anders als der asymptotische Chi-Quadrat-Test liefert der Fisher's exact test aber auch bei kleinen Stichproben gĂŒltige Resultate.

Freiheitsgrad

Der Freiheitsgrad beschreibt die Anzahl frei wĂ€hlbarer Werte. Eine Kreuztabelle mit festgelegten RandhĂ€ufigkeiten hat beispielsweise (Spaltenzahl-1)*(Zeilenzahl-1) Freiheitsgrade. Hier ein Beispiel fĂŒr eine 2x2-Kreuztabelle:



FĂŒr das erste Fragezeichen kann noch relativ frei eine Zahl gewĂ€hlt werden. Sobald aber eine Zahl gesetzt ist, sind die restlichen Messwerte fixiert und somit „unfrei“. Bei einer 2x2-Kreuztabelle mit festgelegten RandhĂ€ufigkeiten haben wir also nur 1 Freiheitsgrad. Bei statistischen Tests ist die Findung der Anzahl Freiheitsgrade von grundlegender Bedeutung. Erst ab Vorliegen von mindestens einem Freiheitsgrad ist statistisches Testen ĂŒberhaupt möglich.

Frequentistischer Ansatz

Der frequentistische Ansatz bildet die Grundlage fĂŒr die klassische Theorie der schliessenden Statistik und beruht auf einem Wahrscheinlichkeitsbegriff, der die Wahrscheinlichkeit fĂŒr das Auftreten eines Zufallsereignisses als die relative HĂ€ufigkeit versteht, die sich nach unendlich vielen unabhĂ€ngigen Wiederholungen unter identischen Bedingungen einstellen wĂŒrde. Der frequentistische Wahrscheinlichkeitsbegriff geht also von der Annahme aus, dass die relativen HĂ€ufigkeiten bei unendlichen Wiederholungen des Experiments stochastisch konvergieren und der Grenzwert die gesuchte Wahrscheinlichkeit ist. Der frequentistische Ansatz wird zuweilen dahingehend kritisiert, dass Versuchsreihen im Allgemeinen sehr klein sind und dass die Annahme objektiv existierender Wahrscheinlichkeiten nicht fĂŒr alle Situationen haltbar ist.

Friedman-Test

Der Friedman Test ist eine Erweiterung des Wilcoxon-Vorzeichen-Rang-Tests auf mehr als zwei verbundene Stichproben und prĂŒft die Nullhypothese, dass sich die aufsummierten Rangsummen der k verbundenen Stichproben nicht unterscheiden. Der Friedman Test setzt eine Rangskala sowie abhĂ€ngige und zufĂ€llige Stichproben voraus, verlangt jedoch keine Normalverteilung.

F-Test

Mit dem F-Test prĂŒft man, ob zwei normalverteilte Stichproben unterschiedliche Varianzen aufweisen. Die ÜberprĂŒfung der VarianzhomogenitĂ€t wird z.B. vor einem t-Test oder einer ANOVA durchgefĂŒhrt.

full analysis set

Da es in der Praxis hĂ€ufig schwierig ist, das Ideal des Intention-to-Treat-Prinzips zu erreichen, hat die Internationale Konferenz zur Harmonisierung technischer Anforderungen fĂŒr die Zulassung von Humanarzneimitteln (ICH) ein sogenanntes full analysis set definiert. Diese Auswertungspopulation umfasst alle randomisierten Subjekte mit einigen wenigen, begrĂŒndeten Ausnahmen wie z.B. bei Fehlen von Daten nach der Randomisation, Verstoss gegen die Einschlusskriterien etc.

Funnel-Plot

Ein Funnel-Plot dient im Rahmen von Metaanalysen dazu, mit graphischen Hilfsmitteln den Verdacht auf einen Publikationsbias, d.h. auf die einseitige Veröffentlichung von Studien mit signifikanten Resultaten, zu ĂŒberprĂŒfen. Der Funnel-Plot ist ein Streudiagramm, bei dem die X-Achse den Behandlungseffekt abbildet und die Y-Achse die PrĂ€zision (mögliche Masszahlen sind z.B. Standardfehler oder Fallzahl). Da grosse Studien prĂ€zisere Ergebnisse erreichen, kann davon ausgegangen werden, dass sie nĂ€her um den gepoolten SchĂ€tzwert der Metaanalyse streuen, der manchmal als Vertikale gezeigt wird. Mit abnehmendem Umfang der Studiengrösse wird auch die Streuung des Behandlungseffektes grösser. Wenn kein Publikationsbias vorliegt, dann sollte das Streudiagramm – wie es der Name sagt – eine Trichter- oder Dreiecksform annehmen, wobei die Streuung um den gepoolten SchĂ€tzwert symmetrisch ist. Kommen jedoch deutlich mehr Studien auf die rechte Seite des SchĂ€tzwertes zu liegen, wĂŒrde dies u.U. darauf hindeuten, dass negative Ergebnisse nicht publiziert wurden.
G

General Linear Model (GLM)

Das General Linear Model oder zu Deutsch das allgemeine lineare Modell kommt z.B. bei der Varianzanalyse oder der Regressionsanalyse oder zur Anwendung. Mit dem allgemeinen linearen Modell wird eine abhĂ€ngige Variable y durch eine Linearkombination von gewichteten unabhĂ€ngigen Variablen x1, x2, 
, xp beschrieben. Das Gleichungssystem beinhaltet neben der abhĂ€ngigen Variablen und den gewichteten unabhĂ€ngigen Variablen einen Fehlerterm e, welcher die Differenz zwischen dem wahren und dem geschĂ€tzten Wert fĂŒr y beschreibt. FĂŒr die Bestimmung der Gleichung wird das Minimierungsprinzip (Maximum Likelihood) herangezogen, indem die Modellparameter so gewĂ€hlt werden, dass die Summe der quadrierten Fehler ein Minimum annimmt.

geometrischer Mittelwert

Das geometrische Mittel ist wie das arithmetische Mittel eine Masszahl fĂŒr die zentralen Tendenz einer Verteilung und wird berechnet aus der n-ten Wurzel aus dem Produkt aller n Werte einer Variablen.



Das geometrische Mittel wird angewendet, wenn weniger die Differenzen als die VerhĂ€ltnisse interpretierbar sind (z.B. IgE-Werte), wobei das geometrische Mittel meistens nur fĂŒr echt positive reelle Zahlen (ℜ>0) sinnvoll ist. Es gilt, dass der Logarithmus des geometrischen Mittels das arithmetische Mittel der Logarithmen ist.

Gesetz der grossen Zahlen

Wenn ein Ereignis A mit der Wahrscheinlichkeit p(A) auftritt und N voneinander unabhĂ€ngige, gleichartige Zufallsexperimente durchgefĂŒhrt werden, geht die Wahrscheinlichkeit dafĂŒr, dass sich die relative HĂ€ufigkeit f(A)/N um einen beliebig kleinen betrag e von der Wahrscheinlichkeit p(A) unterschiedet, gegen Null, vorausgesetzt, N geht gegen Unendlich. Beispiel: Beim WĂŒrfeln wird die HĂ€ufigkeit, eine 6 zu wĂŒrfeln, mit zunehmender Anzahl WĂŒrfen immer stĂ€rker gegen 1/6 tendieren. Das Gesetz der grossen Zahlen ist die theoretische Basis der Inferenzstatistik. Man geht hier nĂ€mlich davon aus, dass die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die derselben Grundgesamtheit entnommen wurden, mit zunehmendem Stichprobenumfang in eine Normalverteilung ĂŒbergeht, und zwar unabhĂ€ngig von der Verteilungsform des Merkmals in der Population. ZurĂŒck zum WĂŒrfelbeispiel: Die Verteilungsform der gemittelten Augenzahl nĂ€hert sich mit zunehmender Anzahl WĂŒrfen der Normalverteilung.

Grundgesamtheit

Die Grundgesamtheit ist die Menge aller möglichen Patienten, auf die RĂŒckschlĂŒsse gezogen werden sollen. Im Rahmen von klinischen Studien wird die Grundgesamtheit mit der Formulierung von Einschluss- und Ausschlusskriterien definiert.
H

Hazard Ratio

Die Hazard Ratio gibt das VerhĂ€ltnis der Hazard Rate in der behandelten Gruppe zu derjenigen in der Kontrollgruppe an. Die Hazard Rate ihrerseits ist die Wahrscheinlichkeit, dass - sofern das betreffende Ereignis noch nicht eingetreten ist - es im nĂ€chsten Zeitintervall eintreten wird dividiert durch die LĂ€nge dieses Zeitintervalls. Dabei wird das Zeitintervall so kurz gemacht, dass die Hazard Rate praktisch die unmittelbare Rate angibt. Die Hazard Ratio kann Ă€hnlich wie die Odds Ratio interpretiert werden, insofern die Hazard Ratio die Chance angibt, dass bei einem Patienten der aktiven Behandlungsgruppe das Ereignis frĂŒher eintritt als bei einem Patienten der Kontrollgruppe.

Histogramm

Das Histogramm ist eine graphische Darstellung fĂŒr die HĂ€ufigkeitsverteilung quantitativer Variablen. Dazu mĂŒssen die Daten zuerst in Klassen eingeteilt werden, welche eine konstante oder eine variable Breite aufweisen können. Über den auf der Grundlinie aufgetragenen Klassen werden aneinander angrenzende Rechtecke abgebildet, deren FlĂ€che proportional zur KlassenhĂ€ufigkeit ist. Wenn die Klassen konstant breit sind, reicht es, wenn die Höhe der Rechtecke proportional zur KlassenhĂ€ufigkeit ist, weil durch die gleich breiten Rechtecke immer auch FlĂ€chenproportionalitĂ€t gegeben ist.

I

Inferenzstatistik

Inferenzstatistik ist derjenige Teil der Statistik, der sich mit der ÜberprĂŒfung von Hypothesen befasst. Dabei wird aufgrund von Kennwerten der Stichprobe auf Eigenschaften der Gesamtpopulation geschlossen.

Intention-to-treat-Analyse (ITT-Analyse)

In der Intention-to-treat-Analyse werden alle randomisierten Patienten ausgewertet und zwar fĂŒr diejenige Behandlungsgruppe, in die sie ursprĂŒnglich randomisiert wurden. Diese Auswertungsstrategie verhindert die Gefahr eines Bias durch Dropouts, welche die durch die Randomisierung erreichte Vergleichbarkeit der Gruppen u.U. wieder zunichte machen. Da aber eine strikte Intention-to-treat-Analyse aufgrund von fehlenden Daten und/oder Abweichungen vom Protokoll oftmals schwierig zu erreichen ist, wird mehr und mehr gefordert, dass man nicht mehr von dem in der Praxis meist unklaren Begriffes der Intention-to-treat spricht und stattdessen beschreibt, wer in die Analyse eingeschlossen wird und wie mit fehlenden Daten und Abweichungen vom Protokoll umgegangen wird.

Interimsanalyse

Als Interimsanalyse wird jede Analyse bezeichnet, die vor dem eigentlichen Studienende durchgefĂŒhrt wird, um die Behandlungsgruppen im Hinblick auf Wirksamkeit oder Sicherheit zu vergleichen.

Interquartilabstand

Der Interquartilabstand ist die Differenz zwischen den 3. Quartil und dem 1. Quartil.

intervallskalierte Variable

Bei intervallskalierten Variablen kann man Differenzen bilden, da die Abfolge der Zahlen gleiche AbstÀnde der Objekteigenschaften reprÀsentieren. Beispiel Temperatur in Grad: Der Unterschied zwischen 10 °C und 12 °C ist genau derselbe wie zwischen 24 °C und 26 °C.

Inzidenz

Inzidenz ist ein epidemiologischer Begriff und wird berechnet aus dem Anteil der in einem bestimmten Zeitraum Neuerkrankten in einer bestimmten Population. Geht es um den Anteil aller Kranken, spricht man von PrÀvalenz.

Irrtumswahrscheinlichkeit

Mit Irrtumswahrscheinlichkeit ist die Wahrscheinlichkeit gemeint, einen Fehler 1. Art bzw. einen alpha-Fehler zu machen. Einen alpha-Fehler macht man, wenn man die Nullhypothese fĂ€lschlicherweise verwirft und also aufgrund der Stichprobe von einem signfikanten Effekt ausgeht, der in der Gesamtpopulation jedoch gar nicht vorhanden ist. Das alpha-Risiko ist mit anderen Worten die Wahrscheinlichkeit, dass der Zufall allein einen Effekt zustande bringt, der gleich gross oder grösser ist als der in der Stichprobe beobachtete Effekt. Das alpha-Risiko wird ĂŒblicherweise möglichst klein, z.B. α = 0.05, gehalten.
K

Kaplan-Meier-Kurve

Die Kaplan-Meier-Kurve ist eine graphische Darstellung der Wahrscheinlichkeit, dass ein bestimmtes Ereignis innerhalb eines Zeitintervalls nicht eintritt. Dabei wird die die Zeit auf der x-Achse aufgetragen, wÀhrend die y-Achse den Anteil der Population abbildet, bei welchem das betreffende Ereignis noch nicht eingetreten ist. Ein besonderes Merkmal besteht darin, dass die Daten rechts-zensiert sein können, was bedeutet, dass bei gewissen Subjekten das Ereignis bis zum Ende der Studie nicht beobachtet wurde. Zensierte Daten werden auf der Kaplan-Meier-Kurve als Kreuze gekennzeichnet.

Kaplan-Meier-Verfahren

Das Kaplan-Meier-Verfahren wird bei Überlebensdaten angewendet. Die zentrale Information bei Überlebensdaten ist die Zeitdauer bis zum Eintreten eines bestimmten Ereignisses, wobei die zugrundeliegenden Daten zensiert sein können, d.h. die Studie wird beendet, bevor bei allen Patienten das Ereignis eingetreten ist.  Das Kaplan-Meier-Verfahren erlaubt es, den Anteil der Beobachtungseinheiten zu schĂ€tzen, welche den Zeitpunkt t ĂŒberleben (=Überlebensrate).

Kohortenstudie

Die Kohortenstudie ist eine spezielle Form der LĂ€ngsschnittstudie, bei der alle Personen einer bestimmten Kohorte angehören, d.h. die ĂŒber gewisse gemeinsame Merkmale oder Voraussetzungen verfĂŒgen. Das Ziel ist es, die Kohorte ĂŒber einen bestimmten Zeitraum zu beobachten, um zu untersuchen, wie viele Personen gewisse Merkmale entwickeln.

Konfidenzintervall

Ein auf der Basis von Stichproben ermittelter Kennwert unterscheidet sich immer vom wahren Kennwert der Grundgesamtheit. Mit dem Konfidenzintervall wird deshalb versucht, die Unsicherheit von statistischen Kennwerten zu quantifizieren. Konfidenzintervalle haben dabei die Eigenschaft, dass sie umso kleiner (d.h. prÀziser) sind, je grösser die Stichprobe ist.

Kontingenzkoeffizient

Der Kontingenzkoeffizient nach Pearson ist ein Assoziationsmass fĂŒr nominale Daten, das auf dem χÂČ-Wert beruht. WĂ€hrend der χÂČ-Test prĂŒft, ob ein Zusammenhang zwischen zwei nominalskalierten Variablen besteht, ist es nicht möglich, aufgrund des χÂČ-Wertes auf die StĂ€rke des Zusammenhangs zu schliessen. Da es die Konvention will, dass Assoziationsmasse fĂŒr nominale Daten in einem Wertebereich zwischen 0 und 1 liegen, wird der χÂČ-Wert also in diesem Sinne normiert, wobei 1 einen perfekten Zusammenhang und 0 die vollstĂ€ndige UnabhĂ€ngigkeit der beiden Variablen charakterisiert. Da bei gegebenem Zusammenhang der χÂČ-Wert mit steigender Stichprobengrösse grösser wird, soll das Assoziationsmass zudem gegenĂŒber der Stichprobengrösse unempfindlich sein. Die auf dem χÂČ-Konzept beruhenden Assoziationsmasse wie Phi, CramĂ©r’s V und der Kontingenzkoeffizient unterscheiden sich dabei nur in der Art der Normierung. Die Formel fĂŒr den Kontingenzkoeffizienten lautet:



Der Nachteil des Kontingenzkoeffizienten besteht darin, dass der maximal erreichbare Wert kleiner als 1 ist und mit der Felderzahl der Kontingenztafel variiert. FĂŒr Kontingenztafeln unterschiedlicher Felderzahl ist der Kontingenzkoeffizient deshalb nur bedingt vergleichbar.

Kontingenztafel

Kontingenztafeln (auch: Kreuztabellen) sind HĂ€ufigkeitstabellen fĂŒr Daten mit typischerweise nominalem Skalenniveau. Der einfachste Fall stellt die Vierfelder-Tafel fĂŒr zwei binĂ€re Variablen dar.

kontinuierlich

s. stetig

Korrelationskoeffizient

HĂ€ufig ist beim Korrelationskoeffizient der Produkt-Moment-Korrelationskoeffizient r gemeint, der den linearen Zusammenhang zweier intervallskalierter Merkmale angibt. Den Korrelationskoeffizienten r erhĂ€lt man, indem man die Kovarianz zweier Variablen durch das Produkt der Standardabweichungen der Variablen dividiert. Die Division der Kovarianz durch das Produkt der Standardabweichungen hat eine z-Standardisierung zur Folge, womit der Korrelationskoeffizient r von den Masseinheiten der untersuchten Merkmale unabhĂ€ngig wird. Der Korrelationskoeffizient r kann Werte zwischen -1 und +1 annehmen. Wenn r=0 ist, dann sind die zwei Merkmale stochastisch voneinander unabhĂ€ngig. Ein perfekter negativer oder positiver Zusammenhang wird durch -1 bzw. +1 angezeigt. Multipliziert man r2 mit 100, erhĂ€lt man den prozentualen Anteil der Varianz der y-Werte, der auf Grund der x-Werte erklĂ€rbar ist. FĂŒr nicht intervallskalierte Merkmale stehen andere Korrelationskoeffizienten zur VerfĂŒgung wie z.B. der Spearman’sche Rangkorrelationskoeffizient fĂŒr ordinale Merkmale oder der Phi-Koeffizient fĂŒr dichotome Merkmale.

Kovarianz

Die Kovarianz ist ein Mass fĂŒr die Enge des Zusammenhangs zweier Merkmale. Die Kovarianz erfasst das durchschnittliche Produkt korrespondierender Abweichungen der Messwerte von den Mittelwerten der Merkmale x und y. Ist die Kovarianz zwischen zwei Merkmalen Null, sind die beiden Merkmale stochastisch voneinander unabhĂ€ngig. Je höher die positive oder negative Kovarianz ist, desto enger ist der Zusammenhang zwischen den Variablen. Die Kovarianz hat aber den entscheidenen Nachteil, dass sie vom Massstab der zugrundeliegenden Variablen bzw. von deren Varianz abhĂ€ngig ist. Aus diesem Grund wurde der Korrelationskoeffizient r entwickelt, der gegenĂŒber MassstabsverĂ€nderungen der untersuchten Merkmale invariant ist.

kritischer Wert

Bei statistischen Tests wird die berechnete PrĂŒfgrösse (z.B. t-Wert im Falle eines t-Tests) mit dem fĂŒr ein definiertes Signifikanzniveau kritischen Wert verglichen. Das Ergebnis ist signifikant, wenn die PrĂŒfgrösse jenseits des kritischen Werts liegt.

Kruskal-Wallis-Test

Der Kruskal-Wallis-Test ist eine Erweiterung des Mann-Whitney U Tests auf mehr als zwei unabhÀngige Stichproben. Der Kruskal-Wallis-Test ist ein nichtparametrischer Test und verlangt somit keine normalverteilten Stichproben. Er beruht auf einem Rangsummentest, setzt dabei ein mindestens ordinales Skalenniveau voraus und verlangt, dass alle Stichproben eine Àhnliche Verteilungform haben.

Kurtosis / Exzess

Die Kurtosis gibt als Masszahl an, ob eine Verteilung breitgipflig (Kurtosis > 0) oder schmalgipflig (Kurtosis < 0) ist. Die Kurtosis einer Normalverteilung betrĂ€gt +3, wobei ĂŒbliche Statistikprogramme diese Konstante abziehen und bei einer Normalverteilung von einer Kurtosis von 0 ausgehen.
L

Lagemass

Lagemasse sind Masse der zentralen Tendenz. Sie sind diejenigen Kennwerte, von denen wir annehmen, dass sie die gesamte Verteilung am besten reprÀsentieren. Typische Lagemasse sind das arithmetische Mittel, der Median oder der Modalwert.

LĂ€ngsschnittstudie

Bei einer LĂ€ngsschnittstudie wird dieselbe Stichprobe ĂŒber einen lĂ€ngeren Zeitraum hinweg mehrfach untersucht, um etwas ĂŒber soziale oder individuelle Wandlungsprozesse zu erfahren.

Likelihood Ratio Test

Likelihood Ratio tests werden durchgefĂŒhrt, um den Verlust an ErklĂ€rungskraft eingebetteter Modelle im Vergleich zum erweiterten Modell abzuschĂ€tzen. Eingebettete Modelle sind solche, deren PrĂ€diktoren eine Teilmenge der PrĂ€diktoren des erweiterten Modells sind. Ziel ist es, ein möglichst einfaches Modell ohne wesentlichen Verlust an ErklĂ€rungskraft zu finden. Die Likelihood eines eingebetteten Modells ist dabei immer kleiner als diejenige des erweiterten Modells. Die Likelihood Ratio Statistik wird als doppelte Differenz zwischen den log-Likelihoods zweier Modelle berechnet. Dieser Wert folgt einer χÂČ-Verteilung mit Freiheitgraden, welche der Anzahl zusĂ€tzlicher Parameter im erweiterten Modell entsprechen. Ein signifikantes Resultat wĂŒrde darauf hinweisen, dass die zusĂ€tzlichen Parameter im erweiterten Modell einen wesentlichen Beitrag zum Modell machen.

Logrank-Test

Mit dem Logrank-Test werden die Überlebenszeitkurven zweier unabhĂ€ngiger Stichproben verglichen.
M

Mann-Whitney-U-Test / Wilcoxon-Rangsummen-Test

Der Mann-Whitney-U-Test ist ein nicht-parametrischer Hypothesentest, der prĂŒft, ob sich die Verteilungen zweier unabhĂ€ngigen Stichproben hinsichtlich ihrer Lage unterscheiden. Der Wilcoxon-Rangsummen-Test eignet sich fĂŒr mindestens ordinalskalierte Daten und fĂŒr Stichproben mit Ă€hnlicher Verteilungsform. Er ist eine Alternative zum t-Test fĂŒr unabhĂ€ngige Stichproben, wenn keine Normalverteilung vorliegt. Die PrĂŒfgrösse des Tests wird aus den Rangzahlen der Stichproben berechnet.

McNemar Test

Der McNemar Test testet zwei verbundene Stichproben auf signifikante Unterschiede bei dichotomen Merkmalen. Wenn z.B. untersucht werden soll, ob zwei verschiedene Pricktests zu unterschiedlichen Resultaten fĂŒhren in Bezug auf die Erkennung einer Allergie, wĂŒrde man dieselben Personen mit beiden Pricktests testen. Die Ergebnisse (allergisch/nicht-allergisch) aus beiden Pricktests wĂŒrde man mit einem McNemar Test vergleichen.

Median

Der Median ist ein Mass fĂŒr die zentrale Tendenz bei mindestens ordinalskalierten Variablen. Der Median teilt eine Verteilung in zwei gleich grosse HĂ€lften. FĂŒr die Bestimmung des Medians mĂŒssen die Daten zuerst der Grösse nach geordnet werden. Bei ungeradem Stichprobeumfang ist der Median das mittlere Element, bei geradem Stichprobenumfang ist der Median das arithmetische Mittel der zwei mittleren Elemente.

Mehrstichprobentest

Mehrstichprobentests wie z.B. die Varianzanalyse, der Kruskal-Wallis-Test oder der Friedman Test vergleichen mehr als zwei Stichproben miteinander. Mehrstichprobentests kontrollieren die bei multiplem Testen erhöhte Wahrscheinlichkeit fĂŒr α-Fehler.

Metaanalyse

Die Metaanalyse ist ein statistisches Verfahren, bei welchem PrimĂ€rdaten aus verschiedenen Studien mit vergleichbarer Thematik zu einem ĂŒbergreifenden Resultat aggregiert werden, um so den aktuellen Stand der Forschung zusammenzufassen und verlĂ€sslichere Resultate zu erbringen in Situationen, wo die PrimĂ€rdaten aus kleinen Stichproben gewonnen wurden (z.B. bei extrem seltenen Krankheiten). Die Ergebnisse einer Metaanalyse werden gerne mit Hilfe eines Forest Plots veranschaulicht. Die Metaanalyse beruht auf einer systematischen Literaturrecherche mit Erfassung sĂ€mtlicher einschlĂ€giger Studien, der statischen Aufbereitung der gesammelten Daten und einer HomogenitĂ€tsprĂŒfung. Die Metaanalyse sollte mit Vorteil auch die QualitĂ€t der einzelnen PrimĂ€rstudien und einen potentiellen Publikationsbias berĂŒcksichtigen.

metrisch

s. stetig

Modalwert

Der Modalwert (auch: Modus) ist der Wert, der in einer HÀufigkeitsverteilung am hÀufigsten vorkommt. Der Modalwert dient als Lagemass bei nominalen Daten.

multiples Testen

Üblicherweise beinhaltet eine klinische Studie genau eine Hypothese, die vor der Datenerhebung und Auswertung formuliert wurde. Werden mehr als eine Hypothese an demselben Datenmaterial getestet, steigt die Wahrscheinlichkeit fĂŒr einen α-Fehler. Bei k Nullhypothesen konvergiert die Wahrscheinlichkeit gegen 1, dass mindestens eine Nullhypothese fĂ€lschlicherweise verworfen wird (1-(1-α)k). Deshalb mĂŒssen individuelle p-Werte fĂŒr multiples Testen korrigiert werden, sei es durch klassische Methoden wie Bonferroni, Holm, Hochberg oder neuere Methoden wie Resampling.

multivariate Analyseverfahren

Multivariate Analyseverfahren sind statistische Methoden, bei denen mehrere unabhÀngige Variablen gleichzeitig analysiert werden.

Multizenter-Studie

Bei der Multizenterstudie wird eine klinische Studie in mehr als einem klinischen Zentrum oder Klinik durchgefĂŒhrt. Die Vorteile der Multizenterstudie bestehen in der Möglichkeit, eine grössere Anzahl von Patienten einzuschliessen sowie verschiedene geographische Regionen mit unterschiedlichen Populationsgruppen zu berĂŒcksichtigen.
N

Negativer Vorhersagewert (NPV)

Der negative und positive Vorhersagewert wie auch SensitivitĂ€t und SpezifitĂ€t sind GĂŒtekriterien fĂŒr medizinische Testverfahren. Anders als SensitivitĂ€t und SpezifitĂ€t sind der negative und positive Vorhersagewert aber abhĂ€ngig von der PrĂ€valenz.



Ein hypothetisches Beispiel:



nichtparametrischer Test

Nichtparametrische (auch: verteilungsfreie) Tests benötigen keine Annahmen bezĂŒglich der Verteilung (z.B. Normalverteilung) der Daten in der Population.

nominal

Die Kategorien nominalskalierter Merkmale (z.B. weiblich/mĂ€nnlich, kaukasisch/asiatisch/afrikanisch/andere) können in keine Rangordnung gebracht werden. Das AuszĂ€hlen als einzig sinnvolle Messung bei nominalskalierten Variablen fĂŒhrt zu HĂ€ufigkeitsverteilungen, die darĂŒber Auskunft geben, wie sich die untersuchten Objekte ĂŒber die Kategorien der Nominalskala verteilen. Dies bedingt allerdings, dass die Kategorien exakt definiert sind, sich gegenseitig ausschliessen und erschöpfend sind.

Non-Inferiority

Non-Inferiority Studien wollen zeigen, dass die Wirksamkeit einer neuen Behandlung nicht wesentlich schlechter ist als diejenige einer bereits etablierten Behandlung. Dies ist v.a. dann von Interesse, wenn andere Vorteile bestehen wie z.B. weniger Nebenwirkungen, geringere Kosten, einfachere Anwendung. Ausserdem mag in gewissen Situationen eine Placebokontrolle unethisch sein, weshalb nur noch ein Vergleich mit zugelassenen Behandlungen ĂŒbrig bleibt. Und da es zunehmend schwieriger wird, im Vergleich mit bereits zugelassenen Behandlungen eine grössere Wirksamkeit nachzuweisen, begnĂŒgt man sich hĂ€ufig, Non-Inferiority anzustreben.

Normalverteilung

Die Normalverteilung ist eine eingipfllige, symmetrische Verteilung mit wenigen extremen Werten. Sie ist durch die zwei Parameter ÎŒ und σ charakterisiert. FĂŒr die Normalverteilung gilt etwa, dass rund Zweidrittel aller Messwerte innerhalb der Entfernung einer Standardabweichung zum Mittelwert liegen. Mit der Entfernung von zwei Standardabweichungen sind es 95% und mit der Entfernung von drei Standardabweichungen 99% aller Messwerte. Die meisten parametrischen Tests beruhen auf der Annahme der Normalverteilung.

Nullhypothese

Da es in der Inferenzstatistik unmöglich ist, die Alternativhypothese (d.h. die eigentlich Arbeitshypothese) zu testen, muss der Umweg ĂŒber die Nullhypothese gemacht werden, welche das Gegenteil der Alternativhypothese ist. Die Alternativhypothese ist dann bewiesen, wenn die Nullhypothese verworfen werden kann.

Number needed to treat (NNT)

Number needed to treat (NNT) ist die Anzahl von Patienten, die pro Zeiteinheit (z.B. 1 Jahr) behandelt werden mĂŒssen, um ein Ereignis (z.B. Herzinfarkt) zu verhindern. NNT ist neben der absoluten und relativen Risikoreduktion eine Masszahl, die den Nutzen einer Behandlung quantifiziert. NNT entspricht dem reziproken Wert der absoluten Risikoreduktion.
O

ObjektivitÀt

ObjektivitĂ€t ist ein GĂŒtekriterium fĂŒr Messverfahren und betrifft die Frage, inwiefern die Messwerte unabhĂ€ngig vom PrĂŒfer sind. ObjektivitĂ€t wird durch Standardisierung und Normierung des Messverfahrens sowie durch genaue Instruktion der PrĂŒfer gewĂ€hrleistet.

Odds Ratio (OR)

Die Odds Ratio (OR) beschreibt das ChancenverhĂ€ltnis fĂŒr das Eintreten zum Nichteintreten eines Ereignisses. In der Medizin geht es dabei hĂ€ufig um die Frage, inwiefern Personen mit einem Risikofaktor (Exponierte) einem erhöhten Risiko unterliegen zu erkranken. Wie das relative Risiko schwankt die Odds Ratio zwischen 0 und ∞, wobei das Risiko unter Exponierten und Nicht-Exponierten genau gleich gross ist, wenn OR=1 ist. Wenn OR=2 ist, dann haben Exponierte ein doppelt so hohes Risiko zu erkranken wie Nicht-Exponierte. Die Odds Ratio hat den Vorteil, dass sie auch bei nicht-reprĂ€sentativen Stichproben (z.B. Fall-Kontroll-Studien) berechnet werden kann. Sie hat aber den Nachteil, dass ihre Berechnung intuitiv schwer verstĂ€ndlich ist und dass sie sehr gross werden kann, wenn es sich um hĂ€ufige Krankheiten handelt. Um die Formel fĂŒr die Berechnung der Odds Ratio besser zu verstehen, muss man sich den Begriff der Chance vor Augen fĂŒhren. Wenn die Wahrscheinlichkeit zu erkranken p=0.5 (also 50%) betrĂ€gt, so ist die Odds=p/(1-p). Man spricht in diesem Fall auch von einer 1:1 Chance. Das ChancenverhĂ€ltnis oder Odds Ratio stellt die zwei Chancen, nĂ€mlich zu erkranken unter Exposition (p1) und zu erkranken unter Nicht-Exposition (p0), zueinander ins VerhĂ€ltnis.


ordinal

Ein Merkmal ist ordinal skaliert, wenn seine Kategorien in eine Rangordnung gebracht werden können. Die AbstÀnde zwischen den einzelnen Kategorien sind jedoch nicht eindeutig definiert. Wenn man z.B. den Schweregrad einer Allergie in leicht, mittel und schwer einteilt, liegt eine ordinal skalierte Variable vor. Eine leichte Allergie ist weniger schlimm als eine mittlere Allergie, und eine mittlere Allergie ist weniger schlimm als eine schwere Allergie. Es ist hingegen nicht bestimmbar, wie gross der Unterschied zwischen einer leichten und einer mittleren Allergie oder zwischen einer mittleren und einer schwere Allergie ist.
P

parametrischer Test

Bei parametrischen Tests wird immer das Vorliegen einer bestimmten Verteilung (z.B. Normalverteilung) vorausgesetzt. Bei sonst gleichen Bedingungen weisen parametrische Tests eine grĂ¶ĂŸere Power als nicht-parametrische Tests auf.

Parallelgruppen-Design

Man spricht von einem Parallelgruppen-Design, wenn neben der Experimentalgruppe, welche das PrĂŒfprĂ€parat erhĂ€lt, parallel dazu eine oder mehrere Kontrollgruppen behandelt werden. Die Zuordnung der Patienten zu den einzelnen Behandlungsgruppen erfolgt hĂ€ufig randomisiert.

Per-Protocol-Analyse (PP-Analyse)

Bei der Per-Protocol-Analyse wird nur ein Subset ausgewertet, nĂ€mlich diejenigen Studienteilnehmer, welche (i) eine minimale, definierte Anzahl an Behandlungen erfahren hat, (ii) bei welchen der primĂ€re Endpunkt bekannt ist und (iii) keine schwerwiegenden Protokollverletzungen vorliegen. Der Vorteil der Per-Protocol-Analyse besteht darin, dass sich mit ihr am besten abschĂ€tzen lĂ€sst, ob die Intervention unter optimalen Bedingungen Wirksamkeit besitzt. Der Nachteil ist allerdings die Gefahr eines Bias, welcher der Tatsache zuzuschreiben ist, dass die PrĂŒfplankonformitĂ€t möglicherweise mit der Behandlung und dem Outcome zusammenhĂ€ngt.

Perzentil

Perzentile teilen die Verteilung in 1-%-Segmente auf. Das Perzentil gibt dabei den Wert an, den ein definierter Teil der untersuchten Population nicht ĂŒberschreitet. Das 95. Perzentil gibt also beispielsweise an, unterhalb welchen Punktes 95% aller FĂ€lle der Verteilung liegen. Liegt also ein fĂŒnfjĂ€hriges MĂ€dchen bezĂŒglich seiner Grösse auf dem 95. Perzentil, bedeutet dies, dass nur 5% aller fĂŒnfjĂ€hrigen MĂ€dchen grösser sind.

Phi-Koeffizient

Der Phi-Koeffizient ist ein Assoziationsmass fĂŒr zwei dichotome Variablen, das auf dem χÂČ-Wert beruht. WĂ€hrend der χÂČ-Test prĂŒft, ob ein Zusammenhang zwischen zwei nominalskalierten Variablen besteht, ist es nicht möglich, aufgrund des χÂČ-Wertes auf die StĂ€rke des Zusammenhangs zu schliessen. Da es die Konvention will, dass Assoziationsmasse fĂŒr nominale Daten in einem Wertebereich zwischen 0 und 1 liegen, wird der χÂČ-Wert also in diesem Sinne normiert, wobei 1 einen perfekten Zusammenhang und 0 die vollstĂ€ndige UnabhĂ€ngigkeit der beiden Variablen charakterisiert. Da bei gegebenem Zusammenhang der χÂČ-Wert mit steigender Stichprobengrösse grösser wird, soll das Assoziationsmass zudem gegenĂŒber der Stichprobengrösse unempfindlich sein. Die auf dem χÂČ-Konzept beruhenden Assoziationsmasse wie Phi, CramĂ©r’s V und der Kontingenzkoeffizient unterscheiden sich dabei nur in der Art der Normierung. Die Formel fĂŒr Phi lautet:


Poisson-Verteilung

Die Poisson-Verteilung wird vor allem dort eingesetzt, wo die Wahrscheinlichkeit von zufĂ€lligen und unabhĂ€ngigen Ereignissen ĂŒber eine gewisse Zeit, auf einer gewissen FlĂ€che, in einem gewissen Volumen usw. berechnet werden soll (Beispiel: Anzahl Mutationen in einer DNA-Sequenz). Der Mittelwert der Poisson-Verteilung fĂŒr die Anzahl Ereignisse pro Einheit entspricht dabei ganz einfach der durchschnittlichen Rate. Die Wahrscheinlichkeit, dass ein Ereignis genau k-mal pro Einheit eintritt, ist dabei



wobei λ der Erwartungswert (durchschnittliche Rate) und e die Euler’sche Zahl ist. Die Poisson-Verteilung nĂ€hert sich der Binomialverteilung an, wenn die Wahrscheinlichkeit p klein ist und die Anzahl n gross, wobei λ = n ⋅ p ist.

Positiver Vorhersagewert (PPV)

s. negativer Vorhersagewert

Power

Die Power entspricht der Wahrscheinlichkeit, keinen ÎČ-Fehler zu machen (1-ÎČ).

PrÀdiktor

s. unabhÀngige Variable

PrÀvalenz

PrÀvalenz ist ein epidemiologischer Begriff und wird berechnet aus dem Anteil der Kranken in einer bestimmten Population zu einem bestimmten Zeitpunkt. Geht es nur um den Anteil der Neuerkrankten, spricht man von Inzidenz.

prospektive Studie

In einer prospektiven Studie werden die Daten erhoben, nachdem die Hypothese formuliert wurde. Die Daten werden eigens fĂŒr die ÜberprĂŒfung dieser Hypothese gesammelt.

PrĂŒfgrösse

Die PrĂŒfgrösse ist der im Rahmen eines statistischen Hypothesentests berechnete Kennwert (z.B. t-Wert im Falle eines t-Tests). Liegt die PrĂŒfgrösse jenseits des kritischen Werts, der dem vordefinierten Signfikanzniveau entspricht, dann kann die Nullhypothese verworfen werden.

p-Wert

Der p-Wert (p fĂŒr probability) steht fĂŒr die Wahrscheinlichkeit, dass der Zufall (d.h. unter Annahme der Nullhypothese H0) einen Effekt zu Stande bringt, der gleich gross oder grösser ist als der in der Stichprobe beobachtete Effekt. Wenn das Signifikanzniveau bei 5% festgelegt ist, geht man bei p≀0.05 von einem statistisch signifikanten Effekt aus.
Q

Quantil

Das Quantil hat dieselbe Bedeutung wie das Perzentil, wird jedoch nicht in Prozentwerten angegeben. Das 25%-Perzentil wĂŒrde also dem 0.25-Quantil entsprechen. Das Quantil gibt wie das Perzentil den Wert an, den ein definierter Teil der untersuchten Population nicht ĂŒberschreitet.

Quartil

Quartile teilen die zugrundeliegende Verteilung in vier gleich grosse Teile. Das zweite Quartil entspricht dem Median. Das zweite Quartil ist ausserdem auch dasselbe wie das 0.5-Quantil oder das 50%-Perzentil.

Querschnittstudie

Bei Querschnittstudien wird die gesamte Population (oder eine reprÀsentative Auswahl daraus) zu einem bestimmten Zeitpunkt untersucht.

Q-Q-Plot

Im Q-Q-Plot oder Quantil-Quantil-Diagramm werden die Quantile zweier statistischer Variablen gegeneinander abgetragen. Wenn alle Punkte auf einer 45°-Referenzlinie liegen, kann davon ausgegangen werden, dass die zwei DatensÀtze aus Populationen mit derselben Verteilung stammen. Q-Q-Plots werden auch hÀufig einsetzt um zu testen, ob eine Variable einer bestimmten Verteilung (z.B. Normalverteilung) folgt. In diesem Fall werden die beobachteten und die erwarteten Quantile (basierend auf der jeweiligen theoretischen Verteilung) gegeneinander abgetragen. Wiederum gilt, dass die Werte der jeweiligen Verteilung folgen, wenn die Punkte auf einer 45°-Referenzlinie liegen.
R

Range

Der Range (=Spannweite) entspricht der Differenz aus dem grösstem und kleinstem Wert einer Messwertreihe. Es ist ein eher selten gebrauchtes Streumass, da es stark auf Ausreisser reagiert und ausserdem abhÀngig ist von der Grösse der Stichprobe.

Randomisierung

Randomisierung bedeutet, dass die Versuchspersonen nach dem Zufallsprinzip den unterschiedlichen Behandlungsgruppen zugeordnet werden. Mittels Randomisierung soll erreicht werden, dass die Behandlungsgruppen vergleichbar sind im Bezug auf bekannte und unbekannte Einflussfaktoren, so dass Unterschiede in der Zielgrösse einzig und allein auf die unterschiedliche Behandlung zurĂŒckzufĂŒhren sind.

Regression

Die Regressionsanalyse ist ein statistisches Verfahren, um die Beziehungen zwischen Variablen zu schĂ€tzen. Man kann mit Hilfe der Regressionsanalyse zeigen, wie sich die Werte der Zielvariablen Ă€ndern, wenn sich die Werte einer der PrĂ€diktorvariablen Ă€ndern, wĂ€hrend alle anderen PrĂ€diktorvariablen konstant gehalten werden. Die Zielvariable wird dabei als Funktion der PrĂ€diktorwerte und deren entsprechenden Regressionskoeffizienten modelliert. Die Hauptziele der multiplen Regression sind es, (1) Vorhersagen machen zu können, (2) den Effekt eines einzelnen PrĂ€diktors von Interesse zu isolieren und (3) die komplexen EinflĂŒsse einer Vielzahl von PrĂ€diktoren zu verstehen.

relative HĂ€ufigkeit

Relative HĂ€ufigkeiten werden bei nominalen und ordinalen Variablen berechnet und geben den Anteil der Beobachtungen an, bei denen eine bestimmte AusprĂ€gung vorliegt. Die relative HĂ€ufigkeit wird also berechnet, indem die absolute HĂ€ufigkeit einer AusprĂ€gung durch die Anzahl sĂ€mtlicher Beobachtungen geteilt wird. Im Falle von fehlenden Werten können die relativen HĂ€ufigkeiten variieren, je nachdem ob man die fehlenden Werte bei der Gesamtzahl berĂŒcksichtigt oder nicht.

relative Risikoreduktion (RRR)

In klinischen Studien ist die relative Risikoreduktion wie auch die absolute Risikoreduktion ein Mass, um die Wirksamkeit zweier Behandlungen zu vergleichen im Bezug auf die Verhinderung eines ungĂŒnstigen Ereignisses. Die relative Risikoreduktion wird aus der Differenz des relativen Risikos zu 1 berechnet. Wenn also zum Beispiel bei der Behandlung A 45 von 1250 (3.6%) Patienten sterben versus 20 von 1250 (1.6%) bei Behandlung B, dann betrĂ€gt die relative Risikoreduktion 0.556 oder 55.6% (1-1.6%/3.6%) fĂŒr Behandlung B im Vergleich zu Behandlung A. Die relative Risikoreduktion ist, wie der Name sagt, lediglich ein relatives Mass. Es sagt nichts darĂŒber aus, wie viele Ereignisse durch eine Behandlung verhindert werden, sondern nur wie viel seltener ein Ereignis in der einen Behandlungsgruppe im Vergleich zur anderen auftritt.

relatives Risiko (RR)

Das relative Risiko beschreibt das VerhĂ€ltnis zwischen den Ereignisraten zweier Vergleichsgruppen. In der Medizin geht es dabei hĂ€ufig um die Frage, inwiefern Personen mit einem Risikofaktor (Exponierte) einem erhöhten Risiko unterliegen zu erkranken. Wie die Odds Ratio schwankt das relative Risiko zwischen 0 und ∞, wobei das Risiko unter Exponierten und Nicht-Exponierten genau gleich gross ist, wenn RR=1 ist. Wenn RR=2 ist, dann haben Exponierte ein doppelt so hohes Risiko zu erkranken wie Nicht-Exponierte. Im Vergleich zur Odds Ratio ist das relative Risiko intuitiv leichter verstĂ€ndlich, hat aber den Nachteil, dass es bei nicht-reprĂ€sentativen Stichproben (also z.B. bei Fall-Kontroll-Studien) nicht berechnet werden kann.


ReliabilitÀt

ReliabilitĂ€t ist ein TestgĂŒtekriterium und steht fĂŒr die ZuverlĂ€ssigkeit von Messmethoden. Man erwartet beispielsweise, dass bei wiederholten Messungen oder bei Messungen mit verschiedenen Ratern gleiche oder vergleichbare Testergebnisse erzielt werden.

reprÀsentative Stichprobe

ReprÀsentativitÀt ist eine Frage des Auswahlverfahrens: Eine Stichprobe ist dann reprÀsentativ, wenn jedes Element der Stichprobe dieselbe Chance hatte, Teil der Stichprobe zu werden.

retrospektive Studie

Bei einer retrospektiven Studie wurden die Daten vor der Aufstellung des Versuchsplans erhoben.

Risikodifferenz

s. attributables Risiko

robuste Verfahren

Robuste Verfahren sind eine Art Mittelweg zwischen der parametrischen Statistik, die auf Verteilungsannahmen beruht, und der nicht-parametrischen Statistik, die keine bestimmte Verteilung der Daten voraussetzt. Robuste Methoden sind nĂ€herungsweise gĂŒltig, auch wenn bestimmte Voraussetzungen (z.B. Ausreisser, Normalverteilung, VarianzhomogenitĂ€t) verletzt sind.

ROC-Kurve

Die ROC (receiver operating characteristic) Kurve eignet sich in der medizinischen Diagnostik, um die GĂŒte eines diagnostischen Tests zu visualisieren. Bei der Entwicklung eines neuen diagnostischen Tests stellt sich immer die Frage, wie gut der Test die Kranken von den Gesunden unterscheiden kann. Dabei werden fĂŒr (ĂŒblicherweise) stetige Messergebnisse alle möglichen Cut-offs mit ihren jeweiligen Werten fĂŒr SensitivitĂ€t und SpezifitĂ€t berechnet, wobei die ROC Kurve den Anteil der richtig-positiven Werte (SensitivitĂ€t) versus den Anteil der falsch-positiven Werte (1-SpezifitĂ€t) abbildet. Bei der Wahl eines geeigneten Cut-offs befindet man sich immer in einem Zielkonflikt zwischen der Optimierung der SensitivitĂ€t und der Optimierung der SpezifitĂ€t. Die GĂŒte der ROC Kurve kann mit der area under the curve (AUC) quantifiziert werden.



Diese Abbildung vergleicht zwei ROC Kurven. Der diagnostische Test, welcher durch die grĂŒne ROC Kurve dargestellt ist, schneidet dabei deutlich besser ab. Die AUC der grĂŒnen ROC Kurve ist grösser als die AUC der blauen ROC Kurve.
S

Schiefe

Die Schiefe (engl. skewness) ist ein Mass fĂŒr die Asymmetrie einer Verteilung. Bei einer Schiefe=0 handelt es sich um eine symmetrische Verteilung. Eine Schiefe<0 bezeichnet eine linksschiefe Verteilung, eine Schiefe>0 bezeichnet eine rechtsschiefe Verteilung.

SensitivitÀt

SensitivitÀt ist die Wahrscheinlichkeit, dass Erkrankte mit Hilfe eines diagnostischen Tests tatsÀchlich als solche erkannt werden. Sie wird berechnet als Anteil aller richtig-positiven Ergebnisse an allen richtig-positiven + falsch-negativen Ergebnissen.
s. auch negativer Vorhersagewert

Signifikanzniveau

Das Signifikanzniveau bezeichnet die Wahrscheinlichkeit, dass der Zufall einen Effekt zustande bringt, der gleich gross oder grösser ist als der Effekt, der in der Stichprobe beobachtete wurde.

Skalenniveau

Daten können eine Nominal-, Ordinal-, Intervall oder VerhĂ€ltnisskala aufweisen. Das Skalenniveau bestimmt die zulĂ€ssigen mathematischen Operationen =≠, <>, +−, Ă—Ă·, wobei gilt, dass das jeweils nĂ€chsthöhere Skalenniveau alle Operationen zulĂ€sst, die bei allen niedrigeren Skalenniveaus erlaubt sind. Das Skalenniveau gibt vor, welche statistischen Kennwerte und welche statistischen Methoden zulĂ€ssig sind.

Spannweite

Die Spannweite ist ein Streumass, das ĂŒblicherweise nur bei kleinen Stichproben angegeben wird. Sie gibt die Differenz zwischen dem grössten und dem kleinsten Messwert an. Die Spannweite reagiert empfindlich auf Ausreisser.

SpezifitÀt

SpezifitÀt ist die Wahrscheinlichkeit, dass Nicht-Erkrankte mit Hilfe eines diagnostischen Tests tatsÀchlich als solche erkannt werden. Sie wird berechnet als Anteil aller richtig-negativen Ergebnisse an allen richtig-negativen + falsch-positiven Ergebnissen.
s. auch negativer Vorhersagewert

Standardabweichung

Die Standardabweichung ist ein Mass fĂŒr die Streuung der Werte einer Variablen um ihren Mittelwert. Sie wird berechnet aus der Quadratwurzel der Varianz:


Standardfehler

Der Standardfehler ist die Standardabweichung der Stichprobenkennwertverteilung. Nehmen wir das Beispiel des Stichprobenmittelwertes: Der Standardfehler des Stichprobenmittelwertes liesse sich nĂ€herungsweise bestimmen, wenn man von der Grundgesamtheit viele Zufallsstichproben ziehen und die Standardabweichung der Stichprobenmittelwerte berechnen wĂŒrde. Da wir in der Regel die Grundgesamtheit aber nicht kennen, muss der Standardfehler des Stichprobenmittelwertes geschĂ€tzt werden. Bei hinreichend grossem Stichprobenumfang kann davon ausgegangen werden, dass die Stichprobenmittelwerte normalverteilt sind und dass der Stichprobenmittelwert x̅ eine Beobachtung aus einer Normalverteilung mit Mittelwert ÎŒ und Standardabweichung σ = s/√n ist. Der Standardfehler des Stichprobenmittelwertes wird also geschĂ€tzt, indem die Standardabweichung durch die Quadratwurzel der Stichprobengrösse geteilt wird.

stem-and-leaf-plot

Ein stem-and-leaf-plot ist bei nicht allzu grossen DatensĂ€tzen ein geeignetes grafisches Werkzeug, um HĂ€ufigkeitsverteilungen zu visualisieren. Das Diagramm besteht aus zwei Spalten, wovon eine Spalte den Stamm (Einerstelle, Zehnerstelle, Hunderterstelle etc.) und die andere die BlĂ€tter (Dezimalstelle, Einerstelle, Zehnerstelle etc.) darstellt. Die Stammbreite muss natĂŒrlich in der Legende benannt sein. Der Vorteil eines stem-und-leaf-plots liegt darin, dass nicht nur die Verteilung visuell sichtbar gemacht wird, sondern gleichzeitig auch die einzelnen Werte je nach gewĂŒnschter Genauigkeit aus dem Diagramm ersichtlich sind.

stetig

Messdaten werden als stetig (auch: kontinuierlich, metrisch) bezeichnet, wenn es sich um unendlich viele Werte handelt, die beliebig fein abgestuft werden können (z.B. Grösse, Gewicht). Zu unterscheiden davon sind diskrete Messdaten. Stetige Messdaten werden anders (z.B. mit Boxplot, Histogramm) als diskrete Daten (z.B. mit Balkendiagramm) dargestellt.

Stichprobe

Die Stichprobe ist eine Teilmenge der Grundgesamtheit. Die Stichprobe soll die untersuchungsrelevanten Eigenschaften der Grundgesamtheit möglichst genau abbilden.

Störgrösse

Im Regressionsmodell können die Werte der abhĂ€ngigen Variable nicht allein durch die Werte der unabhĂ€ngigen Variablen erklĂ€rt werden. Man geht deshalb von zusĂ€tzlichen Störgrössen aus, ĂŒber die man bestimmte Annahmen trifft wie z.B. dass sie gleiche Varianzen haben, nicht korreliert und normalverteilt sind.

stratifizierte Randomisierung

Stratifizierte Randomisierung wird v.a. bei Multizenter-Studien und kleineren Stichproben angewendet, um Unbalanciertheiten bzgl. bekannter Einflussfaktoren zu vermeiden. Dabei wird eine Randomisierungsliste fĂŒr jede Kombination von Faktoren erstellt. Man sollte aber nur eine begrenzte Zahl von Strata definieren, da es relativ schnell zu einer Überstratifizierung kommen kann, welche Unbalanciertheiten wiederum begĂŒnstigt. Ein Beispiel: BerĂŒcksichtigt man 3 Faktoren mit je 2 AusprĂ€gungen, dann hat man bereits 2×2×2 Strata fĂŒr jede Behandlungsgruppe.

Streudiagramm

Ein Streudiagramm (engl. scatter plot) ist eine Abbildung, in der die Werte zweier (in der Regel) stetiger Merkmale in einem Koordinatensystem gegeneinander abgetragen werden. Muster in der Punktewolke können Hinweise ĂŒber ZusammenhĂ€nge zwischen den dargestellten Merkmalen geben.

Streuung

Streumasse wie Varianz, Standardabweichung, Interquartilabstand oder Spannweite sind deskriptive Masszahlen, welche die Streubreite von Verteilungen um ein bestimmtes Lagemass beschreiben.
T

TeststÀrke

s. Power

t-Test

t-Tests sind Hypothesentests, deren Teststatistik auf einer t-Verteilung beruht. Es gibt den Einstichproben-t-Test sowie den Zweistichproben-t-Test fĂŒr abhĂ€ngige und unabhĂ€ngige Stichproben. t-Tests gehören zu den parametrischen Tests, die eine Normalverteilung voraussetzen.

t-Verteilung

Die t-Verteilung wird u.a. benötigt, um den Konfidenzintervall fĂŒr den Erwartungswert einer Grundgesamtheit bei unbekannter Standardabweichung σ zu berechnen. Zieht man aus einer Standardnormalverteilung mit Mittelwert ÎŒ=0 und Standardabweichung σ=1 n Werte, dann ist der Quotient aus dem Mittelwert x̅ und dem Standardfehler t-verteilt mit (n-1) Freiheitsgraden. t-Verteilungen sind in der Mitte umso schmaler und haben umso breitere SchwĂ€nze, je kleiner n ist. Mit zunehmendem n geht die t-Verteilung in eine Normalverteilung ĂŒber.
U

unabhÀngige Stichproben / unverbundene Stichproben

Bei unabhĂ€ngigen Stichproben ist gewĂ€hrleistet, dass die Elemente der Grundgesamtheit, die in die eine Stichprobe aufgenommen werden, keinen Einfluss auf die Auswahl der zur anderen Stichprobe gehörenden Einheiten ausĂŒben. UnabhĂ€ngige Stichproben verlangen andere Auswertungsmethoden als abhĂ€ngige Stichproben.

unabhÀngige Variable / Einflussgrösse

UnabhÀngige Variablen sind Merkmale, die einen Einfluss auf die Zielgrösse einer Untersuchung haben. Das Ziel in klinischen Studien ist es, einen Zusammenhang zwischen möglichen Einflussfaktoren (unabhÀngige Variablen) und der eigentlichen Zielgrösse (abhÀngige Variable) herzustellen.
V

ValiditÀt

ValiditĂ€t ist ein GĂŒtekriterium fĂŒr Messverfahren und soll darĂŒber Auskunft geben, inwieweit ein Test seinen Zweck erfĂŒllt, indem er misst, was er messen sollte. So ist z.B. ein Test zur Messung von Reaktionszeiten möglicherweise unbrauchbar, wenn es darum geht, die ReaktionsfĂ€higkeit von Personen im Strassenverkehr zu ermitteln.

Varianz

Die Varianz s2 gibt als Streumass das Ausmass der Abweichungen vom Mittelwert an. Sie wird folgendermassen berechnet:


Varianzanalyse / ANOVA

ANOVA steht fĂŒr analysis of variance (Varianzanalyse). Varianzanalytische Methoden sind eine Erweiterung des t-Tests auf mehr als zwei Gruppen (einfaktorielle Varianzanalyse) bzw. mehr als eine unabhĂ€ngige Variable (mehrfaktorielle Varianzanalyse). Das Prinzip der Varianzanalyse besteht darin, dass die Gesamtvarianz aller Messwerte aufgeteilt wird in die Varianz zwischen den Gruppen (=Treatmenteffekt / erklĂ€rte Varianz) und auf die Varianz innerhalb der Gruppen (=Fehlervarianz / nicht-erklĂ€rte Varianz). Mit der PrĂŒfgrösse F wird schliesslich das VerhĂ€ltnis von erklĂ€rter und nicht-erklĂ€rter Varianz geprĂŒft. Wenn Mittelwerte aus unterschiedlichen Populationen stammen, dann ist die erklĂ€rte Varianz grösser als die nicht-erklĂ€rte Varianz und F somit grösser als 1.

Venn-Diagramm

Venn-Diagramme dienen dazu, Beziehungen zwischen Mengen graphisch darzustellen. Das folgende Beispiel zeigt ein Venn-Diagramm fĂŒr die Menge aller Personen mit einfachen und mehrfachen Allergien.


Verblindung

Verblindung bedeutet, dass die Studienteilnehmer, die behandelnde StudienÀrzte, alle datenerhebenden Personen und/oder Statistiker die zugeteilte Intervention nicht kennen. Bei einfachblinden Studien sind in der Regel nur die Studienteilnehmer verblindet, bei doppelblinden Studie sind sowohl die Studienteilnehmer als auch die behandelnden StudienÀrzte und datenerhebenden Personen verblindet. Bei dreifachblinden Studien kennt auch der Statistiker die Gruppenzuteilung nicht. Verblindung ist ein wichtiges Instrument, um einen möglichen Bias zu verhindern. Die Kenntnis der Gruppenzuteilung kann auf Seiten der Teilnehmer nÀmlich einen Einfluss auf die Compliance sowie auf die psychischen und physischen Reaktionen haben. Auf Seiten der StudienÀrzte kann das Wissen um die Art der Intervention die Behandlung der Patienten sowie die Bewertung der Zielkriterien beeinflussen.

verbundene Stichproben / abhÀngige Stichproben

Bei verbundenen Stichproben können die Elemente der Stichproben einander paarweise zugeordnet werden, was zum Beispiel bei Messwiederholungen der Fall ist. Vebundene Stichproben verlangen andere Auswertungsmethoden als unverbundene Stichproben.

VerhÀltnisskala

Im Unterschied zur Intervallskala besitzt die VerhĂ€ltnisskala einen absoluten Nullpunkt, was zur Folge hat, dass mit den Masszahlen Multiplikationen und Divisionen durchgefĂŒhrt werden dĂŒrfen.

Vierfeldertafel

Eine Vierfeldertafel ist eine Kontingenztafel mit zwei binÀren Variablen.

Vorzeichentest

Der Vorzeichentest kann bei zwei verbundenen Stichproben auf ordinalem Skalenniveau angewendet werden. Beim Vorzeichentest werden nur die Anzahl positiver bzw. negativer Differenzen aller Messwertpaare berĂŒcksichtigt. Dabei wird die Nullhypothese geprĂŒft, dass der Anteil aller positiven Differenzen 0.5 betrĂ€gt.
W

Wilcoxon-Rangsummen-Test / Mann-Whitney-U-Test

Der Wilcoxon-Rangsummen-Test ist ein nicht-parametrischer Hypothesentest, der prĂŒft, ob sich die Verteilungen zweier unabhĂ€ngigen Stichproben hinsichtlich ihrer Lage unterscheiden. Der Wilcoxon-Rangsummen-Test eignet sich fĂŒr mindestens ordinalskalierte Daten und fĂŒr Stichproben mit Ă€hnlicher Verteilungsform. Er ist eine Alternative zum t-Test fĂŒr unabhĂ€ngige Stichproben, wenn keine Normalverteilung vorliegt. Die PrĂŒfgrösse des Tests wird aus den Rangzahlen der Stichproben berechnet.

Wilcoxon-Vorzeichen-Rang-Test

Der Wilcoxon-Vorzeichen-Rang-Test ist ein nicht-parametrischer Hypothesentest, der prĂŒft, ob sich die Verteilungen zweier abhĂ€ngigen Stichproben hinsichtlich ihrer Lage unterscheiden. Der Wilcoxon-Vorzeichen-Rang-Test eignet sich fĂŒr mindestens ordinalskalierte Daten und fĂŒr Stichproben, deren Differenzen symmetrisch verteilt sind. Er ist eine Alternative zum t-Test fĂŒr abhĂ€ngige Stichproben, wenn keine Normalverteilung der Differenzen vorliegt. Die PrĂŒfgrösse des Tests ist die jeweils kleinere Rangsumme aus den positiven und negativen Differenzen.

Wölbung

s. Exzess
Y

Youden-Index

Der Youden-Index ist ein GĂŒtemass fĂŒr diagnostische Tests und berechnet sich aus SensitivitĂ€t + SpezifitĂ€t - 1. Der Youden-Index kann Werte zwischen -1 und +1 annehmen. Ein diagnostischer Test kann Erkrankte umso besser von Nicht-Erkrankten trennen, je nĂ€her der Youden-Index bei +1 liegt.
Z

zensierte Daten

Zensierte Daten kommen bei Überlebensdaten vor. Man spricht von rechts zensierten Daten, wenn das Ereignis bis zum Ende der Studie nicht beobachtet worden ist.

zentrales Grenzwerttheorem

Das zentrale Grenzwerttheorem besagt, dass die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die sĂ€mtlich derselben Grundgesamtheit entnommen sind, mit zunehmendem Stichprobenumfang in eine Normalverteilung ĂŒbergeht. Dieses Theorem gilt unabhĂ€ngig von der Verteilungsform der Messwerte in der Grundgesamtheit. Die gesamte Inferenzstatistik basiert auf dem zentralen Grenzwerttheorem.

zentrale Tendenz

Als Lagemass bezeichnen Kennwerte der zentralen Tendenz den typischsten Wert einer Verteilung. Wir kennen drei Masse fĂŒr die zentrale Tendenz: Mittelwerte, Median, Modalwert.

Zielgrösse / abhÀngige Variable

Die Zielgrösse verÀndert sich in AbhÀngigkeit von einer oder mehreren Einflussgrössen. Das Ziel in klinischen Studien ist es, einen Zusammenhang zwischen möglichen Einflussfaktoren (unabhÀngige Variablen) und der eigentlichen Zielgrösse (abhÀngige Variable) herzustellen.

zweiseitiger Test

Bei einem zweiseitigen Test wird eine ungerichtete Alternativhypothese untersucht. Man prĂŒft also beispielsweise, ob sich zwei Mittelwerte unterscheiden (und nicht ob ein Mittelwert grösser als der andere ist). Zweiseitige Tests sind konservativer als einseitige Tests sind und werden hĂ€ufiger als einseitige Tests angewendet. Wenn nicht begrĂŒndet werden kann, weshalb der zu testende Effekt nicht in beide Richtungen möglich ist, sollte auf einseitige Tests verzichtet werden.
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z