Berechnen Sie das Konfidenzintervall. Berechnung eines Konfidenzintervalls in Microsoft Excel

„Katren-Style“ setzt die Publikation von Konstantin Kravchiks Reihe zur medizinischen Statistik fort. In zwei früheren Artikeln ging der Autor auf die Erklärung solcher Konzepte wie und ein.

Konstantin Krawtschik

Mathematiker-Analytiker. Spezialist auf dem Gebiet der statistischen Forschung in Medizin und Geisteswissenschaften

Die Stadt Moskau

Sehr oft findet man in Artikeln zu klinischen Studien einen mysteriösen Ausdruck: "Konfidenzintervall" (95% CI oder 95% CI - Konfidenzintervall). Zum Beispiel könnte ein Artikel sagen: "Der t-Test des Schülers wurde verwendet, um die Signifikanz von Unterschieden zu bewerten, wobei ein 95-%-Konfidenzintervall berechnet wurde."

Was ist der Wert des "95% Konfidenzintervalls" und warum wird es berechnet?

Was ist ein Konfidenzintervall? - Dies ist der Bereich, in den die wahren Mittelwerte in der Grundgesamtheit fallen. Und was, es gibt "unwahre" Durchschnittswerte? In gewisser Weise ja, das tun sie. In erklärten wir, dass es unmöglich ist, den interessierenden Parameter in der gesamten Bevölkerung zu messen, so dass sich die Forscher mit einer begrenzten Stichprobe begnügen. In dieser Stichprobe (z. B. nach Körpergewicht) gibt es einen Durchschnittswert (ein bestimmtes Gewicht), an dem wir den Durchschnittswert in der gesamten Allgemeinbevölkerung messen. Es ist jedoch unwahrscheinlich, dass das Durchschnittsgewicht in der Stichprobe (insbesondere ein kleines) mit dem Durchschnittsgewicht in der Allgemeinbevölkerung übereinstimmt. Daher ist es richtiger, den Bereich der Durchschnittswerte der Allgemeinbevölkerung zu berechnen und zu verwenden.

Angenommen, das 95 %-Konfidenzintervall (95 %-KI) für Hämoglobin liegt zwischen 110 und 122 g/L. Das bedeutet, dass der wahre Mittelwert für Hämoglobin in der Allgemeinbevölkerung mit einer Wahrscheinlichkeit von 95  % im Bereich von 110 bis 122 g/l liegen wird. Mit anderen Worten, wir kennen das durchschnittliche Hämoglobin in der Allgemeinbevölkerung nicht, aber wir können den Wertebereich für dieses Merkmal mit einer Wahrscheinlichkeit von 95% angeben.

Konfidenzintervalle sind besonders relevant für die Differenz der Mittelwerte zwischen Gruppen oder die sogenannte Effektgröße.

Angenommen, wir haben die Wirksamkeit von zwei Eisenpräparaten verglichen: eines, das schon lange auf dem Markt ist, und eines, das gerade erst zugelassen wurde. Nach dem Therapieverlauf wurde die Konzentration von Hämoglobin in den untersuchten Patientengruppen bewertet und das Statistikprogramm für uns berechnet, dass die Differenz zwischen den Durchschnittswerten der beiden Gruppen mit einer Wahrscheinlichkeit von 95% im Bereich von liegt 1,72 bis 14,36 g/l (Tabelle 1).

Tab. 1. Kriterium für unabhängige Stichproben
(Gruppen werden nach Hämoglobinspiegel verglichen)

Dies ist wie folgt zu interpretieren: Bei einem Teil der Patienten in der Allgemeinbevölkerung, die ein neues Medikament einnehmen, ist der Hämoglobinwert im Durchschnitt um 1,72–14,36 g/l höher als bei denen, die ein bereits bekanntes Medikament eingenommen haben.

Mit anderen Worten, in der Allgemeinbevölkerung liegt der Unterschied der Durchschnittswerte für Hämoglobin in Gruppen mit einer Wahrscheinlichkeit von 95% innerhalb dieser Grenzen. Ob das viel oder wenig ist, muss der Forscher beurteilen. Der Punkt bei all dem ist, dass wir nicht mit einem Durchschnittswert arbeiten, sondern mit einer Reihe von Werten, daher schätzen wir zuverlässiger den Unterschied in einem Parameter zwischen Gruppen.

In statistischen Paketen kann man nach Ermessen des Forschers die Grenzen des Konfidenzintervalls unabhängig einschränken oder erweitern. Indem wir die Wahrscheinlichkeiten des Konfidenzintervalls verringern, grenzen wir den Bereich der Mittelwerte ein. Bei einem KI von 90 % ist der Bereich der Mittelwerte (oder Mittelwertdifferenzen) beispielsweise enger als bei einem KI von 95 %.

Umgekehrt erweitert eine Erhöhung der Wahrscheinlichkeit auf 99 % den Wertebereich. Beim Gruppenvergleich darf die untere Grenze des KI die Nullmarke überschreiten. Wenn wir beispielsweise die Grenzen des Konfidenzintervalls auf 99  % erweitert haben, dann reichen die Grenzen des Intervalls von –1 bis 16 g/l. Das bedeutet, dass es in der Allgemeinbevölkerung Gruppen gibt, deren Mittelwertunterschied für das untersuchte Merkmal 0 ist (M=0).

Konfidenzintervalle können verwendet werden, um statistische Hypothesen zu testen. Wenn das Konfidenzintervall den Nullwert überschreitet, ist die Nullhypothese wahr, die davon ausgeht, dass sich die Gruppen in den untersuchten Parametern nicht unterscheiden. Ein Beispiel ist oben beschrieben, als wir die Grenzen auf 99 % erweitert haben. Irgendwo in der Allgemeinbevölkerung fanden wir Gruppen, die sich in keiner Weise unterschieden.

95 % Konfidenzintervall der Hämoglobindifferenz (g/l)


Die Abbildung zeigt das 95%-Konfidenzintervall der mittleren Hämoglobindifferenz zwischen den beiden Gruppen als Linie. Die Linie passiert die Nullmarke, daher ist eine Differenz zwischen den Mittelwerten gleich Null, was die Nullhypothese bestätigt, dass sich die Gruppen nicht unterscheiden. Der Unterschied zwischen den Gruppen reicht von -2 bis 5 g/l, was bedeutet, dass Hämoglobin entweder um 2 g/l abnehmen oder um 5 g/l steigen kann.

Das Konfidenzintervall ist ein sehr wichtiger Indikator. Dadurch können Sie sehen, ob die Unterschiede in den Gruppen wirklich auf den Unterschied in den Mittelwerten oder auf eine große Stichprobe zurückzuführen sind, denn bei einer großen Stichprobe sind die Chancen, Unterschiede zu finden, größer als bei einer kleinen.

In der Praxis könnte es so aussehen. Wir haben eine Stichprobe von 1000 Personen genommen, den Hämoglobinwert gemessen und festgestellt, dass das Vertrauensintervall für die Differenz der Mittelwerte zwischen 1,2 und 1,5 g/L liegt. Das Niveau der statistischen Signifikanz in diesem Fall p

Wir sehen, dass die Hämoglobinkonzentration zunahm, aber fast unmerklich, daher erschien die statistische Signifikanz genau aufgrund der Probengröße.

Konfidenzintervalle können nicht nur für Durchschnittswerte, sondern auch für Anteile (und Risikokennzahlen) berechnet werden. Uns interessiert zum Beispiel das Konfidenzintervall der Anteile der Patienten, die während der Einnahme des entwickelten Medikaments eine Remission erreichten. Gehen Sie davon aus, dass das 95 %-KI für Proportionen, also für den Anteil solcher Patienten, im Bereich von 0,60–0,80 liegt. Somit können wir sagen, dass unser Medikament in 60 bis 80 % der Fälle eine therapeutische Wirkung hat.

Der Verstand besteht nicht nur aus Wissen, sondern auch aus der Fähigkeit, Wissen in der Praxis anzuwenden. (Aristoteles)

Vertrauensintervalle

allgemeine Überprüfung

Anhand einer Stichprobe aus der Grundgesamtheit erhalten wir eine Punktschätzung des für uns interessierenden Parameters und berechnen den Standardfehler, um die Genauigkeit der Schätzung anzuzeigen.

In den meisten Fällen ist der Standardfehler als solcher jedoch nicht akzeptabel. Es ist viel sinnvoller, dieses Präzisionsmaß mit einer Intervallschätzung für den Populationsparameter zu kombinieren.

Dies kann erfolgen, indem die Kenntnis der theoretischen Wahrscheinlichkeitsverteilung der Stichprobenstatistik (Parameter) verwendet wird, um ein Konfidenzintervall (CI – Confidence Interval, CI – Confidence Interval) für den Parameter zu berechnen.

Im Allgemeinen erweitert das Konfidenzintervall die Schätzungen in beide Richtungen um ein Vielfaches des Standardfehlers (eines bestimmten Parameters); Die beiden Werte (Vertrauensgrenzen), die das Intervall definieren, werden normalerweise durch ein Komma getrennt und in Klammern eingeschlossen.

Konfidenzintervall für Mittelwert

Unter Verwendung der Normalverteilung

Der Stichprobenmittelwert hat eine Normalverteilung, wenn der Stichprobenumfang groß ist, sodass die Kenntnis der Normalverteilung bei der Betrachtung des Stichprobenmittelwerts angewendet werden kann.

Insbesondere liegen 95 % der Verteilung der Stichprobenmittelwerte innerhalb von 1,96 Standardabweichungen (SD) des Mittelwerts der Grundgesamtheit.

Wenn wir nur eine Stichprobe haben, nennen wir dies den Standardfehler des Mittelwerts (SEM) und berechnen das 95%-Konfidenzintervall für den Mittelwert wie folgt:

Wenn dieses Experiment mehrmals wiederholt wird, enthält das Intervall zu 95 % der Zeit den wahren Mittelwert der Grundgesamtheit.

Dabei handelt es sich in der Regel um ein Konfidenzintervall, also um den Wertebereich, innerhalb dessen der wahre Mittelwert der Grundgesamtheit (allgemeiner Mittelwert) mit einem Konfidenzniveau von 95 % liegt.

Obwohl es nicht ganz streng ist (der Populationsmittelwert ist ein fester Wert und kann daher nicht mit einer Wahrscheinlichkeit darauf bezogen werden), das Konfidenzintervall auf diese Weise zu interpretieren, ist es konzeptionell einfacher zu verstehen.

Verwendungszweck t- Verteilung

Sie können die Normalverteilung verwenden, wenn Sie den Wert der Varianz in der Grundgesamtheit kennen. Wenn die Stichprobengröße klein ist, folgt der Stichprobenmittelwert einer Normalverteilung, wenn die der Grundgesamtheit zugrunde liegenden Daten normalverteilt sind.

Wenn die der Grundgesamtheit zugrunde liegenden Daten nicht normalverteilt sind und/oder die allgemeine Varianz (Grundgesamtheitsvarianz) unbekannt ist, gehorcht der Stichprobenmittelwert Studentische t-Verteilung.

Berechnen Sie das 95 %-Konfidenzintervall für den Populationsmittelwert wie folgt:

Wo - Prozentpunkt (Perzentil) t- Studentische Verteilung mit (n-1) Freiheitsgraden, was eine zweiseitige Wahrscheinlichkeit von 0,05 ergibt.

Im Allgemeinen bietet sie ein breiteres Intervall als bei Verwendung einer Normalverteilung, da sie die zusätzliche Unsicherheit berücksichtigt, die durch die Schätzung der Standardabweichung der Grundgesamtheit und/oder aufgrund der kleinen Stichprobengröße eingeführt wird.

Wenn der Stichprobenumfang groß ist (in der Größenordnung von 100 oder mehr), ist die Differenz zwischen den beiden Verteilungen ( t-Student und normal) ist vernachlässigbar. Allerdings immer verwenden t- Verteilung bei der Berechnung von Konfidenzintervallen, auch wenn der Stichprobenumfang groß ist.

Üblicherweise wird ein 95 %-KI angegeben. Andere Konfidenzintervalle können berechnet werden, z. B. 99 %-KI für den Mittelwert.

Statt Produkt aus Standardfehler und Tabellenwert t- Verteilung, die einer zweiseitigen Wahrscheinlichkeit von 0,05 entspricht, multiplizieren Sie sie (Standardfehler) mit einem Wert, der einer zweiseitigen Wahrscheinlichkeit von 0,01 entspricht. Dies ist ein breiteres Konfidenzintervall als der 95 %-Fall, da es ein erhöhtes Vertrauen widerspiegelt, dass das Intervall tatsächlich den Mittelwert der Grundgesamtheit enthält.

Konfidenzintervall für Anteil

Die Stichprobenverteilung der Anteile ist binomialverteilt. Allerdings, wenn die Stichprobengröße n ziemlich groß, dann ist die Stichprobenverteilung des Anteils ungefähr normal mit Mittelwert .

Schätzung nach Stichprobenverhältnis p=r/n(wo r- die Anzahl der Personen in der Stichprobe mit den für uns interessanten Merkmalen), und der Standardfehler wird geschätzt:

Das 95 %-Konfidenzintervall für den Anteil wird geschätzt:

Wenn die Stichprobengröße klein ist (normalerweise wenn np oder n(1-p) weniger 5 ), dann muss die Binomialverteilung verwendet werden, um die genauen Konfidenzintervalle zu berechnen.

Beachten Sie, dass wenn p dann in Prozent ausgedrückt (1-p) ersetzt durch (100p).

Interpretation von Konfidenzintervallen

Bei der Interpretation des Konfidenzintervalls interessieren uns folgende Fragen:

Wie breit ist das Konfidenzintervall?

Ein breites Konfidenzintervall zeigt an, dass die Schätzung ungenau ist; schmal zeigt eine feine Schätzung an.

Die Breite des Konfidenzintervalls hängt von der Größe des Standardfehlers ab, der wiederum von der Stichprobengröße abhängt, und ergibt bei Berücksichtigung einer numerischen Variablen aus der Variabilität der Daten breitere Konfidenzintervalle als Studien mit einem großen Datensatz von wenigen Variablen.

Enthält das CI irgendwelche Werte von besonderem Interesse?

Sie können prüfen, ob der wahrscheinliche Wert für einen Populationsparameter in ein Konfidenzintervall fällt. Wenn ja, dann stimmen die Ergebnisse mit diesem wahrscheinlichen Wert überein. Wenn nicht, dann ist es unwahrscheinlich (bei einem Konfidenzintervall von 95 % beträgt die Wahrscheinlichkeit fast 5 %), dass der Parameter diesen Wert hat.

Angenommen, wir haben eine große Anzahl von Artikeln mit einer normalen Verteilung einiger Merkmale (z. B. ein volles Lagerhaus mit derselben Gemüsesorte, deren Größe und Gewicht variieren). Sie möchten die durchschnittlichen Eigenschaften der gesamten Warenpartie kennen, haben aber weder die Zeit noch die Lust, jedes Gemüse zu messen und zu wiegen. Sie verstehen, dass dies nicht notwendig ist. Aber wie viele Teile müssten Sie zur Stichprobenprüfung nehmen?

Bevor wir einige Formeln geben, die für diese Situation nützlich sind, erinnern wir uns an einige Notationen.

Erstens, wenn wir das gesamte Gemüselager messen würden (diese Gruppe von Elementen wird als allgemeine Bevölkerung bezeichnet), dann wüssten wir mit aller uns zur Verfügung stehenden Genauigkeit den Durchschnittswert des Gewichts der gesamten Charge. Nennen wir das Durchschnitt X vgl .g de . - allgemeiner Durchschnitt. Was vollständig bestimmt ist, wissen wir bereits, wenn dessen Mittelwert und Abweichung s bekannt sind . Richtig, bisher sind wir weder X-Durchschnitt noch s Wir kennen die allgemeine Bevölkerung nicht. Wir können nur eine Probe nehmen, die Werte messen, die wir brauchen, und für diese Probe sowohl den Mittelwert X sr in Probe als auch die Standardabweichung S sb berechnen.

Es ist bekannt, dass, wenn unsere benutzerdefinierte Prüfung eine große Anzahl von Elementen enthält (normalerweise ist n größer als 30), diese genommen werden wirklich zufällig, dann s Die allgemeine Bevölkerung wird sich fast nicht von S unterscheiden.

Darüber hinaus können wir für den Fall einer Normalverteilung die folgenden Formeln verwenden:

Mit einer Wahrscheinlichkeit von 95%


Mit einer Wahrscheinlichkeit von 99%



Im Allgemeinen mit Wahrscheinlichkeit Р (t)


Der Zusammenhang zwischen dem Wert von t und dem Wert der Wahrscheinlichkeit P (t), mit dem wir das Konfidenzintervall wissen wollen, kann der folgenden Tabelle entnommen werden:


Damit haben wir ermittelt, in welcher Bandbreite der Durchschnittswert für die Allgemeinbevölkerung (mit gegebener Wahrscheinlichkeit) liegt.

Solange wir keine ausreichend große Stichprobe haben, können wir nicht behaupten, dass die Grundgesamtheit s = hat S-Wahl Außerdem ist in diesem Fall die Nähe der Stichprobe zur Normalverteilung problematisch. Verwenden Sie in diesem Fall stattdessen auch S sb s in der Formel:




aber der Wert von t für eine feste Wahrscheinlichkeit P(t) hängt von der Anzahl der Elemente in der Stichprobe n ab. Je größer n, desto näher liegt das resultierende Konfidenzintervall an dem durch Formel (1) gegebenen Wert. Die t-Werte stammen in diesem Fall aus einer anderen Tabelle (Student's t-Test), die wir unten bereitstellen:

Student's t-Testwerte für Wahrscheinlichkeit 0,95 und 0,99


Beispiel 3 30 Personen wurden zufällig aus den Mitarbeitern des Unternehmens ausgewählt. Laut Stichprobe stellte sich heraus, dass das durchschnittliche Gehalt (pro Monat) 30.000 Rubel mit einer durchschnittlichen quadratischen Abweichung von 5.000 Rubel beträgt. Bestimmen Sie mit einer Wahrscheinlichkeit von 0,99 das durchschnittliche Gehalt in der Firma.

Lösung: Als Bedingung haben wir n = 30, X vgl. =30000, S=5000, P=0,99. Um das Konfidenzintervall zu finden, verwenden wir die dem Student-Kriterium entsprechende Formel. Gemäß der Tabelle für n \u003d 30 und P \u003d 0,99 finden wir t \u003d 2,756, daher


diese. gewünschtes Vertrauen Intervall 27484< Х ср.ген < 32516.

Mit einer Wahrscheinlichkeit von 0,99 kann also argumentiert werden, dass das Intervall (27484; 32516) das Durchschnittsgehalt im Unternehmen enthält.

Wir hoffen, dass Sie diese Methode verwenden, ohne jedes Mal unbedingt eine Tabelle mit sich führen zu müssen. Berechnungen können automatisch in Excel durchgeführt werden. Klicken Sie in einer Excel-Datei auf die fx-Schaltfläche im oberen Menü. Wählen Sie dann unter den Funktionen den Typ "Statistik" und aus der vorgeschlagenen Liste im Feld - STEUDRASP. Geben Sie dann an der Eingabeaufforderung den Cursor in das Feld "Wahrscheinlichkeit" ein und geben Sie den Wert der reziproken Wahrscheinlichkeit ein (in unserem Fall müssen Sie anstelle der Wahrscheinlichkeit 0,95 die Wahrscheinlichkeit 0,05 eingeben). Anscheinend ist die Tabelle so konzipiert, dass das Ergebnis die Frage beantwortet, wie wahrscheinlich wir uns irren können. Geben Sie auf ähnliche Weise im Feld "Freiheitsgrad" den Wert (n-1) für Ihre Probe ein.

Eine der Methoden zur Lösung statistischer Probleme ist die Berechnung des Konfidenzintervalls. Es wird als bevorzugte Alternative zur Punktschätzung verwendet, wenn die Stichprobengröße klein ist. Es sollte beachtet werden, dass der Prozess der Berechnung des Konfidenzintervalls ziemlich kompliziert ist. Mit den Tools des Excel-Programms können Sie es jedoch etwas vereinfachen. Lassen Sie uns herausfinden, wie dies in der Praxis gemacht wird.

Dieses Verfahren wird bei der Intervallschätzung verschiedener statistischer Größen verwendet. Die Hauptaufgabe dieser Berechnung besteht darin, die Unsicherheiten der Punktschätzung zu beseitigen.

In Excel gibt es zwei Hauptoptionen für die Berechnung mit dieser Methode: wenn die Varianz bekannt ist und wenn sie unbekannt ist. Im ersten Fall wird die Funktion für Berechnungen verwendet VERTRAUEN NORM, und im zweiten VERTRAUEN.STUDENT.

Methode 1: CONFIDENCE NORM-Funktion

Operator VERTRAUEN NORM, das sich auf die statistische Gruppe von Funktionen bezieht, erschien erstmals in Excel 2010. Frühere Versionen dieses Programms verwenden sein Gegenstück VERTRAUEN. Die Aufgabe dieses Operators besteht darin, ein Konfidenzintervall mit einer Normalverteilung für den Mittelwert der Grundgesamtheit zu berechnen.

Seine Syntax ist wie folgt:

VERTRAUEN NORM(alpha, standard_dev, Größe)

"Alpha" ist ein Argument, das das Signifikanzniveau angibt, das zur Berechnung des Konfidenzniveaus verwendet wird. Das Konfidenzniveau entspricht dem folgenden Ausdruck:

(1-"Alpha")*100

"Standardabweichung" ist ein Argument, dessen Essenz aus dem Namen hervorgeht. Dies ist die Standardabweichung der vorgeschlagenen Stichprobe.

"Die Größe" ist ein Argument, das die Größe der Stichprobe bestimmt.

Alle Argumente für diesen Operator sind erforderlich.

Funktion VERTRAUEN hat genau die gleichen Argumente und Möglichkeiten wie die vorherige. Seine Syntax ist:

VERTRAUEN(alpha, standard_dev, größe)

Wie Sie sehen können, liegen die Unterschiede nur im Namen des Betreibers. Diese Funktion wurde aus Kompatibilitätsgründen in Excel 2010 und neueren Versionen in einer speziellen Kategorie beibehalten. "Kompatibilität". In Versionen von Excel 2007 und früher ist es in der Hauptgruppe der statistischen Operatoren vorhanden.

Die Grenze des Konfidenzintervalls wird mit der Formel der folgenden Form bestimmt:

X+(-) VERTRAUEN NORM

Wo X ist der Stichprobenmittelwert, der sich in der Mitte des ausgewählten Bereichs befindet.

Sehen wir uns nun anhand eines konkreten Beispiels an, wie das Konfidenzintervall berechnet wird. Es wurden 12 Tests durchgeführt, die zu unterschiedlichen Ergebnissen führten, die in der Tabelle aufgeführt sind. Das ist unsere Gesamtheit. Die Standardabweichung beträgt 8. Wir müssen das Konfidenzintervall auf dem Konfidenzniveau von 97 % berechnen.

  1. Wählen Sie die Zelle aus, in der das Ergebnis der Datenverarbeitung angezeigt werden soll. Klicken Sie auf die Schaltfläche "Funktion einfügen".
  2. Erscheint Funktionsassistent. Gehen Sie zur Kategorie "Statistik" und markieren Sie den Namen "VERTRAUEN.NORM". Danach klicken Sie auf die Schaltfläche OK.
  3. Das Argumente-Fenster öffnet sich. Seine Felder entsprechen natürlich den Namen der Argumente.
    Setzen Sie den Cursor auf das erste Feld - "Alpha". Hier sollten wir das Signifikanzniveau angeben. Wie wir uns erinnern, liegt unser Vertrauensgrad bei 97 %. Gleichzeitig haben wir gesagt, dass es so berechnet wird:

    (1-Vertrauensstufe)/100

    Das heißt, durch Ersetzen des Werts erhalten wir:

    Durch einfache Berechnungen finden wir heraus, dass das Argument "Alpha" gleich 0,03 . Geben Sie diesen Wert in das Feld ein.

    Wie Sie wissen, ist die Standardabweichung gleich 8 . Daher im Gelände "Standardabweichung" notieren Sie sich einfach diese Nummer.

    Auf dem Feld "Die Größe" Sie müssen die Anzahl der Elemente der durchgeführten Tests eingeben. Wie wir uns erinnern, sie 12 . Aber um die Formel zu automatisieren und sie nicht jedes Mal zu bearbeiten, wenn ein neuer Test durchgeführt wird, setzen wir diesen Wert nicht auf eine gewöhnliche Zahl, sondern mit dem Operator ÜBERPRÜFEN. Also setzen wir den Cursor in das Feld "Die Größe", und klicken Sie dann auf das Dreieck, das sich links neben der Bearbeitungsleiste befindet.

    Eine Liste der zuletzt verwendeten Funktionen wird angezeigt. Wenn der Betreiber ÜBERPRÜFEN kürzlich von Ihnen verwendet wurde, sollte es auf dieser Liste stehen. In diesem Fall müssen Sie nur auf den Namen klicken. Andernfalls, wenn Sie es nicht finden, gehen Sie zum Punkt "Mehr Funktionen...".

  4. Kommt uns schon bekannt vor Funktionsassistent. Zurück zur Gruppe "Statistik". Dort wählen wir den Namen aus "ÜBERPRÜFEN". Klicken Sie auf die Schaltfläche OK.
  5. Das Argumentfenster für den obigen Operator wird angezeigt. Diese Funktion wurde entwickelt, um die Anzahl der Zellen im angegebenen Bereich zu berechnen, die numerische Werte enthalten. Seine Syntax ist die folgende:

    COUNT(Wert1, Wert2,…)

    Argumentgruppe "Werte" ist ein Verweis auf den Bereich, in dem Sie die Anzahl der mit numerischen Daten gefüllten Zellen berechnen möchten. Insgesamt kann es bis zu 255 solcher Argumente geben, aber in unserem Fall brauchen wir nur eines.

    Setzen Sie den Cursor in das Feld "Wert1" und wählen Sie bei gedrückter linker Maustaste den Bereich auf dem Blatt aus, der unsere Bevölkerung enthält. Dann wird seine Adresse im Feld angezeigt. Klicken Sie auf die Schaltfläche OK.

  6. Danach führt die Anwendung die Berechnung durch und zeigt das Ergebnis in der Zelle an, in der es sich selbst befindet. In unserem speziellen Fall sah die Formel so aus:

    VERTRAUEN NORM(0.03,8,ZAHL(B2:B13))

    Das Gesamtergebnis der Berechnungen war 5,011609 .

  7. Aber das ist nicht alles. Wie wir uns erinnern, wird die Grenze des Konfidenzintervalls durch Addieren und Subtrahieren vom durchschnittlichen Stichprobenwert des Berechnungsergebnisses berechnet VERTRAUEN NORM. Auf diese Weise werden jeweils die rechte und die linke Grenze des Konfidenzintervalls berechnet. Der Stichprobenmittelwert selbst kann mit dem Operator berechnet werden DURCHSCHNITT.

    Dieser Operator dient zur Berechnung des arithmetischen Mittels des ausgewählten Zahlenbereichs. Es hat die folgende ziemlich einfache Syntax:

    DURCHSCHNITT(Zahl1, Zahl2,…)

    Streit "Nummer" kann entweder ein einzelner numerischer Wert oder ein Verweis auf Zellen oder sogar ganze Bereiche sein, die sie enthalten.

    Wählen Sie also die Zelle aus, in der die Berechnung des Durchschnittswerts angezeigt werden soll, und klicken Sie auf die Schaltfläche "Funktion einfügen".

  8. öffnet Funktionsassistent. Zurück zur Kategorie "Statistik" und wählen Sie einen Namen aus der Liste aus "DURCHSCHNITT". Klicken Sie wie immer auf den Button OK.
  9. Das Argumente-Fenster wird gestartet. Setzen Sie den Cursor in das Feld "Nummer 1" und mit gedrückter linker Maustaste den gesamten Wertebereich auswählen. Nachdem die Koordinaten im Feld angezeigt werden, klicken Sie auf die Schaltfläche OK.
  10. Danach DURCHSCHNITT gibt das Ergebnis der Berechnung an ein Blattelement aus.
  11. Wir berechnen die rechte Grenze des Konfidenzintervalls. Wählen Sie dazu eine separate Zelle aus und setzen Sie das Zeichen «=» und fügen Sie den Inhalt der Blattelemente hinzu, in denen sich die Ergebnisse der Berechnung von Funktionen befinden DURCHSCHNITT und VERTRAUEN NORM. Um die Berechnung durchzuführen, drücken Sie die Taste Eintreten. In unserem Fall haben wir die folgende Formel erhalten:

    Berechnungsergebnis: 6,953276

  12. Auf die gleiche Weise berechnen wir die linke Grenze des Konfidenzintervalls, nur diesmal aus dem Ergebnis der Berechnung DURCHSCHNITT Subtrahieren Sie das Ergebnis der Berechnung des Operators VERTRAUEN NORM. Es stellt sich die Formel für unser Beispiel folgender Art heraus:

    Berechnungsergebnis: -3,06994

  13. Wir haben versucht, alle Schritte zur Berechnung des Konfidenzintervalls im Detail zu beschreiben, also haben wir jede Formel im Detail beschrieben. Aber Sie können alle Aktionen in einer Formel kombinieren. Die Berechnung der rechten Grenze des Konfidenzintervalls kann wie folgt geschrieben werden:

    DURCHSCHNITT(B2:B13)+VERTRAUEN(0.03,8,ZAHL(B2:B13))

  14. Eine ähnliche Berechnung des linken Randes würde wie folgt aussehen:

    AVERAGE(B2:B13)-CONFIDENCE.NORM(0.03,8,COUNT(B2:B13))

Methode 2: TRUST.STUDENT-Funktion

Darüber hinaus gibt es in Excel eine weitere Funktion, die mit der Berechnung des Konfidenzintervalls zusammenhängt - VERTRAUEN.STUDENT. Er taucht erst seit Excel 2010 auf. Dieser Operator führt die Berechnung des Grundgesamtheits-Konfidenzintervalls anhand der Student-t-Verteilung durch. Es ist sehr praktisch, es in dem Fall zu verwenden, wenn die Varianz und dementsprechend die Standardabweichung unbekannt sind. Die Operatorsyntax lautet:

VERTRAUEN.STUDENT(alpha,standard_dev,größe)

Wie Sie sehen können, blieben die Namen der Operatoren in diesem Fall unverändert.

Sehen wir uns an, wie die Grenzen des Konfidenzintervalls mit einer unbekannten Standardabweichung am Beispiel derselben Population berechnet werden, die wir in der vorherigen Methode betrachtet haben. Das Vertrauensniveau, wie beim letzten Mal, werden wir 97% nehmen.

  1. Wählen Sie die Zelle aus, in der die Berechnung durchgeführt werden soll. Klicken Sie auf die Schaltfläche "Funktion einfügen".
  2. Im geöffneten Funktionsassistent gehe zur Kategorie "Statistik". Wähle einen Namen "VERTRAUEN.STUDENT". Klicken Sie auf die Schaltfläche OK.
  3. Das Argumentfenster für den angegebenen Operator wird gestartet.

    Auf dem Feld "Alpha", da das Konfidenzniveau 97 % beträgt, schreiben wir die Zahl auf 0,03 . Beim zweiten Mal werden wir nicht auf die Prinzipien der Berechnung dieses Parameters eingehen.

    Setzen Sie danach den Cursor in das Feld "Standardabweichung". Diesmal ist uns dieser Indikator unbekannt und muss berechnet werden. Dies geschieht mit einer speziellen Funktion - STABW.V. Um das Fenster dieses Operators aufzurufen, klicken Sie auf das Dreieck links neben der Bearbeitungsleiste. Wenn wir den gewünschten Namen nicht in der sich öffnenden Liste finden, gehen Sie zum Artikel "Mehr Funktionen...".

  4. läuft Funktionsassistent. Wechsel zur Kategorie "Statistik" und markieren Sie den Namen "STABW.B". Klicken Sie dann auf die Schaltfläche OK.
  5. Das Argumente-Fenster öffnet sich. Bedieneraufgabe STABW.V ist die Definition der Standardabweichung bei der Stichprobenziehung. Seine Syntax sieht so aus:

    STABW.V(Zahl1,Zahl2,…)

    Es ist leicht zu erraten, dass das Argument "Nummer" ist die Adresse des Auswahlelements. Wenn die Auswahl in einem einzelnen Array platziert wird, können Sie mit nur einem Argument einen Link zu diesem Bereich angeben.

    Setzen Sie den Cursor in das Feld "Nummer 1" und wie immer mit gedrückter linker Maustaste das Set auswählen. Nachdem die Koordinaten im Feld sind, beeilen Sie sich nicht, die Taste zu drücken OK denn das Ergebnis wird falsch sein. Zuerst müssen wir zum Fenster mit den Operatorargumenten zurückkehren VERTRAUEN.STUDENT um das letzte Argument zu machen. Klicken Sie dazu in der Bearbeitungsleiste auf den entsprechenden Namen.

  6. Das Argumentfenster der bereits bekannten Funktion öffnet sich wieder. Setzen Sie den Cursor in das Feld "Die Größe". Klicken Sie erneut auf das uns bereits bekannte Dreieck, um zur Auswahl der Operatoren zu gelangen. Wie Sie verstehen, brauchen wir einen Namen "ÜBERPRÜFEN". Da wir diese Funktion in den Berechnungen der vorherigen Methode verwendet haben, ist sie in dieser Liste vorhanden, also klicken Sie einfach darauf. Wenn Sie es nicht finden, folgen Sie dem in der ersten Methode beschriebenen Algorithmus.
  7. Einstieg in das Argumente-Fenster ÜBERPRÜFEN, setzen Sie den Cursor in das Feld "Nummer 1" und mit gedrückter Maustaste die Sammlung auswählen. Klicken Sie dann auf die Schaltfläche OK.
  8. Danach berechnet das Programm den Wert des Konfidenzintervalls und zeigt ihn an.
  9. Um die Grenzen zu bestimmen, müssen wir erneut den Stichprobenmittelwert berechnen. Aber angesichts dessen, dass der Berechnungsalgorithmus die Formel verwendet DURCHSCHNITT die gleiche wie bei der vorherigen Methode, und selbst das Ergebnis hat sich nicht geändert, werden wir darauf nicht ein zweites Mal im Detail eingehen.
  10. Aufsummieren der Ergebnisse der Berechnung DURCHSCHNITT und VERTRAUEN.STUDENT erhalten wir die rechte Grenze des Konfidenzintervalls.
  11. Subtrahieren von den Berechnungsergebnissen des Operators DURCHSCHNITT Berechnungsergebnis VERTRAUEN.STUDENT, haben wir die linke Grenze des Konfidenzintervalls.
  12. Wenn die Berechnung in einer Formel geschrieben ist, sieht die Berechnung der rechten Grenze in unserem Fall folgendermaßen aus:

    DURCHSCHNITT(B2:B13)+STUDENTENVERTRAUEN(0.03,STDV(B2:B13),COUNT(B2:B13))

  13. Dementsprechend sieht die Formel zur Berechnung des linken Randes folgendermaßen aus:

    DURCHSCHNITT(B2:B13)-STUDENTENVERTRAUEN(0.03,STDV(B2:B13),COUNT(B2:B13))

Wie Sie sehen können, ermöglichen die Tools des Excel-Programms, die Berechnung des Konfidenzintervalls und seiner Grenzen erheblich zu erleichtern. Für diese Zwecke werden getrennte Operatoren für Stichproben verwendet, deren Varianz bekannt und unbekannt ist.

Und andere.Alle von ihnen sind Schätzungen ihrer theoretischen Gegenstücke, die erhalten werden könnten, wenn es keine Stichprobe, sondern die allgemeine Bevölkerung gäbe. Aber leider ist die allgemeine Bevölkerung sehr teuer und oft nicht verfügbar.

Das Konzept der Intervallschätzung

Jede Beispielschätzung hat eine gewisse Streuung, weil ist eine Zufallsvariable, die von den Werten in einer bestimmten Probe abhängt. Daher sollte man für zuverlässigere statistische Rückschlüsse nicht nur die Punktschätzung kennen, sondern auch das Intervall, was mit hoher Wahrscheinlichkeit der Fall ist γ (Gamma) deckt den geschätzten Indikator ab θ (Theta).

Formal sind das zwei solche Werte (Statistik) T1(X) und T2(X), was T1< T 2 , für die bei einer bestimmten Wahrscheinlichkeit γ Bedingung ist erfüllt:

Kurz gesagt, es ist wahrscheinlich γ oder mehr liegt der wahre Wert zwischen den Punkten T1(X) und T2(X), die als untere und obere Grenze bezeichnet werden Konfidenzintervall.

Eine der Bedingungen für die Konstruktion von Konfidenzintervallen ist ihre maximale Enge, d.h. es sollte so kurz wie möglich sein. Verlangen ist ganz natürlich, weil. der Forscher versucht, den Befund des gewünschten Parameters genauer zu lokalisieren.

Daraus folgt, dass das Konfidenzintervall die maximalen Wahrscheinlichkeiten der Verteilung abdecken sollte. und die Partitur selbst im Mittelpunkt stehen.

Das heißt, die Wahrscheinlichkeit einer Abweichung (des wahren Indikators von der Schätzung) nach oben ist gleich der Wahrscheinlichkeit einer Abweichung nach unten. Zu beachten ist auch, dass bei schiefen Verteilungen das rechte Intervall ungleich dem linken Intervall ist.

Die obige Abbildung zeigt deutlich, dass das Intervall umso größer ist, je größer das Konfidenzniveau ist – eine direkte Beziehung.

Dies war eine kleine Einführung in die Theorie der Intervallschätzung unbekannter Parameter. Lassen Sie uns weitergehen, um Konfidenzgrenzen für die mathematische Erwartung zu finden.

Konfidenzintervall für mathematische Erwartung

Wenn die Originaldaten über verteilt sind, dann ist der Durchschnitt ein normaler Wert. Dies folgt aus der Regel, dass eine Linearkombination von Normalwerten auch eine Normalverteilung hat. Daher könnten wir zur Berechnung der Wahrscheinlichkeiten den mathematischen Apparat des Normalverteilungsgesetzes verwenden.

Dies erfordert jedoch die Kenntnis von zwei Parametern – dem Erwartungswert und der Varianz, die normalerweise nicht bekannt sind. Anstelle von Parametern (arithmetisches Mittel und ) können Sie natürlich auch Schätzwerte verwenden, aber dann ist die Verteilung des Mittelwerts nicht ganz normal, sondern etwas abgeflacht. Der Bürger William Gosset aus Irland bemerkte diese Tatsache geschickt, als er seine Entdeckung in der Märzausgabe 1908 von Biometrica veröffentlichte. Aus Geheimhaltungsgründen unterschrieb Gosset mit Student. So erschien die Student-t-Verteilung.

Die Normalverteilung von Daten, die von K. Gauss bei der Analyse von Fehlern in astronomischen Beobachtungen verwendet wird, ist jedoch im irdischen Leben äußerst selten und es ist ziemlich schwierig, dies festzustellen (für eine hohe Genauigkeit werden etwa 2.000 Beobachtungen benötigt). Daher ist es am besten, die Normalitätsannahme fallen zu lassen und Methoden zu verwenden, die nicht von der Verteilung der Originaldaten abhängen.

Es stellt sich die Frage: Wie ist die Verteilung des arithmetischen Mittels, wenn es aus den Daten einer unbekannten Verteilung berechnet wird? Die Antwort gibt die in der Wahrscheinlichkeitstheorie bekannte Zentraler Grenzwertsatz(CPT). In der Mathematik gibt es mehrere Versionen davon (die Formulierungen wurden im Laufe der Jahre verfeinert), aber alle laufen grob gesagt auf die Aussage hinaus, dass die Summe einer großen Anzahl unabhängiger Zufallsvariablen dem Normalverteilungsgesetz gehorcht.

Bei der Berechnung des arithmetischen Mittels wird die Summe der Zufallsvariablen verwendet. Daraus ergibt sich, dass das arithmetische Mittel eine Normalverteilung hat, bei der der Erwartungswert der Erwartungswert der Anfangsdaten ist und die Varianz .

Kluge Leute wissen, wie man das CLT beweist, aber wir werden dies mit Hilfe eines in Excel durchgeführten Experiments überprüfen. Lassen Sie uns eine Stichprobe von 50 gleichmäßig verteilten Zufallsvariablen simulieren (unter Verwendung der Excel-Funktion RANDOMBETWEEN). Dann machen wir 1000 solcher Stichproben und berechnen für jede das arithmetische Mittel. Schauen wir uns ihre Verteilung an.

Es ist ersichtlich, dass die Verteilung des Durchschnitts dem normalen Gesetz nahe kommt. Wenn das Volumen der Proben und ihre Anzahl noch größer gemacht werden, wird die Ähnlichkeit noch besser.

Nachdem wir uns nun von der Gültigkeit des CLT überzeugt haben, können wir mit Hilfe die Konfidenzintervalle für den arithmetischen Mittelwert berechnen, die mit einer gegebenen Wahrscheinlichkeit den wahren Mittelwert bzw. mathematischen Erwartungswert abdecken.

Um die Ober- und Untergrenze festzulegen, ist es erforderlich, die Parameter der Normalverteilung zu kennen. In der Regel sind sie es nicht, daher werden Schätzungen verwendet: arithmetisches Mittel und Stichprobenabweichung. Auch dieses Verfahren liefert nur für große Stichproben eine gute Annäherung. Bei kleinen Stichproben wird oft empfohlen, die Student-Verteilung zu verwenden. Glauben Sie nicht! Die Student-Verteilung für den Mittelwert tritt nur auf, wenn die Originaldaten eine Normalverteilung aufweisen, d. h. fast nie. Daher ist es besser, gleich die Mindestmesslatte für die benötigte Datenmenge zu setzen und asymptotisch korrekte Methoden einzusetzen. Sie sagen, 30 Beobachtungen sind genug. Nehmen Sie 50 - Sie können nichts falsch machen.

T 1.2 sind die unteren und oberen Grenzen des Konfidenzintervalls

– arithmetisches Mittel der Stichprobe

s0– Stichprobenstandardabweichung (unverzerrt)

n – Stichprobengröße

γ – Konfidenzniveau (normalerweise gleich 0,9, 0,95 oder 0,99)

cγ =Φ -1 ((1+γ)/2) ist der Kehrwert der Standardnormalverteilungsfunktion. Vereinfacht ausgedrückt ist dies die Anzahl der Standardfehler vom arithmetischen Mittel zur Unter- bzw. Obergrenze (die angegebenen drei Wahrscheinlichkeiten entsprechen den Werten 1,64, 1,96 und 2,58).

Die Essenz der Formel besteht darin, dass das arithmetische Mittel genommen wird und dann ein bestimmter Betrag davon beiseite gelegt wird ( mit γ) Standardfehler ( s 0 /√n). Alles ist bekannt, nimm es und zähle.

Vor dem Masseneinsatz von PCs verwendeten sie . Sie werden immer noch verwendet, aber es ist effizienter, auf vorgefertigte Excel-Formeln zurückzugreifen. Alle Elemente aus der obigen Formel ( , und ) können einfach in Excel berechnet werden. Es gibt aber auch eine fertige Formel zur Berechnung des Konfidenzintervalls - VERTRAUEN NORM. Seine Syntax ist die folgende.

VERTRAUEN NORM(alpha, standard_dev, Größe)

Alpha– Signifikanzniveau oder Konfidenzniveau, das in der obigen Notation gleich 1-γ ist, d.h. die Wahrscheinlichkeit, dass die mathematischedie Erwartung liegt außerhalb des Konfidenzintervalls. Bei einem Konfidenzniveau von 0,95 beträgt Alpha 0,05 und so weiter.

standard_aus ist die Standardabweichung der Stichprobendaten. Sie müssen den Standardfehler nicht berechnen, Excel dividiert durch die Wurzel von n.

die Größe– Stichprobenumfang (n).

Das Ergebnis der Funktion CONFIDENCE.NORM ist der zweite Term aus der Formel zur Berechnung des Konfidenzintervalls, d. h. Halbzeit. Dementsprechend sind die unteren und oberen Punkte der Durchschnitt ± der erhaltene Wert.

Damit ist es möglich, einen universellen Algorithmus zur Berechnung von Konfidenzintervallen für den arithmetischen Mittelwert aufzubauen, der nicht von der Verteilung der Ausgangsdaten abhängt. Der Preis für Universalität ist ihre asymptotische Natur, d.h. die Notwendigkeit, relativ große Stichproben zu verwenden. Im Zeitalter der modernen Technologie ist es jedoch normalerweise nicht schwierig, die richtige Menge an Daten zu sammeln.

Testen statistischer Hypothesen mit einem Konfidenzintervall

(Modul 111)

Eines der Hauptprobleme, die in der Statistik gelöst werden, ist. Kurz gesagt, seine Essenz ist dies. Beispielsweise wird angenommen, dass die Erwartung der allgemeinen Bevölkerung einem bestimmten Wert entspricht. Dann wird die Verteilung der Stichprobenmittelwerte konstruiert, die mit einer gegebenen Erwartung beobachtet werden kann. Als nächstes schauen wir uns an, wo in dieser bedingten Verteilung der echte Durchschnitt liegt. Wenn es die zulässigen Grenzen überschreitet, ist das Auftreten eines solchen Durchschnitts sehr unwahrscheinlich, und bei einer einzigen Wiederholung des Experiments ist es fast unmöglich, was der aufgestellten Hypothese widerspricht, die erfolgreich abgelehnt wird. Wenn der Durchschnitt das kritische Niveau nicht überschreitet, wird die Hypothese nicht verworfen (aber auch nicht bewiesen!).

Mit Hilfe von Konfidenzintervallen, in unserem Fall für den Erwartungswert, können Sie also auch einige Hypothesen testen. Es ist sehr einfach zu tun. Angenommen, der arithmetische Mittelwert für eine Stichprobe ist 100. Es wird die Hypothese getestet, dass der erwartete Wert beispielsweise 90 beträgt. Das heißt, wenn wir die Frage primitiv stellen, klingt sie so: Kann es das mit dem wahren Wert des sein? Durchschnitt gleich 90, der beobachtete Durchschnitt war 100?

Zur Beantwortung dieser Frage sind zusätzliche Informationen zur Standardabweichung und zum Stichprobenumfang erforderlich. Nehmen wir an, die Standardabweichung beträgt 30 und die Anzahl der Beobachtungen 64 (um die Wurzel einfach zu ziehen). Dann beträgt der Standardfehler des Mittelwerts 30/8 oder 3,75. Um das 95-%-Konfidenzintervall zu berechnen, müssen Sie zwei Standardfehler auf beiden Seiten des Mittelwerts (genauer 1,96) beiseite legen. Das Konfidenzintervall beträgt ungefähr 100 ± 7,5 oder 92,5 bis 107,5.

Weitere Argumentation ist wie folgt. Wenn der getestete Wert in das Konfidenzintervall fällt, dann widerspricht er nicht der Hypothese, da innerhalb der Grenzen zufälliger Schwankungen (mit einer Wahrscheinlichkeit von 95 %). Wenn der getestete Punkt außerhalb des Konfidenzintervalls liegt, ist die Wahrscheinlichkeit eines solchen Ereignisses sehr gering, in jedem Fall unter dem akzeptablen Niveau. Daher wird die Hypothese als widersprüchlich zu den beobachteten Daten zurückgewiesen. In unserem Fall liegt die Erwartungshypothese außerhalb des Konfidenzintervalls (der getestete Wert von 90 ist nicht im Intervall von 100 ± 7,5 enthalten), daher sollte sie verworfen werden. Zur Beantwortung der obigen primitiven Frage sollte man sagen: Nein, das kann es jedenfalls nicht, das kommt äußerst selten vor. Oft deutet dies auf eine bestimmte Wahrscheinlichkeit einer fehlerhaften Ablehnung der Hypothese hin (p-Niveau) und nicht auf ein bestimmtes Niveau, nach dem das Konfidenzintervall gebildet wurde, aber dazu ein anderes Mal mehr.

Wie Sie sehen können, ist es nicht schwierig, ein Konfidenzintervall für den Mittelwert (oder die mathematische Erwartung) zu erstellen. Die Hauptsache ist, die Essenz zu fangen, und dann wird es gehen. In der Praxis verwenden die meisten das 95-%-Konfidenzintervall, das auf beiden Seiten des Mittelwerts etwa zwei Standardfehler breit ist.

Das ist alles für jetzt. Alles Gute!