Vypočítajte interval spoľahlivosti. Metódy kvantitatívnej analýzy: Odhad intervalov spoľahlivosti

Interval spoľahlivosti k nám prišiel z oblasti štatistiky. Toto je špecifický rozsah, ktorý slúži na odhad neznámeho parametra s vysoký stupeň spoľahlivosť. Najjednoduchšie sa to dá vysvetliť na príklade.

Predpokladajme, že potrebujete preskúmať nejakú náhodnú premennú, napríklad rýchlosť odpovede servera na požiadavku klienta. Zakaždým, keď používateľ zadá adresu konkrétnej lokality, server odpovie inou rýchlosťou. Skúmaný čas odozvy má teda náhodný charakter. Takže tu to je interval spoľahlivosti umožňuje určiť hranice tohto parametra a potom bude možné tvrdiť, že s pravdepodobnosťou 95% bude server v rozsahu, ktorý sme vypočítali.

Alebo potrebujete zistiť, koľko ľudí o tom vie ochranná známka firmy. Pri výpočte intervalu spoľahlivosti bude možné napríklad povedať, že s 95 % pravdepodobnosťou sa podiel spotrebiteľov, ktorí o tom vedia, pohybuje v rozmedzí od 27 % do 34 %.

S týmto pojmom úzko súvisí úroveň sebavedomia. Predstavuje pravdepodobnosť, že požadovaný parameter je zahrnutý v intervale spoľahlivosti. Táto hodnota určuje, aký veľký bude náš požadovaný rozsah. Ako väčšiu hodnotu akceptuje, tým užší je interval spoľahlivosti a naopak. Zvyčajne je nastavená na 90 %, 95 % alebo 99 %. Najpopulárnejšia je hodnota 95 %.

Tento ukazovateľ je ovplyvnený aj rozptylom pozorovaní a jeho definícia je založená na predpoklade, že skúmaný prvok sa riadi.Toto tvrdenie je známe aj ako Gaussov zákon. Podľa neho takéto rozdelenie všetkých pravdepodobností spojitého náhodná premenná, ktorú možno opísať hustotou pravdepodobnosti. Ak je predpoklad o normálne rozdelenie sa ukázalo ako chybné, potom môže byť odhad nesprávny.

Po prvé, poďme zistiť, ako vypočítať interval spoľahlivosti pre Tu sú možné dva prípady. Disperzia (stupeň šírenia náhodnej premennej) môže, ale nemusí byť známa. Ak je známy, potom sa náš interval spoľahlivosti vypočíta pomocou nasledujúceho vzorca:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - znak,

t je parameter z Laplaceovej distribučnej tabuľky,

σ je druhá odmocnina disperzie.

Ak je rozptyl neznámy, možno ho vypočítať, ak poznáme všetky hodnoty požadovanej funkcie. Na tento účel sa používa nasledujúci vzorec:

σ2 = х2ср - (хр)2, kde

х2ср - priemerná hodnota druhých mocnín študovaného znaku,

(xsr)2 je druhá mocnina tejto funkcie.

Vzorec, podľa ktorého sa počíta interval spoľahlivosti, sa v tomto prípade mierne mení:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - vzorový priemer,

α - znak,

t je parameter, ktorý sa nachádza pomocou Študentovej distribučnej tabuľky t \u003d t (ɣ; n-1),

sqrt(n) je druhá odmocnina z celkovej veľkosti vzorky,

s je druhá odmocnina rozptylu.

Zvážte tento príklad. Predpokladajme, že na základe výsledkov 7 meraní bola študovaná vlastnosť určená na 30 a rozptyl vzorky rovný 36. Je potrebné nájsť interval spoľahlivosti s pravdepodobnosťou 99 %, ktorý obsahuje skutočnú hodnotu nameranej hodnoty. parameter.

Najprv určme, čomu sa t rovná: t \u003d t (0,99; 7-1) \u003d 3,71. Pomocou vyššie uvedeného vzorca dostaneme:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 – 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Interval spoľahlivosti pre rozptyl sa vypočíta tak v prípade známeho priemeru, ako aj vtedy, keď nie sú k dispozícii údaje o matematickom očakávaní a je známa iba hodnota nezaujatého bodového odhadu rozptylu. Nebudeme tu uvádzať vzorce na jeho výpočet, pretože sú dosť zložité a v prípade potreby ich možno vždy nájsť na internete.

Upozorňujeme len, že je vhodné určiť interval spoľahlivosti pomocou programu Excel alebo sieťovej služby, ktorá sa tak nazýva.

Jednou z metód riešenia štatistických problémov je výpočet intervalu spoľahlivosti. Používa sa ako preferovaná alternatíva k bodovému odhadu, keď je veľkosť vzorky malá. Treba poznamenať, že proces výpočtu intervalu spoľahlivosti je pomerne komplikovaný. Ale nástroje programu Excel vám umožňujú trochu zjednodušiť. Poďme zistiť, ako sa to robí v praxi.

Táto metóda sa používa pri intervalovom odhade rôznych štatistických veličín. Hlavnou úlohou tohto výpočtu je zbaviť sa neistôt bodového odhadu.

V Exceli existujú dve hlavné možnosti, ako vykonať výpočty pomocou tejto metódy: keď je rozptyl známy a keď nie je známy. V prvom prípade sa funkcia používa na výpočty NORMÁLNA DÔVERA a v druhom DÔVEROVAŤ.ŠTUDENT.

Metóda 1: Funkcia CONFIDENCE NORM

Operátor NORMÁLNA DÔVERA, ktorý odkazuje na štatistickú skupinu funkcií, sa prvýkrát objavil v Exceli 2010. Staršie verzie tohto programu používajú jeho náprotivok DÔVEROVAŤ. Úlohou tohto operátora je vypočítať interval spoľahlivosti s normálnym rozdelením pre priemer populácie.

Jeho syntax je nasledovná:

CONFIDENCE NORM(alfa; štandardný_vývoj; veľkosť)

"alfa" je argument označujúci úroveň významnosti, ktorá sa používa na výpočet úrovne spoľahlivosti. Úroveň spoľahlivosti sa rovná nasledujúcemu výrazu:

(1-"Alfa")*100

"Štandardná odchýlka" je argument, ktorého podstata je jasná už z názvu. Toto je štandardná odchýlka navrhovanej vzorky.

"Veľkosť" je argument, ktorý určuje veľkosť vzorky.

Všetky argumenty pre tento operátor sú povinné.

Funkcia DÔVEROVAŤ má presne tie isté argumenty a možnosti ako ten predchádzajúci. Jeho syntax je:

TRUST(alfa; štandardný_vývoj; veľkosť)

Ako vidíte, rozdiely sú len v názve operátora. Táto funkcia bola zachovaná v Exceli 2010 a novších verziách v špeciálnej kategórii z dôvodov kompatibility. "kompatibilita". Vo verziách Excelu 2007 a starších sa nachádza v hlavnej skupine štatistických operátorov.

Hranica intervalu spoľahlivosti sa určí pomocou vzorca v nasledujúcom tvare:

X+(-)NORMALNA DÔVERY

Kde X je priemer vzorky, ktorý sa nachádza v strede zvoleného rozsahu.

Teraz sa pozrime na to, ako vypočítať interval spoľahlivosti pomocou konkrétneho príkladu. Uskutočnilo sa 12 testov, ktorých výsledkom boli rôzne výsledky, ktoré sú uvedené v tabuľke. Toto je naša totalita. Štandardná odchýlka je 8. Musíme vypočítať interval spoľahlivosti na úrovni spoľahlivosti 97 %.

  1. Vyberte bunku, kde sa zobrazí výsledok spracovania údajov. Kliknutím na tlačidlo "Vložiť funkciu".
  2. Objaví sa Sprievodca funkciou. Prejdite do kategórie "štatistické" a zvýraznite názov "CONFIDENCE.NORM". Potom kliknite na tlačidlo OK.
  3. Otvorí sa okno s argumentmi. Jeho polia prirodzene zodpovedajú názvom argumentov.
    Nastavte kurzor na prvé pole - "alfa". Tu by sme mali špecifikovať úroveň významnosti. Ako si pamätáme, naša úroveň dôvery je 97%. Zároveň sme povedali, že sa počíta takto:

    (1-úroveň dôvery)/100

    To znamená, že dosadením hodnoty dostaneme:

    Jednoduchými výpočtami zistíme, že argument "alfa" rovná sa 0,03 . Zadajte túto hodnotu do poľa.

    Ako viete, štandardná odchýlka sa rovná 8 . Preto v teréne "Štandardná odchýlka" stačí napísať to číslo.

    V teréne "Veľkosť" musíte zadať počet prvkov vykonaných testov. Ako si pamätáme, oni 12 . Aby sme ale vzorec zautomatizovali a neupravovali ho pri každom novom teste, nastavme túto hodnotu nie na obyčajné číslo, ale pomocou operátora KONTROLA. Takže umiestnime kurzor do poľa "Veľkosť" a potom kliknite na trojuholník, ktorý sa nachádza naľavo od riadka vzorcov.

    Zobrazí sa zoznam naposledy použitých funkcií. Ak prevádzkovateľ KONTROLA ktorý ste nedávno použili, mal by byť na tomto zozname. V tomto prípade stačí kliknúť na jeho názov. V opačnom prípade, ak to nenájdete, prejdite k veci "Viac funkcií...".

  4. Zdá sa nám už povedomý Sprievodca funkciou. Presun späť do skupiny "štatistické". Tam vyberieme meno "KONTROLA". Kliknite na tlačidlo OK.
  5. Zobrazí sa okno argumentov pre vyššie uvedený operátor. Táto funkcia je určená na výpočet počtu buniek v určenom rozsahu, ktoré obsahujú číselné hodnoty. Jeho syntax je nasledovná:

    COUNT(hodnota1; hodnota2;…)

    Skupina argumentov "hodnoty" je odkaz na rozsah, v ktorom chcete vypočítať počet buniek vyplnených číselnými údajmi. Celkovo môže byť takýchto argumentov až 255, no v našom prípade potrebujeme len jeden.

    Nastavte kurzor do poľa "Hodnota 1" a podržaním ľavého tlačidla myši vyberte rozsah na hárku, ktorý obsahuje našu populáciu. Potom sa v poli zobrazí jeho adresa. Kliknite na tlačidlo OK.

  6. Potom aplikácia vykoná výpočet a výsledok zobrazí v bunke, kde sa nachádza. V našom konkrétnom prípade vzorec dopadol takto:

    CONFIDENCE NORM(0,03;8;POČET(B2:B13))

    Celkový výsledok výpočtov bol 5,011609 .

  7. To však nie je všetko. Ako si pamätáme, hranica intervalu spoľahlivosti sa vypočítava pripočítaním a odčítaním od priemernej hodnoty vzorky výsledku výpočtu NORMÁLNA DÔVERA. Týmto spôsobom sa vypočíta pravá a ľavá hranica intervalu spoľahlivosti, resp. Samotný výberový priemer možno vypočítať pomocou operátora PRIEMERNÝ.

    Tento operátor je určený na výpočet aritmetického priemeru zvoleného rozsahu čísel. Má nasledujúcu pomerne jednoduchú syntax:

    AVERAGE(číslo1; číslo2;…)

    Argumentovať "číslo" môže byť buď jedna číselná hodnota alebo odkaz na bunky alebo dokonca celé rozsahy, ktoré ich obsahujú.

    Vyberte teda bunku, v ktorej sa zobrazí výpočet priemernej hodnoty, a kliknite na tlačidlo "Vložiť funkciu".

  8. otvára Sprievodca funkciou. Späť do kategórie "štatistické" a vyberte meno zo zoznamu "Priemerný". Ako vždy kliknite na tlačidlo OK.
  9. Spustí sa okno argumentov. Nastavte kurzor do poľa "Číslo 1" a so stlačeným ľavým tlačidlom myši vyberte celý rozsah hodnôt. Po zobrazení súradníc v poli kliknite na tlačidlo OK.
  10. Potom PRIEMERNÝ vypíše výsledok výpočtu do prvku listu.
  11. Vypočítame pravú hranicu intervalu spoľahlivosti. Ak to chcete urobiť, vyberte samostatnú bunku a vložte znamienko «=» a pridajte obsah prvkov listu, v ktorom sa nachádzajú výsledky výpočtu funkcií PRIEMERNÝ a NORMÁLNA DÔVERA. Ak chcete vykonať výpočet, stlačte tlačidlo Zadajte. V našom prípade sme dostali nasledujúci vzorec:

    Výsledok výpočtu: 6,953276

  12. Rovnakým spôsobom vypočítame ľavú hranicu intervalu spoľahlivosti, len tentoraz z výsledku výpočtu PRIEMERNÝ odpočítajte výsledok výpočtu operátora NORMÁLNA DÔVERA. Ukazuje sa vzorec pre náš príklad nasledujúceho typu:

    Výsledok výpočtu: -3,06994

  13. Snažili sme sa podrobne popísať všetky kroky na výpočet intervalu spoľahlivosti, preto sme podrobne opísali každý vzorec. Všetky akcie však môžete spojiť do jedného vzorca. Výpočet pravej hranice intervalu spoľahlivosti možno napísať takto:

    AVERAGE(B2:B13)+CONFIDENCE(0,03;8;COUNT(B2:B13))

  14. Podobný výpočet ľavého okraja by vyzeral takto:

    AVERAGE(B2:B13)-CONFIDENCE.NORM(0.03;8;COUNT(B2:B13))

Metóda 2: Funkcia TRUST.STUDENT

Okrem toho existuje v Exceli ďalšia funkcia, ktorá súvisí s výpočtom intervalu spoľahlivosti - DÔVEROVAŤ.ŠTUDENT. Objavuje sa až od Excelu 2010. Tento operátor vykonáva výpočet populačného intervalu spoľahlivosti pomocou Studentovho rozdelenia. Je veľmi vhodné ho použiť v prípade, keď nie je známy rozptyl a teda aj štandardná odchýlka. Syntax operátora je:

TRUST.STUDENT(alfa,štandardný_vývoj,veľkosť)

Ako vidíte, mená operátorov v tomto prípade zostali nezmenené.

Pozrime sa, ako vypočítať hranice intervalu spoľahlivosti s neznámou smerodajnou odchýlkou ​​na príklade tej istej populácie, ktorú sme uvažovali v predchádzajúcej metóde. Úroveň dôvery, ako naposledy, vezmeme 97%.

  1. Vyberte bunku, v ktorej sa vykoná výpočet. Kliknite na tlačidlo "Vložiť funkciu".
  2. V otvorenom Sprievodca funkciou prejdite do kategórie "štatistické". Vyberte meno "DÔVERUJTE.ŠTUDENT". Kliknite na tlačidlo OK.
  3. Spustí sa okno argumentov pre zadaný operátor.

    V teréne "alfa", vzhľadom na to, že úroveň spoľahlivosti je 97 %, číslo si zapíšeme 0,03 . Druhýkrát sa nebudeme zaoberať princípmi výpočtu tohto parametra.

    Potom nastavte kurzor do poľa "Štandardná odchýlka". Tentoraz nám tento ukazovateľ nie je známy a treba ho spočítať. To sa vykonáva pomocou špeciálnej funkcie - STDEV.B. Ak chcete zavolať okno tohto operátora, kliknite na trojuholník naľavo od riadku vzorcov. Ak v zozname, ktorý sa otvorí, nenájdeme požadovaný názov, prejdite na položku "Viac funkcií...".

  4. beží Sprievodca funkciou. Presun do kategórie "štatistické" a označte meno "STDEV.B". Potom kliknite na tlačidlo OK.
  5. Otvorí sa okno s argumentmi. úloha operátora STDEV.B je definícia štandardnej odchýlky pri odbere vzoriek. Jeho syntax vyzerá takto:

    STDEV.V(číslo1,číslo2,…)

    Je ľahké uhádnuť, že argument "číslo" je adresa prvku výberu. Ak je výber umiestnený v jedinom poli, potom pomocou iba jedného argumentu môžete dať odkaz na tento rozsah.

    Nastavte kurzor do poľa "Číslo 1" a ako vždy podržaním ľavého tlačidla myši vyberte sadu. Keď sú súradnice v poli, neponáhľajte sa stlačiť tlačidlo OK pretože výsledok bude nesprávny. Najprv sa musíme vrátiť do okna argumentov operátora DÔVEROVAŤ.ŠTUDENT predniesť posledný argument. Ak to chcete urobiť, kliknite na príslušný názov na riadku vzorcov.

  6. Opäť sa otvorí okno argumentov už známej funkcie. Nastavte kurzor do poľa "Veľkosť". Opäť kliknite na už známy trojuholník, aby ste prešli na výber operátorov. Ako ste pochopili, potrebujeme meno "KONTROLA". Keďže sme túto funkciu použili pri výpočtoch v predchádzajúcej metóde, nachádza sa v tomto zozname, stačí na ňu kliknúť. Ak ho nenájdete, postupujte podľa algoritmu opísaného v prvej metóde.
  7. Vstup do okna argumentov KONTROLA, umiestnite kurzor do poľa "Číslo 1" a so stlačeným tlačidlom myši vyberte kolekciu. Potom kliknite na tlačidlo OK.
  8. Potom program vypočíta a zobrazí hodnotu intervalu spoľahlivosti.
  9. Na určenie hraníc budeme musieť opäť vypočítať výberový priemer. Ale vzhľadom na to, že algoritmus výpočtu používa vzorec PRIEMERNÝ rovnako ako v predchádzajúcej metóde a ani výsledok sa nezmenil, nebudeme sa tomu druhýkrát podrobne venovať.
  10. Sčítanie výsledkov výpočtu PRIEMERNÝ a DÔVEROVAŤ.ŠTUDENT, získame pravú hranicu intervalu spoľahlivosti.
  11. Odpočítanie od výsledkov výpočtu operátora PRIEMERNÝ výsledok výpočtu DÔVEROVAŤ.ŠTUDENT, máme ľavú hranicu intervalu spoľahlivosti.
  12. Ak je výpočet napísaný v jednom vzorci, potom bude výpočet pravej hranice v našom prípade vyzerať takto:

    PRIEMERNÉ(B2:B13)+SEBAVEDOMIE ŠTUDENTOV(0,03,STDV(B2:B13),POČET(B2:B13))

  13. Podľa toho bude vzorec na výpočet ľavého okraja vyzerať takto:

    PRIEMERNÉ(B2:B13)-SEBAVEDOMIE ŠTUDENTOV(0,03;STDV(B2:B13);POČET(B2:B13))

Ako vidíte, nástroje programu Excel umožňujú výrazne uľahčiť výpočet intervalu spoľahlivosti a jeho hraníc. Na tieto účely sa používajú samostatné operátory pre vzorky, ktorých rozptyl je známy a neznámy.

A ďalšie.Všetky sú to odhady ich teoretických náprotivkov, ktoré by sa dali získať, keby neexistovala vzorka, ale všeobecná populácia. Ale bohužiaľ, bežná populácia je veľmi drahá a často nedostupná.

Pojem intervalového odhadu

Akýkoľvek odhad vzorky má určitý rozptyl, pretože je náhodná premenná v závislosti od hodnôt v konkrétnej vzorke. Preto pre spoľahlivejšie štatistické závery treba poznať nielen bodový odhad, ale aj interval, ktorý s vysokou pravdepodobnosťou γ (gama) pokrýva odhadovaný ukazovateľ θ (theta).

Formálne sú to dve takéto hodnoty (štatistika) T1(X) a T2(X), čo T1< T 2 , pre ktoré pri danej úrovni pravdepodobnosti γ podmienka je splnená:

Je to skrátka pravdepodobné γ alebo viac, skutočná hodnota je medzi bodmi T1(X) a T2(X), ktoré sa nazývajú dolná a horná hranica interval spoľahlivosti.

Jednou z podmienok konštrukcie intervalov spoľahlivosti je jeho maximálna úzka, t.j. mala by byť čo najkratšia. Túžba je celkom prirodzená, pretože. výskumník sa snaží presnejšie lokalizovať zistenie požadovaného parametra.

Z toho vyplýva, že interval spoľahlivosti by mal pokrývať maximálne pravdepodobnosti rozdelenia. a samotné skóre bude v strede.

To znamená, že pravdepodobnosť odchýlky (skutočného ukazovateľa od odhadu) smerom nahor sa rovná pravdepodobnosti odchýlky smerom nadol. Treba tiež poznamenať, že pre zošikmené distribúcie sa interval vpravo nerovná intervalu vľavo.

Vyššie uvedený obrázok jasne ukazuje, že čím vyššia je úroveň spoľahlivosti, tým širší je interval - priamy vzťah.

Toto bol malý úvod do teórie intervalového odhadu neznámych parametrov. Prejdime k hľadaniu hraníc spoľahlivosti pre matematické očakávania.

Interval spoľahlivosti pre matematické očakávania

Ak sú pôvodné údaje rozdelené na , priemer bude normálna hodnota. Vyplýva to z pravidla, že lineárna kombinácia normálnych hodnôt má tiež normálne rozdelenie. Preto by sme na výpočet pravdepodobností mohli použiť matematický aparát zákona normálneho rozdelenia.

To si však bude vyžadovať znalosť dvoch parametrov – očakávanej hodnoty a rozptylu, ktoré väčšinou nie sú známe. Namiesto parametrov môžete samozrejme použiť odhady (aritmetický priemer a ), ale potom nebude rozdelenie priemeru celkom normálne, bude mierne sploštené. Írsky občan William Gosset si túto skutočnosť šikovne všimol, keď svoj objav zverejnil v marci 1908 v časopise Biometrica. Z dôvodu utajenia podpísal Gosset so Študentom. Takto sa objavilo Študentovo t-rozdelenie.

Normálna distribúcia údajov, ktorú používa K. Gauss pri analýze chýb v astronomických pozorovaniach, je však v pozemskom živote extrémne vzácna a je dosť ťažké ju určiť (na vysokú presnosť je potrebných asi 2 000 pozorovaní). Preto je najlepšie upustiť od predpokladu normality a použiť metódy, ktoré nezávisia od distribúcie pôvodných údajov.

Vzniká otázka: aké je rozdelenie aritmetického priemeru, ak sa vypočítava z údajov neznámeho rozdelenia? Odpoveď dáva dobre známy z teórie pravdepodobnosti Centrálna limitná veta(CPT). V matematike existuje niekoľko jeho verzií (formulácie sa v priebehu rokov zdokonaľovali), ale všetky, zhruba povedané, vedú k konštatovaniu, že súčet veľkého počtu nezávislých náhodných premenných sa riadi zákonom normálneho rozdelenia.

Pri výpočte aritmetického priemeru sa používa súčet náhodných premenných. Z toho vyplýva, že aritmetický priemer má normálne rozdelenie, v ktorom očakávaná hodnota je očakávaná hodnota počiatočných údajov a rozptyl je .

Chytrí ľudia vedia dokázať CLT, ale overíme si to pomocou experimentu v Exceli. Simulujme vzorku 50 rovnomerne rozdelených náhodných premenných (pomocou excelovej funkcie RANDOMBETWEEN). Potom urobíme 1000 takýchto vzoriek a pre každú vypočítame aritmetický priemer. Pozrime sa na ich distribúciu.

Je vidieť, že rozdelenie priemeru sa blíži normálnemu zákonu. Ak sa objem vzoriek a ich počet ešte zväčšia, podobnosť bude ešte lepšia.

Teraz, keď sme na vlastné oči videli platnosť CLT, môžeme pomocou , vypočítať intervaly spoľahlivosti pre aritmetický priemer, ktoré pokrývajú skutočný priemer alebo matematické očakávania s danou pravdepodobnosťou.

Na stanovenie hornej a dolnej hranice je potrebné poznať parametre normálneho rozdelenia. Spravidla nie sú, preto sa používajú odhady: aritmetický priemer a vzorový rozptyl. Táto metóda opäť poskytuje dobrú aproximáciu iba pre veľké vzorky. Keď sú vzorky malé, často sa odporúča použiť Studentovu distribúciu. Neverte! Študentovo rozdelenie pre priemer sa vyskytuje iba vtedy, keď pôvodné údaje majú normálne rozdelenie, teda takmer nikdy. Preto je lepšie okamžite nastaviť minimálnu latku pre množstvo požadovaných údajov a použiť asymptoticky správne metódy. Hovorí sa, že stačí 30 pozorovaní. Vezmite 50 - nemôžete sa pokaziť.

T 1.2 sú dolné a horné hranice intervalu spoľahlivosti

– vzorový aritmetický priemer

s0– vzorová štandardná odchýlka (nezaujatá)

n - veľkosť vzorky

γ – úroveň spoľahlivosti (zvyčajne sa rovná 0,9, 0,95 alebo 0,99)

c γ =Φ -1 ((1+γ)/2) je prevrátená hodnota funkcie štandardného normálneho rozdelenia. Jednoducho povedané, ide o počet štandardných chýb od aritmetického priemeru po dolnú alebo hornú hranicu (uvedené tri pravdepodobnosti zodpovedajú hodnotám 1,64, 1,96 a 2,58).

Podstatou vzorca je, že sa vezme aritmetický priemer a potom sa z neho vyčlení určitá čiastka ( s γ) štandardné chyby ( s 0 /√n). Všetko je známe, vezmite a počítajte.

Pred masovým používaním PC na získanie hodnôt funkcie normálneho rozdelenia a jeho inverznej hodnoty používali . Stále sa používajú, ale efektívnejšie je obrátiť sa na hotové vzorce Excelu. Všetky prvky z vyššie uvedeného vzorca ( , a ) možno jednoducho vypočítať v Exceli. Existuje však aj hotový vzorec na výpočet intervalu spoľahlivosti - NORMÁLNA DÔVERA. Jeho syntax je nasledovná.

CONFIDENCE NORM(alfa; štandardný_vývoj; veľkosť)

alfa– hladina významnosti alebo hladina spoľahlivosti, ktorá sa vo vyššie uvedenom zápise rovná 1-γ, t.j. pravdepodobnosť, že matematickéočakávanie bude mimo intervalu spoľahlivosti. S úrovňou spoľahlivosti 0,95 je alfa 0,05 atď.

štandard_vyp je štandardná odchýlka údajov vzorky. Nemusíte počítať štandardnú chybu, Excel bude deliť odmocninou z n.

veľkosť– veľkosť vzorky (n).

Výsledkom funkcie CONFIDENCE.NORM je druhý člen zo vzorca na výpočet intervalu spoľahlivosti, t.j. polovičný interval. V súlade s tým sú dolné a horné body priemer ± získaná hodnota.

Je teda možné vytvoriť univerzálny algoritmus na výpočet intervalov spoľahlivosti pre aritmetický priemer, ktorý nezávisí od distribúcie počiatočných údajov. Cenou za univerzálnosť je jej asymptotická povaha, t.j. nutnosť použiť relatívne veľké vzorky. V dobe moderných technológií však zhromaždenie správneho množstva údajov zvyčajne nie je ťažké.

Testovanie štatistických hypotéz pomocou intervalu spoľahlivosti

(modul 111)

Jedným z hlavných problémov riešených v štatistike je. Stručne povedané, jeho podstatou je toto. Vychádza sa napríklad z predpokladu, že očakávanie bežnej populácie sa rovná nejakej hodnote. Potom sa skonštruuje distribúcia priemerov vzorky, ktorú možno pozorovať s daným očakávaním. Ďalej sa pozrieme na to, kde sa v tomto podmienenom rozdelení nachádza skutočný priemer. Ak prekročí povolené limity, potom je výskyt takéhoto priemeru veľmi nepravdepodobný a pri jedinom opakovaní experimentu je takmer nemožný, čo je v rozpore s predloženou hypotézou, ktorá sa úspešne zamieta. Ak priemer neprekročí kritickú úroveň, hypotéza sa nezamietne (ale ani sa nepotvrdí!).

Takže pomocou intervalov spoľahlivosti, v našom prípade pre očakávanie, môžete otestovať aj niektoré hypotézy. Je to veľmi jednoduché. Predpokladajme, že aritmetický priemer pre nejakú vzorku je 100. Testuje sa hypotéza, že očakávaná hodnota je povedzme 90. To znamená, že ak otázku položíme primitívne, znie to takto: môže to byť so skutočnou hodnotou priemer rovný 90, pozorovaný priemer bol 100?

Na zodpovedanie tejto otázky budú potrebné ďalšie informácie o štandardnej odchýlke a veľkosti vzorky. Povedzme, že štandardná odchýlka je 30 a počet pozorovaní je 64 (na ľahké extrahovanie koreňa). Potom je štandardná chyba priemeru 30/8 alebo 3,75. Na výpočet 95 % intervalu spoľahlivosti budete musieť vyčleniť dve štandardné chyby na oboch stranách priemeru (presnejšie 1,96). Interval spoľahlivosti bude približne 100 ± 7,5 alebo od 92,5 do 107,5.

Ďalšie zdôvodnenie je nasledovné. Ak testovaná hodnota spadá do intervalu spoľahlivosti, potom to nie je v rozpore s hypotézou, pretože zapadá do limitov náhodných výkyvov (s pravdepodobnosťou 95 %). Ak je testovaný bod mimo intervalu spoľahlivosti, potom je pravdepodobnosť takejto udalosti veľmi malá, v každom prípade pod prijateľnou úrovňou. Preto sa hypotéza zamieta, pretože je v rozpore s pozorovanými údajmi. V našom prípade je hypotéza očakávania mimo intervalu spoľahlivosti (testovaná hodnota 90 nie je zahrnutá v intervale 100±7,5), preto ju treba zamietnuť. Pri odpovedi na vyššie uvedenú primitívnu otázku by sa malo povedať: nie, nemôže, v žiadnom prípade sa to stáva veľmi zriedka. Často to naznačuje konkrétnu pravdepodobnosť chybného zamietnutia hypotézy (úroveň p), a nie danú úroveň, podľa ktorej bol interval spoľahlivosti zostavený, ale o tom inokedy.

Ako vidíte, nie je ťažké vytvoriť interval spoľahlivosti pre priemer (alebo matematické očakávania). Hlavná vec je zachytiť podstatu a potom to pôjde. V praxi väčšina používa 95 % interval spoľahlivosti, čo sú približne dve štandardné chyby široké na oboch stranách priemeru.

To je zatiaľ všetko. Všetko najlepšie!

Z tohto článku sa dozviete:

    Čo interval spoľahlivosti?

    Aká je pointa pravidlá 3 sigma?

    Ako možno tieto poznatky uplatniť v praxi?

V dnešnej dobe kvôli prebytku informácií spojených s veľkým sortimentom produktov, predajných smerov, zamestnancov, aktivít atď. je ťažké vybrať to hlavné, ktorý v prvom rade stojí za pozornosť a snahu zvládnuť. Definícia interval spoľahlivosti a analýza prekročenia svojich hraníc skutočných hodnôt - technika, ktorá vám pomôže identifikovať situácie, ovplyvňovanie trendov. Budete schopní rozvíjať pozitívne faktory a znižovať vplyv negatívnych. Táto technológia sa používa v mnohých známych svetových spoločnostiach.

Existujú tzv upozornenia", ktorý informovať manažérov s uvedením, že ďalšia hodnota v určitom smere išiel ďalej interval spoľahlivosti. Čo to znamená? Je to signál, že došlo k nejakej neštandardnej udalosti, ktorá môže zmeniť doterajší trend v tomto smere. Toto je signál k tomu aby som to vyriešil v danej situácii a pochopiť, čo ju ovplyvnilo.

Zvážte napríklad niekoľko situácií. Vypočítali sme prognózu predaja s hranicami prognózy pre 100 položiek komodít na rok 2011 podľa mesiacov a skutočných predajov v marci:

  1. Pre „Slnečnicový olej“ prelomili hornú hranicu prognózy a nespadli do intervalu spoľahlivosti.
  2. Pre "Suché droždie" prekročili spodnú hranicu prognózy.
  3. Na "Oatmeal Kaša" prerazil hornú hranicu.

V prípade zvyšku tovaru bol skutočný predaj v rámci špecifikovaných prognózovaných hraníc. Tie. ich predaj bol v súlade s očakávaniami. Identifikovali sme teda 3 produkty, ktoré prekročili hranice, a začali sme zisťovať, čo ovplyvnilo prechod za hranice:

  1. So slnečnicovým olejom sme vstúpili do novej obchodnej siete, čo nám poskytlo ďalší objem predaja, čo viedlo k prekročeniu hornej hranice. Pre tento produkt sa oplatí prepočítať prognózu do konca roka s prihliadnutím na prognózu predaja do tohto reťazca.
  2. Za Suché kvasnice sa auto zaseklo na colnici a do 5 dní bol nedostatok, čo ovplyvnilo pokles predaja a prechod za spodnú hranicu. Možno by stálo za to zistiť, čo spôsobilo príčinu, a pokúsiť sa túto situáciu neopakovať.
  3. Pre Ovsené vločky bola spustená predajná akcia, ktorá viedla k výraznému zvýšeniu tržieb a viedla k prestreleniu prognózy.

Identifikovali sme 3 faktory, ktoré ovplyvnili prestrelenie prognózy. V živote ich môže byť oveľa viac.Pre zlepšenie presnosti prognóz a plánovania, faktorov, ktoré vedú k tomu, že skutočný predaj môže ísť nad rámec prognózy, stojí za to zdôrazniť a zostaviť prognózy a plány pre ne samostatne. A potom vziať do úvahy ich vplyv na hlavnú prognózu predaja. Môžete tiež pravidelne vyhodnocovať vplyv týchto faktorov a meniť situáciu k lepšiemu znížením vplyvu negatívnych a zvýšením vplyvu pozitívnych faktorov.

S intervalom spoľahlivosti môžeme:

  1. Zvýraznite destinácie, ktoré stoja za pozornosť, pretože v týchto oblastiach sa vyskytli udalosti, ktoré môžu ovplyvniť zmena trendu.
  2. Určiť faktoryčo vlastne robí rozdiel.
  3. Prijať vážené rozhodnutie(napríklad o obstarávaní, pri plánovaní a pod.).

Teraz sa pozrime na to, čo je interval spoľahlivosti a ako ho vypočítať v programe Excel pomocou príkladu.

Čo je interval spoľahlivosti?

Interval spoľahlivosti je hranica prognózy (horná a dolná), v rámci ktorej s danou pravdepodobnosťou (sigma) získajte skutočné hodnoty.

Tie. vypočítame prognózu - to je naše hlavné kritérium, ale chápeme, že skutočné hodnoty sa pravdepodobne nebudú 100% rovnať našej prognóze. A vyvstáva otázka do akej miery môže získať skutočné hodnoty, ak bude súčasný trend pokračovať? A táto otázka nám pomôže zodpovedať výpočet intervalu spoľahlivosti, t.j. - horná a dolná hranica predpovede.

Čo je daná pravdepodobnosť sigma?

Pri výpočte interval spoľahlivosti môžeme nastaviť pravdepodobnosť hity skutočné hodnoty v rámci daných hraníc prognózy. Ako to spraviť? Aby sme to dosiahli, nastavíme hodnotu sigma a ak sa sigma rovná:

    3 sigma- potom bude pravdepodobnosť dosiahnutia ďalšej skutočnej hodnoty v intervale spoľahlivosti 99,7 % alebo 300 ku 1, alebo je 0,3 % pravdepodobnosť prekročenia hraníc.

    2 sigma- potom je pravdepodobnosť dosiahnutia ďalšej hodnoty v rámci hraníc ≈ 95,5 %, t.j. šance sú asi 20 ku 1, alebo je 4,5% šanca, že pôjdete mimo.

    1 sigma- potom je pravdepodobnosť ≈ 68,3 %, t.j. šance sú približne 2 ku 1 alebo existuje 31,7 % šanca, že ďalšia hodnota bude mimo intervalu spoľahlivosti.

Formulovali sme 3 Sigma pravidlo,ktorý hovorí, že pravdepodobnosť zásahu iná náhodná hodnota do intervalu spoľahlivosti s danou hodnotou tri sigma je 99,7%.

Veľký ruský matematik Čebyšev dokázal vetu, že existuje 10% šanca, že prekročíme hranice prognózy s danou hodnotou tri sigma. Tie. pravdepodobnosť pádu do intervalu spoľahlivosti 3 sigma bude minimálne 90 %, pričom pokus o výpočet prognózy a jej hraníc „od oka“ je plný oveľa výraznejších chýb.

Ako nezávisle vypočítať interval spoľahlivosti v programe Excel?

Zoberme si výpočet intervalu spoľahlivosti v Exceli (tj horná a dolná hranica prognózy) na príklade. Máme časový rad - predaj po mesiacoch za 5 rokov. Pozri si prílohu.

Na výpočet hraníc prognózy vypočítame:

  1. Prognóza predaja().
  2. Sigma - štandardná odchýlka predpovedné modely zo skutočných hodnôt.
  3. Tri sigma.
  4. Interval spoľahlivosti.

1. Prognóza predaja.

=(RC[-14] (údaje v časovom rade)-RC[-1] (hodnota modelu))^2 (štvorec)


3. Spočítajte za každý mesiac hodnoty odchýlok od štádia 8 Sum((Xi-Ximod)^2), t.j. Sčítajme január, február... za každý rok.

Ak to chcete urobiť, použite vzorec =SUMIF()

SUMIF(pole s počtom období vo vnútri cyklu (pre mesiace od 1 do 12); odkaz na číslo obdobia v cykle; odkaz na pole so štvorcami rozdielu medzi počiatočnými údajmi a hodnotami obdobia)


4. Vypočítajte štandardnú odchýlku pre každé obdobie v cykle od 1 do 12 (10. fáza v priloženom súbore).

Aby sme to dosiahli, z hodnoty vypočítanej v štádiu 9 extrahujeme koreň a vydelíme ho počtom období v tomto cykle mínus 1 = ROOT((Sum(Xi-Ximod)^2/(n-1))

Použime vzorce v Exceli =ROOT(R8 (odkaz na (Sum(Xi-Ximod)^2)/(COUNTIF($O$8:$O$67 (odkaz na pole s číslami cyklov); O8 (odkaz na konkrétne číslo cyklu, ktoré zvažujeme v poli))-1))

Pomocou vzorca Excel = COUNTIF spočítame číslo n


Výpočtom smerodajnej odchýlky skutočných údajov z predpovedného modelu sme získali hodnotu sigma pre každý mesiac - fáza 10 v priloženom súbore.

3. Vypočítajte 3 sigma.

V štádiu 11 nastavíme počet sigmov – v našom príklade „3“ (11. v priloženom súbore):

Tiež praktické hodnoty sigma:

1,64 sigma - 10% šanca na prekročenie limitu (1 šanca z 10);

1,96 sigma – 5 % šanca na prekročenie hraníc (1 šanca z 20);

2,6 sigma – 1 % šanca, že pôjdete mimo hraciu plochu (šanca 1 zo 100).

5) Vypočítame tri sigma, na tento účel vynásobíme hodnoty „sigma“ za každý mesiac „3“.

3. Určite interval spoľahlivosti.

  1. Horný limit predpovede- prognóza predaja zohľadňujúca rast a sezónnosť + (plus) 3 sigma;
  2. Dolná hranica predpovede- prognóza predaja zohľadňujúca rast a sezónnosť - (mínus) 3 sigma;

Na uľahčenie výpočtu intervalu spoľahlivosti na dlhé obdobie (pozri priložený súbor) používame vzorec Excel =Y8+VLOOKUP(W8;$U$8:$V$19;2;0), kde

Y8- prognóza predaja;

W8- číslo mesiaca, za ktorý budeme brať hodnotu 3 sigma;

Tie. Horný limit predpovede= "predpoveď predaja" + "3 sigma" (v príklade VLOOKUP(číslo mesiaca; tabuľka s 3 hodnotami sigma; stĺpec, z ktorého extrahujeme hodnotu sigma rovnajúcu sa číslu mesiaca v príslušnom riadku; 0)).

Dolná hranica predpovede= "predpoveď predaja" mínus "3 sigma".

V Exceli sme teda vypočítali interval spoľahlivosti.

Teraz máme predpoveď a rozsah s hranicami, do ktorých budú skutočné hodnoty spadať s danou pravdepodobnosťou sigma.

V tomto článku sme sa pozreli na to, čo je sigma a pravidlo tri sigma, ako určiť interval spoľahlivosti a na čo môžete túto techniku ​​v praxi použiť.

Presné predpovede a úspech pre vás!

Ako Forecast4AC PRO vám môže pomôcťpri výpočte intervalu spoľahlivosti?:

    Forecast4AC PRO automaticky vypočíta horné alebo dolné predpovedné limity pre viac ako 1000 časových radov súčasne;

    Schopnosť analyzovať hranice prognózy v porovnaní s prognózou, trendom a skutočným predajom na grafe jedným stlačením klávesu;

V programe Forcast4AC PRO je možné nastaviť hodnotu sigma od 1 do 3.

Pripoj sa k nám!

Stiahnite si bezplatné predpovede a aplikácie Business Intelligence:


  • Novo Forecast Lite- automatický predpovedný výpočet v excel.
  • 4analytika- ABC-XYZ analýza a analýza emisií v Excel.
  • Qlik Sense Desktop a QlikViewPersonal Edition - BI systémy pre analýzu a vizualizáciu dát.

Otestujte funkcie platených riešení:

  • Novo Forecast PRO- predpovedanie v Exceli pre veľké dátové polia.

Odhadca musí často analyzovať trh s nehnuteľnosťami v segmente, v ktorom sa nachádza predmet ocenenia. Ak je trh rozvinutý, môže byť ťažké analyzovať celý súbor prezentovaných objektov, preto sa na analýzu používa vzorka objektov. Táto vzorka nie je vždy homogénna, niekedy je potrebné ju očistiť od extrémov – príliš vysokých alebo príliš nízkych trhových ponúk. Na tento účel sa používa interval spoľahlivosti. Účelom tejto štúdie je vykonať porovnávaciu analýzu dvoch metód na výpočet intervalu spoľahlivosti a vybrať najlepšiu možnosť výpočtu pri práci s rôznymi vzorkami v systéme estimatica.pro.

Interval spoľahlivosti - vypočítaný na základe vzorky, interval hodnôt atribútu, ktorý so známou pravdepodobnosťou obsahuje odhadovaný parameter všeobecnej populácie.

Zmyslom výpočtu intervalu spoľahlivosti je zostaviť taký interval na základe vzorových údajov, aby bolo možné s danou pravdepodobnosťou tvrdiť, že hodnota odhadovaného parametra je v tomto intervale. Inými slovami, interval spoľahlivosti s určitou pravdepodobnosťou obsahuje neznámu hodnotu odhadovanej veličiny. Čím širší je interval, tým vyššia je nepresnosť.

Existujú rôzne metódy na určenie intervalu spoľahlivosti. V tomto článku zvážime 2 spôsoby:

  • prostredníctvom mediánu a štandardnej odchýlky;
  • cez kritickú hodnotu t-štatistiky (Studentov koeficient).

Etapy porovnávacej analýzy rôznych metód na výpočet CI:

1. vytvorte vzorku údajov;

2. spracujeme štatistickými metódami: vypočítame strednú hodnotu, medián, rozptyl a pod.;

3. interval spoľahlivosti vypočítame dvoma spôsobmi;

4. Analyzujte vyčistené vzorky a získané intervaly spoľahlivosti.

Fáza 1. Vzorkovanie údajov

Vzorka bola vytvorená pomocou systému estimatica.pro. Vzorka obsahovala 91 ponúk na predaj 1-izbových bytov v 3. cenovej zóne s typom plánovania "Chruščov".

Tabuľka 1. Počiatočná vzorka

Cena 1 m2, c.u.

Obr.1. Počiatočná vzorka



Etapa 2. Spracovanie počiatočnej vzorky

Spracovanie vzoriek štatistickými metódami si vyžaduje výpočet nasledujúcich hodnôt:

1. Aritmetický priemer

2. Medián - číslo, ktoré charakterizuje vzorku: presne polovica prvkov vzorky je väčšia ako medián, druhá polovica je menšia ako medián

(pre vzorku s nepárnym počtom hodnôt)

3. Rozsah - rozdiel medzi maximálnymi a minimálnymi hodnotami vo vzorke

4. Rozptyl – používa sa na presnejšie odhadnutie odchýlky v údajoch

5. Smerodajná odchýlka pre vzorku (ďalej len RMS) je najbežnejším ukazovateľom rozptylu hodnôt úpravy okolo aritmetického priemeru.

6. Variačný koeficient – ​​odráža stupeň rozptylu hodnôt úprav

7. koeficient oscilácie – odráža relatívne kolísanie extrémnych hodnôt cien vo vzorke okolo priemeru

Tabuľka 2. Štatistické ukazovatele pôvodnej vzorky

Variačný koeficient, ktorý charakterizuje homogenitu údajov, je 12,29 %, ale koeficient oscilácie je príliš veľký. Môžeme teda konštatovať, že pôvodná vzorka nie je homogénna, prejdime teda k výpočtu intervalu spoľahlivosti.

Fáza 3. Výpočet intervalu spoľahlivosti

Metóda 1. Výpočet prostredníctvom mediánu a štandardnej odchýlky.

Interval spoľahlivosti sa určí nasledovne: minimálna hodnota - štandardná odchýlka sa odpočíta od mediánu; maximálna hodnota - smerodajná odchýlka sa pripočítava k mediánu.

Interval spoľahlivosti (47179 CU; 60689 CU)

Ryža. 2. Hodnoty v rámci intervalu spoľahlivosti 1.



Metóda 2. Vytvorenie intervalu spoľahlivosti prostredníctvom kritickej hodnoty t-štatistiky (Studentov koeficient)

S.V. Gribovský v knihe „Matematické metódy hodnotenia hodnoty majetku“ popisuje metódu výpočtu intervalu spoľahlivosti prostredníctvom Studentovho koeficientu. Pri výpočte touto metódou musí odhadca sám nastaviť hladinu významnosti ∝, ktorá určuje pravdepodobnosť, s akou bude interval spoľahlivosti zostavený. Bežne sa používajú úrovne významnosti 0,1; 0,05 a 0,01. Zodpovedajú pravdepodobnostiam spoľahlivosti 0,9; 0,95 a 0,99. Pri tejto metóde sa skutočné hodnoty matematického očakávania a rozptylu považujú za prakticky neznáme (čo platí takmer vždy pri riešení praktických úloh hodnotenia).

Vzorec intervalu spoľahlivosti:

n - veľkosť vzorky;

Kritická hodnota t-štatistiky (Studentove rozdelenia) s hladinou významnosti ∝, počet stupňov voľnosti n-1, ktorá je určená špeciálnymi štatistickými tabuľkami alebo pomocou MS Excel (→"Štatistické"→ STUDRASPOBR);

∝ - hladina významnosti, berieme ∝=0,01.

Ryža. 2. Hodnoty v rámci intervalu spoľahlivosti 2.

Krok 4. Analýza rôznych spôsobov výpočtu intervalu spoľahlivosti

Dve metódy výpočtu intervalu spoľahlivosti - prostredníctvom mediánu a Studentovho koeficientu - viedli k rôznym hodnotám intervalov. V súlade s tým sa získali dve rôzne purifikované vzorky.

Tabuľka 3. Štatistické ukazovatele pre tri vzorky.

Indikátor

Počiatočná vzorka

1 možnosť

Možnosť 2

Priemerná

Disperzia

Coef. variácie

Coef. oscilácie

Počet vyradených predmetov, ks.

Na základe vykonaných výpočtov môžeme povedať, že hodnoty intervalov spoľahlivosti získané rôznymi metódami sa prelínajú, takže podľa uváženia odhadcu môžete použiť ktorúkoľvek z metód výpočtu.

Domnievame sa však, že pri práci v systéme estimatica.pro je vhodné zvoliť metódu výpočtu intervalu spoľahlivosti v závislosti od stupňa vývoja trhu:

  • ak trh nie je rozvinutý, použite metódu výpočtu prostredníctvom mediánu a štandardnej odchýlky, pretože počet vyradených objektov je v tomto prípade malý;
  • ak je trh rozvinutý, aplikujte výpočet cez kritickú hodnotu t-štatistiky (Studentov koeficient), keďže je možné vytvoriť veľkú počiatočnú vzorku.

Pri príprave článku boli použité:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematické metódy hodnotenia hodnoty majetku. Moskva, 2014

2. Údaje zo systému estimatica.pro