Zostrojte interval spoľahlivosti pre matematické očakávania. Intervaly spoľahlivosti pre odhad matematického očakávania

A ďalšie.Všetky sú to odhady ich teoretických náprotivkov, ktoré by sa dali získať, keby neexistovala vzorka, ale všeobecná populácia. Ale bohužiaľ, bežná populácia je veľmi drahá a často nedostupná.

Pojem intervalového odhadu

Akýkoľvek odhad vzorky má určitý rozptyl, pretože je náhodná premenná v závislosti od hodnôt v konkrétnej vzorke. Preto pre spoľahlivejšie štatistické závery treba poznať nielen bodový odhad, ale aj interval, ktorý s vysokou pravdepodobnosťou γ (gama) pokrýva odhadovaný ukazovateľ θ (theta).

Formálne sú to dve takéto hodnoty (štatistika) T1(X) a T2(X), čo T1< T 2 , pre ktoré pri danej úrovni pravdepodobnosti γ podmienka je splnená:

Je to skrátka pravdepodobné γ alebo viac, skutočná hodnota je medzi bodmi T1(X) a T2(X), ktoré sa nazývajú dolná a horná hranica interval spoľahlivosti.

Jednou z podmienok konštrukcie intervalov spoľahlivosti je jeho maximálna úzka, t.j. mala by byť čo najkratšia. Túžba je celkom prirodzená, pretože. výskumník sa snaží presnejšie lokalizovať zistenie požadovaného parametra.

Z toho vyplýva, že interval spoľahlivosti by mal pokrývať maximálne pravdepodobnosti rozdelenia. a samotné skóre bude v strede.

To znamená, že pravdepodobnosť odchýlky (skutočného ukazovateľa od odhadu) smerom nahor sa rovná pravdepodobnosti odchýlky smerom nadol. Treba tiež poznamenať, že pre zošikmené distribúcie sa interval vpravo nerovná intervalu vľavo.

Vyššie uvedený obrázok jasne ukazuje, že čím vyššia je úroveň spoľahlivosti, tým širší je interval - priamy vzťah.

Toto bol malý úvod do teórie intervalového odhadu neznámych parametrov. Prejdime k hľadaniu hraníc spoľahlivosti pre matematické očakávania.

Interval spoľahlivosti pre matematické očakávania

Ak sú pôvodné údaje rozdelené na , priemer bude normálna hodnota. Vyplýva to z pravidla, že lineárna kombinácia normálnych hodnôt má tiež normálne rozdelenie. Preto by sme na výpočet pravdepodobností mohli použiť matematický aparát zákona normálneho rozdelenia.

To si však bude vyžadovať znalosť dvoch parametrov – očakávanej hodnoty a rozptylu, ktoré väčšinou nie sú známe. Namiesto parametrov môžete samozrejme použiť odhady (aritmetický priemer a ), ale potom nebude rozdelenie priemeru celkom normálne, bude mierne sploštené. Írsky občan William Gosset si túto skutočnosť šikovne všimol, keď svoj objav zverejnil v marci 1908 v časopise Biometrica. Z dôvodu utajenia podpísal Gosset so Študentom. Takto sa objavilo Študentovo t-rozdelenie.

Normálna distribúcia údajov, ktorú používa K. Gauss pri analýze chýb v astronomických pozorovaniach, je však v pozemskom živote extrémne vzácna a je dosť ťažké ju určiť (na vysokú presnosť je potrebných asi 2 000 pozorovaní). Preto je najlepšie upustiť od predpokladu normality a použiť metódy, ktoré nezávisia od distribúcie pôvodných údajov.

Vzniká otázka: aké je rozdelenie aritmetického priemeru, ak sa vypočítava z údajov neznámeho rozdelenia? Odpoveď dáva dobre známy z teórie pravdepodobnosti Centrálna limitná veta(CPT). V matematike existuje niekoľko jeho verzií (formulácie sa v priebehu rokov zdokonaľovali), ale všetky, zhruba povedané, vedú k konštatovaniu, že súčet veľkého počtu nezávislých náhodných premenných sa riadi zákonom normálneho rozdelenia.

Pri výpočte aritmetického priemeru sa používa súčet náhodných premenných. Z toho vyplýva, že aritmetický priemer má normálne rozdelenie, v ktorom očakávaná hodnota je očakávaná hodnota pôvodných údajov a rozptyl je .

Chytrí ľudia vedia dokázať CLT, ale overíme si to pomocou experimentu v Exceli. Simulujme vzorku 50 rovnomerne rozdelených náhodných premenných (pomocou excelovej funkcie RANDOMBETWEEN). Potom urobíme 1000 takýchto vzoriek a pre každú vypočítame aritmetický priemer. Pozrime sa na ich distribúciu.

Je vidieť, že rozdelenie priemeru sa blíži normálnemu zákonu. Ak sa objem vzoriek a ich počet ešte zväčšia, podobnosť bude ešte lepšia.

Teraz, keď sme na vlastné oči videli platnosť CLT, môžeme pomocou , vypočítať intervaly spoľahlivosti pre aritmetický priemer, ktoré pokrývajú skutočný priemer alebo matematické očakávania s danou pravdepodobnosťou.

Na stanovenie hornej a dolnej hranice je potrebné poznať parametre normálneho rozdelenia. Spravidla nie sú, preto sa používajú odhady: aritmetický priemer a vzorový rozptyl. Táto metóda opäť poskytuje dobrú aproximáciu iba pre veľké vzorky. Keď sú vzorky malé, často sa odporúča použiť Studentovu distribúciu. Neverte! Študentovo rozdelenie pre priemer sa vyskytuje iba vtedy, keď pôvodné údaje majú normálne rozdelenie, teda takmer nikdy. Preto je lepšie okamžite nastaviť minimálnu latku pre množstvo požadovaných údajov a použiť asymptoticky správne metódy. Hovorí sa, že stačí 30 pozorovaní. Vezmite 50 - nemôžete sa pokaziť.

T 1.2 sú dolné a horné hranice intervalu spoľahlivosti

– vzorový aritmetický priemer

s0– vzorová štandardná odchýlka (nezaujatá)

n - veľkosť vzorky

γ – úroveň spoľahlivosti (zvyčajne sa rovná 0,9, 0,95 alebo 0,99)

c γ =Φ -1 ((1+γ)/2) je prevrátená hodnota funkcie štandardného normálneho rozdelenia. Jednoducho povedané, ide o počet štandardných chýb od aritmetického priemeru po dolnú alebo hornú hranicu (uvedené tri pravdepodobnosti zodpovedajú hodnotám 1,64, 1,96 a 2,58).

Podstatou vzorca je, že sa vezme aritmetický priemer a potom sa z neho vyčlení určitá čiastka ( s γ) štandardné chyby ( s 0 /√n). Všetko je známe, vezmite a počítajte.

Pred masovým používaním PC na získanie hodnôt funkcie normálneho rozdelenia a jeho inverznej hodnoty používali . Stále sa používajú, ale efektívnejšie je obrátiť sa na hotové vzorce Excelu. Všetky prvky z vyššie uvedeného vzorca ( , a ) možno jednoducho vypočítať v Exceli. Existuje však aj hotový vzorec na výpočet intervalu spoľahlivosti - NORMÁLNA DÔVERA. Jeho syntax je nasledovná.

CONFIDENCE NORM(alfa; štandardný_vývoj; veľkosť)

alfa– hladina významnosti alebo hladina spoľahlivosti, ktorá sa vo vyššie uvedenom zápise rovná 1-γ, t.j. pravdepodobnosť, že matematickéočakávanie bude mimo intervalu spoľahlivosti. S úrovňou spoľahlivosti 0,95 je alfa 0,05 atď.

štandard_vyp je štandardná odchýlka údajov vzorky. Nemusíte počítať štandardnú chybu, Excel bude deliť odmocninou z n.

veľkosť– veľkosť vzorky (n).

Výsledkom funkcie CONFIDENCE.NORM je druhý člen zo vzorca na výpočet intervalu spoľahlivosti, t.j. polovičný interval. V súlade s tým sú dolné a horné body priemer ± získaná hodnota.

Je teda možné vytvoriť univerzálny algoritmus na výpočet intervalov spoľahlivosti pre aritmetický priemer, ktorý nezávisí od distribúcie počiatočných údajov. Cenou za univerzálnosť je jej asymptotická povaha, t.j. nutnosť použiť relatívne veľké vzorky. V dobe moderných technológií však zhromaždenie správneho množstva údajov zvyčajne nie je ťažké.

Testovanie štatistických hypotéz pomocou intervalu spoľahlivosti

(modul 111)

Jedným z hlavných problémov riešených v štatistike je. Stručne povedané, jeho podstatou je toto. Vychádza sa napríklad z predpokladu, že očakávanie bežnej populácie sa rovná nejakej hodnote. Potom sa skonštruuje distribúcia priemerov vzorky, ktorú možno pozorovať s daným očakávaním. Ďalej sa pozrieme na to, kde sa v tomto podmienenom rozdelení nachádza skutočný priemer. Ak prekročí povolené limity, potom je výskyt takéhoto priemeru veľmi nepravdepodobný a pri jedinom opakovaní experimentu je takmer nemožný, čo je v rozpore s predloženou hypotézou, ktorá sa úspešne zamieta. Ak priemer neprekročí kritickú úroveň, hypotéza sa nezamietne (ale ani sa nepotvrdí!).

Takže pomocou intervalov spoľahlivosti, v našom prípade pre očakávanie, môžete otestovať aj niektoré hypotézy. Je to veľmi jednoduché. Predpokladajme, že aritmetický priemer pre nejakú vzorku je 100. Testuje sa hypotéza, že očakávaná hodnota je povedzme 90. To znamená, že ak otázku položíme primitívne, znie to takto: môže to byť so skutočnou hodnotou priemer rovný 90, pozorovaný priemer bol 100?

Na zodpovedanie tejto otázky budú potrebné ďalšie informácie o štandardnej odchýlke a veľkosti vzorky. Povedzme, že štandardná odchýlka je 30 a počet pozorovaní je 64 (na ľahké extrahovanie koreňa). Potom je štandardná chyba priemeru 30/8 alebo 3,75. Na výpočet 95 % intervalu spoľahlivosti budete musieť vyčleniť dve štandardné chyby na oboch stranách priemeru (presnejšie 1,96). Interval spoľahlivosti bude približne 100 ± 7,5 alebo od 92,5 do 107,5.

Ďalšie zdôvodnenie je nasledovné. Ak testovaná hodnota spadá do intervalu spoľahlivosti, potom to nie je v rozpore s hypotézou, pretože zapadá do limitov náhodných výkyvov (s pravdepodobnosťou 95 %). Ak je testovaný bod mimo intervalu spoľahlivosti, potom je pravdepodobnosť takejto udalosti veľmi malá, v každom prípade pod prijateľnou úrovňou. Preto sa hypotéza zamieta, pretože je v rozpore s pozorovanými údajmi. V našom prípade je hypotéza očakávania mimo intervalu spoľahlivosti (testovaná hodnota 90 nie je zahrnutá v intervale 100±7,5), preto ju treba zamietnuť. Pri odpovedi na vyššie uvedenú primitívnu otázku by sa malo povedať: nie, nemôže, v žiadnom prípade sa to stáva veľmi zriedka. Často to naznačuje konkrétnu pravdepodobnosť chybného zamietnutia hypotézy (p-level), a nie danú úroveň, podľa ktorej bol interval spoľahlivosti zostavený, ale o tom inokedy.

Ako vidíte, nie je ťažké vytvoriť interval spoľahlivosti pre priemer (alebo matematické očakávania). Hlavná vec je zachytiť podstatu a potom to pôjde. V praxi väčšina používa 95 % interval spoľahlivosti, čo sú približne dve štandardné chyby široké na oboch stranách priemeru.

To je zatiaľ všetko. Všetko najlepšie!

Nech sa urobí vzorka zo všeobecnej populácie podliehajúcej zákonu normálne distribúcia XN( m; ). Tento základný predpoklad matematickej štatistiky je založený na centrálnej limitnej vete. Nech je známa všeobecná štandardná odchýlka , ale matematické očakávanie teoretického rozdelenia nie je známe m(priemer).

V tomto prípade vzorový priemer , získaná počas experimentu (časť 3.4.2), bude tiež náhodnou premennou m;
). Potom "normalizovaná" odchýlka
N(0;1) je štandardná normálna náhodná premenná.

Problém je nájsť intervalový odhad pre m. Zostrojme obojstranný interval spoľahlivosti pre m aby mu s danou pravdepodobnosťou (spoľahlivosťou) patrilo skutočné matematické očakávanie .

Nastavte taký interval pre hodnotu
znamená nájsť maximálnu hodnotu tejto veličiny
a minimálne
, čo sú hranice kritického regiónu:
.

Pretože táto pravdepodobnosť je
, potom koreň tejto rovnice
možno nájsť pomocou tabuliek Laplaceovej funkcie (tabuľka 3, príloha 1).

Potom s pravdepodobnosťou možno tvrdiť, že náhodná premenná
, to znamená, že požadovaný všeobecný priemer patrí do intervalu
. (3.13)

hodnota
(3.14)

volal presnosť odhady.

číslo
kvantil normálne rozdelenie - možno ho nájsť ako argument Laplaceovej funkcie (tabuľka 3, príloha 1), ak je daný pomer 2Ф( u)=, t.j. F( u)=
.

Naopak, podľa zadanej hodnoty odchýlky je možné zistiť, s akou pravdepodobnosťou patrí neznámy všeobecný priemer do intervalu
. Ak to chcete urobiť, musíte počítať

. (3.15)

Nech sa náhodná vzorka odoberie zo všeobecnej populácie metódou opätovného výberu. Z rovnice
môže byť najdený minimálne objem prevzorkovania n potrebné na zabezpečenie intervalu spoľahlivosti s danou spoľahlivosťou neprekročila prednastavenú hodnotu . Požadovaná veľkosť vzorky sa odhaduje pomocou vzorca:

. (3.16)

Skúmanie presnosť odhadu
:

1) S rastúcou veľkosťou vzorky n rozsah klesá a teda presnosť odhadu zvyšuje.

2) C zvýšiť spoľahlivosť odhadov hodnota argumentu sa zvýši u(pretože F(u) rastie monotónne) a teda zvyšuje . V tomto prípade zvýšenie spoľahlivosti znižuje presnosť jeho hodnotenia .

Odhad
(3.17)

volal klasický(kde t je parameter, ktorý závisí od a n), pretože charakterizuje najčastejšie sa vyskytujúce distribučné zákony.

3.5.3 Intervaly spoľahlivosti pre odhad očakávania normálneho rozdelenia s neznámou smerodajnou odchýlkou ​​

Nech je známe, že všeobecná populácia podlieha zákonu normálneho rozdelenia XN( m;), kde je hodnota stredná odmocnina odchýlky neznámy.

Na vytvorenie intervalu spoľahlivosti na odhad všeobecného priemeru sa v tomto prípade používa štatistika
, ktorá má študentskú distribúciu s k= n-1 stupeň voľnosti. Vyplýva to zo skutočnosti, že N(0;1) (pozri bod 3.5.2) a
(pozri odsek 3.5.3) az definície študentského rozdelenia (časť 1. odsek 2.11.2).

Zistime presnosť klasického odhadu Studentovho rozdelenia: t.j. Nájsť t zo vzorca (3.17). Nech je pravdepodobnosť naplnenia nerovnosti
dané spoľahlivosťou :

. (3.18)

Pokiaľ ide o TSt( n-1), je zrejmé, že t záleží na a n, tak si väčšinou píšeme
.

(3.19)

kde
je študentská distribučná funkcia s n-1 stupeň voľnosti.

Riešenie tejto rovnice pre m, dostaneme interval
ktorý spoľahlivo  pokrýva neznámy parameter m.

Hodnota t , n-1, ktorý sa používa na určenie intervalu spoľahlivosti náhodnej premennej T(n-1), distribuuje Študent s n-1 stupeň voľnosti sa nazýva Študentský koeficient. Malo by sa nájsť podľa daných hodnôt n a  z tabuliek "Kritické body študentského rozdelenia". (Tabuľka 6, Príloha 1), ktoré sú riešeniami rovnice (3.19).

V dôsledku toho dostaneme nasledujúci výraz presnosť interval spoľahlivosti pre odhad matematického očakávania (všeobecný priemer), ak rozptyl nie je známy:

(3.20)

Existuje teda všeobecný vzorec na zostavenie intervalov spoľahlivosti pre matematické očakávania všeobecnej populácie:

kde je presnosť intervalu spoľahlivosti v závislosti od známeho alebo neznámeho rozptylu sa zistí podľa vzorcov, resp. 3.16. a 3.20.

Úloha 10. Vykonalo sa niekoľko testov, ktorých výsledky sú uvedené v tabuľke:

X i

Je známe, že dodržiavajú zákon normálneho rozdelenia s
. Nájdite odhad m* pre matematické očakávanie m, vytvorte preň 90 % interval spoľahlivosti.

rozhodnutie:

takze m(2.53;5.47).

Úloha 11. Hĺbka mora sa meria prístrojom, ktorého systematická chyba je 0 a náhodné chyby sú rozdelené podľa normálneho zákona so štandardnou odchýlkou = 15 m. Koľko nezávislých meraní by sa malo vykonať na určenie hĺbky s chybami najviac 5 m s úrovňou spoľahlivosti 90 %?

rozhodnutie:

Podľa stavu problému máme XN( m; ), kde = 15 m, = 5 m, = 0,9. Poďme nájsť objem n.

1) Pri danej spoľahlivosti = 0,9 nájdeme z tabuliek 3 (Príloha 1) argument Laplaceovej funkcie. u = 1.65.

2) Znalosť danej presnosti odhadu =u=5, nájdi
. Máme

. Preto ten počet pokusov n25.

Úloha 12. Vzorkovanie teploty t za prvých 6 januárových dní je uvedené v tabuľke:

Nájdite interval spoľahlivosti pre očakávania m všeobecnej populácie s pravdepodobnosťou spoľahlivosti
a odhadnúť všeobecnú smerodajnú odchýlku s.

rozhodnutie:


a
.

2) Nezaujatý odhad nájsť podľa vzorca
:

=-175

=234.84

;
;

=-192

=116


.

3) Keďže všeobecný rozptyl nie je známy, ale je známy jeho odhad, potom odhadnite matematické očakávanie m používame Studentovo rozdelenie (tabuľka 6, príloha 1) a vzorec (3.20).

Pretože n 1 =n 2 = 6, potom ,
, s 1 = 6,85 máme:
, teda -29,2-4,1<m 1 < -29.2+4.1.

Preto -33.3<m 1 <-25.1.

Podobne to máme aj my
, s 2 = 4,8, takže

–34.9< m 2 < -29.1. Тогда доверительные интервалы примут вид: m 1 (-33,3;-25,1) a m 2 (-34.9;-29.1).

V aplikovaných vedách, napríklad v stavebných disciplínach, sa na hodnotenie presnosti objektov používajú tabuľky intervalov spoľahlivosti, ktoré sú uvedené v príslušnej referenčnej literatúre.

Odhadca musí často analyzovať trh s nehnuteľnosťami v segmente, v ktorom sa nachádza predmet ocenenia. Ak je trh rozvinutý, môže byť ťažké analyzovať celý súbor prezentovaných objektov, preto sa na analýzu používa vzorka objektov. Táto vzorka nie je vždy homogénna, niekedy je potrebné ju očistiť od extrémov – príliš vysokých alebo príliš nízkych trhových ponúk. Na tento účel sa používa interval spoľahlivosti. Účelom tejto štúdie je vykonať porovnávaciu analýzu dvoch metód na výpočet intervalu spoľahlivosti a vybrať najlepšiu možnosť výpočtu pri práci s rôznymi vzorkami v systéme estimatica.pro.

Interval spoľahlivosti - vypočítaný na základe vzorky, interval hodnôt charakteristiky, ktorá so známou pravdepodobnosťou obsahuje odhadovaný parameter všeobecnej populácie.

Zmyslom výpočtu intervalu spoľahlivosti je zostaviť taký interval na základe vzorových údajov, aby bolo možné s danou pravdepodobnosťou tvrdiť, že hodnota odhadovaného parametra je v tomto intervale. Inými slovami, interval spoľahlivosti s určitou pravdepodobnosťou obsahuje neznámu hodnotu odhadovanej veličiny. Čím širší je interval, tým vyššia je nepresnosť.

Existujú rôzne metódy na určenie intervalu spoľahlivosti. V tomto článku zvážime 2 spôsoby:

  • prostredníctvom mediánu a štandardnej odchýlky;
  • cez kritickú hodnotu t-štatistiky (Studentov koeficient).

Etapy porovnávacej analýzy rôznych metód na výpočet CI:

1. vytvorte vzorku údajov;

2. spracujeme štatistickými metódami: vypočítame strednú hodnotu, medián, rozptyl a pod.;

3. interval spoľahlivosti vypočítame dvoma spôsobmi;

4. Analyzujte vyčistené vzorky a získané intervaly spoľahlivosti.

Fáza 1. Vzorkovanie údajov

Vzorka bola vytvorená pomocou systému estimatica.pro. Vzorka obsahovala 91 ponúk na predaj 1-izbových bytov v 3. cenovej zóne s typom plánovania "Chruščov".

Tabuľka 1. Počiatočná vzorka

Cena 1 m2, c.u.

Obr.1. Počiatočná vzorka



Etapa 2. Spracovanie počiatočnej vzorky

Spracovanie vzoriek štatistickými metódami si vyžaduje výpočet nasledujúcich hodnôt:

1. Aritmetický priemer

2. Medián - číslo, ktoré charakterizuje vzorku: presne polovica prvkov vzorky je väčšia ako medián, druhá polovica je menšia ako medián

(pre vzorku s nepárnym počtom hodnôt)

3. Rozsah - rozdiel medzi maximálnymi a minimálnymi hodnotami vo vzorke

4. Rozptyl – používa sa na presnejšie odhadnutie odchýlky v údajoch

5. Smerodajná odchýlka vzorky (ďalej len RMS) je najbežnejším ukazovateľom rozptylu hodnôt úpravy okolo aritmetického priemeru.

6. Variačný koeficient – ​​odráža stupeň rozptylu hodnôt úprav

7. koeficient oscilácie – odráža relatívne kolísanie extrémnych hodnôt cien vo vzorke okolo priemeru

Tabuľka 2. Štatistické ukazovatele pôvodnej vzorky

Variačný koeficient, ktorý charakterizuje homogenitu údajov, je 12,29 %, ale koeficient oscilácie je príliš veľký. Môžeme teda konštatovať, že pôvodná vzorka nie je homogénna, prejdime teda k výpočtu intervalu spoľahlivosti.

Fáza 3. Výpočet intervalu spoľahlivosti

Metóda 1. Výpočet prostredníctvom mediánu a štandardnej odchýlky.

Interval spoľahlivosti sa určí nasledovne: minimálna hodnota - štandardná odchýlka sa odpočíta od mediánu; maximálna hodnota - smerodajná odchýlka sa pripočítava k mediánu.

Interval spoľahlivosti (47179 CU; 60689 CU)

Ryža. 2. Hodnoty v rámci intervalu spoľahlivosti 1.



Metóda 2. Vytvorenie intervalu spoľahlivosti prostredníctvom kritickej hodnoty t-štatistiky (Studentov koeficient)

S.V. Gribovský v knihe „Matematické metódy hodnotenia hodnoty majetku“ popisuje metódu výpočtu intervalu spoľahlivosti prostredníctvom Studentovho koeficientu. Pri výpočte touto metódou musí odhadca sám nastaviť hladinu významnosti ∝, ktorá určuje pravdepodobnosť, s akou bude interval spoľahlivosti zostavený. Bežne sa používajú úrovne významnosti 0,1; 0,05 a 0,01. Zodpovedajú pravdepodobnostiam spoľahlivosti 0,9; 0,95 a 0,99. Pri tejto metóde sa skutočné hodnoty matematického očakávania a rozptylu považujú za prakticky neznáme (čo platí takmer vždy pri riešení praktických úloh hodnotenia).

Vzorec intervalu spoľahlivosti:

n - veľkosť vzorky;

Kritická hodnota t-štatistiky (Studentove rozdelenia) s hladinou významnosti ∝, počet stupňov voľnosti n-1, ktorá je určená špeciálnymi štatistickými tabuľkami alebo pomocou MS Excel (→"Štatistické"→ STUDRASPOBR);

∝ - hladina významnosti, berieme ∝=0,01.

Ryža. 2. Hodnoty v rámci intervalu spoľahlivosti 2.

Krok 4. Analýza rôznych spôsobov výpočtu intervalu spoľahlivosti

Dve metódy výpočtu intervalu spoľahlivosti - prostredníctvom mediánu a Studentovho koeficientu - viedli k rôznym hodnotám intervalov. V súlade s tým sa získali dve rôzne purifikované vzorky.

Tabuľka 3. Štatistické ukazovatele pre tri vzorky.

Indikátor

Počiatočná vzorka

1 možnosť

Možnosť 2

Priemerná

Disperzia

Coef. variácie

Coef. oscilácie

Počet vyradených predmetov, ks.

Na základe vykonaných výpočtov môžeme povedať, že hodnoty intervalov spoľahlivosti získané rôznymi metódami sa prelínajú, takže podľa uváženia odhadcu môžete použiť ktorúkoľvek z metód výpočtu.

Domnievame sa však, že pri práci v systéme estimatica.pro je vhodné zvoliť metódu výpočtu intervalu spoľahlivosti v závislosti od stupňa vývoja trhu:

  • ak trh nie je rozvinutý, použite metódu výpočtu prostredníctvom mediánu a štandardnej odchýlky, pretože počet vyradených objektov je v tomto prípade malý;
  • ak je trh rozvinutý, aplikujte výpočet cez kritickú hodnotu t-štatistiky (Studentov koeficient), keďže je možné vytvoriť veľkú počiatočnú vzorku.

Pri príprave článku boli použité:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematické metódy hodnotenia hodnoty majetku. Moskva, 2014

2. Údaje zo systému estimatica.pro

Nech je náhodná premenná (môžeme hovoriť o všeobecnej populácii) rozdelená podľa normálneho zákona, pre ktorý je známy rozptyl D = 2 (> 0). Zo všeobecnej populácie (na množine objektov, z ktorých sa určuje náhodná veličina) sa vytvorí vzorka veľkosti n. Vzorka x 1 , x 2 ,..., x n je považovaná za súbor n nezávislých náhodných premenných rozdelených rovnakým spôsobom ako (prístup vysvetlený vyššie v texte).

Predtým sa tiež diskutovalo a dokázalo nasledujúce rovnosti:

Mx1 = Mx2 = ... = Mxn = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Stačí jednoducho dokázať (dôkaz vynecháme), že aj náhodná veličina je v tomto prípade rozdelená podľa normálneho zákona.

Neznámu hodnotu M označme a a podľa danej spoľahlivosti zvolíme číslo d > 0 tak, aby bola splnená nasledujúca podmienka:

P(- a< d) = (1)

Keďže náhodná premenná je rozdelená podľa normálneho zákona s matematickým očakávaním M = M = a a rozptylom D = D /n = 2 /n, dostaneme:

P(- a< d) =P(a - d < < a + d) =

Zostáva zvoliť d také, aby bola rovnosť

Pre každého možno nájsť také číslo t z tabuľky, že (t) \u003d / 2. Toto číslo t sa niekedy nazýva kvantil.

Teraz od rovnosti

definujte hodnotu d:

Konečný výsledok získame uvedením vzorca (1) v tvare:

Význam posledného vzorca je nasledovný: so spoľahlivosťou, interval spoľahlivosti

pokrýva neznámy parameter a = M populácie. Dá sa to povedať inak: bodový odhad určuje hodnotu parametra M s presnosťou d= t / a spoľahlivosťou.

Úloha. Nech existuje všeobecná populácia s nejakou charakteristikou rozloženou podľa normálneho zákona s rozptylom rovným 6,25. Urobila sa vzorka veľkosti n = 27 a získala sa priemerná vzorková hodnota charakteristiky = 12. Nájdite interval spoľahlivosti pokrývajúci neznáme matematické očakávanie študovanej charakteristiky všeobecnej populácie so spoľahlivosťou = 0,99.

rozhodnutie. Najprv pomocou tabuľky pre Laplaceovu funkciu nájdeme hodnotu t z rovnice (t) \u003d / 2 \u003d 0,495. Na základe získanej hodnoty t = 2,58 určíme presnosť odhadu (resp. polovičnú dĺžku intervalu spoľahlivosti) d: d = 2,52,58 / 1,24. Odtiaľ dostaneme požadovaný interval spoľahlivosti: (10,76; 13,24).

štatistická hypotéza všeobecná variačná

Interval spoľahlivosti pre očakávanie normálneho rozdelenia s neznámym rozptylom

Nech je náhodná premenná rozdelená podľa normálneho zákona s neznámym matematickým očakávaním M, ktorú označíme písmenom a . Urobme si vzorku veľkosti n. Určme priemernú vzorku a korigovaný rozptyl vzorky s 2 pomocou známych vzorcov.

Náhodná hodnota

rozdelené podľa Studentovho zákona s n - 1 stupňami voľnosti.

Úlohou je nájsť také číslo t podľa danej spoľahlivosti a počtu stupňov voľnosti n - 1, aby bola rovnosť

alebo ekvivalentná rovnosť

Tu je v zátvorke napísaná podmienka, že hodnota neznámeho parametra a patrí do určitého intervalu, ktorým je interval spoľahlivosti. Jeho hranice závisia od spoľahlivosti, ako aj od parametrov vzorkovania a s.

Aby sme určili hodnotu t podľa veľkosti, transformujeme rovnosť (2) do tvaru:

Teraz podľa tabuľky pre náhodnú premennú t, rozloženú podľa Studentovho zákona, podľa pravdepodobnosti 1 - a počtu stupňov voľnosti n - 1, nájdeme t. Vzorec (3) dáva odpoveď na problém.

Úloha. Pri kontrolných testoch 20 elektrických lámp sa priemerné trvanie ich práce rovnalo 2000 hodinám so štandardnou odchýlkou ​​(vypočítanou ako druhá odmocnina korigovaného rozptylu vzorky) rovnajúcou sa 11 hodinám. Je známe, že trvanie prevádzky lampy je normálne rozložená náhodná veličina. Určte so spoľahlivosťou 0,95 interval spoľahlivosti pre matematické očakávanie tejto náhodnej premennej.

rozhodnutie. Hodnota 1 - v tomto prípade sa rovná 0,05. Podľa Študentovej distribučnej tabuľky pri počte stupňov voľnosti rovným 19 zistíme: t = 2,093. Vypočítajme teraz presnosť odhadu: 2,093121/ = 56,6. Odtiaľ dostaneme požadovaný interval spoľahlivosti: (1943,4; 2056,6).

Zostrojme si v MS EXCEL interval spoľahlivosti pre odhad strednej hodnoty rozdelenia v prípade známej hodnoty rozptylu.

Samozrejme výber úroveň dôveryúplne závisí od aktuálnej úlohy. Miera dôvery cestujúceho v leteckej doprave v spoľahlivosť lietadla by teda samozrejme mala byť vyššia ako miera dôvery kupujúceho v spoľahlivosť žiarovky.

Formulácia úlohy

Predpokladajme, že z populácia s prijatím vzorka veľkosť n. Predpokladá sa, že smerodajná odchýlka táto distribúcia je známa. Nevyhnutné na základe toho vzorky hodnotiť neznáme distribučný priemer(μ, ) a zostrojte zodpovedajúce bilaterálne interval spoľahlivosti.

Bodový odhad

Ako je známe z štatistiky(nazvime to X porov) je nestranný odhad priemeru toto populácia a má rozdelenie N(μ;σ 2 /n).

Poznámka: Čo ak potrebujete stavať interval spoľahlivosti v prípade distribúcie, ktorá nie je normálne? V tomto prípade prichádza na pomoc, ktorá hovorí, že s dostatočne veľkou veľkosťou vzorky n z distribúcie nie normálne, výberové rozdelenie štatistík Х priem bude približne korešpondovať normálne rozdelenie s parametrami N(μ;σ 2 /n).

takze bodový odhad stredná distribučné hodnoty máme je vzorový priemer, t.j. X porov. Teraz sa poďme zamestnať interval spoľahlivosti.

Budovanie intervalu spoľahlivosti

Zvyčajne, keď poznáme rozdelenie a jeho parametre, môžeme vypočítať pravdepodobnosť, že náhodná premenná nadobudne hodnotu z intervalu, ktorý sme zadali. Teraz urobme opak: nájdime interval, do ktorého náhodná premenná s danou pravdepodobnosťou spadá. Napríklad z nehnuteľností normálne rozdelenie je známe, že s pravdepodobnosťou 95% sa náhodná premenná rozloží normálny zákon, bude spadať do intervalu približne +/- 2 od stredná hodnota(pozri článok o). Tento interval bude slúžiť ako náš prototyp interval spoľahlivosti.

Teraz sa pozrime, či poznáme distribúciu , vypočítať tento interval? Aby sme odpovedali na otázku, musíme špecifikovať formu distribúcie a jej parametre.

Vieme, že forma distribúcie je normálne rozdelenie(pamätajte, že hovoríme o distribúcia vzoriek štatistiky X porov).

Parameter μ nám nie je známy (treba ho odhadnúť pomocou interval spoľahlivosti), ale máme jej odhad X cf, vypočítané na základe vzorka, ktoré možno použiť.

Druhým parametrom je priemerná štandardná odchýlka vzorky bude známy, rovná sa σ/√n.

Pretože nepoznáme μ, potom zostrojíme interval +/- 2 štandardné odchýlky nie z stredná hodnota, ale z jeho známeho odhadu X porov. Tie. pri výpočte interval spoľahlivosti nebudeme to predpokladať X porov bude spadať do intervalu +/- 2 štandardné odchýlky od μ s pravdepodobnosťou 95% a budeme predpokladať, že interval je +/- 2 štandardné odchýlky od X porov s pravdepodobnosťou 95 % pokryje μ - priemer bežnej populácie, z ktorých vzorka. Tieto dva výroky sú ekvivalentné, ale druhý výrok nám umožňuje konštruovať interval spoľahlivosti.

Okrem toho spresňujeme interval: náhodnú premennú distribuovanú cez normálny zákon, s 95% pravdepodobnosťou spadá do intervalu +/- 1,960 štandardné odchýlky, nie +/- 2 štandardné odchýlky. To možno vypočítať pomocou vzorca \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. vzorový súbor Sheet Spacing.

Teraz môžeme sformulovať pravdepodobnostné tvrdenie, ktoré nám poslúži na formovanie interval spoľahlivosti:
„Pravdepodobnosť, že priemer populácie nachádza sa od vzorový priemer do 1,960" štandardné odchýlky priemeru vzorky", sa rovná 95 %.

Hodnota pravdepodobnosti uvedená vo vyhlásení má špeciálny názov , ktorý je spojený s hladina významnosti α (alfa) jednoduchým vyjadrením úroveň dôvery =1 . V našom prípade úroveň významnosti α =1-0,95=0,05 .

Teraz na základe tohto pravdepodobnostného tvrdenia napíšeme výraz na výpočet interval spoľahlivosti:

kde Za/2 štandardná normálne rozdelenie(taká hodnota náhodnej premennej z, čo P(z>=Za/2 ) = a/2).

Poznámka: Horný α/2-kvantil definuje šírku interval spoľahlivosti v štandardné odchýlky vzorový priemer. Horný α/2-kvantil štandardná normálne rozdelenie je vždy väčšie ako 0, čo je veľmi výhodné.

V našom prípade pri α=0,05 horný α/2-kvantil rovná sa 1,960. Pre ostatné hladiny významnosti α (10 %; 1 %) horný α/2-kvantil Za/2 možno vypočítať pomocou vzorca \u003d NORM.ST.OBR (1-α / 2) alebo, ak je známy úroveň dôvery, =NORM.ST.OBR((1+úroveň spoľahlivosti)/2).

Zvyčajne pri stavbe intervaly spoľahlivosti pre odhad priemeru iba použiť horné α/2-kvantil a nepoužívajte nižšie α/2-kvantil. Je to možné, pretože štandardná normálne rozdelenie symetrické okolo osi x ( hustota jeho distribúcie symetrický o priemer, t.j. 0). Preto nie je potrebné počítať nižší α/2-kvantil(nazýva sa jednoducho α /2-kvantil), pretože je to rovné horné α/2-kvantil so znamienkom mínus.

Pripomeňme, že bez ohľadu na tvar rozdelenia x, zodpovedajúca náhodná premenná X porov distribuovaný približne dobre N(μ;σ 2 /n) (pozri článok o). Preto vo všeobecnosti vyššie uvedený výraz pre interval spoľahlivosti je len približný. Ak je x rozdelené cez normálny zákon N(μ;σ 2 /n), potom výraz pre interval spoľahlivosti je presný.

Výpočet intervalu spoľahlivosti v MS EXCEL

Poďme vyriešiť problém.
Čas odozvy elektronického komponentu na vstupný signál je dôležitou charakteristikou zariadenia. Technik chce vykresliť interval spoľahlivosti pre priemerný čas odozvy na úrovni spoľahlivosti 95 %. Z predchádzajúcich skúseností inžinier vie, že štandardná odchýlka času odozvy je 8 ms. Je známe, že inžinier vykonal 25 meraní, aby odhadol čas odozvy, priemerná hodnota bola 78 ms.

rozhodnutie: Inžinier chce vedieť dobu odozvy elektronického zariadenia, no chápe, že doba odozvy nie je pevná, ale náhodná premenná, ktorá má svoje vlastné rozdelenie. Takže najlepšie, v čo môže dúfať, je určiť parametre a tvar tohto rozdelenia.

Žiaľ, zo stavu problému nepoznáme formu rozloženia doby odozvy (nemusí byť normálne). , táto distribúcia je tiež neznáma. Len on je známy smerodajná odchýlka a = 8. Preto zatiaľ nevieme vypočítať pravdepodobnosti a zostrojiť interval spoľahlivosti.

Hoci však distribúciu nepoznáme čas samostatná odpoveď, vieme, že podľa CPT, distribúcia vzoriek priemerný čas odozvy je približne normálne(predpokladáme, že podmienky CPT sa vykonávajú, pretože veľkosť vzorky dostatočne veľké (n=25)) .

ďalej priemerný toto rozdelenie sa rovná stredná hodnota distribúcie odozvy jednotiek, t.j. μ. ALE smerodajná odchýlka tohto rozdelenia (σ/√n) možno vypočítať pomocou vzorca =8/ROOT(25) .

Je tiež známe, že inžinier dostal bodový odhad parameter μ rovný 78 ms (X cf). Preto teraz môžeme vypočítať pravdepodobnosti, pretože poznáme formu distribúcie ( normálne) a jeho parametre (Х ср a σ/√n).

Inžinier to chce vedieť očakávaná hodnotaμ distribúcie času odozvy. Ako je uvedené vyššie, toto μ sa rovná očakávanie distribúcie vzorky priemerného času odozvy. Ak použijeme normálne rozdelenie N(X cf; σ/√n), potom bude požadované μ v rozsahu +/-2*σ/√n s pravdepodobnosťou približne 95 %.

Úroveň významnosti rovná sa 1-0,95=0,05.

Nakoniec nájdite ľavý a pravý okraj interval spoľahlivosti.
Ľavý okraj: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / ROOT (25) = 74,864
Pravý okraj: \u003d 78 + NORM. ST. OBR (1-0,05 / 2) * 8 / ROOT (25) \u003d 81,136

Ľavý okraj: =NORM.INV(0,05/2; 78; 8/SQRT(25))
Pravý okraj: =NORM.INV(1-0,05/2; 78, 8/SQRT(25))

Odpoveď: interval spoľahlivosti pri 95 % hladina spoľahlivosti a σ=8ms rovná sa 78+/-3,136 ms

AT príklad súboru na hárku Sigma známy vytvoril formulár na výpočet a konštrukciu bilaterálne interval spoľahlivosti za svojvoľné vzorky s daným σ a úroveň významnosti.

Funkcia CONFIDENCE.NORM().

Ak hodnoty vzorky sú v rozsahu B20:B79 , a úroveň významnosti rovná 0,05; potom vzorec MS EXCEL:
=AVERAGE(B20:B79)-CONFIDENCE(0,05;σ; COUNT(B20:B79))
vráti ľavý okraj interval spoľahlivosti.

Rovnakú hranicu možno vypočítať pomocou vzorca:
=AVERAGE(B20:B79)-NORM.ST.INV(1-0.05/2)*σ/SQRT(COUNT(B20:B79))

Poznámka: Funkcia TRUST.NORM() sa objavila v MS EXCEL 2010. Staršie verzie MS EXCEL používali funkciu TRUST().