Cum se calculează abaterea standard a unui eșantion. Parametri statistici

Unul dintre principalele instrumente de analiză statistică este calculul abaterii standard. Acest indicator vă permite să faceți o estimare a abaterii standard pentru un eșantion sau pentru populația generală. Să învățăm cum să folosim formula abaterii standard în Excel.

Să definim imediat care este abaterea standard și cum arată formula ei. Această valoare este rădăcina pătrată a mediei aritmetice a pătratelor diferenței dintre toate valorile seriei și media lor aritmetică. Există un nume identic pentru acest indicator - abatere standard. Ambele nume sunt complet echivalente.

Dar, desigur, în Excel, utilizatorul nu trebuie să calculeze acest lucru, deoarece programul face totul pentru el. Să învățăm cum să calculăm abaterea standard în Excel.

Calculul in Excel

Puteți calcula valoarea specificată în Excel folosind două funcții speciale STDEV.V(conform eșantionului) și STDEV.G(după populația generală). Principiul funcționării lor este absolut același, dar pot fi numite în trei moduri, pe care le vom discuta mai jos.

Metoda 1: Expertul funcției


Metoda 2: fila Formule


Metoda 3: Introducerea manuală a formulei

Există, de asemenea, o modalitate prin care nu trebuie să apelați deloc fereastra argumentului. Pentru a face acest lucru, introduceți manual formula.


După cum puteți vedea, mecanismul de calcul a abaterii standard în Excel este foarte simplu. Utilizatorul trebuie doar să introducă numere din populație sau link-uri către celulele care le conțin. Toate calculele sunt efectuate de programul însuși. Este mult mai dificil de înțeles care este indicatorul calculat și cum rezultatele calculului pot fi aplicate în practică. Dar înțelegerea acestui lucru aparține deja mai mult domeniului statisticilor decât învățării cum să lucrezi cu software.

De la Wikipedia, enciclopedia liberă

deviație standard(sinonime: deviație standard, deviație standard, deviație standard; termeni conexe: deviație standard, spread standard) - în teoria probabilităților și statistică, cel mai comun indicator al dispersării valorilor unei variabile aleatoare în raport cu așteptarea sa matematică. Cu matrice limitate de eșantioane de valori, în loc de așteptarea matematică, se utilizează media aritmetică a populației de eșantioane.

Informatii de baza

Abaterea standard se măsoară în unități ale variabilei aleatoare în sine și este utilizată la calcularea erorii standard a mediei aritmetice, la construirea intervalelor de încredere, la testarea statistică a ipotezelor, la măsurarea unei relații liniare între variabile aleatoare. Definit ca rădăcina pătrată a varianței unei variabile aleatoare.

Deviație standard:

\sigma=\sqrt(\frac(1)(n)\sum_(i=1)^n\left(x_i-\bar(x)\right)^2).

Deviație standard(estimarea abaterii standard a unei variabile aleatoare X raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale) s:

s=\sqrt(\frac(n)(n-1)\sigma^2)=\sqrt(\frac(1)(n-1)\sum_(i=1)^n\left(x_i-\bar (x)\dreapta)^2);

regula trei sigma

regula trei sigma (3\sigma) - aproape toate valorile unei variabile aleatoare distribuite normal se află în interval \left(\bar(x)-3\sigma;\bar(x)+3\sigma\right). Mai strict - aproximativ cu o probabilitate de 0,9973 valoarea unei variabile aleatoare distribuite normal se află în intervalul specificat (cu condiția ca valoarea \bar(x) adevărat și nu obținut ca urmare a prelucrării probei).

Dacă valoarea adevărată \bar(x) necunoscut, atunci ar trebui să utilizați \sigma, A s. Astfel, regula de trei sigma este transformată în regula de trei s .

Interpretarea valorii abaterii standard

O valoare mai mare a abaterii standard indică o răspândire mai mare a valorilor în setul prezentat cu media setului; o valoare mai mică, respectiv, indică faptul că valorile din set sunt grupate în jurul valorii medii.

De exemplu, avem trei seturi de numere: (0, 0, 14, 14), (0, 6, 8, 14) și (6, 6, 8, 8). Toate cele trei seturi au valori medii de 7 și, respectiv, abateri standard de 7, 5 și, respectiv, 1. Ultimul set are o abatere standard mică, deoarece valorile din mulțime sunt grupate în jurul mediei; primul set are cea mai mare valoare a abaterii standard - valorile din cadrul setului diferă puternic de valoarea medie.

Într-un sens general, abaterea standard poate fi considerată o măsură a incertitudinii. De exemplu, în fizică, abaterea standard este utilizată pentru a determina eroarea unei serii de măsurători succesive a unei cantități. Această valoare este foarte importantă pentru determinarea plauzibilității fenomenului studiat în comparație cu valoarea prezisă de teorie: dacă valoarea medie a măsurătorilor diferă mult de valorile prezise de teorie (deviație standard mare), atunci valorile obținute sau metoda de obținere a acestora trebuie reverificate.

Uz practic

În practică, abaterea standard vă permite să estimați cât de mult valorile dintr-un set pot diferi de valoarea medie.

Economie și finanțe

Abaterea standard a randamentului portofoliului \sigma =\sqrt(D[X]) este identificat cu riscul de portofoliu.

Climat

Să presupunem că există două orașe cu aceeași temperatură medie zilnică maximă, dar unul este situat pe coastă, iar celălalt pe câmpie. Se știe că orașele de coastă au diferite temperaturi maxime zilnice mai mici decât orașele din interior. Prin urmare, abaterea standard a temperaturilor maxime zilnice în orașul de coastă va fi mai mică decât în ​​al doilea oraș, în ciuda faptului că valoarea medie a acestei valori este aceeași pentru ei, ceea ce înseamnă, în practică, că probabilitatea ca aerul maxim temperatura fiecărei anumite zile a anului va fi mai puternică, diferită de valoarea medie, mai mare pentru un oraș situat în interiorul continentului.

Sport

Să presupunem că există mai multe echipe de fotbal care sunt clasate în funcție de un set de parametri, de exemplu, numărul de goluri marcate și primite, șansele de a marca etc. Cel mai probabil, cea mai bună echipă din această grupă va avea cea mai bună. valori în mai mulți parametri. Cu cât abaterea standard a echipei pentru fiecare dintre parametrii prezentați este mai mică, cu atât rezultatul echipei este mai previzibil, astfel de echipe sunt echilibrate. Pe de altă parte, o echipă cu o abatere standard mare este dificil de prezis rezultatul, care la rândul său se explică printr-un dezechilibru, de exemplu, o apărare puternică, dar un atac slab.

Utilizarea abaterii standard a parametrilor echipei permite prezicerea rezultatului meciului dintre două echipe într-o oarecare măsură, evaluând punctele tari și punctele slabe ale echipelor și, prin urmare, metodele de luptă alese.

Vezi si

Scrieți o recenzie la articolul „Abaterea standard”

Literatură

  • Borovikov V. STATISTICI. Arta analizei datelor computerizate: Pentru profesioniști / V. Borovikov. - St.Petersburg. : Peter, 2003. - 688 p. - ISBN 5-272-00078-1..

Un fragment care caracterizează abaterea standard

Și, deschizând repede ușa, ieși cu pași hotărâți pe balcon. Conversația a încetat brusc, pălăriile și șepcile au fost scoase și toate privirile s-au îndreptat spre contele care a ieșit.
- Buna baieti! spuse contele repede și tare. - Multumesc ca ati venit. Am să ies la tine acum, dar mai întâi de toate trebuie să ne ocupăm de răufăcător. Trebuie să-l pedepsim pe ticălosul care a ucis Moscova. Așteptați-mă! - Și contele s-a întors la fel de repede în camere, trântind ușa cu putere.
Un murmur de aprobare a trecut prin mulțime. „El, atunci, va controla folosirea ticăloșilor! Iar tu spui un francez... va dezlega toata distanta pentru tine! spuneau oamenii, parcă s-ar reproșa unii altora pentru lipsa lor de credință.
Câteva minute mai târziu, un ofițer a ieșit în grabă pe ușa din față, a comandat ceva, iar dragonii s-au întins. Mulțimea s-a deplasat cu lăcomie de la balcon spre verandă. Ieșind pe verandă cu pași repezi furiosi, Rostopchin se uită grăbit în jur, parcă ar fi căutat pe cineva.
- Unde este el? – spuse contele, și în aceeași clipă în care spunea acestea, văzu de după colțul casei ieșind între doi dragoni un tânăr cu gâtul lung și subțire, cu capul pe jumătate ras și îngroșat. Acest tânăr era îmbrăcat în ceea ce odinioară era o haină elegantă, îmbrăcată în albastru, ponosit din piele de oaie de vulpe și în pantaloni murdari, de in, de prizonier, îndesați în cizme subțiri necurate și uzate. Cătușele atârnau greu de picioarele subțiri și slabe, îngreunând mersul șovăitor al tânărului.
- DAR! - spuse Rostopchin, întorcându-și în grabă ochii de la tânărul în haină de vulpe și arătând spre treapta de jos a verandei. - Pune-l aici! - Tânărul, îngătuindu-și cătușele, a pășit cu putere pe treapta indicată, ținând cu degetul gulerul presant al hainei de piele de oaie, și-a întors de două ori gâtul lung și, oftând, și-a încrucișat mâinile subțiri, nelucretoare în fața stomacului. cu un gest de supunere.
S-a lăsat liniște pentru câteva secunde, când tânărul se așeză pe treaptă. Doar în rândurile din spate ale oamenilor care se strângeau într-un loc, se auzeau gemete, gemete, zguduiri și zgomot de picioare rearanjate.
Rostopchin, aşteptând să se oprească la locul indicat, îşi frecă încruntat faţa cu mâna.
- Baieti! - spuse Rostopchin cu o voce metalică, - acest om, Vereșchagin, este același ticălos de la care a murit Moscova.
Tânărul în haină de vulpe stătea într-o ipostază supusă, cu mâinile împreunate în fața stomacului și ușor aplecate. Emaciat, cu o expresie deznădăjduită, desfigurat de un cap ras, chipul său tânăr era coborât în ​​jos. La primele cuvinte ale contelui, ridică încet capul și se uită în jos la conte, de parcă ar fi vrut să-i spună ceva sau măcar să-i întâlnească privirea. Dar Rostopchin nu s-a uitat la el. Pe gâtul lung și subțire al tânărului, ca o frânghie, o venă din spatele urechii s-a încordat și a devenit albastră, iar deodată fața i s-a înroșit.
Toți ochii erau ațintiți asupra lui. S-a uitat la mulțime și, parcă liniștit de expresia pe care o citea pe chipurile oamenilor, a zâmbit trist și timid și, coborând din nou capul, și-a îndreptat picioarele pe treaptă.
„Și și-a trădat țarul și patria, s-a predat lui Bonaparte, singurul dintre ruși a dezonorat numele unui rus și Moscova moare din cauza lui”, a spus Rastopchin cu o voce uniformă și ascuțită; dar brusc a aruncat rapid privirea spre Vereșchagin, care a continuat să stea în aceeași postură supusă. Parcă l-ar fi aruncat în aer această privire, el, ridicând mâna, aproape că a strigat, întorcându-se către oameni: - Poartă-l cu judecata ta! ți-l dau!
Oamenii tăceau și doar apăsau din ce în ce mai tare unul pe celălalt. Ținându-se unul pe celălalt, respirând în această apropiere infectată, neavând puterea de a se mișca și a aștepta ceva necunoscut, de neînțeles și teribil a devenit insuportabil. Oamenii care stăteau în rândurile din față, care vedeau și auzeau tot ce se întâmpla în fața lor, toți cu ochii larg deschiși înspăimântați și cu gura căscată, încordându-se cu toată puterea, țineau presiunea celor din spate pe spate.
- Bate-l! .. Sa moara tradatorul si sa nu-i fie rusine numele rusului! strigă Rastopchin. - Ruby! Eu comand! - Auzind nu cuvinte, ci sunetele furioase ale vocii lui Rostopchin, mulțimea a gemut și a înaintat, dar s-a oprit din nou.
- Contele! .. - spuse vocea timidă și în același timp teatrală a lui Vereșchagin în mijlocul unei tăceri de moment. „Contele, un singur zeu este deasupra noastră...” a spus Vereshchagin, ridicând capul și din nou vena groasă de pe gâtul său subțire s-a umplut de sânge, iar culoarea a ieșit rapid și a fugit de pe fața lui. Nu a terminat ce voia să spună.
- Tăiați-l! Comand!.. - strigă Rostopchin, devenind brusc la fel de palid ca Vereșchagin.
- Sabrele afară! strigă ofiţerul către dragoni, trăgând el însuşi sabia.
Un alt val și mai puternic s-a înălțat printre oameni și, ajungând în rândurile din față, acest val i-a mișcat pe cei din față, clătinându-se, i-a adus chiar pe treptele pridvorului. Un tip înalt, cu o expresie pietrificată pe față și cu mâna ridicată oprită, stătea lângă Vereșchagin.
- Ruby! aproape a șoptit un ofițer dragonilor, iar unul dintre soldați deodată, cu o față deformată de mânie, l-a lovit pe Vereșchagin în cap cu o sabie tocită.
"DAR!" - strigă Vereșchagin scurt și surprins, uitându-se în jur speriat și de parcă nu înțelegea de ce i s-a făcut asta. Același geamăt de surpriză și groază a trecut prin mulțime.
"Oh, Doamne!" - s-a auzit exclamația tristă a cuiva.
Dar în urma exclamației de surpriză care a scăpat de la Vereșchagin, el a strigat plângător de durere și acest strigăt l-a ruinat. Acea barieră a simțirii umane, întinsă la cel mai înalt grad, care încă ținea mulțimea, a spart instantaneu. Crima a fost începută, a fost nevoie să o finalizeze. Gemetul plângător de reproș a fost înecat de vuietul formidabil și furios al mulțimii. Asemenea ultimului al șaptelea val care sparge navele, acest ultim val de neoprit s-a înălțat din rândurile din spate, a ajuns la cele din față, le-a doborât și a înghițit totul. Dragonul care lovise a vrut să-și repete lovitura. Vereshchagin cu un strigăt de groază, apărăndu-se cu mâinile, s-a repezit la oameni. Bărbatul înalt, pe care s-a împiedicat, a apucat cu mâinile gâtul subțire al lui Vereșchagin și, cu un strigăt sălbatic, împreună cu el, a căzut sub picioarele poporului care rămăseseră, care se grămaseră.
Unii l-au bătut și l-au sfâșiat pe Vereșchagin, alții erau niște oameni înalți. Iar strigătele oamenilor zdrobiți și ale celor care au încercat să-l salveze pe tipul înalt nu au făcut decât să stârnească furia mulțimii. Multă vreme dragonii nu l-au putut elibera pe muncitorul însângeros, bătut până la moarte. Și multă vreme, în ciuda întregii grabii febrile cu care mulțimea a încercat să finalizeze lucrarea odată începută, acei oameni care l-au bătut, l-au sugrumat și l-au sfâșiat pe Vereșchagin nu l-au putut ucide; dar mulțimea i-a zdrobit din toate părțile, cu ei în mijloc, ca o masă, legănându-se dintr-o parte în alta și nu le-a dat ocazia nici să-l termine, nici să-l părăsească.

Valorile obținute din experiență conțin inevitabil erori din diverse motive. Printre acestea, ar trebui să se distingă erorile sistematice și aleatorii. Erorile sistematice se datorează unor cauze care acționează într-un mod foarte specific și pot fi întotdeauna eliminate sau luate în considerare cu suficientă acuratețe. Erorile aleatorii sunt cauzate de un număr foarte mare de cauze individuale care nu pot fi explicate cu acuratețe și acționează diferit în fiecare măsurătoare individuală. Aceste erori nu pot fi excluse complet; pot fi luate în considerare doar în medie, pentru care este necesar să se cunoască legile la care sunt supuse erorile aleatorii.

Vom nota valoarea măsurată cu A, iar eroarea aleatorie în măsurarea x. Deoarece eroarea x poate lua orice valoare, este o variabilă aleatoare continuă, care este pe deplin caracterizată de propria sa lege de distribuție.

Cea mai simplă și care reflectă cel mai exact realitatea (în marea majoritate a cazurilor) este așa-numita distribuția normală a erorilor:

Această lege de distribuție poate fi obținută din diverse premise teoretice, în special din cerința ca cea mai probabilă valoare a unei mărimi necunoscute pentru care se obține o serie de valori cu același grad de precizie prin măsurare directă este media aritmetică a aceste valori. Se numește valoarea 2 dispersie a acestei legi normale.

In medie

Determinarea dispersiei conform datelor experimentale. Dacă pentru orice mărime A, n valori a i sunt obținute prin măsurare directă cu același grad de precizie, iar dacă erorile din cantitatea A sunt supuse legii distribuției normale, atunci cea mai probabilă valoare a lui A va fi in medie:

a - medie aritmetică,

a i - valoare măsurată la pasul i.

Abaterea valorii observate (pentru fiecare observatie) a i a valorii A de la medie aritmetică: a i - a.

Pentru a determina dispersia distribuției normale a erorilor în acest caz, utilizați formula:

2 - dispersie,
a - medie aritmetică,
n este numărul de măsurători ale parametrilor,

deviație standard

deviație standard arată abaterea absolută a valorilor măsurate de la medie aritmetică. În conformitate cu formula pentru măsurarea preciziei combinației liniare eroare pătratică medie media aritmetică este determinată de formula:

, Unde


a - medie aritmetică,
n este numărul de măsurători ale parametrilor,
a i - valoare măsurată la pasul i.

Coeficientul de variație

Coeficientul de variație caracterizează gradul relativ de abatere a valorilor măsurate de la medie aritmetică:

, Unde

V - coeficientul de variație,
- deviație standard,
a - medie aritmetică.

Cu cât valoarea este mai mare coeficient de variație, cu cât este relativ mai mare dispersia și uniformitatea mai mică a valorilor studiate. În cazul în care un coeficientul de variație mai puțin de 10%, atunci variabilitatea seriei de variații este considerată a fi nesemnificativă, de la 10% la 20% se referă la medie, mai mult de 20% și mai puțin de 33% la semnificativ și dacă coeficientul de variație depășește 33%, aceasta indică eterogenitatea informațiilor și necesitatea excluderii celor mai mari și mai mici valori.

Abaterea liniară medie

Unul dintre indicatorii intervalului și intensității variației este abaterea liniară medie(modulul mediu de abatere) de la media aritmetică. Abaterea liniară medie calculat prin formula:

, Unde

_
a - abaterea liniară medie,
a - medie aritmetică,
n este numărul de măsurători ale parametrilor,
a i - valoare măsurată la pasul i.

Pentru a verifica conformitatea valorilor studiate cu legea distribuției normale, se folosește relația indicele de asimetrie la greşeala şi atitudinea lui indicator de curtoză spre greşeala lui.

Indicele de asimetrie

Indicele de asimetrie(A) și eroarea sa (m a) se calculează folosind următoarele formule:

, Unde

A - indicator de asimetrie,
- deviație standard,
a - medie aritmetică,
n este numărul de măsurători ale parametrilor,
a i - valoare măsurată la pasul i.

Indicator de kurtoză

Indicator de kurtoză(E) și eroarea acesteia (m e) se calculează folosind următoarele formule:

, Unde

Cea mai perfectă caracteristică a variației este abaterea standard, care se numește standard (sau abatere standard). Deviație standard() este egal cu rădăcina pătrată a pătratului mediu a abaterilor valorilor caracteristicilor individuale de la media aritmetică:

Abaterea standard este simplă:

Abaterea standard ponderată se aplică pentru datele grupate:

Între pătratul mediu și abaterile medii liniare în condiții de distribuție normală are loc următoarea relație: ~ 1,25.

Abaterea standard, fiind principala măsură absolută a variației, este utilizată la determinarea valorilor ordonatelor curbei de distribuție normală, în calculele legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului, precum și în aprecierea limitelor variaţiei unei trăsături într-o populaţie omogenă.

Dispersia, tipurile sale, abaterea standard.

Varianta unei variabile aleatoare- o măsură a răspândirii unei variabile aleatoare date, adică abaterea acesteia de la așteptările matematice. În statistică, denumirea sau este adesea folosită. Rădăcina pătrată a varianței se numește abatere standard, abatere standard sau spread standard.

Varianta totala (σ2) măsoară variaţia unei trăsături în întreaga populaţie sub influenţa tuturor factorilor care au determinat această variaţie. În același timp, datorită metodei de grupare, este posibilă izolarea și măsurarea variației datorate caracteristicii de grupare și a variației care apare sub influența unor factori necontabiliați.

Varianta intergrup (σ 2 m.gr) caracterizează variația sistematică, adică diferențele de mărime a trăsăturii studiate, apărute sub influența trăsăturii - factorul care stă la baza grupării.

deviație standard(sinonime: abatere standard, abatere standard, abatere standard; termeni similari: abatere standard, spread standard) - în teoria probabilității și statistică, cel mai comun indicator al dispersiei valorilor unei variabile aleatoare în raport cu așteptarea sa matematică. Cu matrice limitate de mostre de valori, în loc de așteptarea matematică, se folosește media aritmetică a setului de eșantioane.

Abaterea standard este măsurată în unități ale variabilei aleatoare în sine și este utilizată la calcularea erorii standard a mediei aritmetice, la construirea intervalelor de încredere, la testarea statistică a ipotezelor și la măsurarea relației liniare dintre variabilele aleatoare. Este definită ca rădăcina pătrată a varianței unei variabile aleatoare.


Deviație standard:

Deviație standard(estimarea abaterii standard a unei variabile aleatoare X raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale):

unde este dispersia; — i-al-lea element de probă; - marime de mostra; - media aritmetică a eșantionului:

Trebuie remarcat faptul că ambele estimări sunt părtinitoare. În cazul general, este imposibil să se construiască o estimare imparțială. Cu toate acestea, o estimare bazată pe o estimare imparțială a varianței este consecventă.

Esența, domeniul de aplicare și procedura de determinare a modului și a mediei.

Pe lângă mediile legii puterii în statistici, pentru o caracteristică relativă a mărimii unui atribut variabil și a structurii interne a seriei de distribuție, se folosesc medii structurale, care sunt reprezentate în principal de mod și mediană.

Modă- Aceasta este cea mai comună variantă a seriei. Moda este folosită, de exemplu, în determinarea mărimii hainelor, pantofilor, care sunt cele mai solicitate în rândul cumpărătorilor. Modul pentru o serie discretă este varianta cu cea mai mare frecvență. Când calculați modul pentru seria de variație a intervalului, trebuie mai întâi să determinați intervalul modal (prin frecvența maximă), apoi valoarea valorii modale a atributului conform formulei:

- - valoarea modei

- - limita inferioară a intervalului modal

- - valoarea intervalului

- - frecvența intervalului modal

- - frecvenţa intervalului premergător modalului

- - frecvenţa intervalului după modal

mediană - aceasta este valoarea caracteristicii care stă la baza seriei clasate și împarte această serie în două părți egale ca număr.

Pentru a determina mediana într-o serie discretă în prezența frecvențelor, se calculează mai întâi jumătatea sumei frecvențelor, apoi se determină ce valoare a variantei cade asupra acesteia. (Dacă rândul sortat conține un număr impar de caracteristici, atunci numărul median este calculat prin formula:

M e \u003d (n (număr de caracteristici în agregat) + 1) / 2,

în cazul unui număr par de caracteristici, mediana va fi egală cu media celor două caracteristici situate la mijlocul seriei).

La calcul mediane pentru o serie de variații de interval, se determină mai întâi intervalul median în care se află mediana și apoi valoarea medianei conform formulei:

- este mediana dorită

- este limita inferioară a intervalului care conține mediana

- - valoarea intervalului

- - suma frecvențelor sau a numărului de membri ai seriei

Suma frecvențelor acumulate ale intervalelor care preced mediana

- este frecvența intervalului median

Exemplu. Găsiți modul și mediana.

Decizie:
În acest exemplu, intervalul modal este în cadrul grupului de vârstă 25-30 de ani, deoarece acest interval reprezintă cea mai mare frecvență (1054).

Să calculăm valoarea modului:

Aceasta înseamnă că vârsta modală a studenților este de 27 de ani.

Calculați mediana. Intervalul median este în grupa de vârstă 25-30 de ani, întrucât în ​​cadrul acestui interval există o variantă care împarte populația în două părți egale (Σf i /2 = 3462/2 = 1731). Apoi, înlocuim datele numerice necesare în formulă și obținem valoarea mediei:

Aceasta înseamnă că jumătate dintre studenți au sub 27,4 ani, iar cealaltă jumătate au peste 27,4 ani.

Pe lângă mod și mediană, pot fi utilizați indicatori precum quartilele, împărțind seria clasată în 4 părți egale, decile- 10 părți și percentile - la 100 părți.

Conceptul de observație selectivă și domeniul său de aplicare.

Observație selectivă se aplică atunci când se aplică observarea continuă imposibil fizic datorită cantităţii mari de date sau nepractic din punct de vedere economic. Imposibilitatea fizică apare, de exemplu, atunci când se studiază fluxurile de pasageri, prețurile pieței, bugetele familiei. Inutilitatea economică apare atunci când se evaluează calitatea mărfurilor asociate cu distrugerea lor, de exemplu, degustarea, testarea cărămizilor pentru rezistență etc.

Unitățile statistice selectate pentru observare alcătuiesc un eșantion sau un eșantion și întreaga lor matrice - populația generală (GS). În acest caz, numărul de unități din eșantion denotă n, și în întregul HS - N. Atitudine n/N numită mărimea sau proporția relativă a eșantionului.

Calitatea rezultatelor eșantionării depinde de reprezentativitatea eșantionului, adică de cât de reprezentativ este acesta în HS. Pentru a asigura reprezentativitatea probei, este necesar să se respecte principiul selecției aleatorii a unităților, care presupune că includerea unei unități HS în eșantion nu poate fi influențată de niciun alt factor decât hazardul.

Exista 4 moduri de selecție aleatorie a eșantiona:

  1. De fapt aleatoriu selecție sau „metoda loto”, când numerele de serie sunt atribuite unor valori statistice, introduse pe anumite obiecte (de exemplu, butoaie), care sunt apoi amestecate într-un recipient (de exemplu, într-o pungă) și selectate la întâmplare. În practică, această metodă se realizează folosind un generator de numere aleatoare sau tabele matematice de numere aleatoare.
  2. Mecanic selecție, în funcție de care fiecare ( N/n)-a valoare a populației generale. De exemplu, dacă conține 100.000 de valori și doriți să selectați 1.000, atunci fiecare 100.000 / 1000 = a 100-a valoare va intra în eșantion. Mai mult, dacă nu sunt clasați, atunci primul este ales la întâmplare din prima sută, iar numerele celorlalți vor fi cu o sută în plus. De exemplu, dacă unitatea numărul 19 a fost prima, atunci numărul 119 ar trebui să fie următorul, apoi numărul 219, apoi numărul 319 și așa mai departe. Dacă unitățile de populație sunt clasate, atunci este selectat primul #50, apoi #150, apoi #250 și așa mai departe.
  3. Se efectuează selecția valorilor dintr-o matrice de date eterogenă stratificat cale (stratificată), când populația generală este în prealabil împărțită în grupuri omogene, cărora li se aplică selecția aleatorie sau mecanică.
  4. O metodă specială de eșantionare este serial selecție, în care nu cantitățile individuale sunt alese aleator sau mecanic, ci seriile lor (secvențe de la un număr la unele consecutive), în cadrul cărora se efectuează observarea continuă.

Calitatea observațiilor eșantionului depinde și de tipul de eșantionare: repetate sau nerepetitive.

La re-selectare valorile statistice sau seriile acestora care au intrat în eșantion sunt returnate populației generale după utilizare, având șansa de a intra într-un eșantion nou. În același timp, toate valorile populației generale au aceeași probabilitate de a fi incluse în eșantion.

Selecție care nu se repetăînseamnă că valorile statistice sau seriile lor incluse în eșantion nu sunt returnate populației generale după utilizare și, prin urmare, probabilitatea de a intra în următorul eșantion crește pentru valorile rămase ale acestuia din urmă.

Eșantionarea nerepetitivă oferă rezultate mai precise, deci este folosită mai des. Există însă situații în care nu poate fi aplicată (studiul fluxurilor de pasageri, cererea consumatorilor etc.) și apoi se realizează o reselecție.

Eroarea marginală a eșantionului de observație, eroarea medie a eșantionului, ordinea în care sunt calculate.

Să luăm în considerare în detaliu metodele de mai sus de formare a unei populații eșantion și erorile care apar în acest caz. reprezentativitate .
De fapt, aleatoriu eșantionul se bazează pe selecția aleatorie a unităților din populația generală fără elemente de consistență. Din punct de vedere tehnic, selecția corectă aleatorie se realizează prin tragere la sorți (de exemplu, loterie) sau printr-un tabel de numere aleatorii.

De fapt, selecția aleatorie „în forma sa pură” în practica observației selective este rar folosită, dar este inițială printre alte tipuri de selecție, implementează principiile de bază ale observației selective. Să luăm în considerare câteva întrebări ale teoriei metodei de eșantionare și ale formulei de eroare pentru un eșantion aleator simplu.

Eroare de eșantionare- aceasta este diferența dintre valoarea parametrului în populația generală și valoarea acestuia calculată din rezultatele observării eșantionului. Pentru o caracteristică cantitativă medie, eroarea de eșantionare este determinată de

Indicatorul se numește eroare marginală de eșantionare.
Media eșantionului este o variabilă aleatorie care poate lua valori diferite în funcție de unitățile care se află în eșantion. Prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare și pot lua valori diferite. Prin urmare, determinați media erorilor posibile - eroare medie de eșantionare, care depinde de:

Dimensiunea eșantionului: cu cât numărul este mai mare, cu atât eroarea medie este mai mică;

Gradul de modificare a trăsăturii studiate: cu cât variația trăsăturii este mai mică și, în consecință, varianța, cu atât eroarea medie de eșantionare este mai mică.

La reselectare aleatorie eroarea medie se calculează:
.
În practică, varianța generală nu este cunoscută exact, dar în teoria probabilității a dovedit că
.
Deoarece valoarea pentru n suficient de mare este aproape de 1, putem presupune că . Apoi se poate calcula eroarea medie de eșantionare:
.
Dar în cazul unui eșantion mic (pentru n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

La eșantionare aleatorie formulele date se corectează cu valoarea . Atunci eroarea medie a neeșantionării este:
și .
pentru că este întotdeauna mai mic decât , atunci factorul () este întotdeauna mai mic decât 1. Aceasta înseamnă că eroarea medie în selecția nerepetitivă este întotdeauna mai mică decât în ​​selecția repetată.
Prelevare mecanică este utilizat atunci când populația generală este ordonată într-un fel (de exemplu, liste alegătorilor în ordine alfabetică, numere de telefon, numere de case, apartamente). Selecția unităților se efectuează la un anumit interval, care este egal cu reciproca procentului eșantionului. Deci, cu un eșantion de 2%, se selectează fiecare 50 de unități = 1 / 0,02, cu 5%, fiecare 1 / 0,05 = 20 de unități din populația generală.

Originea se alege în diferite moduri: aleatoriu, de la mijlocul intervalului, cu modificarea originii. Principalul lucru este să evitați erorile sistematice. De exemplu, cu un eșantion de 5%, dacă al 13-lea este ales ca primă unitate, atunci următorii 33, 53, 73 etc.

În ceea ce privește precizia, selecția mecanică este aproape de eșantionarea aleatorie adecvată. Prin urmare, pentru a determina eroarea medie a eșantionării mecanice, se folosesc formule de selecție aleatorie adecvată.

La selecție tipică populația chestionată este împărțită preliminar în grupuri omogene, de tip unic. De exemplu, atunci când cercetăm întreprinderi, acestea pot fi industrii, subsectoare, în timp ce studiem populația - zone, sociale sau grupe de vârstă. Apoi se face o selecție independentă din fiecare grup într-un mod mecanic sau aleatoriu adecvat.

Eșantionarea tipică oferă rezultate mai precise decât alte metode. Tipificarea populației generale asigură reprezentarea fiecărui grup tipologic în eșantion, ceea ce face posibilă excluderea influenței varianței intergrupurilor asupra erorii medii de eșantion. Prin urmare, atunci când se află eroarea unui eșantion tipic conform regulii de adunare a variațiilor (), este necesar să se ia în considerare doar media variațiilor de grup. Atunci eroarea medie de eșantionare este:
în reselectare
,
cu selecție nerecurentă
,
Unde este media variațiilor intragrup din eșantion.

Selecție în serie (sau imbricată). utilizat atunci când populația este împărțită în serii sau grupuri înainte de începerea anchetei prin sondaj. Aceste serii pot fi pachete de produse finite, grupuri de studenți, echipe. Serii pentru examinare sunt selectate mecanic sau aleatoriu, iar în cadrul seriei se efectuează un studiu complet al unităților. Prin urmare, eroarea medie de eșantionare depinde doar de varianța intergrup (interserii), care este calculată prin formula:

unde r este numărul de serie selectate;
- media seriei i-a.

Se calculează eroarea medie de eșantionare în serie:

când este reseleat:
,
cu selecție nerecurentă:
,
unde R este numărul total de serii.

Combinate selecţie este o combinație a metodelor de selecție considerate.

Eroarea medie de eșantionare pentru orice metodă de selecție depinde în principal de mărimea absolută a eșantionului și, într-o măsură mai mică, de procentul eșantionului. Să presupunem că se fac 225 de observații în primul caz dintr-o populație de 4.500 de unități și în al doilea caz, din 225.000 de unități. Varianțele în ambele cazuri sunt egale cu 25. Apoi, în primul caz, cu o selecție de 5%, eroarea de eșantionare va fi:

În al doilea caz, cu o selecție de 0,1%, aceasta va fi egală cu:


Prin urmare, cu o scădere a procentului eșantionului de 50 de ori, eroarea eșantionului a crescut ușor, deoarece dimensiunea eșantionului nu s-a modificat.
Să presupunem că dimensiunea eșantionului este mărită la 625 de observații. În acest caz, eroarea de eșantionare este:

O creștere a eșantionului de 2,8 ori cu aceeași dimensiune a populației generale reduce dimensiunea erorii de eșantionare de mai mult de 1,6 ori.

Metode și mijloace de formare a unei populații eșantion.

În statistică, se folosesc diverse metode de formare a seturilor de probe, care este determinată de obiectivele studiului și depinde de specificul obiectului de studiu.

Principala condiție pentru efectuarea unei anchete prin sondaj este prevenirea apariției erorilor sistematice care decurg din încălcarea principiului egalității de șanse pentru fiecare unitate a populației generale de a intra în eșantion. Prevenirea erorilor sistematice se realizează ca urmare a utilizării metodelor bazate științific pentru formarea unei populații eșantion.

Există următoarele modalități de a selecta unități din populația generală:

1) selecție individuală - unitățile individuale sunt selectate în eșantion;

2) selecția grupului - în eșantion se încadrează grupuri sau serii de unități în studiu calitativ omogene;

3) selecția combinată este o combinație de selecție individuală și de grup.
Metodele de selecție sunt determinate de regulile de formare a populației de eșantionare.

Eșantionul poate fi:

  • aleatoriu adecvat constă în faptul că eşantionul se formează ca urmare a selecţiei aleatorii (neintenţionate) a unităţilor individuale din populaţia generală. În acest caz, numărul de unități selectate în setul de eșantion este de obicei determinat pe baza proporției acceptate din eșantion. Ponderea eșantionului este raportul dintre numărul de unități din populația eșantion n și numărul de unități din populația generală N, i.e.
  • mecanic constă în faptul că selecţia unităţilor din eşantion se face din populaţia generală, împărţită în intervale (grupe) egale. În acest caz, mărimea intervalului în populația generală este egală cu reciproca proporției eșantionului. Deci, cu un eșantion de 2%, se selectează fiecare a 50-a unitate (1:0,02), cu un eșantion de 5%, fiecare a 20-a unitate (1:0,05), etc. Astfel, în conformitate cu proporția acceptată de selecție, populația generală este, parcă, împărțită mecanic în grupuri egale. Doar o unitate este selectată din fiecare grup din eșantion.
  • tipic -în care populaţia generală este mai întâi împărţită în grupuri tipice omogene. Apoi, din fiecare grup tipic, o selecție individuală a unităților din eșantion este făcută printr-un eșantion aleator sau mecanic. O caracteristică importantă a unui eșantion tipic este că oferă rezultate mai precise în comparație cu alte metode de selectare a unităților dintr-o probă;
  • serial- în care populația generală este împărțită în grupuri de aceeași mărime - serie. Serii sunt selectate în setul de mostre. În cadrul seriei se efectuează o observare continuă a unităților care au căzut în serie;
  • combinate- eșantionarea poate fi în două etape. În acest caz, populația generală este mai întâi împărțită în grupuri. Apoi sunt selectate grupurile, iar în cadrul acestora din urmă sunt selectate unități individuale.

În statistică, se disting următoarele metode de selectare a unităților dintr-un eșantion::

  • o singură etapă eșantion - fiecare unitate selectată este supusă imediat studiului pe o bază dată (de fapt probe aleatorii și în serie);
  • în mai multe etape eșantionarea - selecția se face din populația generală a grupurilor individuale, iar unitățile individuale sunt selectate din grupuri (un eșantion tipic cu o metodă mecanică de selectare a unităților din populația eșantion).

În plus, există:

  • reselectare- conform schemei mingii returnate. În acest caz, fiecare unitate sau serie care a intrat în eșantion este returnată populației generale și, prin urmare, are șansa de a fi inclusă din nou în eșantion;
  • selecție nerepetitivă- conform schemei mingii nereturnate. Are rezultate mai precise pentru aceeași dimensiune a eșantionului.

Determinarea dimensiunii eșantionului necesar (folosind tabelul Student).

Unul dintre principiile științifice în teoria eșantionării este acela de a se asigura că sunt selectate un număr suficient de unități. Teoretic, necesitatea respectării acestui principiu este prezentată în dovezile teoremelor limită ale teoriei probabilităților, care vă permit să stabiliți câte unități trebuie selectate din populația generală astfel încât să fie suficient și să asigure reprezentativitatea eșantionului.

O scădere a erorii standard a eșantionului și, în consecință, o creștere a acurateței estimării este întotdeauna asociată cu o creștere a dimensiunii eșantionului, prin urmare, deja în etapa de organizare a unei observații eșantionului, este necesar să se decidă care ar trebui să fie dimensiunea eșantionului pentru a asigura acuratețea necesară a rezultatelor observației. Calculul mărimii eșantionului necesar este construit folosind formule derivate din formulele pentru erorile marginale de eșantionare (A), corespunzătoare unuia sau altuia tip și metodă de selecție. Deci, pentru o dimensiune ale eșantionului repetat aleatoriu (n), avem:

Esența acestei formule este că, cu o re-selectare aleatorie a numărului necesar, dimensiunea eșantionului este direct proporțională cu pătratul coeficientului de încredere. (t2)și varianța caracteristicii de variație (?2) și este invers proporțională cu pătratul erorii marginale de eșantionare (?2). În special, prin dublarea erorii marginale, dimensiunea necesară a eșantionului poate fi redusă cu un factor de patru. Dintre cei trei parametri, doi (t și?) sunt stabiliți de cercetător.

În același timp, cercetătorulÎn scopul anchetei prin sondaj, trebuie decisă întrebarea: în ce combinație cantitativă este mai bine să includem acești parametri pentru a oferi varianta optimă? Într-un caz, el poate fi mai mulțumit de fiabilitatea rezultatelor obținute (t) decât de măsura acurateței (?), în celălalt - invers. Este mai dificil de rezolvat problema cu privire la valoarea erorii marginale de eșantionare, întrucât cercetătorul nu dispune de acest indicator în etapa de proiectare a unei observații în eșantion, prin urmare, în practică, se obișnuiește să se stabilească eroarea marginală de eșantionare, deoarece o regulă, în limita a 10% din nivelul mediu așteptat al trăsăturii. Stabilirea unui nivel mediu presupus poate fi abordată în moduri diferite: folosind date din anchete similare anterioare sau folosind date din cadrul de eșantionare și luarea unui eșantion pilot mic.

Cel mai dificil lucru de stabilit atunci când se proiectează o observație eșantion este al treilea parametru din formula (5.2) - varianța populației eșantionului. În acest caz, este necesar să se utilizeze toate informațiile de care dispune investigatorul, obținute din anchetele anterioare similare și pilot.

Chestiune de definiție Mărimea eșantionului necesară devine mai complicată dacă ancheta prin eșantion implică studiul mai multor caracteristici ale unităților de eșantionare. În acest caz, nivelurile medii ale fiecăreia dintre caracteristici și variația lor, de regulă, sunt diferite și, prin urmare, este posibil să se decidă ce dispersie a cărora dintre caracteristici să se acorde preferință doar luând în considerare scopul și obiectivele chestionarul.

Atunci când se proiectează o observație eșantion, se presupune o valoare predeterminată a erorii de eșantionare admisibile în conformitate cu obiectivele unui anumit studiu și cu probabilitatea concluziilor bazate pe rezultatele observației.

În general, formula pentru eroarea marginală a valorii medii a eșantionului vă permite să determinați:

Mărimea posibilelor abateri ale indicatorilor populației generale de la indicatorii populației eșantionului;

Mărimea eșantionului necesară, oferind precizia necesară, în care limitele unei posibile erori nu vor depăși o anumită valoare specificată;

Probabilitatea ca eroarea din eșantion să aibă o limită dată.

Distribuția elevilorîn teoria probabilității, este o familie cu un singur parametru de distribuții absolut continue.

Serii de dinamică (interval, moment), închidere de serie de dinamică.

Serii de dinamici- acestea sunt valorile indicatorilor statistici care sunt prezentați într-o anumită secvență cronologică.

Fiecare serie temporală conține două componente:

1) indicatori ai perioadelor de timp (ani, trimestre, luni, zile sau date);

2) indicatori care caracterizează obiectul studiat pe perioade de timp sau pe datele corespunzătoare, care se numesc niveluri ale seriei.

Nivelurile seriei sunt exprimate atât valori absolute, cât și valori medii sau relative. În funcție de natura indicatorilor, se construiesc serii dinamice de valori absolute, relative și medii. Serii dinamice de valori relative și medii sunt construite pe baza unor serii derivate de valori absolute. Există intervale și serii de momente de dinamică.

Serii de intervale dinamice conține valorile indicatorilor pentru anumite perioade de timp. În seria de intervale, nivelurile pot fi însumate, obținându-se volumul fenomenului pe o perioadă mai lungă, sau așa-numitele totaluri acumulate.

Serii de momente dinamice reflectă valorile indicatorilor la un anumit moment în timp (data de timp). În seriile de moment, cercetătorul poate fi interesat doar de diferența de fenomene, reflectând schimbarea nivelului seriei între anumite date, întrucât suma nivelurilor de aici nu are un conținut real. Totalurile cumulate nu sunt calculate aici.

Cea mai importantă condiție pentru construirea corectă a seriilor dinamice este comparabilitatea nivelurilor de serie referitoare la diferite perioade. Nivelurile ar trebui să fie prezentate în cantități omogene, ar trebui să existe aceeași completitate a acoperirii diferitelor părți ale fenomenului.

Pentru a pentru a evita denaturarea dinamicii reale, se efectuează calcule preliminare în studiul statistic (închiderea seriei dinamice), care preced analiza statistică a seriei dinamice. Închiderea serii temporale este înțeleasă ca combinarea a două sau mai multe serii într-o singură serie, ale căror niveluri sunt calculate după o metodologie diferită sau nu corespund limitelor teritoriale etc. Închiderea seriei de dinamică poate implica și reducerea nivelurilor absolute ale seriei de dinamică la o bază comună, ceea ce elimină incompatibilitatea nivelurilor seriei de dinamică.

Conceptul de comparabilitate a seriilor temporale, coeficienților, creșterii și ratelor de creștere.

Serii de dinamici- sunt serii de indicatori statistici care caracterizează evoluţia în timp a fenomenelor naturale şi sociale. Colecțiile statistice publicate de Comitetul de Stat de Statistică al Rusiei conțin un număr mare de serii temporale în formă tabelară. Serii de dinamici permit dezvăluirea modelelor de dezvoltare a fenomenelor studiate.

Seriile temporale conțin două tipuri de indicatori. Indicatori de timp(ani, trimestre, luni etc.) sau momente în timp (la începutul anului, la începutul fiecărei luni etc.). Indicatori de nivel de rând. Indicatorii nivelurilor seriilor temporale pot fi exprimați în valori absolute (producție în tone sau ruble), valori relative (ponderea populației urbane în %) și valori medii (salariile medii ale lucrătorilor din industrie pe ani, etc.). În formă tabelară, seria temporală conține două coloane sau două rânduri.

Construirea corectă a seriilor temporale presupune îndeplinirea unui număr de cerințe:

  1. toți indicatorii unei serii de dinamici trebuie să fie fundamentați științific, de încredere;
  2. indicatorii unei serii de dinamici ar trebui să fie comparabili în timp, adică trebuie calculate pentru aceleași perioade de timp sau la aceleași date;
  3. indicatorii unui număr de dinamici ar trebui să fie comparabili pe întreg teritoriul;
  4. indicatorii unei serii de dinamici ar trebui să fie comparabili în conținut, adică calculate după o singură metodologie, în același mod;
  5. indicatorii unei serii de dinamici ar trebui să fie comparabili în gama de ferme luate în considerare. Toți indicatorii unei serii de dinamică ar trebui să fie dați în aceleași unități de măsură.

Indicatori statistici poate caracteriza fie rezultatele procesului studiat pe o perioadă de timp, fie starea fenomenului studiat la un anumit moment în timp, i.e. indicatorii pot fi interval (periodici) și instant. În consecință, inițial seria dinamicii poate fi fie interval, fie moment. Seria momentelor de dinamică, la rândul său, poate fi cu intervale de timp egale și inegale.

Seria inițială de dinamică poate fi convertită într-o serie de valori medii și o serie de valori relative (lanț și bază). Astfel de serii temporale sunt numite serii temporale derivate.

Metoda de calcul a nivelului mediu în seria de dinamică este diferită, datorită tipului de serie de dinamică. Folosind exemple, luați în considerare tipurile de serii temporale și formule pentru calcularea nivelului mediu.

Câștiguri absolute (Δy) arată câte unități s-a modificat nivelul următor al seriei față de cel anterior (coloana 3. - incremente absolute în lanț) sau față de nivelul inițial (coloana 4. - incremente absolute de bază). Formulele de calcul pot fi scrise astfel:

Odată cu o scădere a valorilor absolute ale seriei, va exista o „scădere”, respectiv „scădere”.

Indicatorii de creștere absolută indică faptul că, de exemplu, în 1998 producția de produs „A” a crescut cu 4.000 de tone față de 1997, și cu 34.000 de tone față de 1994; pentru alti ani, vezi tabel. 11,5 gr. 3 și 4.

Factor de creștere arată de câte ori s-a modificat nivelul seriei față de cel precedent (coloana 5 - coeficienți de creștere sau declin în lanț) sau față de nivelul inițial (coloana 6 - coeficienți de creștere sau declin de bază). Formulele de calcul pot fi scrise astfel:

Ratele de creștere arată câte procente este următorul nivel al seriei în comparație cu cel anterior (coloana 7 - rate de creștere în lanț) sau în comparație cu nivelul inițial (coloana 8 - rate de creștere de bază). Formulele de calcul pot fi scrise astfel:

Deci, de exemplu, în 1997, volumul producției produsului „A” față de 1996 a fost de 105,5% (

Ratele de creștere arătați cu câte procente a crescut nivelul perioadei de raportare față de cel precedent (coloana 9 - rate de creștere în lanț) sau față de nivelul inițial (coloana 10 - rate de creștere de bază). Formulele de calcul pot fi scrise astfel:

T pr \u003d T p - 100% sau T pr \u003d creștere absolută / nivelul perioadei precedente * 100%

Deci, de exemplu, în 1996, comparativ cu 1995, produsul „A” a fost produs mai mult cu 3,8% (103,8% - 100%) sau (8:210) x 100%, iar față de 1994. - cu 9% ( 109% - 100%).

Dacă nivelurile absolute din serie scad, atunci rata va fi mai mică de 100% și, în consecință, va exista o rată de scădere (rata de creștere cu semnul minus).

Valoarea absolută de creștere cu 1%.(coloana 11) arată câte unități trebuie produse într-o anumită perioadă pentru ca nivelul perioadei precedente să crească cu 1%. În exemplul nostru, în 1995 a fost necesar să se producă 2,0 mii tone, iar în 1998 - 2,3 mii tone, i.e. mult mai mare.

Există două moduri de a determina mărimea valorii absolute a creșterii de 1%:

Împărțiți nivelul perioadei precedente la 100;

Împărțiți ratele absolute de creștere a lanțului la ratele de creștere a lanțului corespunzătoare.

Valoarea absolută a creșterii cu 1% =

În dinamică, mai ales pe o perioadă lungă, este important să se analizeze în comun ratele de creștere cu conținutul fiecărei creșteri sau scăderi procentuale.

Rețineți că metoda luată în considerare pentru analiza seriilor de timp este aplicabilă atât pentru seriile de timp, ale căror niveluri sunt exprimate în valori absolute (t, mii de ruble, numărul de angajați etc.), cât și pentru seriile de timp, nivelurile de care sunt exprimate în indicatori relativi (% din fier vechi, % conținut de cenușă de cărbune etc.) sau valori medii (randament mediu în c/ha, salarii medii etc.).

Alături de indicatorii analitici considerați calculați pentru fiecare an în comparație cu nivelul anterior sau inițial, la analiza seriilor temporale, este necesar să se calculeze indicatorii analitici medii pentru perioada: nivelul mediu al seriei, creșterea medie anuală absolută. (scădere) și rata medie anuală de creștere și rata de creștere.

Metodele de calcul al nivelului mediu al unei serii de dinamici au fost discutate mai sus. În seria de intervale de dinamică pe care o luăm în considerare, nivelul mediu al seriei se calculează prin formula mediei aritmetice simple:

Producția medie anuală a produsului pentru 1994-1998. s-a ridicat la 218,4 mii tone.

Creșterea medie anuală absolută se calculează și prin formula mediei aritmetice simple:

Creșterile absolute anuale au variat de-a lungul anilor de la 4 la 12 mii de tone (vezi gr. 3), iar creșterea medie anuală a producției pentru perioada 1995 - 1998. s-a ridicat la 8,5 mii tone.

Metodele de calculare a ratei medii de creștere și a ratei medii de creștere necesită o analiză mai detaliată. Să le luăm în considerare pe exemplul indicatorilor anuali ai nivelului de serie din tabel.

Nivelul mediu al gamei de dinamică.

Serii de dinamică (sau serii de timp)- acestea sunt valorile numerice ale unui anumit indicator statistic la momente sau perioade succesive de timp (adică aranjate în ordine cronologică).

Se numesc valorile numerice ale unui anumit indicator statistic care alcătuiește o serie de dinamică nivelurile unui numărși este de obicei notat cu litera y. Primul membru al seriei y 1 numit initial sau de bază, și ultimul y n - final. Momentele sau perioadele de timp la care se referă nivelurile sunt notate prin t.

Seriile dinamice, de regulă, sunt prezentate sub forma unui tabel sau grafic, iar o scară de timp este construită de-a lungul axei x t, iar de-a lungul ordonatei - scara nivelurilor seriei y.

Indicatori medii ai unei serii de dinamici

Fiecare serie de dinamică poate fi considerată ca un anumit set n indicatori variabili în timp care pot fi rezumați ca medii. Astfel de indicatori generalizați (medii) sunt necesari în special atunci când se compară modificările unuia sau altul în diferite perioade, în diferite țări etc.

O caracteristică generalizată a unei serii de dinamici poate fi, în primul rând, nivelul mediu al rândului. Metoda de calcul a nivelului mediu depinde dacă este o serie de momente sau o serie de intervale (perioade).

Când interval serie, nivelul său mediu este determinat de formula unei medii aritmetice simple a nivelurilor seriei, i.e.

=
Daca este disponibil moment rând care conține n niveluri ( y1, y2, …, yn) cu intervale egale între date (puncte de timp), atunci o astfel de serie poate fi ușor convertită într-o serie de valori medii. Totodată, indicatorul (nivelul) de la începutul fiecărei perioade este în același timp indicatorul de la sfârșitul perioadei precedente. Apoi valoarea medie a indicatorului pentru fiecare perioadă (interval între date) poate fi calculată ca o jumătate de sumă a valorilor la la începutul și sfârșitul perioadei, adică la fel de . Numărul de astfel de medii va fi . După cum sa menționat mai devreme, pentru serii de medii, nivelul mediu este calculat din media aritmetică.

Prin urmare, putem scrie:
.
După conversia numărătorului, obținem:
,

Unde Y1și Yn- primul și ultimul nivel al seriei; Yi- niveluri intermediare.

Această medie este cunoscută în statistici ca cronologic mediu pentru seria de momente. Ea a primit acest nume de la cuvântul „cronos” (timp, lat.), deoarece este calculat din indicatorii care se modifică în timp.

În caz de inegalitate intervale dintre date, media cronologică pentru seria de momente poate fi calculată ca media aritmetică a valorilor medii ale nivelurilor pentru fiecare pereche de momente, ponderată cu distanțele (intervalele de timp) dintre date, i.e.
.
În acest caz se presupune că în intervalele dintre date nivelurile au luat valori diferite, iar noi suntem din două cunoscute ( yiși yi+1) determinăm mediile, din care apoi calculăm media generală pentru întreaga perioadă analizată.
Dacă se presupune că fiecare valoare yi rămâne neschimbată până la următoarea (i+ 1)- al-lea moment, adică data exactă a modificării nivelurilor este cunoscută, apoi calculul poate fi efectuat folosind formula mediei aritmetice ponderate:
,

unde este timpul în care nivelul a rămas neschimbat.

Pe lângă nivelul mediu din seria de dinamică, se calculează și alți indicatori medii - modificarea medie a nivelurilor seriei (prin metode de bază și în lanț), rata medie de schimbare.

Linia de bază înseamnă schimbare absolută este câtul ultimei modificări absolute de bază împărțit la numărul de modificări. i.e

Lanț înseamnă schimbare absolută nivelurile unei serii este coeficientul de împărțire a sumei tuturor modificărilor absolute ale lanțului la numărul de modificări, i.e.

După semnul modificărilor absolute medii, se apreciază în medie și natura schimbării fenomenului: creștere, declin sau stabilitate.

Din regula de control al modificărilor de bază și absolute în lanț, rezultă că modificările de bază și medii în lanț trebuie să fie egale.

Odată cu modificarea medie absolută, relativă medie este calculată și folosind metodele de bază și în lanț.

Schimbarea relativă medie de bază este determinată de formula:

Lant înseamnă schimbare relativă este determinată de formula:

Desigur, modificările relative medii de bază și în lanț ar trebui să fie aceleași, iar comparându-le cu valoarea de criteriu de 1, se ajunge la o concluzie despre natura schimbării fenomenului în medie: creștere, declin sau stabilitate.
Scăzând 1 din variația relativă medie a bazei sau a lanțului, corespunzătoare rata medie de schimbare, după semnul căruia se poate judeca și natura schimbării fenomenului studiat, reflectată de această serie de dinamică.

Fluctuații sezoniere și indici de sezonalitate.

Fluctuațiile sezoniere sunt fluctuații intraanuale stabile.

Principiul de bază al reușirii pentru a obține efectul maxim este maximizarea veniturilor și minimizarea costurilor. Prin studierea fluctuațiilor sezoniere se rezolvă problema ecuației maxime în fiecare nivel al anului.

Când se studiază fluctuațiile sezoniere, sunt rezolvate două sarcini interdependente:

1. Identificarea specificului dezvoltării fenomenului în dinamică intraanuală;

2. Măsurarea fluctuațiilor sezoniere prin construirea unui model de val sezonier;

Curcanii de sezon sunt de obicei numărați pentru a măsura sezonalitatea. În termeni generali, ele sunt determinate de raportul dintre ecuațiile originale ale unei serii de dinamică și ecuațiile teoretice care servesc drept bază pentru comparație.

Deoarece abaterile aleatoare sunt suprapuse fluctuațiilor sezoniere, se face media indicilor de sezonalitate pentru a le elimina.

În acest caz, pentru fiecare perioadă a ciclului anual, se determină indicatorii generalizați sub forma unor indici medii sezonieri:

Indicii medii ai fluctuațiilor sezoniere sunt liberi de influența abaterilor aleatorii ale tendinței principale de dezvoltare.

În funcție de natura tendinței, formula pentru indicele de sezonalitate medie poate lua următoarele forme:

1.Pentru serii de dinamici intra-anuale cu o tendință de dezvoltare principală pronunțată:

2. Pentru seria de dinamici intraanuale in care nu exista tendinta ascendenta sau descendenta, sau este nesemnificativa:

Unde este media generală;

Metode de analiză a tendinței principale.

Dezvoltarea fenomenelor în timp este influențată de factori diferiți ca natură și puterea influenței. Unele dintre ele sunt de natură aleatorie, altele au un efect aproape constant și formează o anumită tendință de dezvoltare în seria dinamicii.

O sarcină importantă a statisticii este identificarea unei tendințe în seria dinamicii, eliberată de acțiunea diferiților factori aleatori. În acest scop, seriile de timp sunt prelucrate prin metodele de mărire a intervalului, medie mobilă și aliniere analitică etc.

Metoda de îngroșare pe intervale se bazează pe lărgirea unor perioade de timp, care includ nivelurile unei serii de dinamici, i.e. este înlocuirea datelor referitoare la perioade de timp mici cu date din perioade mai mari. Este eficient mai ales atunci când nivelurile inițiale ale seriei sunt pentru perioade scurte de timp. De exemplu, serii de indicatori aferenti evenimentelor zilnice sunt inlocuite cu serii legate de saptamanal, lunar etc. Acest lucru se va arăta mai clar „Axa de dezvoltare a fenomenului”. Media, calculată pe baza intervalelor mărite, face posibilă identificarea direcției și caracterului (accelerarea sau decelerarea creșterii) tendinței principale de dezvoltare.

metoda mediei mobile similar cu cel precedent, dar în acest caz, nivelurile efective sunt înlocuite cu niveluri medii calculate pentru deplasări succesive (alunecare) intervale mărite acoperind m niveluri de rând.

de exemplu dacă este acceptată m=3, apoi, mai întâi, se calculează media primelor trei niveluri ale seriei, apoi - din același număr de niveluri, dar începând cu al doilea la rând, apoi - începând cu al treilea etc. Astfel, media, parcă, „alunecă” de-a lungul seriei de dinamică, mișcându-se pentru o perioadă. Calculat din m membrii mediilor mobile se referă la mijlocul (centrul) fiecărui interval.

Această metodă elimină doar fluctuațiile aleatorii. Dacă seria are un val sezonier, atunci va rămâne după netezire prin metoda mediei mobile.

Alinierea analitică. Pentru a elimina fluctuațiile aleatoare și pentru a identifica o tendință, nivelurile seriei sunt aliniate conform formulelor analitice (sau alinierii analitice). Esența acestuia este înlocuirea nivelurilor empirice (actuale) cu cele teoretice, care se calculează după o anumită ecuație, luată ca model matematic al tendinței, unde nivelurile teoretice sunt considerate în funcție de timp: . În acest caz, fiecare nivel real este considerat ca suma a două componente: , unde este o componentă sistematică și exprimată printr-o anumită ecuație și este o variabilă aleatoare care provoacă fluctuații în jurul tendinței.

Sarcina alinierii analitice este următoarea:

1. Determinarea, pe baza datelor reale, a tipului de funcție ipotetică care poate reflecta cel mai adecvat tendința de dezvoltare a indicatorului studiat.

2. Găsirea parametrilor funcției specificate (ecuația) din date empirice

3. Calculul conform ecuației găsite a nivelurilor teoretice (nivelate).

Alegerea unei anumite funcții se realizează, de regulă, pe baza unei reprezentări grafice a datelor empirice.

Modelele sunt ecuații de regresie, ai căror parametri sunt calculați prin metoda celor mai mici pătrate

Mai jos sunt cele mai frecvent utilizate ecuații de regresie pentru nivelarea seriilor de timp, indicând ce tendințe de dezvoltare sunt cele mai potrivite pentru a le reflecta.

Pentru a găsi parametrii ecuațiilor de mai sus, există algoritmi speciali și programe de calculator. În special, pentru a găsi parametrii ecuației unei linii drepte, se poate folosi următorul algoritm:

Dacă perioadele sau momentele de timp sunt numerotate astfel încât să se obțină St = 0, atunci algoritmii de mai sus vor fi simplificați semnificativ și se vor transforma în

Nivelurile aliniate pe diagramă vor fi situate pe o linie dreaptă care trece la cea mai apropiată distanță de nivelurile reale ale acestei serii dinamice. Suma abaterilor pătrate este o reflectare a influenței factorilor aleatori.

Cu ajutorul acestuia, calculăm eroarea medie (standard) a ecuației:

Aici n este numărul de observații, iar m este numărul de parametri din ecuație (avem doi dintre ei - b 1 și b 0).

Tendința principală (tendința) arată modul în care factorii sistematici afectează nivelurile seriei de timp, iar fluctuația nivelurilor în jurul tendinței () servește ca măsură a impactului factorilor reziduali.

Pentru a evalua calitatea modelului de serie temporală utilizat, este, de asemenea, utilizat Testul F al lui Fisher. Este raportul a două varianțe, și anume raportul varianței cauzate de regresie, i.e. factor studiat, la dispersia cauzată de cauze aleatorii, i.e. varianță reziduală:

În formă extinsă, formula pentru acest criteriu poate fi reprezentată după cum urmează:

unde n este numărul de observații, adică numărul de niveluri de rând,

m este numărul de parametri din ecuație, y este nivelul real al seriei,

Nivelul aliniat al rândului, - nivelul mediu al rândului.

Mai de succes decât altele, modelul poate să nu fie întotdeauna suficient de satisfăcător. Poate fi recunoscut ca atare numai dacă criteriul F pentru el depășește o anumită limită critică. Această limită este stabilită folosind tabele de distribuție F.

Esența și clasificarea indicilor.

Un indice în statistică este înțeles ca un indicator relativ care caracterizează modificarea amplitudinii unui fenomen în timp, spațiu sau în comparație cu orice standard.

Elementul principal al relației index este valoarea indexată. O valoare indexată este înțeleasă ca valoarea unui semn al unei populații statistice, a cărei modificare face obiectul de studiu.

Indicii servesc trei scopuri principale:

1) evaluarea schimbărilor dintr-un fenomen complex;

2) determinarea influenţei factorilor individuali asupra schimbării unui fenomen complex;

3) compararea amplorii unui fenomen cu amploarea perioadei trecute, amploarea unui alt teritoriu, precum și cu standardele, planurile, prognozele.

Indicii sunt clasificați după 3 criterii:

2) după gradul de acoperire a elementelor populaţiei;

3) prin metode de calcul al indicilor generali.

După conținut a valorilor indexate, indicii se împart în indici ai indicatorilor cantitativi (volumici) și indici ai indicatorilor calitativi. Indici ai indicatorilor cantitativi - indici ai volumului fizic al producției industriale, volumului fizic al vânzărilor, numărului etc. Indici ai indicatorilor calitativi - indici ai prețurilor, costurilor, productivității muncii, salariilor medii etc.

În funcție de gradul de acoperire a unităților populației, indicii se împart în două clase: individuali și generali. Pentru a le caracteriza, introducem următoarele convenții adoptate în practica aplicării metodei indexului:

q- cantitatea (volumul) oricărui produs în natură ; R- pretul unitar de productie; z- costul unitar de producție; t- timpul petrecut pentru producerea unei unități de producție (intensitatea muncii) ; w- producția în termeni valorici pe unitatea de timp; v- output în termeni fizici pe unitatea de timp; T- timpul total petrecut sau numărul de angajați.

Pentru a distinge cărei perioade sau obiect îi aparțin valorile indexate, se obișnuiește să se pună indicele după simbolul corespunzător din dreapta jos. Deci, de exemplu, în indicii de dinamică, de regulă, pentru perioadele comparate (curente, de raportare) se folosește indicele 1 și pentru perioadele cu care se face comparația,

Indici individuali servesc pentru a caracteriza modificarea elementelor individuale ale unui fenomen complex (de exemplu, o modificare a volumului producției unui tip de produs). Ele reprezintă valorile relative ale dinamicii, îndeplinirii obligațiilor, compararea valorilor indexate.

Se determină indicele individual al volumului fizic al producției

Din punct de vedere analitic, indicii de dinamică individuali dați sunt similari cu coeficienții (ratele) de creștere și caracterizează modificarea valorii indexate în perioada curentă față de cea de bază, adică arată de câte ori a crescut (scăzut). ) sau câte procente este creștere (scădere). Valorile indicilor sunt exprimate în coeficienți sau procente.

Indice general (compozit). reflectă schimbarea tuturor elementelor unui fenomen complex.

Indicele agregat este forma de bază a indexului. Se numește agregat deoarece numărătorul și numitorul său sunt un set de „agregate”

Indici medii, definiția lor.

Pe lângă indicii agregați, în statistică se utilizează o altă formă a acestora - indici medii ponderați. Se recurge la calculul acestora atunci când informaţiile disponibile nu permit calcularea indicelui agregat general. Deci, dacă nu există date despre prețuri, dar există informații despre costul produselor în perioada curentă și sunt cunoscuți indici individuali de preț pentru fiecare produs, atunci indicele general al prețurilor nu poate fi determinat ca unul agregat, dar este posibil pentru a o calcula ca medie a celor individuale. În același mod, dacă cantitățile de produse individuale produse nu sunt cunoscute, dar sunt cunoscuți indicii individuali și costul de producție din perioada de bază, atunci indicele global al volumului fizic al producției poate fi determinat ca medie ponderată.

indice mediu - Acest un indice calculat ca medie a indicilor individuali. Indicele agregat este forma de bază a indicelui general, deci indicele mediu trebuie să fie identic cu indicele agregat. La calcularea indicilor medii se folosesc două forme de medii: aritmetică și armonică.

Indicele medie aritmetică este identic cu indicele agregat dacă ponderile indicilor individuali sunt termenii numitorului indicelui agregat. Numai în acest caz valoarea indicelui calculată prin formula mediei aritmetice va fi egală cu indicele agregat.

La testarea statistică a ipotezelor, la măsurarea unei relații liniare între variabile aleatoare.

Deviație standard:

Deviație standard(o estimare a abaterii standard a variabilei aleatoare Podeaua, pereții din jurul nostru și tavanul, X raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale):

unde - varianță; - Podeaua, pereții din jurul nostru și tavanul, i-al-lea element de probă; - marime de mostra; - media aritmetică a eșantionului:

Trebuie remarcat faptul că ambele estimări sunt părtinitoare. În cazul general, este imposibil să se construiască o estimare imparțială. Cu toate acestea, o estimare bazată pe o estimare imparțială a varianței este consecventă.

regula trei sigma

regula trei sigma() - aproape toate valorile unei variabile aleatoare distribuite normal se află în intervalul . Mai strict - cu o certitudine de nu mai puțin de 99,7%, valoarea unei variabile aleatoare distribuite în mod normal se află în intervalul specificat (cu condiția ca valoarea să fie adevărată și să nu fie obținută ca urmare a procesării eșantionului).

Dacă valoarea adevărată este necunoscută, atunci ar trebui să utilizați nu, ci podeaua, pereții din jurul nostru și tavanul, s. Astfel, regula de trei sigma este tradusă în regula de trei etaj, pereții din jurul nostru și tavan, s .

Interpretarea valorii abaterii standard

O valoare mare a abaterii standard arată o răspândire mare a valorilor în setul prezentat cu valoarea medie a setului; o valoare mică, respectiv, indică faptul că valorile din set sunt grupate în jurul valorii medii.

De exemplu, avem trei seturi de numere: (0, 0, 14, 14), (0, 6, 8, 14) și (6, 6, 8, 8). Toate cele trei seturi au valori medii de 7 și, respectiv, abateri standard de 7, 5 și, respectiv, 1. Ultimul set are o abatere standard mică, deoarece valorile din mulțime sunt grupate în jurul mediei; primul set are cea mai mare valoare a abaterii standard - valorile din cadrul setului diferă puternic de valoarea medie.

Într-un sens general, abaterea standard poate fi considerată o măsură a incertitudinii. De exemplu, în fizică, abaterea standard este utilizată pentru a determina eroarea unei serii de măsurători succesive a unei cantități. Această valoare este foarte importantă pentru determinarea plauzibilității fenomenului studiat în comparație cu valoarea prezisă de teorie: dacă valoarea medie a măsurătorilor diferă mult de valorile prezise de teorie (deviație standard mare), atunci valorile obținute sau metoda de obținere a acestora trebuie reverificate.

Uz practic

În practică, abaterea standard vă permite să determinați cât de mult pot diferi valorile din set față de valoarea medie.

Climat

Să presupunem că există două orașe cu aceeași temperatură medie zilnică maximă, dar unul este situat pe coastă, iar celălalt este în interior. Se știe că orașele de coastă au diferite temperaturi maxime zilnice mai mici decât orașele din interior. Prin urmare, abaterea standard a temperaturilor maxime zilnice în orașul de coastă va fi mai mică decât în ​​al doilea oraș, în ciuda faptului că valoarea medie a acestei valori este aceeași pentru ei, ceea ce înseamnă, în practică, că probabilitatea ca aerul maxim temperatura fiecărei anumite zile a anului va fi mai puternică, diferită de valoarea medie, mai mare pentru un oraș situat în interiorul continentului.

Sport

Să presupunem că există mai multe echipe de fotbal care sunt clasate în funcție de un set de parametri, de exemplu, numărul de goluri marcate și primite, șansele de a marca etc. Cel mai probabil, cea mai bună echipă din această grupă va avea cea mai bună. valori în mai mulți parametri. Cu cât abaterea standard a echipei pentru fiecare dintre parametrii prezentați este mai mică, cu atât rezultatul echipei este mai previzibil, astfel de echipe sunt echilibrate. Pe de altă parte, o echipă cu o abatere standard mare este dificil de prezis rezultatul, care la rândul său se explică printr-un dezechilibru, de exemplu, o apărare puternică, dar un atac slab.

Utilizarea abaterii standard a parametrilor echipei permite prezicerea rezultatului meciului dintre două echipe într-o oarecare măsură, evaluând punctele tari și punctele slabe ale echipelor și, prin urmare, metodele de luptă alese.

Analiza tehnica

Vezi si

Literatură

* Borovikov, V. STATISTICI. Arta analizei datelor computerizate: Pentru profesioniști / V. Borovikov. - St.Petersburg. : Peter, 2003. - 688 p. - ISBN 5-272-00078-1.