Číselná hodnota radu variácií sa nazýva. Variačné série

variačný distribučné série postavené na kvantitatívnom základe. Hodnoty kvantitatívnych charakteristík v jednotlivých jednotkách populácie nie sú konštantné, viac-menej sa navzájom líšia.

Variácia- kolísanie, variabilita hodnoty atribútu v jednotkách populácie. Samostatné číselné hodnoty znaku vyskytujúceho sa v skúmanej populácii sú tzv možnosti hodnoty. Nedostatočnosť priemernej hodnoty na úplnú charakterizáciu populácie si vyžaduje doplnenie priemerných hodnôt ukazovateľmi, ktoré umožňujú posúdiť typickosť týchto priemerov meraním fluktuácie (variácie) študovaného znaku.

Prítomnosť variácií je spôsobená vplyvom veľkého množstva faktorov na formovanie úrovne vlastnosti. Tieto faktory pôsobia nerovnakou silou a rôznymi smermi. Variačné indikátory sa používajú na opis miery variability znakov.

Úlohy štatistickej štúdie variácií:

  • 1) štúdium povahy a stupňa variácie znakov v jednotlivých jednotkách populácie;
  • 2) určenie úlohy jednotlivých faktorov alebo ich skupín pri variácii určitých znakov populácie.

V štatistike sa na štúdium variácií používajú špeciálne metódy založené na použití systému ukazovateľov, s ktorým sa meria variácia.

Štúdium variácií je nevyhnutné. Meranie variácií je potrebné pri vykonávaní pozorovania vzoriek, korelačnej a variačnej analýzy atď. Ermolaev O.Yu. Matematická štatistika pre psychológov: Učebnica [Text] / O.Yu. Ermolajev. - M.: Vydavateľstvo Flint Moskovského psychologického a sociálneho inštitútu, 2012. - 335s.

Podľa stupňa variácie možno posudzovať homogenitu populácie, stabilitu jednotlivých hodnôt znakov a typickosť priemeru. Na ich základe sa vyvíjajú ukazovatele blízkosti vzťahu medzi znakmi, ukazovatele na hodnotenie presnosti selektívneho pozorovania.

Existujú variácie v priestore a variácie v čase.

Variácia v priestore sa chápe ako kolísanie hodnôt znaku v jednotkách populácie reprezentujúcich samostatné územia. Pod zmenou v čase sa rozumie zmena hodnôt atribútu v rôznych časových obdobiach.

Na štúdium variácií v distribučných radoch sú všetky varianty hodnôt atribútov usporiadané vo vzostupnom alebo zostupnom poradí. Tento proces sa nazýva poradie série.

Najjednoduchšie znaky variácie sú minimum a maximum- najmenšia a najväčšia hodnota atribútu v súhrne. Počet opakovaní jednotlivých variantov hodnôt vlastností sa nazýva frekvencia opakovania (fi). Je vhodné nahradiť frekvencie frekvenciami - wi. Frekvencia - relatívny ukazovateľ frekvencie, ktorý môže byť vyjadrený v zlomkoch jednotky alebo percentách a umožňuje porovnávať variačné série s rôznym počtom pozorovaní. Vyjadrené vzorcom:

kde Xmax, Xmin - maximálne a minimálne hodnoty atribútu v súhrne; n je počet skupín.

Na meranie variácie vlastnosti sa používajú rôzne absolútne a relatívne ukazovatele. Medzi absolútne ukazovatele variácie patrí rozsah variácie, priemerná lineárna odchýlka, rozptyl, štandardná odchýlka. Medzi relatívne ukazovatele fluktuácie patrí koeficient oscilácie, relatívna lineárna odchýlka, koeficient variácie.

Príklad nájdenia série variácií

Cvičenie. Pre túto vzorku:

  • a) Nájdite sériu variácií;
  • b) Zostrojte distribučnú funkciu;

č.=42. Vzorové položky:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

rozhodnutie.

  • a) zostavenie zoradeného variačného radu:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) konštrukcia diskrétneho variačného radu.

Vypočítajme počet skupín v sérii variácií pomocou Sturgessovho vzorca:

Vezmime si počet skupín rovný 7.

Keď poznáme počet skupín, vypočítame hodnotu intervalu:

Pre pohodlie pri zostavovaní tabuľky vezmeme počet skupín rovný 8, interval bude 1.

Ryža. jeden Objem predaja tovaru predajňou za určité časové obdobie

Metóda zoskupovania umožňuje aj meranie variácia(premenlivosť, kolísanie) znakov. Pri relatívne malom počte jednotiek populácie sa variácia meria na základe radu jednotiek, ktoré tvoria populáciu. Riadok sa volá zoradené ak sú jednotky usporiadané vzostupne (zostupne).

Hodnotené série sú však skôr orientačné, keď je potrebná porovnávacia charakteristika variácie. Okrem toho sa v mnohých prípadoch musíme zaoberať štatistickými agregátmi pozostávajúcimi z veľkého počtu jednotiek, ktoré sa prakticky ťažko reprezentujú vo forme konkrétneho radu. V tomto ohľade sa na počiatočné všeobecné oboznámenie sa so štatistickými údajmi a najmä na uľahčenie štúdia variácií znakov študované javy a procesy zvyčajne spájajú do skupín a výsledky zoskupovania sa zostavujú vo forme skupinových tabuliek. .

Ak sú v tabuľke skupín iba dva stĺpce - skupiny podľa zvolenej vlastnosti (možností) a počtu skupín (frekvencií alebo frekvencií), ide o tzv. blízko distribúcie.

Rozsah distribúcie - najjednoduchší typ štruktúrneho zoskupenia podľa jedného atribútu, zobrazený v tabuľke skupín s dvoma stĺpcami obsahujúcimi varianty a frekvencie atribútu. V mnohých prípadoch pri takomto štruktúrnom zoskupení, t.j. pri zostavovaní distribučných radov sa začína štúdium počiatočného štatistického materiálu.

Štrukturálne zoskupenie vo forme distribučného radu sa môže zmeniť na skutočné štruktúrne zoskupenie, ak sú vybrané skupiny charakterizované nielen frekvenciou, ale aj inými štatistickými ukazovateľmi. Hlavným účelom distribučných sérií je študovať variácie funkcií. Teóriu distribučných radov podrobne rozvíja matematická štatistika.

Distribučné série sú rozdelené na prívlastkový(zoskupenie podľa atribútových vlastností, napr. rozdelenie obyvateľstva podľa pohlavia, národnosti, rodinného stavu a pod.) a variačný(zoskupenie podľa kvantitatívnych charakteristík).

Variačné série je tabuľka skupín, ktorá obsahuje dva stĺpce: zoskupenie jednotiek podľa jedného kvantitatívneho atribútu a počet jednotiek v každej skupine. Intervaly vo variačných radoch sú zvyčajne rovnaké a uzavreté. Variačný rad predstavuje nasledujúce zoskupenie ruskej populácie z hľadiska priemerného peňažného príjmu na obyvateľa (tabuľka 3.10).

Tabuľka 3.10

Rozdelenie obyvateľstva Ruska podľa priemerného príjmu na obyvateľa v rokoch 2004-2009

Skupiny obyvateľstva podľa priemerného peňažného príjmu na obyvateľa, rub./mes

Obyvateľstvo v skupine v % z celk

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Viac ako 25 000,0

Celá populácia

Variačné rady sa zase delia na diskrétne a intervalové. Diskrétne série variácií kombinujú varianty diskrétnych prvkov, ktoré sa líšia v rámci úzkych hraníc. Príkladom série diskrétnych variácií je rozdelenie ruských rodín podľa počtu detí, ktoré majú.

Interval variačné série kombinujú varianty buď súvislých prvkov alebo diskrétnych prvkov, ktoré sa menia v širokom rozsahu. Intervalový rad je variačným radom rozloženia ruskej populácie z hľadiska priemerného peňažného príjmu na obyvateľa.

Diskrétne variačné rady sa v praxi veľmi často nepoužívajú. Ich zostavenie nie je zložité, pretože zloženie skupín je určené špecifickými variantmi, ktoré skúmané zoskupovacie charakteristiky skutočne majú.

Rozšírené sú intervalové variačné série. Pri ich zostavovaní vyvstáva zložitá otázka počtu skupín, ako aj veľkosti intervalov, ktoré by sa mali stanoviť.

Zásady riešenia tohto problému sú uvedené v kapitole o metodike zostavovania štatistických zoskupení (pozri odsek 3.3).

Variačné série sú prostriedkom na zbalenie alebo stlačenie rôznorodých informácií do kompaktnej formy; možno ich použiť na vytvorenie pomerne jasného úsudku o povahe variácie, na štúdium rozdielov v znakoch javov zahrnutých v skúmanom súbore. Najdôležitejším významom variačných radov je však to, že na ich základe sa vypočítavajú špeciálne zovšeobecňujúce charakteristiky variácie (pozri kapitolu 7).

Koncept variačnej série. Prvým krokom v systematizácii materiálov štatistického pozorovania je počítanie počtu jednotiek, ktoré majú jednu alebo druhú vlastnosť. Po zoradení jednotiek vzostupne alebo zostupne podľa ich kvantitatívneho atribútu a spočítaní počtu jednotiek so špecifickou hodnotou atribútu dostaneme variačný rad. Variačný rad charakterizuje rozdelenie jednotiek určitej štatistickej populácie podľa nejakého kvantitatívneho atribútu.

Séria variácií pozostáva z dvoch stĺpcov, ľavý stĺpec obsahuje hodnoty atribútu premennej nazývané varianty a označené (x) a pravý stĺpec obsahuje absolútne čísla, ktoré ukazujú, koľkokrát sa každý variant vyskytuje. Hodnoty v tomto stĺpci sa nazývajú frekvencie a sú označené (f).

Schematicky možno sériu variácií znázorniť vo forme tabuľky 5.1:

Tabuľka 5.1

Typ série variácií

Možnosti (x)

Frekvencie (f)

V pravom stĺpci možno použiť aj relatívne ukazovatele charakterizujúce podiel frekvencie jednotlivých variantov na celkovom množstve frekvencií. Tieto relatívne ukazovatele sa nazývajú frekvencie a konvenčne sa označujú , t.j. . Súčet všetkých frekvencií sa rovná jednej. Frekvencie môžu byť vyjadrené aj v percentách a ich súčet sa potom bude rovnať 100 %.

Variabilné znaky môžu mať rôznu povahu. Varianty niektorých znakov sú vyjadrené celými číslami, napríklad počet izieb v byte, počet vydaných kníh atď. Tieto znaky sa nazývajú nespojité alebo diskrétne. Varianty ďalších funkcií môžu nadobudnúť akékoľvek hodnoty v rámci určitých limitov, ako je plnenie plánovaných cieľov, mzdy a pod. Tieto vlastnosti sa nazývajú priebežné.

Séria diskrétnych variácií. Ak sú varianty variačného radu vyjadrené ako diskrétne hodnoty, potom sa takýto variačný rad nazýva diskrétny a jeho vzhľad je uvedený v tabuľke. 5.2:

Tabuľka 5.2

Rozdelenie študentov podľa známok získaných na skúške

Hodnotenia (x)

Počet študentov (f)

V % z celkového počtu ()

Charakter rozloženia v diskrétnych radoch je znázornený graficky ako polygón rozloženia, Obr.5.1.

Ryža. 5.1. Rozdelenie študentov podľa známok získaných na skúške.

Intervalové variačné série. Pre spojité znaky sú rady variácií konštruované ako intervalové rady, t.j. hodnoty vlastností v nich sú vyjadrené ako intervaly „od a do“. V tomto prípade sa minimálna hodnota prvku v takomto intervale nazýva dolná hranica intervalu a maximálna hodnota sa nazýva horná hranica intervalu.

Intervalové variačné série sú zostavené pre nespojité funkcie (diskrétne), ako aj pre tie, ktoré sa líšia vo veľkom rozsahu. Intervalové riadky môžu mať rovnaké a nerovnaké intervaly. V hospodárskej praxi sa väčšinou používajú nerovnaké intervaly, ktoré sa postupne zväčšujú alebo zmenšujú. Takáto potreba vzniká najmä v prípadoch, keď sa kolísanie znamenia vykonáva nerovnomerne a vo veľkých medziach.

Zvážte typ intervalového radu s rovnakými intervalmi, tabuľka. 5.3:

Tabuľka 5.3

Rozdelenie pracovníkov podľa výkonu

Výstup, tr. (X)

Počet pracovníkov (f)

Kumulatívna frekvencia (f´)

Séria intervalového rozdelenia je graficky znázornená ako histogram, Obr.5.2.

Obr.5.2. Rozdelenie pracovníkov podľa výkonu

Akumulovaná (kumulatívna) frekvencia. V praxi vzniká potreba previesť distribučné série na kumulatívne riadky, postavené na akumulovaných frekvenciách. Môžu sa použiť na definovanie štrukturálnych priemerov, ktoré uľahčujú analýzu údajov distribučných radov.

Kumulatívne frekvencie sa určujú postupným sčítavaním frekvencií (alebo frekvencií) prvej skupiny týchto ukazovateľov nasledujúcich skupín distribučných radov. Kumuláty a ogivy sa používajú na ilustráciu distribučných radov. Na ich zostavenie sú hodnoty diskrétneho prvku (alebo konce intervalov) označené na osi x a rastúce súčty frekvencií (kumulované) sú vyznačené na osi ordinátov, obr.5.3.

Ryža. 5.3. Kumulatívne rozdelenie pracovníkov podľa vývoja

Ak sa zamieňajú stupnice frekvencií a variantov, t.j. odrážať akumulované frekvencie na osi x a hodnoty možností na osi y, potom sa krivka charakterizujúca zmenu frekvencií od skupiny ku skupine bude nazývať distribučný ogive, obr. 5.4.

Ryža. 5.4. Ogiva rozdelenie pracovníkov do výroby

Variačné rady s rovnakými intervalmi poskytujú jednu z najdôležitejších požiadaviek na štatistické distribučné rady, zabezpečujúc ich porovnateľnosť v čase a priestore.

Hustota distribúcie. Frekvencie jednotlivých nerovnakých intervalov v týchto radoch však nie sú priamo porovnateľné. V takýchto prípadoch sa na zabezpečenie potrebnej porovnateľnosti vypočíta hustota distribúcie, t.j. určiť, koľko jednotiek v každej skupine pripadá na jednotku hodnoty intervalu.

Pri zostavovaní grafu distribúcie variačného radu s nerovnakými intervalmi sa výška obdĺžnikov určuje v pomere nie k frekvenciám, ale k ukazovateľom hustoty distribúcie hodnôt študovaného znaku v zodpovedajúcich intervaloch. .

Zostavenie variačného radu a jeho grafické znázornenie je prvým krokom pri spracovaní počiatočných údajov a prvým krokom pri analýze skúmanej populácie. Ďalším krokom pri analýze variačných radov je určenie hlavných zovšeobecňujúcich ukazovateľov, ktoré sa nazývajú charakteristiky radu. Tieto charakteristiky by mali poskytnúť predstavu o priemernej hodnote atribútu v jednotkách populácie.

priemerná hodnota. Priemerná hodnota je zovšeobecnenou charakteristikou študovaného znaku v skúmanej populácii, odráža jeho typickú úroveň na populačnú jednotku v špecifických podmienkach miesta a času.

Priemerná hodnota je vždy pomenovaná, má rovnaký rozmer ako atribút jednotlivých jednotiek populácie.

Pred výpočtom priemerných hodnôt je potrebné zoskupiť jednotky študovanej populácie, pričom treba zvýrazniť kvalitatívne homogénne skupiny.

Priemer vypočítaný pre populáciu ako celok sa nazýva všeobecný priemer a pre každú skupinu - skupinové priemery.

Existujú dva typy priemerov: mocniny (aritmetický priemer, harmonický priemer, geometrický priemer, kvadratický priemer); štrukturálne (mód, medián, kvartily, decily).

Výber priemeru pre výpočet závisí od účelu.

Typy výkonových priemerov a metódy ich výpočtu. V praxi štatistického spracovania zozbieraného materiálu vznikajú rôzne problémy, na riešenie ktorých sú potrebné rôzne priemery.

Matematická štatistika odvodzuje rôzne prostriedky zo vzorcov mocninných priemerov:

kde je priemerná hodnota; x - jednotlivé možnosti (hodnoty vlastností); z - exponent (pri z = 1 - aritmetický priemer, z = 0 geometrický priemer, z = - 1 - harmonický priemer, z = 2 - stredný kvadratický priemer).

Otázku, aký typ priemeru použiť v každom jednotlivom prípade, však rieši špecifická analýza skúmanej populácie.

Najbežnejším typom priemeru v štatistike je aritmetický priemer. Vypočítava sa v tých prípadoch, keď je objem spriemerovaného atribútu tvorený súčtom jeho hodnôt pre jednotlivé jednotky študovanej štatistickej populácie.

V závislosti od povahy počiatočných údajov sa aritmetický priemer určuje rôznymi spôsobmi:

Ak údaje nie sú zoskupené, výpočet sa vykoná podľa vzorca jednoduchej priemernej hodnoty

Výpočet aritmetického priemeru v diskrétnom rade prebieha podľa vzorca 3.4.

Výpočet aritmetického priemeru v intervalovom rade. V sérii variácií intervalu, kde sa stred intervalu podmienečne berie ako hodnota znaku v každej skupine, sa aritmetický priemer môže líšiť od priemeru vypočítaného z nezoskupených údajov. Navyše, čím väčší je interval v skupinách, tým väčšie sú možné odchýlky priemeru vypočítaného zo zoskupených údajov od priemeru vypočítaného z nezoskupených údajov.

Pri výpočte priemeru pre sériu variácií intervalov sa na vykonanie potrebných výpočtov postupuje od intervalov k ich stredom. A potom vypočítajte priemernú hodnotu podľa vzorca aritmetického váženého priemeru.

Vlastnosti aritmetického priemeru. Aritmetický priemer má niektoré vlastnosti, ktoré nám umožňujú zjednodušiť výpočty, zvážme ich.

1. Aritmetický priemer konštantných čísel sa rovná tomuto konštantnému číslu.

Ak x = a. Potom .

2. Ak sa proporcionálne zmenia váhy všetkých opcií, t.j. zvýšiť alebo znížiť o rovnaký počet, potom sa aritmetický priemer nového radu od tohto nezmení.

Ak sa všetky váhy f znížia o k krát, potom .

3. Súčet kladných a záporných odchýlok jednotlivých opcií od priemeru vynásobený váhami sa rovná nule, t.j.

Ak potom . Odtiaľ.

Ak sa všetky možnosti znížia alebo zvýšia o nejaké číslo, aritmetický priemer novej série sa zníži alebo zvýši o rovnakú hodnotu.

Znížte všetky možnosti X na a, t.j. X´ = Xa.

Potom

Aritmetický priemer počiatočnej série možno získať pripočítaním k redukovanému priemeru čísla, ktoré sa predtým odpočítalo od variantov a, t.j. .

5. Ak sú všetky možnosti znížené alebo zvýšené v k krát, potom sa aritmetický priemer nového radu zníži alebo zvýši o rovnakú hodnotu, t.j. v k raz.

Nechaj potom .

Preto, t.j. na získanie priemeru pôvodnej série sa musí aritmetický priemer novej série (so zníženými možnosťami) zvýšiť o k raz.

Priemerná harmonická. Harmonický priemer je prevrátená hodnota aritmetického priemeru. Používa sa vtedy, keď štatistické informácie neobsahujú frekvencie pre jednotlivé možnosti populácie, ale sú prezentované ako ich súčin (M = xf). Harmonický priemer sa vypočíta podľa vzorca 3.5

Praktickou aplikáciou harmonického priemeru je výpočet niektorých indexov, najmä cenového indexu.

Geometrický priemer. Pri použití geometrického priemeru sú jednotlivé hodnoty atribútu spravidla relatívne hodnoty dynamiky, zostavené vo forme reťazových hodnôt, ako pomer k predchádzajúcej úrovni každej úrovne v rade dynamiky. . Priemer teda charakterizuje priemernú mieru rastu.

Geometrický priemer sa tiež používa na určenie ekvidistantnej hodnoty z maximálnych a minimálnych hodnôt atribútu. Poisťovňa napríklad uzatvára zmluvy o poskytovaní služieb poistenia automobilov. V závislosti od konkrétnej poistnej udalosti sa výška poistného môže pohybovať od 10 000 do 100 000 dolárov ročne. Priemerná výplata poistenia je USD.

Geometrický priemer je hodnota použitá ako priemer pomerov alebo v distribučnom rade, prezentovaná ako geometrická progresia, keď z = 0. Tento priemer je vhodné použiť, keď sa nevenuje pozornosť absolútnym rozdielom, ale pomerom dve čísla.

Vzorce na výpočet sú nasledovné

kde sú varianty spriemerovaného znaku; - produkt opcií; f– frekvencia možností.

Geometrický priemer sa používa pri výpočte priemernej ročnej miery rastu.

Hlavné námestie. Vzorec odmocniny sa používa na meranie stupňa fluktuácie jednotlivých hodnôt vlastnosti okolo aritmetického priemeru v distribučnom rade. Takže pri výpočte ukazovateľov variácie sa priemer vypočíta zo štvorcov odchýlok jednotlivých hodnôt vlastnosti od aritmetického priemeru.

Stredná štvorcová hodnota sa vypočíta podľa vzorca

V ekonomickom výskume je modifikovaná forma stredného štvorca široko používaná pri výpočte ukazovateľov variácie vlastnosti, ako je rozptyl, smerodajná odchýlka.

Vládne väčšina. Medzi mocninnými priemermi je nasledujúci vzťah - čím väčší exponent, tým väčšia hodnota priemeru, tabuľka 5.4:

Tabuľka 5.4

Vzťah medzi priemermi

hodnota z

Pomer medzi priemermi

Tento vzťah sa nazýva pravidlo majority.

Štrukturálne priemery. Na charakterizáciu štruktúry obyvateľstva sa používajú špeciálne ukazovatele, ktoré možno nazvať štrukturálnymi priemermi. Tieto miery zahŕňajú režim, medián, kvartily a decily.

Móda. Režim (Mo) je najčastejšie sa vyskytujúca hodnota prvku v populačných jednotkách. Režim je hodnota vlastnosti, ktorá zodpovedá maximálnemu bodu krivky teoretickej distribúcie.

Móda je široko používaná v obchodnej praxi pri štúdiu spotrebiteľského dopytu (pri určovaní veľkosti oblečenia a obuvi, ktoré sú veľmi žiadané), registrácia cien. Celkovo môže byť niekoľko modov.

Výpočet režimu v diskrétnom rade. V diskrétnej sérii je režim variantom s najvyššou frekvenciou. Zvážte nájdenie režimu v samostatnej sérii.

Výpočet módy v intervalovom rade. V intervalovom variačnom rade sa centrálny variant modálneho intervalu približne považuje za mód, t.j. interval, ktorý má najvyššiu frekvenciu (frekvenciu). V rámci intervalu je potrebné nájsť hodnotu atribútu, ktorým je režim. Pre intervalové série bude režim určený vzorcom

kde je spodná hranica modálneho intervalu; je hodnota modálneho intervalu; je frekvencia zodpovedajúca modálnemu intervalu; je frekvencia predchádzajúca modálnemu intervalu; je frekvencia intervalu nasledujúceho po modál.

Medián. Medián () je hodnota prvku v strednej jednotke hodnotenej série. Hodnotená séria je séria, v ktorej sú charakteristické hodnoty zapísané vo vzostupnom alebo zostupnom poradí. Alebo medián je hodnota, ktorá rozdeľuje počet usporiadaných variačných sérií na dve rovnaké časti: jedna časť má hodnotu premennej vlastnosti, ktorá je menšia ako priemerný variant, a druhá je veľká.

Na nájdenie mediánu sa najprv určí jeho sériové číslo. K tomu sa pri nepárnom počte jednotiek pripočíta jedna k súčtu všetkých frekvencií a všetko sa vydelí dvomi. Pri párnom počte jednotiek sa medián zistí ako hodnota atribútu jednotky, ktorej poradové číslo je určené celkovým súčtom frekvencií deleným dvomi. Keď poznáme poradové číslo mediánu, je ľahké nájsť jeho hodnotu z nahromadených frekvencií.

Výpočet mediánu v diskrétnom rade. Podľa výberového zisťovania boli získané údaje o rozložení rodín podľa počtu detí, tab. 5.5. Ak chcete určiť medián, najprv určte jeho poradové číslo

V týchto rodinách je počet detí 2, teda = 2. V 50% rodín teda počet detí nepresahuje 2.

–akumulovaná frekvencia predchádzajúca strednému intervalu;

Na jednej strane je to veľmi pozitívna vlastnosť. v tomto prípade sa berie do úvahy vplyv všetkých príčin ovplyvňujúcich všetky jednotky skúmanej populácie. Na druhej strane, aj jedno pozorovanie, ktoré bolo náhodne zahrnuté do počiatočných údajov, môže výrazne skresliť predstavu o úrovni rozvoja študovaného znaku v uvažovanej populácii (najmä v krátkych sériách).

Kvartily a decily. Analogicky s hľadaním mediánu vo variačných sériách je možné nájsť hodnotu prvku v ľubovoľnej jednotke zoradeného radu v poradí. Najmä teda možno nájsť hodnotu funkcie pre jednotky rozdeľujúce sériu na 4 rovnaké časti, na 10 atď.

Kvartily. Varianty, ktoré rozdeľujú zoradené série na štyri rovnaké časti, sa nazývajú kvartily.

Zároveň sa rozlišujú: dolný (alebo prvý) kvartil (Q1) - hodnota znaku jednotky zoradeného radu, ktorá rozdeľuje populáciu v pomere ¼ ku ¾ a horný (alebo tretí) ) kvartil (Q3) - hodnota znaku jednotky zoradeného radu, deliaca populáciu v pomere ¾ ku ¼.

- frekvencie kvartilových intervalov (dolný a horný)

Intervaly obsahujúce Q1 a Q3 sú určené z akumulovaných frekvencií (alebo frekvencií).

Deciles. Okrem kvartilov sa počítajú decily – možnosti, ktoré rozdeľujú zoradené série na 10 rovnakých častí.

Označujú sa D, prvý decil D1 delí rad v pomere 1/10 a 9/10, druhý D2 - 2/10 a 8/10 atď. Vypočítavajú sa rovnakým spôsobom ako medián a kvartily.

Medián, ako aj kvartily a decily patria do takzvanej ordinálnej štatistiky, ktorá sa chápe ako variant, ktorý zaberá určité ordinálne miesto v zoradenom rade.

Riadky postavené podľa množstva, sa volajú variačný.

Distribučné série pozostávajú z možnosti(charakteristické hodnoty) a frekvencie(počet skupín). Frekvencie vyjadrené ako relatívne hodnoty (podiely, percentá) sa nazývajú frekvencie. Súčet všetkých frekvencií sa nazýva objem distribučnej série.

Podľa typu sú distribučné série rozdelené na diskrétne(postavená na nespojitých hodnotách funkcie) a interval(postavené na hodnotách spojitých funkcií).

Variačné série predstavuje dva stĺpce (alebo riadky); z ktorých jedna poskytuje individuálne hodnoty atribútu premennej, nazývané varianty a označené X; a v druhom - absolútne čísla ukazujúce, koľkokrát (ako často) sa každá možnosť vyskytuje. Indikátory v druhom stĺpci sa nazývajú frekvencie a bežne sa označujú ako f. Ešte raz podotýkame, že v druhom stĺpci možno použiť aj relatívne ukazovatele charakterizujúce podiel frekvencie jednotlivých variantov na celkovom množstve frekvencií. Tieto relatívne ukazovatele sa nazývajú frekvencie a bežne sa označujú ako ω Súčet všetkých frekvencií je v tomto prípade rovný jednej. Frekvencie však môžu byť vyjadrené aj v percentách a potom súčet všetkých frekvencií dáva 100 %.

Ak sú varianty variačného radu vyjadrené ako diskrétne hodnoty, potom sa takýto variačný rad nazýva diskrétne.

Pre spojité prvky sú série variácií konštruované ako interval, to znamená, že hodnoty atribútu v nich sú vyjadrené „od ... do ...“. V tomto prípade sa minimálne hodnoty atribútu v takomto intervale nazývajú spodná hranica intervalu a maximum - horná hranica.

Intervalové variačné série sú tiež vytvorené pre diskrétne funkcie, ktoré sa líšia v širokom rozsahu. Intervalový rad môže byť rovný a nerovný intervaloch.

Zvážte, ako sa určuje hodnota rovnakých intervalov. Predstavme si nasledujúci zápis:

i– intervalová hodnota;

- maximálna hodnota atribútu pre jednotky populácie;

- minimálna hodnota atribútu pre jednotky populácie;

n- počet pridelených skupín.

ak je známe n.

Ak je ťažké vopred určiť počet pridelených skupín, potom na výpočet optimálnej veľkosti intervalu s dostatočnou veľkosťou populácie možno odporučiť vzorec navrhnutý Sturgessom v roku 1926:

n = 1+ 3,322 log N, kde N je počet jednotiek v populácii.

Hodnota nerovnakých intervalov sa určuje v každom jednotlivom prípade, berúc do úvahy charakteristiky predmetu štúdia.

Štatistické rozdelenie vzorky zavolajte zoznam opcií a ich zodpovedajúce frekvencie (alebo relatívne frekvencie).

Štatistické rozdelenie vzorky je možné špecifikovať vo forme tabuľky, v prvom stĺpci ktorej sú možnosti a v druhom - frekvencie zodpovedajúce týmto možnostiam. ni alebo relatívne frekvencie Pi .

Štatistické rozdelenie vzorky

Intervalové rady sa nazývajú variačné série, v ktorých sú hodnoty znakov, ktoré sú základom ich tvorby, vyjadrené v rámci určitých limitov (intervalov). Frekvencie sa v tomto prípade nevzťahujú na jednotlivé hodnoty atribútu, ale na celý interval.

Intervalové distribučné rady sú konštruované podľa spojitých kvantitatívnych charakteristík, ako aj podľa diskrétnych charakteristík, ktoré sa menia vo významnom rozsahu.

Intervalový rad môže byť reprezentovaný štatistickým rozložením vzorky s uvedením intervalov a ich zodpovedajúcich frekvencií. V tomto prípade sa za frekvenciu intervalu berie súčet frekvencií variantu, ktorý spadal do tohto intervalu.

Pri zoskupovaní podľa kvantitatívnych spojitých znakov je dôležité určiť veľkosť intervalu.

Okrem výberového priemeru a výberového rozptylu sa používajú aj ďalšie charakteristiky variačných radov.

Móda pomenujte variant, ktorý má najvyššiu frekvenciu.

V dôsledku zvládnutia tejto kapitoly musí študent: vedieť

  • ukazovatele variácie a ich vzťah;
  • základné zákony distribúcie znakov;
  • podstata kritérií súhlasu; byť schopný
  • vypočítať mieru variácie a vhodnosti;
  • určiť charakteristiky distribúcií;
  • hodnotiť hlavné číselné charakteristiky štatistických distribučných radov;

vlastné

  • metódy štatistickej analýzy distribučných radov;
  • základy disperznej analýzy;
  • metódy kontroly štatistických distribučných radov z hľadiska súladu so základnými zákonmi rozdelenia.

Variačné ukazovatele

Pri štatistickom štúdiu znakov rôznych štatistických populácií je veľmi zaujímavé skúmať variáciu znaku jednotlivých štatistických jednotiek populácie, ako aj charakter rozloženia jednotiek podľa tohto znaku. Variácia - ide o rozdiely v jednotlivých hodnotách znaku medzi jednotkami skúmanej populácie. Štúdium variácií má veľký praktický význam. Podľa stupňa variácie možno posúdiť hranice variácie vlastnosti, homogenitu populácie pre túto vlastnosť, typickosť priemeru, vzťah faktorov určujúcich variáciu. Variačné ukazovatele sa používajú na charakterizáciu a usporiadanie štatistických populácií.

Výsledky súhrnu a zoskupovania materiálov štatistického pozorovania, zostavené vo forme štatistických distribučných radov, predstavujú usporiadané rozdelenie jednotiek skúmanej populácie do skupín podľa atribútu zoskupenia (premennej). Ak sa za základ zoskupenia berie kvalitatívna vlastnosť, potom sa takýto distribučný rad nazýva prívlastkový(distribúcia podľa profesie, pohlavia, farby atď.). Ak je distribučný rad postavený na kvantitatívnom základe, potom sa takýto rad nazýva variačný(rozdelenie podľa výšky, hmotnosti, mzdy atď.). Vytvoriť sériu variácií znamená zoradiť kvantitatívne rozdelenie jednotiek populácie podľa charakteristických hodnôt, spočítať počet jednotiek populácie s týmito hodnotami (frekvenciou), usporiadať výsledky do tabuľky.

Namiesto frekvencie variantu je možné použiť jej pomer k celkovému objemu pozorovaní, ktorý sa nazýva frekvencia (relatívna frekvencia).

Existujú dva typy sérií variácií: diskrétne a intervalové. Diskrétne série- ide o taký variačný rad, ktorého konštrukcia je založená na znakoch s nespojitou zmenou (diskrétne znaky). Tieto zahŕňajú počet zamestnancov v podniku, mzdovú kategóriu, počet detí v rodine atď. Samostatný variačný rad je tabuľka, ktorá pozostáva z dvoch stĺpcov. Prvý stĺpec označuje konkrétnu hodnotu atribútu a druhý - počet jednotiek populácie s konkrétnou hodnotou atribútu. Ak sa znamenie neustále mení (výška príjmu, pracovné skúsenosti, náklady na fixný majetok podniku atď., Ktoré môžu v určitých medziach nadobudnúť akékoľvek hodnoty), potom je možné pre toto znamenie zostaviť intervalové variačné série. Tabuľka pri zostavovaní intervalových variačných sérií má tiež dva stĺpce. Prvý označuje hodnotu funkcie v intervale "od - do" (možnosti), druhý - počet jednotiek zahrnutých v intervale (frekvencia). Frekvencia (frekvencia opakovania) - počet opakovaní konkrétneho variantu hodnôt atribútu. Intervaly môžu byť uzavreté a otvorené. Uzavreté intervaly sú obmedzené obojstranne, t.j. majú ohraničenie dolné („od“) aj horné („do“). Otvorené intervaly majú ľubovoľnú jednu hranicu: hornú alebo dolnú. Ak sú možnosti usporiadané vzostupne alebo zostupne, potom sa volajú riadky zoradené.

Pre série variácií existujú dva typy možností frekvenčnej odozvy: kumulatívna frekvencia a kumulatívna frekvencia. Kumulatívna frekvencia ukazuje, koľko pozorovaní hodnota funkcie nadobudla hodnoty menšie ako špecifikovaná hodnota. Kumulatívna frekvencia je určená súčtom hodnôt charakteristickej frekvencie pre danú skupinu so všetkými frekvenciami predchádzajúcich skupín. Akumulovaná frekvencia charakterizuje podiel jednotiek pozorovania, v ktorých hodnoty funkcie nepresahujú hornú hranicu dennej skupiny. Akumulovaná frekvencia teda ukazuje špecifickú váhu variantu v súhrne, ktorý nemá väčšiu hodnotu ako je daná. Frekvencia, frekvencia, absolútna a relatívna hustota, kumulatívna frekvencia a frekvencia sú charakteristikami veľkosti variantu.

Odchýlky v znamení štatistických jednotiek populácie, ako aj povaha rozdelenia sa študujú pomocou ukazovateľov a charakteristík variačných sérií, ktoré zahŕňajú priemernú úroveň radu, priemernú lineárnu odchýlku, smerodajnú odchýlku, rozptyl. , oscilačné koeficienty, variácie, asymetria, špičatosť atď.

Priemerné hodnoty sa používajú na charakterizáciu distribučného centra. Priemer je zovšeobecňujúca štatistická charakteristika, v ktorej sa kvantifikuje typická úroveň vlastnosti, ktorú majú členovia skúmanej populácie. Môžu však nastať prípady, keď sa aritmetické priemery zhodujú s inou povahou rozdelenia, preto sa ako štatistické charakteristiky variačných radov počítajú takzvané štrukturálne priemery – modus, medián, ako aj kvantily, ktoré rozdeľujú série na rovnaké časti (kvartily, decily, percentily atď.).

móda - toto je hodnota znaku, ktorý sa v distribučnom rade vyskytuje častejšie ako jeho ostatné hodnoty. Pre diskrétne série je to variant s najvyššou frekvenciou. V intervalových variačných radoch je na určenie módu potrebné predovšetkým určiť interval, v ktorom sa nachádza, takzvaný modálny interval. Vo variačnom rade s rovnakými intervalmi je modálny interval určený najvyššou frekvenciou, v sérii s nerovnakými intervalmi - ale najvyššou hustotou distribúcie. Potom na určenie režimu v riadkoch s rovnakými intervalmi použite vzorec

kde Mo je hodnota módy; x Mo - spodná hranica modálneho intervalu; h-šírka modálneho intervalu; / Mo - frekvencia modálneho intervalu; / Mo j - frekvencia predmodálneho intervalu; / Mo+1 je frekvencia postmodálneho intervalu a pre sériu s nerovnakými intervalmi v tomto výpočtovom vzorci by sa namiesto frekvencií / Mo, / Mo, / Mo mali použiť distribučné hustoty Myseľ 0 _| , Myseľ 0> UMO+"

Ak existuje jediný mód, potom sa rozdelenie pravdepodobnosti náhodnej premennej nazýva unimodálne; ak existuje viac ako jeden režim, nazýva sa multimodálny (polymodálny, multimodálny), v prípade dvoch režimov - bimodálny. Multimodalita spravidla naznačuje, že študované rozdelenie sa neriadi zákonom normálneho rozdelenia. Homogénne populácie sa spravidla vyznačujú unimodálnym rozdelením. Multivertex tiež naznačuje heterogenitu skúmanej populácie. Výskyt dvoch alebo viacerých vrcholov vyžaduje preskupiť údaje, aby sa izolovali homogénnejšie skupiny.

V sérii intervalových variácií možno režim určiť graficky pomocou histogramu. Na tento účel sa nakreslia dve pretínajúce sa čiary z horných bodov najvyššieho stĺpca histogramu do horných bodov dvoch susedných stĺpcov. Potom sa z bodu ich priesečníka zníži kolmica na os x. Hodnota funkcie na úsečke zodpovedajúca kolmici je režim. V mnohých prípadoch sa pri charakterizácii populácie ako zovšeobecneného ukazovateľa uprednostňuje skôr modus pred aritmetickým priemerom.

Medián - toto je ústredná hodnota vlastnosti, ktorú vlastní ústredný člen zoradeného distribučného radu. V diskrétnych sériách sa na zistenie hodnoty mediánu najprv určí jeho sériové číslo. Aby ste to dosiahli, s nepárnym počtom jednotiek sa k súčtu všetkých frekvencií pridá jedna, počet sa vydelí dvoma. Ak je párny počet 1s, v sérii budú 2 mediány 1s, takže v tomto prípade je medián definovaný ako priemer hodnôt 2 mediánov 1s. Medián v sérii diskrétnych variácií je teda hodnota, ktorá rozdeľuje sériu na dve časti obsahujúce rovnaký počet možností.

V sérii intervalov sa po určení poradového čísla mediánu zistí stredný interval podľa akumulovaných frekvencií (frekvencií) a potom sa pomocou vzorca na výpočet mediánu určí hodnota samotného mediánu:

kde Ja je hodnota mediánu; x ja - dolná hranica stredného intervalu; h- stredná šírka intervalu; - súčet frekvencií distribučných radov; /D - akumulovaná frekvencia predmediánového intervalu; / Me - frekvencia stredného intervalu.

Medián možno nájsť graficky pomocou kumulácie. Na tento účel sa na stupnici akumulovaných frekvencií (frekvencií) kumulátu od bodu zodpovedajúceho poradovému číslu mediánu nakreslí priamka rovnobežná s osou x, až kým sa nepretína s kumuláciou. Ďalej, z bodu priesečníka naznačenej priamky s kumuláciou, sa zníži kolmica na os x. Hodnota prvku na osi x zodpovedajúca nakreslenej ordinate (kolmici) je medián.

Medián je charakterizovaný nasledujúcimi vlastnosťami.

  • 1. Nezávisí od hodnôt atribútov, ktoré sa nachádzajú na oboch jeho stranách.
  • 2. Má vlastnosť minimality, čo znamená, že súčet absolútnych odchýlok hodnôt atribútu od mediánu je minimálna hodnota v porovnaní s odchýlkou ​​hodnôt atribútu od akejkoľvek inej hodnoty.
  • 3. Pri kombinácii dvoch rozdelení so známymi mediánmi nie je možné vopred predpovedať hodnotu mediánu nového rozdelenia.

Tieto vlastnosti mediánu sú široko používané pri navrhovaní umiestnenia hromadných servisných miest - škôl, kliník, čerpacích staníc, vodných čerpadiel atď. Ak sa napríklad plánuje postaviť polikliniku v určitej štvrti mesta, potom je účelnejšie umiestniť ju na miesto štvrte, ktoré nepretína dĺžku štvrte, ale počet obyvateľov.

Pomer modusu, mediánu a aritmetického priemeru udáva povahu rozdelenia znaku v súhrne, umožňuje vyhodnotiť symetriu rozdelenia. Ak x Ja potom existuje pravostranná asymetria série. S normálnym rozložením X - Ja - Mo.

K. Pearson na základe zarovnania rôznych typov kriviek určil, že pre stredne asymetrické rozdelenia platia tieto približné vzťahy medzi aritmetickým priemerom, mediánom a modusom:

kde Ja je hodnota mediánu; Mo - módna hodnota; x aritm - hodnota aritmetického priemeru.

Ak je potrebné podrobnejšie študovať štruktúru série variácií, vypočítajú sa charakteristické hodnoty podobne ako medián. Takéto hodnoty vlastností rozdeľujú všetky distribučné jednotky na rovnaké čísla, nazývajú sa kvantily alebo gradienty. Kvantily sa delia na kvartily, decily, percentily atď.

Kvartily rozdeľujú populáciu na štyri rovnaké časti. Prvý kvartil sa vypočíta podobne ako medián pomocou vzorca na výpočet prvého kvartilu, pričom sa predtým určil prvý štvrťročný interval:

kde Qi je hodnota prvého kvartilu; xQ^- dolná hranica prvého kvartilového intervalu; h- šírka prvého štvrťročného intervalu; /, - frekvencie intervalového radu;

Akumulovaná frekvencia v intervale pred prvým kvartilovým intervalom; Jq ( - frekvencia prvého kvartilového intervalu.

Prvý kvartil ukazuje, že 25 % jednotiek populácie je menej ako jeho hodnota a 75 % je viac. Druhý kvartil sa rovná mediánu, t.j. Q2 = ja.

Analogicky sa vypočíta tretí kvartil, keď sa predtým našiel tretí štvrťročný interval:

kde je spodná hranica intervalu tretieho kvartilu; h- šírka intervalu tretieho kvartilu; /, - frekvencie intervalového radu; /X"- akumulovaná frekvencia v predchádzajúcom intervale

G

interval tretieho kvartilu; Jq - frekvencia tretieho kvartilového intervalu.

Tretí kvartil ukazuje, že 75 % jednotiek populácie je menej ako jeho hodnota a 25 % je viac.

Rozdiel medzi tretím a prvým kvartilom je medzikvartilový interval:

kde Aq je hodnota medzikvartilového intervalu; 3. otázka - hodnota tretieho kvartilu; Q, - hodnota prvého kvartilu.

Decily rozdeľujú populáciu na 10 rovnakých častí. Decil je hodnota prvku v distribučnom rade, ktorá zodpovedá desatinám populácie. Analogicky s kvartilmi prvý decil ukazuje, že 10 % populačných jednotiek je menších ako jeho hodnota a 90 % je viac, a deviaty decil ukazuje, že 90 % populačných jednotiek je menších ako jeho hodnota a 10 % je viac. Pomer deviateho a prvého decilu, t.j. decilový koeficient, široko používaný pri štúdiu príjmovej diferenciácie na meranie pomeru úrovní príjmov 10 % najbohatšej a 10 % najmenej bohatej populácie. Percentily rozdeľujú zoradenú populáciu na 100 rovnakých častí. Výpočet, význam a použitie percentilov je podobné ako pri deciloch.

Kvartily, decily a iné štrukturálne charakteristiky možno určiť graficky analogicky s mediánom pomocou kumulácie.

Na meranie veľkosti variácie sa používajú tieto ukazovatele: rozsah variácie, priemerná lineárna odchýlka, smerodajná odchýlka a rozptyl. Veľkosť rozsahu variácií úplne závisí od náhodnosti rozloženia extrémnych členov radu. Tento ukazovateľ je zaujímavý v prípadoch, keď je dôležité vedieť, aká je amplitúda kolísania hodnôt atribútu:

kde R- hodnota rozsahu variácie; x max - maximálna hodnota prvku; x tt - minimálna hodnota atribútu.

Pri výpočte variačného rozsahu sa neberie do úvahy hodnota veľkej väčšiny členov radu, pričom odchýlka je spojená s každou hodnotou člena radu. Tento nedostatok je zbavený ukazovateľov, ktoré sú priemermi získanými z odchýlok hodnôt jednotlivých vlastností od ich priemernej hodnoty: priemerná lineárna odchýlka a štandardná odchýlka. Medzi jednotlivými odchýlkami od priemeru a kolísaním konkrétneho znaku existuje priamy vzťah. Čím silnejšia je volatilita, tým väčšia je absolútna veľkosť odchýlok od priemeru.

Priemerná lineárna odchýlka je aritmetický priemer absolútnych hodnôt odchýlok jednotlivých možností od ich priemernej hodnoty.

Stredná lineárna odchýlka pre nezoskupené údaje

kde / pr - hodnota priemernej lineárnej odchýlky; x, - - hodnota prvku; X - P - počet jednotiek obyvateľstva.

Priemerná lineárna odchýlka zoskupených sérií

kde / vz - hodnota priemernej lineárnej odchýlky; x, - hodnota prvku; X - priemerná hodnota znaku pre skúmanú populáciu; / - počet jednotiek obyvateľstva v samostatnej skupine.

Značky odchýlok sa v tomto prípade ignorujú, inak bude súčet všetkých odchýlok rovný nule. Priemerná lineárna odchýlka v závislosti od zoskupenia analyzovaných údajov sa vypočíta pomocou rôznych vzorcov: pre zoskupené a nezoskupené údaje. Priemerná lineárna odchýlka sa vzhľadom na svoju konvenčnosť, oddelene od ostatných variačných ukazovateľov, v praxi používa pomerne zriedka (najmä na charakterizáciu plnenia zmluvných záväzkov z hľadiska rovnomernosti dodávok; pri analýze obratu zahraničného obchodu, zloženie zamestnancov, rytmus výroby, kvalita výrobkov, berúc do úvahy technologické vlastnosti výroby atď.).

Smerodajná odchýlka charakterizuje, o koľko sa jednotlivé hodnoty študovaného znaku v priemere odchyľujú od priemernej hodnoty pre populáciu, a vyjadruje sa v jednotkách študovaného znaku. Smerodajná odchýlka, ktorá je jednou z hlavných mier variácií, sa široko používa pri posudzovaní hraníc variácie vlastnosti v homogénnej populácii, pri určovaní hodnôt ordinátov normálnej distribučnej krivky, ako aj pri výpočty súvisiace s organizáciou pozorovania vzorky a stanovením presnosti charakteristík vzorky. Smerodajná odchýlka pre nezoskupené údaje sa vypočíta podľa nasledujúceho algoritmu: každá odchýlka od priemeru sa umocní na druhú, všetky štvorce sa spočítajú, potom sa súčet druhých mocnín vydelí počtom členov v rade a druhá odmocnina sa vyberie z kvocient:

kde a Iip - hodnota štandardnej odchýlky; Xj- hodnota funkcie; X- priemerná hodnota atribútu pre skúmanú populáciu; P - počet jednotiek obyvateľstva.

Pre zoskupené analyzované údaje sa štandardná odchýlka údajov vypočíta pomocou váženého vzorca

kde - hodnota smerodajnej odchýlky; Xj- hodnota funkcie; X - priemerná hodnota znaku pre skúmanú populáciu; fx- počet jednotiek obyvateľstva v určitej skupine.

Výraz pod koreňom sa v oboch prípadoch nazýva rozptyl. Rozptyl sa teda vypočíta ako priemerná štvorec odchýlok hodnôt vlastností od ich priemernej hodnoty. Pre nevážené (jednoduché) hodnoty vlastností je rozptyl definovaný takto:

Pre vážené charakteristické hodnoty

Existuje aj špeciálny zjednodušený spôsob výpočtu rozptylu: vo všeobecnosti

pre nevážené (jednoduché) hodnoty vlastností pre vážené charakteristické hodnoty
pomocou metódy počítania od podmienenej nuly

kde a 2 - hodnota rozptylu; x, - - hodnota prvku; X - priemerná hodnota funkcie, h- hodnota intervalu skupiny, t 1 - hmotnosť (A =

Disperzia má v štatistike nezávislé vyjadrenie a je jedným z najdôležitejších ukazovateľov variácie. Meria sa v jednotkách zodpovedajúcich druhej mocnine jednotiek merania skúmaného znaku.

Disperzia má nasledujúce vlastnosti.

  • 1. Rozptyl konštantnej hodnoty je nulový.
  • 2. Zníženie všetkých hodnôt vlastnosti o rovnakú hodnotu A nemení hodnotu rozptylu. To znamená, že strednú druhú mocninu odchýlok možno vypočítať nie z daných hodnôt atribútu, ale z ich odchýlok od nejakého konštantného čísla.
  • 3. Zníženie všetkých hodnôt funkcie v k krát znižuje rozptyl v k 2 krát a štandardná odchýlka - v k krát, t.j. všetky hodnoty funkcií možno vydeliť nejakým konštantným číslom (povedzme hodnotou intervalu série), vypočítať štandardnú odchýlku a potom ju vynásobiť konštantným číslom.
  • 4. Ak vypočítame priemernú druhú mocninu odchýlok od ľubovoľnej hodnoty A pri sa do určitej miery líši od aritmetického priemeru, potom bude vždy väčší ako stredná štvorec odchýlok vypočítaných z aritmetického priemeru. V tomto prípade bude priemerný štvorec odchýlok väčší o dobre definovanú hodnotu - o druhú mocninu rozdielu medzi priemerom a touto podmienene prevzatou hodnotou.

Variáciou alternatívneho znaku je prítomnosť alebo absencia skúmanej vlastnosti v jednotkách populácie. Kvantitatívne je variácia alternatívneho atribútu vyjadrená dvoma hodnotami: prítomnosť študovanej vlastnosti v jednotke je označená jednotkou (1) a jej absencia je označená nulou (0). Podiel jednotiek, ktoré majú skúmanú vlastnosť, sa označí P a podiel jednotiek, ktoré túto vlastnosť nemajú, sa označí G. Rozptyl alternatívneho atribútu sa teda rovná súčinu podielu jednotiek, ktoré majú danú vlastnosť (P) a podielu jednotiek, ktoré túto vlastnosť nemajú. (G). Najväčšia variabilita populácie sa dosahuje v prípadoch, keď časť populácie, ktorá tvorí 50 % z celkového objemu populácie, má znak a druhá časť populácie, ktorá sa tiež rovná 50 %, nemá. táto vlastnosť, pričom rozptyl dosahuje maximálnu hodnotu 0,25, m .e. P = 0,5, G= 1 - P \u003d 1 - 0,5 \u003d 0,5 a o 2 \u003d 0,5 0,5 \u003d 0,25. Dolná hranica tohto ukazovateľa sa rovná nule, čo zodpovedá situácii, v ktorej nedochádza k žiadnej odchýlke v súhrne. Praktickou aplikáciou rozptylu alternatívneho znaku je vytvorenie intervalov spoľahlivosti pri vykonávaní pozorovania vzorky.

Čím je hodnota rozptylu a smerodajnej odchýlky menšia, tým je populácia homogénnejšia a priemer bude typickejší. V praxi štatistiky je často potrebné porovnávať variácie rôznych znakov. Napríklad je zaujímavé porovnať rozdiely vo veku pracovníkov a ich kvalifikácii, dĺžke služby a mzdy, nákladoch a zisku, dĺžke služby a produktivite práce atď. Na takéto porovnania sú ukazovatele absolútnej variability charakteristík nevhodné: nemožno porovnávať variabilitu pracovných skúseností vyjadrenú v rokoch s variáciou miezd vyjadrenou v rubľoch. Na uskutočnenie takýchto porovnaní, ako aj porovnania fluktuácie toho istého atribútu vo viacerých populáciách s rôznymi aritmetickými priemermi sa používajú variačné ukazovatele - oscilačný koeficient, lineárny variačný koeficient a variačný koeficient, ktoré ukazujú mieru kolísanie extrémnych hodnôt okolo priemeru.

Oscilačný faktor:

kde VR - hodnota koeficientu oscilácie; R- hodnota variačného rozsahu; X -

Lineárny variačný koeficient“.

kde vj- hodnota lineárneho variačného koeficientu; ja- hodnota priemernej lineárnej odchýlky; X - priemerná hodnota znaku pre skúmanú populáciu.

Variačný koeficient:

kde Va- hodnota variačného koeficientu; a - hodnota štandardnej odchýlky; X - priemerná hodnota znaku pre skúmanú populáciu.

Oscilačný koeficient je percento rozsahu variácie k strednej hodnote študovaného znaku a lineárny variačný koeficient je pomer strednej lineárnej odchýlky k strednej hodnote študovaného znaku, vyjadrený v percentách. Variačný koeficient je percento štandardnej odchýlky k strednej hodnote študovaného znaku. Ako relatívna hodnota vyjadrená v percentách sa variačný koeficient používa na porovnanie stupňa variácie rôznych vlastností. Pomocou variačného koeficientu sa odhaduje homogenita štatistickej populácie. Ak je variačný koeficient menší ako 33 %, potom je študovaná populácia homogénna a variácia je slabá. Ak je variačný koeficient väčší ako 33 %, potom je skúmaná populácia heterogénna, variácia je silná a priemerná hodnota je atypická a nemožno ju použiť ako zovšeobecňujúci ukazovateľ tejto populácie. Okrem toho sa variačné koeficienty používajú na porovnanie fluktuácie jedného znaku v rôznych populáciách. Napríklad posúdiť rozdiely v dĺžke služby pracovníkov v dvoch podnikoch. Čím väčšia je hodnota koeficientu, tým významnejšia je variácia vlastnosti.

Na základe vypočítaných kvartilov je možné pomocou vzorca vypočítať aj relatívny ukazovateľ štvrťročnej variácie

kde Q 2 a

Interkvartilný rozsah je určený vzorcom

Kvartilová odchýlka sa používa namiesto rozsahu variácie, aby sa predišlo nevýhodám spojeným s používaním extrémnych hodnôt:

Pre nerovnaké intervalové variačné série sa vypočítava aj hustota distribúcie. Je definovaný ako podiel príslušnej frekvencie alebo frekvencie delený hodnotou intervalu. V nerovnomerných intervalových radoch sa používajú absolútne a relatívne distribučné hustoty. Absolútna hustota distribúcie je frekvencia na jednotku dĺžky intervalu. Relatívna hustota rozloženia – početnosť na jednotku dĺžky intervalu.

Všetko vyššie uvedené platí pre distribučné série, ktorých distribučný zákon je dobre opísaný v zákone o normálnom rozdelení alebo je mu blízky.