Serii de variații discrete în definirea statisticilor. Seria de variații

Setul de valori ale parametrului studiat într-un experiment sau observație dat, ordonate după mărime (creștere sau scădere) se numește serie de variații.

Sa presupunem ca am masurat tensiunea arteriala la zece pacienti pentru a obtine un prag superior al TA: presiunea sistolica, i.e. un singur număr.

Imaginați-vă că o serie de observații (populație statistică) ale presiunii arteriale sistolice în 10 observații are următoarea formă (Tabelul 1):

tabelul 1

Componentele unei serii variaționale se numesc variante. Variantele reprezintă valoarea numerică a trăsăturii studiate.

Construirea unei serii variaționale dintr-un set statistic de observații este doar primul pas către înțelegerea caracteristicilor întregului set. În continuare, este necesar să se determine nivelul mediu al trăsăturii cantitative studiate (nivelul mediu de proteine ​​din sânge, greutatea medie a pacienților, timpul mediu de debut al anesteziei etc.)

Nivelul mediu este măsurat folosind criterii numite medii. Valoarea medie este o caracteristică numerică generalizantă a valorilor omogene calitativ, care caracterizează printr-un număr întreaga populație statistică după un singur atribut. Valoarea medie exprimă generalul care este caracteristic unei trăsături într-un set dat de observații.

Există trei tipuri de medii de uz curent: mod (), mediană () și medie aritmetică ().

Pentru a determina orice valoare medie, este necesar să se utilizeze rezultatele observațiilor individuale, scriindu-le sub forma unei serii de variații (Tabelul 2).

Modă- valoarea care apare cel mai frecvent într-o serie de observaţii. În exemplul nostru, modul = 120. Dacă nu există valori care se repetă în seria de variații, atunci ei spun că nu există mod. Dacă mai multe valori sunt repetate de același număr de ori, atunci cea mai mică dintre ele este luată ca mod.

Median- valoarea care împarte distribuția în două părți egale, valoarea centrală sau mediană a unei serii de observații ordonate crescător sau descrescător. Deci, dacă există 5 valori în seria variațională, atunci mediana sa este egală cu al treilea membru al seriei variaționale, dacă există un număr par de membri în serie, atunci mediana este media aritmetică a celor două. observații centrale, adică dacă există 10 observații în serie, atunci mediana este egală cu media aritmetică a 5 și 6 observații. În exemplul nostru.

Rețineți o caracteristică importantă a modului și a mediei: valorile lor nu sunt afectate de valorile numerice ale variantelor extreme.

Media aritmetică calculat prin formula:

unde este valoarea observată în a-a observație și este numărul de observații. Pentru cazul nostru.

Media aritmetică are trei proprietăți:

Cel din mijloc ocupă poziția de mijloc în seria de variații. Într-un rând strict simetric.

Media este o valoare generalizantă și fluctuații aleatorii, diferențele de date individuale nu sunt vizibile în spatele mediei. Ea reflectă tipicul care este caracteristic întregii populații.

Suma abaterilor tuturor variantelor de la medie este egală cu zero: . Se indică abaterea variantei de la medie.

Seria de variații constă din variante și frecvențele corespunzătoare acestora. Din cele zece valori obținute, numărul 120 a fost întâlnit de 6 ori, 115 - 3 ori, 125 - 1 dată. Frecvență () - numărul absolut de opțiuni individuale din populație, indicând de câte ori apare această opțiune în seria de variații.

Seria de variații poate fi simplă (frecvențe = 1) sau grupată scurtată, câte 3-5 opțiuni fiecare. Se folosește o serie simplă cu un număr mic de observații (), grupate - cu un număr mare de observații ().

Serii de variații: definiție, tipuri, caracteristici principale. Metoda de calcul
modă, mediană, medie aritmetică în studii medicale și statistice
(Afișați un exemplu condiționat).

O serie variațională este o serie de valori numerice ale trăsăturii studiate, care diferă unele de altele prin mărimea lor și sunt aranjate într-o anumită succesiune (în ordine crescătoare sau descrescătoare). Fiecare valoare numerică a seriei se numește variantă (V), iar numerele care arată cât de des apare cutare sau cutare variantă în componența acestei serii se numesc frecvență (p).

Numărul total de cazuri de observații, din care constă seria de variații, se notează cu litera n. Diferența de semnificație a caracteristicilor studiate se numește variație. Dacă semnul variabil nu are o măsură cantitativă, variația se numește calitativă, iar seria de distribuție se numește atribut (de exemplu, distribuția după rezultatul bolii, starea de sănătate etc.).

Dacă un semn variabil are o expresie cantitativă, o astfel de variație se numește cantitativă, iar seria de distribuție se numește variațională.

Serii variaționale se împart în discontinue și continue - după natura trăsăturii cantitative, simple și ponderate - în funcție de frecvența de apariție a variantei.

Într-o serie variațională simplă, fiecare variantă apare o singură dată (p=1), într-una ponderată, aceeași variantă apare de mai multe ori (p>1). Exemple de astfel de serii vor fi discutate mai târziu în text. Dacă atributul cantitativ este continuu, i.e. între valori întregi există valori fracționale intermediare, seria variațională se numește continuă.

De exemplu: 10.0 - 11.9

14,0 - 15,9 etc.

Dacă semnul cantitativ este discontinuu, i.e. valorile sale individuale (opțiunile) diferă între ele printr-un număr întreg și nu au valori fracționale intermediare, seria de variații se numește discontinuă sau discretă.

Folosind datele din exemplul anterior despre ritmul cardiac

pentru 21 de elevi, vom construi o serie de variații (Tabelul 1).

tabelul 1

Distribuția studenților la medicină în funcție de frecvența pulsului (bpm)

Astfel, a construi o serie variațională înseamnă a sistematiza, eficientiza valorile numerice existente (opțiuni), adică. aranjați într-o anumită succesiune (în ordine crescătoare sau descrescătoare) cu frecvențele corespunzătoare. În exemplul luat în considerare, opțiunile sunt aranjate în ordine crescătoare și sunt exprimate ca numere întregi discontinue (discrete), fiecare opțiune apare de mai multe ori, i.e. avem de-a face cu o serie variațională ponderată, discontinuă sau discretă.

De regulă, dacă numărul de observații din populația statistică pe care o studiem nu depășește 30, atunci este suficient să aranjam toate valorile trăsăturii studiate într-o serie variațională în ordine crescătoare, ca în tabel. 1, sau în ordine descrescătoare.

Cu un număr mare de observații (n>30), numărul de variante care apar poate fi foarte mare, în acest caz se alcătuiește un interval sau o serie variațională grupată, în care, pentru a simplifica prelucrarea ulterioară și a clarifica natura distribuției, variantele sunt combinate în grupuri.

De obicei, numărul de opțiuni de grup variază de la 8 la 15.

Trebuie să fie cel puțin 5, pentru că. în caz contrar, va fi o mărire prea aspră, excesivă, care distorsionează imaginea generală a variației și afectează foarte mult acuratețea valorilor medii. Când numărul de opțiuni de grup este mai mare de 20-25, acuratețea calculării valorilor medii crește, dar caracteristicile variației caracteristicilor sunt distorsionate semnificativ, iar procesarea matematică devine mai complicată.

La compilarea unei serii grupate, este necesar să se țină cont

− grupurile de variante trebuie plasate într-o anumită ordine (crescător sau descrescător);

- intervalele din grupele de variante sa fie aceleasi;

− valorile limitelor intervalelor nu trebuie să coincidă, deoarece nu va fi clar în ce grupuri să atribuie opțiuni individuale;

- este necesar să se țină seama de caracteristicile calitative ale materialului colectat la stabilirea limitelor intervalelor (de exemplu, la studierea greutății adulților, este acceptabil un interval de 3-4 kg, iar pentru copii în primele luni de viață nu trebuie să depășească 100 g.)

Să construim o serie grupată (interval) care caracterizează datele privind frecvența pulsului (numărul de bătăi pe minut) pentru 55 de studenți la medicină înainte de examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Pentru a construi o serie grupată, aveți nevoie de:

1. Determinați valoarea intervalului;

2. Determinați mijlocul, începutul și sfârșitul grupelor variantei seriei de variații.

● Valoarea intervalului (i) este determinată de numărul de grupuri așteptate (r), al căror număr este stabilit în funcție de numărul de observații (n) conform unui tabel special

Numărul de grupuri în funcție de numărul de observații:

În cazul nostru, pentru 55 de elevi, este posibil să se alcătuiască de la 8 până la 10 grupe.

Valoarea intervalului (i) este determinată de următoarea formulă -

i = Vmax-Vmin/r

În exemplul nostru, valoarea intervalului este 82-58/8= 3.

Dacă valoarea intervalului este un număr fracționar, rezultatul trebuie rotunjit la un număr întreg.

Există mai multe tipuri de medii:

● medie aritmetică,

● medie geometrică,

● medie armonică,

● rădăcină medie pătrată,

● mediu progresiv,

● mediană

În statistica medicală, mediile aritmetice sunt cel mai des folosite.

Media aritmetică (M) este o valoare generalizantă care determină valoarea tipică care este caracteristică întregii populații. Principalele metode de calcul a lui M sunt: ​​metoda mediei aritmetice și metoda momentelor (abaterile condiționate).

Metoda mediei aritmetice este utilizată pentru a calcula media aritmetică simplă și media aritmetică ponderată. Alegerea metodei de calcul a valorii medii aritmetice depinde de tipul seriei de variații. În cazul unei serii variaționale simple, în care fiecare variantă apare o singură dată, media aritmetică simplă este determinată de formula:

unde: М – valoarea medie aritmetică;

V este valoarea caracteristicii variabilei (opțiuni);

Σ - indică acţiunea - însumare;

n este numărul total de observații.

Un exemplu de calcul al mediei aritmetice este simplu. Frecvența respiratorie (numărul de respirații pe minut) la 9 bărbați cu vârsta de 35 de ani: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Pentru a determina nivelul mediu al frecvenței respiratorii la bărbații în vârstă de 35 de ani, este necesar:

1. Construiți o serie variațională, plasând toate opțiunile în ordine crescătoare sau descrescătoare, avem o serie variațională simplă, deoarece valorile variantei apar o singură dată.

M = ∑V/n = 171/9 = 19 respirații pe minut

Concluzie. Frecvența respiratorie la bărbații în vârstă de 35 de ani este în medie de 19 respirații pe minut.

Dacă valorile individuale ale variantei sunt repetate, nu este nevoie să scrieți fiecare variantă într-o linie, este suficient să enumerați dimensiunile variantei care apar (V) și apoi să indicați numărul repetărilor lor ( p). o astfel de serie variațională, în care variantele sunt, parcă, ponderate în funcție de numărul de frecvențe care le corespund, se numește serie variațională ponderată, iar valoarea medie calculată este media ponderată aritmetică.

Media ponderată aritmetică este determinată de formula: M= ∑Vp/n

unde n este numărul de observații egal cu suma frecvențelor - Σr.

Un exemplu de calcul a mediei ponderate aritmetice.

Durata invalidității (în zile) la 35 de pacienți cu afecțiuni respiratorii acute (IRA) tratați de un medic local în primul trimestru al anului curent a fost: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 zile .

Metodologia de determinare a duratei medii a dizabilității la pacienții cu infecții respiratorii acute este următoarea:

1. Să construim o serie variațională ponderată, deoarece valorile variantelor individuale se repetă de mai multe ori. Pentru a face acest lucru, puteți aranja toate opțiunile în ordine crescătoare sau descrescătoare cu frecvențele corespunzătoare.

În cazul nostru, opțiunile sunt în ordine crescătoare.

2. Calculați media ponderată aritmetică folosind formula: M = ∑Vp/n = 233/35 = 6,7 zile

Distribuția pacienților cu infecții respiratorii acute în funcție de durata dizabilității:

Durata incapacității de muncă (V) Număr de pacienți (p) vp
∑p = n = 35 ∑Vp = 233

Concluzie. Durata dizabilității la pacienții cu boli respiratorii acute a fost în medie de 6,7 zile.

Modul (Mo) este cea mai comună variantă din seria de variații. Pentru distribuția prezentată în tabel, modul corespunde variantei egale cu 10, apare mai des decât altele - de 6 ori.

Distribuția pacienților după durata șederii într-un pat de spital (în zile)

V
p

Uneori este dificil să se determine valoarea exactă a modului, deoarece pot exista mai multe observații în datele studiate care apar „cel mai des”.

Mediana (Me) este un indicator neparametric care împarte seria de variații în două jumătăți egale: același număr de opțiuni este situat de ambele părți ale medianei.

De exemplu, pentru distribuția prezentată în tabel, mediana este 10 deoarece pe ambele părți ale acestei valori se află pe a 14-a opțiune, adică numărul 10 ocupă o poziție centrală în această serie și este mediana acestuia.

Având în vedere că numărul de observații din acest exemplu este par (n=34), mediana poate fi determinată după cum urmează:

Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Aceasta înseamnă că mijlocul seriei cade pe a șaptesprezecea opțiune, care corespunde unei mediane de 10. Pentru distribuția prezentată în tabel, media aritmetică este:

M = ∑Vp/n = 334/34 = 10,1

Deci, pentru 34 de observații din tabel. 8, avem: Mo=10, Me=10, media aritmetică (M) este 10,1. În exemplul nostru, toți cei trei indicatori s-au dovedit a fi egali sau apropiați unul de celălalt, deși sunt complet diferiți.

Media aritmetică este suma rezultată a tuturor influențelor; la formarea ei iau parte toate opțiunile, fără excepție, inclusiv cele extreme, adesea atipice pentru un anumit fenomen sau set.

Modul și mediana, spre deosebire de media aritmetică, nu depind de valoarea tuturor valorilor individuale ale atributului variabil (valorile variantelor extreme și gradul de împrăștiere al seriei). Media aritmetică caracterizează întreaga masă de observații, modul și mediana caracterizează volumul

Metoda de grupare vă permite, de asemenea, să măsurați variație(variabilitate, fluctuație) semnelor. Cu un număr relativ mic de unități de populație, variația se măsoară pe baza unei serii ordonate de unități care alcătuiesc populația. Rândul este numit clasat dacă unitățile sunt aranjate în caracteristică ascendentă (descrescătoare).

Cu toate acestea, seriile clasificate sunt mai degrabă orientative atunci când este necesară o caracteristică comparativă a variației. În plus, în multe cazuri se are de-a face cu agregate statistice formate dintr-un număr mare de unități, care sunt practic greu de reprezentat sub forma unei serii specifice. În acest sens, pentru familiarizarea generală inițială cu datele statistice și mai ales pentru a facilita studiul variației semnelor, fenomenele și procesele studiate sunt de obicei combinate în grupuri, iar rezultatele grupării sunt întocmite sub formă de tabele de grup. .

Dacă în tabelul de grupuri sunt doar două coloane - grupuri în funcție de caracteristica selectată (opțiuni) și numărul de grupuri (frecvențe sau frecvențe), se numește aproape de distribuție.

Interval de distribuție - cel mai simplu tip de grupare structurală în funcție de un singur atribut, afișat într-un tabel de grup cu două coloane care conțin variantele și frecvențele atributului. În multe cazuri, cu o astfel de grupare structurală, i.e. odată cu alcătuirea seriilor de distribuţie începe studiul materialului statistic iniţial.

O grupare structurală sub forma unei serii de distribuție poate fi transformată într-o adevărată grupare structurală dacă grupurile selectate sunt caracterizate nu numai prin frecvențe, ci și prin alți indicatori statistici. Scopul principal al seriei de distribuție este de a studia variația caracteristicilor. Teoria distribuției seriilor este dezvoltată în detaliu prin statistici matematice.

Serii de distribuție sunt împărțite în atributiv(gruparea după caracteristici atributive, de exemplu, împărțirea populației pe sex, naționalitate, stare civilă etc.) și variațională(gruparea după caracteristici cantitative).

Seria de variații este un tabel de grup care conține două coloane: o grupare de unități în funcție de un atribut cantitativ și numărul de unități din fiecare grup. Intervalele din seria de variații sunt de obicei formate egale și închise. Seria de variații este următoarea grupare a populației ruse în termeni de venit mediu în numerar pe cap de locuitor (Tabelul 3.10).

Tabelul 3.10

Distribuția populației Rusiei în funcție de venitul mediu pe cap de locuitor în perioada 2004-2009

Grupuri de populație după venitul mediu pe cap de locuitor, rub./lună

Populația din grup, în % din total

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Peste 25.000,0

Toată populația

Serii variaționale, la rândul lor, sunt împărțite în discrete și interval. Discret serii de variații combină variante de caracteristici discrete care variază în limite înguste. Un exemplu de serie de variații discrete este distribuția familiilor rusești în funcție de numărul de copii pe care îi au.

Interval seriile variaționale combină variante fie ale caracteristicilor continue, fie ale caracteristicilor discrete care se schimbă într-o gamă largă. Seria de intervale este seria variațională a distribuției populației ruse în ceea ce privește venitul mediu în numerar pe cap de locuitor.

Serii variaționale discrete nu sunt folosite foarte des în practică. Între timp, compilarea lor nu este dificilă, întrucât componența grupurilor este determinată de variantele specifice pe care le posedă de fapt caracteristicile grupării studiate.

Serii variaționale de intervale sunt mai răspândite. La compilarea lor, se pune problema dificilă a numărului de grupuri, precum și a mărimii intervalelor care ar trebui stabilite.

Principiile pentru rezolvarea acestei probleme sunt expuse în capitolul privind metodologia de construire a grupărilor statistice (vezi paragraful 3.3).

Seriile de variații sunt un mijloc de colaps sau comprimare a diverselor informații într-o formă compactă; ele pot fi folosite pentru a face o judecată destul de clară asupra naturii variației, pentru a studia diferențele de semne ale fenomenelor incluse în setul studiat. Dar cea mai importantă semnificație a seriei variaționale este aceea că pe baza lor se calculează caracteristicile de generalizare speciale ale variației (vezi capitolul 7).

Un loc aparte în analiza statistică îl revine determinării nivelului mediu al trăsăturii sau fenomenului studiat. Nivelul mediu al unei caracteristici este măsurat prin valori medii.

Valoarea medie caracterizează nivelul cantitativ general al trăsăturii studiate și este o proprietate de grup a populației statistice. Ea nivelează, slăbește abaterile aleatorii ale observațiilor individuale într-o direcție sau alta și evidențiază proprietatea principală, tipică, a trăsăturii studiate.

Mediile sunt utilizate pe scară largă:

1. Evaluarea stării de sănătate a populației: caracteristici ale dezvoltării fizice (înălțime, greutate, circumferință toracică etc.), identificarea prevalenței și duratei diferitelor boli, analizarea indicatorilor demografici (mișcarea naturală a populației, speranța medie de viață, reproducerea populației). , populația medie și etc.).

2. Să studieze activitățile instituțiilor medicale, ale personalului medical și să evalueze calitatea muncii acestora, planificarea și determinarea nevoilor populației în diverse tipuri de îngrijiri medicale (număr mediu de solicitări sau vizite pe locuitor pe an, durata medie a șederii). a unui pacient într-un spital, durata medie a pacientului de examinare, asigurarea medie cu medici, paturi etc.).

3. Să se caracterizeze starea sanitară și epidemiologică (puritatea medie a aerului din atelier, suprafața medie per persoană, consumul mediu de proteine, grăsimi și carbohidrați etc.).

4. Să determine parametrii medicali și fiziologici în normă și patologie, în prelucrarea datelor de laborator, să stabilească fiabilitatea rezultatelor unui studiu selectiv în studii socio-igiene, clinice, experimentale.

Calculul valorilor medii se realizează pe baza seriilor de variații. Seria de variații- acesta este un set statistic omogen calitativ, ale cărui unități individuale caracterizează diferențele cantitative ale trăsăturii sau fenomenului studiat.

Variația cantitativă poate fi de două tipuri: discontinuă (discretă) și continuă.

Un semn discontinuu (discret) este exprimat doar ca un număr întreg și nu poate avea valori intermediare (de exemplu, numărul de vizite, populația site-ului, numărul de copii din familie, severitatea bolii în puncte). , etc.).

Un semn continuu poate lua orice valoare în anumite limite, inclusiv cele fracționale, și este exprimat doar aproximativ (de exemplu, greutatea - pentru adulți poate fi limitată la kilograme, iar pentru nou-născuți - grame; înălțime, tensiune arterială, timp cheltuită pentru a vedea un pacient etc.).



Valoarea digitală a fiecărei caracteristici sau fenomene individuale incluse în seria de variații se numește variantă și este indicată prin litera V . Există și alte notații în literatura matematică, de exemplu X sau y.

O serie variațională, în care fiecare opțiune este indicată o dată, se numește simplă. Astfel de serii sunt folosite în majoritatea problemelor statistice în cazul prelucrării informatice a datelor.

Cu o creștere a numărului de observații, de regulă, există valori repetate ale variantei. În acest caz, se creează serie de variații grupate, unde este indicat numărul de repetări (frecvența, notat cu litera " R »).

Serii de variații clasificate constă din opțiuni dispuse în ordine crescătoare sau descrescătoare. Atât seriale simple, cât și cele grupate pot fi compuse cu clasament.

Seria de variație de interval sunt realizate în scopul simplificării calculelor ulterioare efectuate fără utilizarea calculatorului, cu un număr foarte mare de unități de observație (mai mult de 1000).

Serii cu variații continue include valorile variante, care pot fi orice valoare.

Dacă în seria de variații valorile atributului (opțiunilor) sunt date sub formă de numere specifice separate, atunci o astfel de serie se numește discret.

Caracteristicile generale ale valorilor atributului reflectat în seria de variații sunt valorile medii. Dintre acestea, cele mai utilizate sunt: ​​media aritmetică M, Modă lu si mediana pe mine. Fiecare dintre aceste caracteristici este unică. Ele nu se pot înlocui unul pe altul și numai în totalitate, destul de complet și într-o formă concisă, sunt trăsăturile seriei variaționale.

Modă (lu) numiți valoarea opțiunilor care apar cel mai frecvent.

Median (pe mine) este valoarea variantei care împarte la jumătate seria variațională intervalată (pe fiecare parte a medianei există jumătate din variantă). În cazuri rare, când există o serie de variații simetrice, modul și mediana sunt egale între ele și coincid cu valoarea mediei aritmetice.

Cea mai tipică caracteristică a valorilor variantelor este medie aritmetică valoare( M ). În literatura de matematică, se notează .

Media aritmetică (M, ) este o caracteristică cantitativă generală a unei anumite trăsături a fenomenelor studiate, care alcătuiesc un agregat statistic omogen calitativ. Distinge între media aritmetică simplă și media ponderată. Media aritmetică simplă se calculează pentru o serie variațională simplă prin însumarea tuturor opțiunilor și împărțirea acestei sume la numărul total de opțiuni incluse în această serie variațională. Calculele se efectuează după formula:

,

Unde: M - medie aritmetică simplă;

Σ V - optiunea de suma;

n- numărul de observații.

În seria de variații grupate, se determină o medie aritmetică ponderată. Formula de calcul a acestuia:

,

Unde: M - medie ponderată aritmetică;

Σ vp - suma produselor unei variante pe frecvenţele acestora;

n- numărul de observații.

Cu un număr mare de observații în cazul calculelor manuale se poate folosi metoda momentelor.

Media aritmetică are următoarele proprietăți:

suma abaterilor variantei de la medie ( Σ d ) este egal cu zero (vezi Tabelul 15);

La înmulțirea (împărțirea) tuturor opțiunilor cu același factor (divizor), media aritmetică este înmulțită (împărțită) cu același factor (divizor);

Dacă adăugați (scădeți) același număr la toate opțiunile, media aritmetică crește (descrește) cu același număr.

Mediile aritmetice, luate singure, fără a ține cont de variabilitatea seriei din care sunt calculate, pot să nu reflecte pe deplin proprietățile seriei de variații, mai ales atunci când este necesară compararea cu alte medii. Valorile medii apropiate ca valoare pot fi obținute din serii cu diferite grade de dispersie. Cu cât opțiunile individuale sunt mai aproape una de cealaltă în ceea ce privește caracteristicile lor cantitative, cu atât mai puțin împrăștiere (fluctuație, variabilitate) serie, cu atât media este mai tipică.

Principalii parametri care permit evaluarea variabilității unei trăsături sunt:

· domeniul de aplicare;

Amplitudine;

· Deviație standard;

· Coeficientul de variație.

Aproximativ, fluctuația unei trăsături poate fi judecată după sfera și amplitudinea seriei de variații. Intervalul indică opțiunile maxime (V max) și minime (V min) din serie. Amplitudinea (A m) este diferența dintre aceste opțiuni: A m = V max - V min .

Principala măsură, general acceptată, a fluctuației seriei variaționale sunt dispersie (D ). Dar cel mai des este folosit parametrul mai convenabil, calculat pe baza varianței - abaterea standard ( σ ). Se ține cont de valoarea abaterii ( d ) a fiecărei variante a seriei de variații din media ei aritmetică ( d=V - M ).

Deoarece abaterile variantei de la medie pot fi pozitive și negative, atunci când sunt însumate, dau valoarea „0” (S d=0). Pentru a evita acest lucru, valorile abaterii ( d) sunt ridicate la a doua putere și mediate. Astfel, varianța seriei variaționale este pătratul mediu al abaterilor variantei de la media aritmetică și se calculează prin formula:

.

Este cea mai importantă caracteristică a variabilității și este folosită pentru a calcula multe teste statistice.

Deoarece varianța este exprimată ca pătratul abaterilor, valoarea ei nu poate fi utilizată în comparație cu media aritmetică. În aceste scopuri, este utilizat deviație standard, care este notat cu semnul „Sigma” ( σ ). Caracterizează abaterea medie a tuturor variantelor seriei de variații de la media aritmetică în aceleași unități ca și media în sine, astfel încât acestea pot fi utilizate împreună.

Abaterea standard este determinată de formula:

Această formulă se aplică pentru numărul de observații ( n ) este mai mare decât 30. Cu un număr mai mic n valoarea deviației standard va avea o eroare asociată cu părtinirea matematică ( n - unu). În acest sens, un rezultat mai precis poate fi obținut luând în considerare o astfel de părtinire în formula de calcul a abaterii standard:

deviație standard (s ) este o estimare a abaterii standard a variabilei aleatoare X relativ la așteptările sale matematice bazate pe o estimare imparțială a varianței sale.

Pentru valori n > 30 deviație standard ( σ ) și abaterea standard ( s ) va fi la fel ( σ=s ). Prin urmare, în majoritatea manualelor practice, aceste criterii sunt tratate ca având semnificații diferite.În Excel, calculul abaterii standard se poate face cu funcția =STDEV(interval). Și pentru a calcula abaterea standard, trebuie să creați o formulă adecvată.

Rădăcina pătrată medie sau abaterea standard vă permite să determinați cât de mult pot diferi valorile unei caracteristici de valoarea medie. Să presupunem că există două orașe cu aceeași temperatură medie zilnică vara. Unul dintre aceste orașe este situat pe coastă, iar celălalt pe continent. Se știe că în orașele situate pe coastă, diferențele de temperaturi în timpul zilei sunt mai mici decât în ​​orașele situate în interior. Prin urmare, abaterea standard a temperaturilor diurne din apropierea orașului de coastă va fi mai mică decât cea a celui de-al doilea oraș. În practică, aceasta înseamnă că temperatura medie a aerului pentru fiecare zi particulară într-un oraș situat pe continent va diferi mai mult de media decât într-un oraș de pe coastă. În plus, abaterea standard face posibilă estimarea posibilelor abateri de temperatură de la medie cu nivelul necesar de probabilitate.

Conform teoriei probabilității, în fenomenele care se supun legii distribuției normale, există o relație strictă între valorile mediei aritmetice, abaterea standard și opțiuni ( regula trei sigma). De exemplu, 68,3% din valorile unui atribut variabil sunt în M ± 1 σ , 95,5% - în M ± 2 σ și 99,7% - în M ± 3 σ .

Valoarea abaterii standard face posibilă aprecierea naturii omogenității seriei de variații și a grupului studiat. Dacă valoarea abaterii standard este mică, atunci aceasta indică o omogenitate suficient de mare a fenomenului studiat. Media aritmetică în acest caz ar trebui recunoscută ca fiind destul de caracteristică acestei serii variaționale. Cu toate acestea, o sigma prea mică ne face să ne gândim la o selecție artificială de observații. Cu o sigma foarte mare, media aritmetică caracterizează seria de variații într-o măsură mai mică, ceea ce indică o variabilitate semnificativă a trăsăturii sau fenomenului studiat sau eterogenitatea grupului de studiu. Cu toate acestea, compararea valorii abaterii standard este posibilă numai pentru semne de aceeași dimensiune. Într-adevăr, dacă comparăm diversitatea de greutate a nou-născuților și a adulților, vom obține întotdeauna valori sigma mai mari la adulți.

Compararea variabilității caracteristicilor de diferite dimensiuni poate fi efectuată folosind coeficient de variație. Exprimă diversitatea ca procent din medie, ceea ce permite compararea diferitelor trăsături. Coeficientul de variație în literatura medicală este indicat de semnul " Cu ", iar în matematică" v» și calculat prin formula:

.

Valorile coeficientului de variație mai mici de 10% indică o împrăștiere mică, de la 10 la 20% - aproximativ în medie, mai mult de 20% - aproximativ o împrăștiere puternică în jurul mediei aritmetice.

Media aritmetică este de obicei calculată pe baza datelor eșantionului. Cu studii repetate sub influența unor fenomene aleatorii, media aritmetică se poate modifica. Acest lucru se datorează faptului că, de regulă, doar o parte din posibilele unități de observație, adică o populație eșantion, este investigată. Informații despre toate unitățile posibile reprezentând fenomenul studiat pot fi obținute prin studierea întregii populații generale, ceea ce nu este întotdeauna posibil. Totodată, pentru generalizarea datelor experimentale prezintă interes valoarea mediei în populaţia generală. Așadar, pentru a formula o concluzie generală despre fenomenul studiat, rezultatele obținute pe baza unui eșantion de populație trebuie transferate populației generale prin metode statistice.

Pentru a determina gradul de coincidență dintre studiul eșantionului și populația generală, este necesar să se estimeze cantitatea de eroare care apare inevitabil în timpul observării eșantionului. O astfel de eroare se numește eroare de reprezentativitate” sau „Eroarea medie a mediei aritmetice”. Este, de fapt, diferența dintre mediile obținute din observarea statistică selectivă și valori similare care s-ar obține dintr-un studiu continuu al aceluiași obiect, adică. la studierea populaţiei generale. Deoarece media eșantionului este o variabilă aleatorie, o astfel de prognoză se face cu un nivel acceptabil de probabilitate pentru cercetător. În cercetarea medicală, este de cel puțin 95%.

Eroarea de reprezentativitate nu trebuie confundată cu erorile de înregistrare sau erorile de atenție (greșeli de tipărire, calcule greșite, greșeli de tipărire etc.), care ar trebui reduse la minimum printr-o metodologie și instrumente adecvate utilizate în experiment.

Mărimea erorii de reprezentativitate depinde atât de mărimea eșantionului, cât și de variabilitatea trăsăturii. Cu cât numărul de observații este mai mare, cu atât eșantionul este mai aproape de populația generală și cu atât eroarea este mai mică. Cu cât caracteristica este mai variabilă, cu atât eroarea statistică este mai mare.

În practică, următoarea formulă este utilizată pentru a determina eroarea de reprezentativitate în seriile variaționale:

,

Unde: m – eroare de reprezentativitate;

σ - deviație standard;

n este numărul de observații din eșantion.

Din formula se poate observa că mărimea erorii medii este direct proporțională cu abaterea standard, adică variabilitatea trăsăturii studiate, și invers proporțională cu rădăcina pătrată a numărului de observații.

La efectuarea analizei statistice pe baza calculului valorilor relative nu este obligatorie construirea unei serii de variatii. În acest caz, determinarea erorii medii pentru indicatorii relativi poate fi efectuată folosind o formulă simplificată:

,

Unde: R- valoarea indicatorului relativ, exprimată în procente, ppm etc.;

q- reciproca lui P și exprimată ca (1-P), (100-P), (1000-P), etc., în funcție de baza pentru care se calculează indicatorul;

n este numărul de observații din eșantion.

Cu toate acestea, formula indicată pentru calcularea erorii de reprezentativitate pentru valori relative poate fi aplicată numai atunci când valoarea indicatorului este mai mică decât baza acestuia. Într-un număr de cazuri de calculare a indicatorilor intensivi, această condiție nu este îndeplinită, iar indicatorul poate fi exprimat ca un număr mai mare de 100% sau 1000%o. Într-o astfel de situație, se construiește o serie de variații și se calculează eroarea de reprezentativitate folosind formula valorilor medii bazată pe abaterea standard.

Prognoza valorii mediei aritmetice în populația generală se realizează cu indicarea a două valori - minim și maxim. Aceste valori extreme ale posibilelor abateri, în cadrul cărora poate fluctua valoarea medie dorită a populației generale, se numesc „ Granițele de încredere».

Postulatele teoriei probabilităților au demonstrat că, cu o distribuție normală a unei trăsături cu o probabilitate de 99,7%, valorile extreme ale abaterilor mediei nu vor depăși valoarea erorii triple de reprezentativitate ( M ± 3 m ); în 95,5% - nu mai mult decât valoarea erorii medii dublate a valorii medii ( M ±2 m ); în 68,3% - nu mai mult decât valoarea unei erori medii ( M ± 1 m ) (Fig. 9).

P%

Orez. 9. Densitatea de probabilitate a distribuției normale.

Rețineți că afirmația de mai sus este adevărată numai pentru o caracteristică care respectă legea distribuției gaussiene normale.

Majoritatea studiilor experimentale, inclusiv cele din domeniul medicinei, sunt asociate cu măsurători, ale căror rezultate pot lua aproape orice valoare într-un interval dat, prin urmare, de regulă, sunt descrise printr-un model de variabile aleatoare continue. În acest sens, majoritatea metodelor statistice iau în considerare distribuțiile continue. Una dintre aceste distribuții, care joacă un rol fundamental în statistica matematică, este distribuție normală sau gaussiană.

Acest lucru se datorează mai multor motive.

1. În primul rând, multe observații experimentale pot fi descrise cu succes folosind o distribuție normală. Trebuie remarcat imediat că nu există distribuții de date empirice care ar fi exact normale, deoarece o variabilă aleatoare distribuită normal este în intervalul de la până la , ceea ce nu apare niciodată în practică. Cu toate acestea, distribuția normală este foarte adesea o bună aproximare.

Indiferent dacă se efectuează măsurători ale greutății, înălțimii și alți parametri fiziologici ai corpului uman - peste tot un număr foarte mare de factori aleatori (cauze naturale și erori de măsurare) influențează rezultatele. Și, de regulă, efectul fiecăruia dintre acești factori este nesemnificativ. Experiența arată că rezultatele în astfel de cazuri vor fi distribuite aproximativ normal.

2. Multe distribuții asociate unui eșantion aleatoriu, cu o creștere a volumului acestuia din urmă, devin normale.

3. Distribuția normală este potrivită ca descriere aproximativă a altor distribuții continue (de exemplu, cele asimetrice).

4. Distribuția normală are o serie de proprietăți matematice favorabile, care au asigurat în mare măsură utilizarea sa pe scară largă în statistică.

În același timp, trebuie menționat că în datele medicale există multe distribuții experimentale care nu pot fi descrise de modelul de distribuție normală. Pentru a face acest lucru, statisticile au dezvoltat metode care sunt denumite în mod obișnuit „Nonparametric”.

Alegerea unei metode statistice care este potrivită pentru prelucrarea datelor unui anumit experiment ar trebui făcută în funcție de faptul dacă datele obținute aparțin legii distribuției normale. Testarea ipotezelor pentru subordonarea unui semn la legea distribuției normale se realizează folosind o histogramă a distribuției de frecvență (grafic), precum și o serie de criterii statistice. Printre ei:

Criteriul de asimetrie ( b );

Criterii de verificare a curtozei ( g );

criteriul Shapiro–Wilks ( W ) .

Pentru fiecare parametru se efectuează o analiză a naturii distribuției datelor (se mai numește și test pentru normalitatea distribuției). Pentru a aprecia cu încredere corespondența distribuției parametrilor cu legea normală, este necesar un număr suficient de mare de unități de observație (cel puțin 30 de valori).

Pentru o distribuție normală, criteriile de asimetrie și curtoză iau valoarea 0. Dacă distribuția este deplasată la dreapta b > 0 (asimetrie pozitivă), cu b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. La g > 0 curba de distribuţie este mai clară dacă g < 0 пик более сглаженный, чем функция нормального распределения.

Pentru a testa normalitatea folosind testul Shapiro-Wilks, este necesar să se găsească valoarea acestui criteriu folosind tabele statistice la nivelul de semnificație cerut și în funcție de numărul de unități de observație (grade de libertate). Anexa 1. Ipoteza normalității este respinsă pentru valori mici ale acestui criteriu, de regulă, pentru w <0,8.

(definiția unei serii variaționale; componentele unei serii variaționale; trei forme ale unei serii variaționale; oportunitatea construirii unei serii de intervale; concluzii care pot fi trase din seria construită)

O serie variațională este o succesiune a tuturor elementelor unei probe aranjate în ordine nedescrescătoare. Se repetă aceleași elemente

Variaționale - acestea sunt serii construite pe o bază cantitativă.

Seriile de distribuție variațională constau din două elemente: variante și frecvențe:

Variantele sunt valorile numerice ale unei trăsături cantitative din seria de variații a distribuției. Ele pot fi pozitive sau negative, absolute sau relative. Deci, atunci când se grupează întreprinderile în funcție de rezultatele activității economice, opțiunile sunt pozitive - acesta este profit și numere negative - aceasta este o pierdere.

Frecvențele sunt numerele de variante individuale sau fiecare grup al seriei de variații, adică. acestea sunt numere care arată cât de des apar anumite opțiuni într-o serie de distribuție. Suma tuturor frecvențelor se numește volumul populației și este determinată de numărul de elemente ale întregii populații.

Frecvențele sunt frecvențe exprimate ca valori relative (fracții de unități sau procente). Suma frecvențelor este egală cu unu sau 100%. Înlocuirea frecvențelor cu frecvențe face posibilă compararea seriilor variaționale cu numere diferite de observații.

Există trei forme de serie de variații: serii clasificate, serii discrete și serii cu intervale.

O serie clasificată este distribuția unităților individuale ale populației în ordine crescătoare sau descrescătoare a trăsăturii studiate. Clasificarea facilitează împărțirea datelor cantitative în grupuri, detectarea imediată a celor mai mici și mai mari valori ale unei caracteristici și evidențierea valorilor care se repetă cel mai des.

Alte forme ale seriei de variații sunt tabele de grup întocmite în funcție de natura variației valorilor trăsăturii studiate. Prin natura variației, se disting semne discrete (discontinue) și continue.

O serie discretă este o astfel de serie variațională, a cărei construcție se bazează pe semne cu schimbare discontinuă (semne discrete). Acestea din urmă includ categoria tarifară, numărul de copii din familie, numărul de angajați din întreprindere etc. Aceste semne pot lua doar un număr finit de anumite valori.

O serie variațională discretă este un tabel care constă din două coloane. Prima coloană indică valoarea specifică a atributului, iar a doua - numărul de unități de populație cu o anumită valoare a atributului.

Dacă un semn are o schimbare continuă (valoarea venitului, experiența de muncă, costul mijloacelor fixe ale unei întreprinderi etc., care poate lua orice valoare în anumite limite), atunci trebuie construită o serie de variații de interval pentru acest semn.



Tabelul de grup de aici are și două coloane. Primul indică valoarea caracteristicii în intervalul „de la - la” (opțiuni), al doilea - numărul de unități incluse în interval (frecvență).

Frecvența (frecvența de repetare) - numărul de repetări ale unei anumite variante a valorilor atributului, notat fi, și suma frecvențelor egală cu volumul populației studiate, notat

Unde k este numărul de opțiuni de valoare de atribut

Foarte des, tabelul este completat cu o coloană în care se calculează frecvențele acumulate S, care arată câte unități ale populației au o valoare caracteristică nu mai mare decât această valoare.

O serie de distribuție variațională discretă este o serie în care grupurile sunt compuse în funcție de o trăsătură care variază discret și ia doar valori întregi.

Seria de variație a intervalului de distribuție este o serie în care atributul de grupare, care formează baza grupării, poate lua orice valori într-un anumit interval, inclusiv cele fracționale.

O serie variațională de interval este un set ordonat de intervale de variație a valorilor unei variabile aleatoare cu frecvențele corespunzătoare sau frecvențele valorilor cantității care se încadrează în fiecare dintre ele.

Este oportun să se construiască o serie de distribuție pe intervale, în primul rând, cu o variație continuă a unei trăsături și, de asemenea, dacă o variație discretă se manifestă pe o gamă largă, i.e. numărul de opțiuni pentru o caracteristică discretă este destul de mare.

Din această serie se pot trage deja câteva concluzii. De exemplu, elementul mediu al unei serii variaționale (mediana) poate fi o estimare a rezultatului cel mai probabil al unei măsurători. Primul și ultimul element al seriei de variații (adică elementul minim și maxim al eșantionului) arată răspândirea elementelor eșantionului. Uneori, dacă primul sau ultimul element este foarte diferit de restul eșantionului, atunci ele sunt excluse din rezultatele măsurătorilor, având în vedere că aceste valori au fost obținute ca urmare a unui fel de defecțiune gravă, de exemplu, tehnologie.