Estimarea semnificației coeficienților și ecuațiilor. Estimarea semnificației parametrilor ecuației de regresie liniară pereche

Analiza regresiei este o metodă de cercetare statistică care vă permite să arătați dependența unui parametru de una sau mai multe variabile independente. În era pre-computer, utilizarea sa era destul de dificilă, mai ales când era vorba de cantități mari de date. Astăzi, după ce ați învățat cum să construiți o regresie în Excel, puteți rezolva probleme statistice complexe în doar câteva minute. Mai jos sunt exemple specifice din domeniul economiei.

Tipuri de regresie

Conceptul în sine a fost introdus în matematică în 1886. Are loc regresia:

  • liniar;
  • parabolic;
  • putere;
  • exponențial;
  • hiperbolic;
  • demonstrativ;
  • logaritmică.

Exemplul 1

Luați în considerare problema determinării dependenței numărului de membri ai echipei pensionați de salariul mediu la 6 întreprinderi industriale.

O sarcină. La șase întreprinderi am analizat salariul mediu lunar și numărul de angajați plecați de la sine. În formă tabelară avem:

Numărul de persoane care au plecat

Salariu

30000 de ruble

35000 de ruble

40000 de ruble

45000 de ruble

50000 de ruble

55000 de ruble

60000 de ruble

Pentru problema determinării dependenței numărului de pensionari de salariul mediu la 6 întreprinderi, modelul de regresie are forma ecuației Y = a 0 + a 1 x 1 +…+a k x k , unde x i sunt variabilele de influență. , a i sunt coeficienții de regresie, a k este numărul de factori.

Pentru această sarcină, Y este indicatorul angajaților plecați, iar factorul de influență este salariul, pe care îl notăm cu X.

Utilizarea capabilităților foii de calcul „Excel”

Analiza de regresie în Excel trebuie să fie precedată de aplicarea funcțiilor încorporate la datele tabelare disponibile. Cu toate acestea, în aceste scopuri, este mai bine să utilizați programul de completare foarte util „Setul de instrumente de analiză”. Pentru a-l activa aveți nevoie de:

  • din fila „Fișier”, accesați secțiunea „Opțiuni”;
  • în fereastra care se deschide, selectați linia „Suplimente”;
  • faceți clic pe butonul „Go” situat în jos, în dreapta liniei „Management”;
  • bifați caseta de lângă numele „Pachet de analiză” și confirmați acțiunile făcând clic pe „OK”.

Dacă totul este făcut corect, butonul dorit va apărea în partea dreaptă a filei Date, situată deasupra foii de lucru Excel.

în Excel

Acum că avem la îndemână toate instrumentele virtuale necesare pentru efectuarea calculelor econometrice, putem începe să ne rezolvăm problema. Pentru asta:

  • faceți clic pe butonul „Analiza datelor”;
  • în fereastra care se deschide, faceți clic pe butonul „Regresie”;
  • în fila care apare, introduceți intervalul de valori pentru Y (numărul de angajați care au demisionat) și pentru X (salariile lor);
  • Confirmăm acțiunile noastre apăsând butonul „Ok”.

Ca rezultat, programul va completa automat o nouă foaie a foii de calcul cu date de analiză de regresie. Notă! Excel are capacitatea de a seta manual locația pe care o preferați în acest scop. De exemplu, ar putea fi aceeași foaie în care sunt valorile Y și X sau chiar un nou registru de lucru special conceput pentru a stoca astfel de date.

Analiza rezultatelor regresiei pentru R-pătrat

În Excel, datele obținute în timpul procesării datelor din exemplul considerat arată astfel:

În primul rând, ar trebui să acordați atenție valorii pătratului R. Este coeficientul de determinare. În acest exemplu, R-pătrat = 0,755 (75,5%), adică parametrii calculați ai modelului explică relația dintre parametrii considerați cu 75,5%. Cu cât valoarea coeficientului de determinare este mai mare, cu atât modelul ales este mai aplicabil pentru o anumită sarcină. Se crede că descrie corect situația reală cu o valoare R pătrat peste 0,8. Dacă R-pătrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza raportului

Numărul 64,1428 arată care va fi valoarea lui Y dacă toate variabilele xi din modelul pe care îl luăm în considerare sunt setate la zero. Cu alte cuvinte, se poate susține că valoarea parametrului analizat este influențată și de alți factori care nu sunt descriși într-un anumit model.

Următorul coeficient -0,16285, situat în celula B18, arată ponderea influenței variabilei X asupra Y. Aceasta înseamnă că salariul mediu lunar al angajaților din cadrul modelului luat în considerare afectează numărul de renunțați cu o pondere de -0,16285, adică. gradul influenței sale deloc mic. Semnul „-” indică faptul că coeficientul are o valoare negativă. Acest lucru este evident, deoarece toată lumea știe că, cu cât salariul la întreprindere este mai mare, cu atât mai puține persoane își exprimă dorința de a rezilia contractul de muncă sau de a renunța.

Regresie multiplă

Acest termen se referă la o ecuație de conexiune cu mai multe variabile independente de forma:

y \u003d f (x 1 + x 2 + ... x m) + ε, unde y este caracteristica efectivă (variabilă dependentă) și x 1 , x 2 , ... x m sunt factorii factori (variabile independente).

Estimarea parametrilor

Pentru regresia multiplă (MR) se efectuează folosind metoda celor mai mici pătrate (OLS). Pentru ecuații liniare de forma Y = a + b 1 x 1 +…+b m x m + ε, construim un sistem de ecuații normale (vezi mai jos)

Pentru a înțelege principiul metodei, luați în considerare cazul cu doi factori. Atunci avem o situație descrisă de formula

De aici obținem:

unde σ este varianța caracteristicii corespunzătoare reflectate în indice.

LSM este aplicabil ecuației MP pe o scară standardizată. În acest caz, obținem ecuația:

unde t y , t x 1, … t xm sunt variabile standardizate pentru care valorile medii sunt 0; β i sunt coeficienții de regresie standardizați, iar abaterea standard este 1.

Vă rugăm să rețineți că toate β i în acest caz sunt setate ca normalizate și centralizate, astfel încât compararea lor între ele este considerată corectă și admisibilă. În plus, se obișnuiește să se filtreze factorii, eliminând cei cu cele mai mici valori ale βi.

Problemă folosind ecuația de regresie liniară

Să presupunem că există un tabel cu dinamica prețurilor unui anumit produs N în ultimele 8 luni. Este necesar să luați o decizie cu privire la oportunitatea de a cumpăra lotul său la un preț de 1850 de ruble/t.

numărul lunii

numele lunii

pretul articolului N

1750 de ruble pe tonă

1755 de ruble pe tonă

1767 ruble pe tonă

1760 de ruble pe tonă

1770 de ruble pe tonă

1790 de ruble pe tonă

1810 ruble pe tonă

1840 de ruble pe tonă

Pentru a rezolva această problemă în foaia de calcul Excel, trebuie să utilizați instrumentul de analiză a datelor deja cunoscut din exemplul de mai sus. Apoi, selectați secțiunea „Regresie” și setați parametrii. Trebuie reținut că în câmpul „Interval de intrare Y”, trebuie introdus un interval de valori pentru variabila dependentă (în acest caz, prețul unui produs în anumite luni ale anului), iar în „Intrare” intervalul X" - pentru variabila independentă (numărul lunii). Confirmați acțiunea făcând clic pe „Ok”. Pe o foaie nouă (dacă a fost indicat așa), obținem date pentru regresie.

Pe baza acestora, construim o ecuație liniară de forma y=ax+b, unde parametrii a și b sunt coeficienții rândului cu numele numărului lunii și coeficienții și rândul „Y-intersection” din fișă cu rezultatele analizei de regresie. Astfel, ecuația de regresie liniară (LE) pentru problema 3 se scrie astfel:

Prețul produsului N = 11,714* număr lunar + 1727,54.

sau în notaţie algebrică

y = 11,714 x + 1727,54

Analiza rezultatelor

Pentru a decide dacă ecuația de regresie liniară rezultată este adecvată, se folosesc coeficienți de corelație multipli (MCC) și coeficienți de determinare, precum și testul Fisher și testul Student. În tabelul Excel cu rezultatele de regresie, acestea apar sub numele de mai multe R, R-pătrat, F-statistic și, respectiv, t-statistic.

KMC R face posibilă evaluarea strânsei relației probabilistice dintre variabilele independente și dependente. Valoarea sa ridicată indică o relație destul de puternică între variabilele „Numărul lunii” și „Prețul mărfurilor N în ruble pe 1 tonă”. Cu toate acestea, natura acestei relații rămâne necunoscută.

Pătratul coeficientului de determinare R 2 (RI) este o caracteristică numerică a ponderii împrăștierii totale și arată împrăștierea a cărei parte a datelor experimentale, i.e. valorile variabilei dependente corespund ecuației de regresie liniară. În problema luată în considerare, această valoare este egală cu 84,8%, adică datele statistice sunt descrise cu un grad ridicat de acuratețe de către SD-ul obținut.

F-statistica, numită și testul lui Fisher, este folosită pentru a evalua semnificația unei relații liniare, infirmând sau confirmând ipoteza existenței acesteia.

(Criteriul studentului) ajută la evaluarea semnificației coeficientului cu termen necunoscut sau liber al unei relații liniare. Dacă valoarea criteriului t > t cr, atunci se respinge ipoteza nesemnificației termenului liber al ecuației liniare.

În problema luată în considerare pentru membrul liber, folosind instrumentele Excel, s-a obținut că t = 169,20903 și p = 2,89E-12, adică avem o probabilitate zero ca ipoteza corectă despre nesemnificația membrului liber să fie fi respins. Pentru coeficientul la necunoscut t=5,79405 și p=0,001158. Cu alte cuvinte, probabilitatea ca ipoteza corectă despre nesemnificația coeficientului pentru necunoscut să fie respinsă este de 0,12%.

Astfel, se poate susține că ecuația de regresie liniară rezultată este adecvată.

Problema oportunității cumpărării unui bloc de acțiuni

Regresia multiplă în Excel este efectuată folosind același instrument de analiză a datelor. Luați în considerare o problemă aplicată specifică.

Conducerea NNN trebuie să ia o decizie cu privire la oportunitatea achiziționării unui pachet de 20% din MMM SA. Costul pachetului (JV) este de 70 de milioane de dolari SUA. Specialiștii NNN au colectat date despre tranzacții similare. S-a decis evaluarea valorii blocului de acțiuni în funcție de astfel de parametri, exprimați în milioane de dolari SUA, astfel:

  • conturi de plătit (VK);
  • cifra de afaceri anuala (VO);
  • conturi de încasat (VD);
  • costul mijloacelor fixe (SOF).

În plus, se utilizează parametrul restanțe de salarii ale întreprinderii (V3 P) în mii de dolari SUA.

Soluție folosind foaia de calcul Excel

În primul rând, trebuie să creați un tabel de date inițiale. Arata cam asa:

  • apelați fereastra „Analiza datelor”;
  • selectați secțiunea „Regresie”;
  • în caseta „Interval de intrare Y” introduceți intervalul de valori ale variabilelor dependente din coloana G;
  • faceți clic pe pictograma cu o săgeată roșie din dreapta ferestrei „Interval de intrare X” și selectați intervalul tuturor valorilor din coloanele B, C, D, F de pe foaie.

Selectați „Foaie de lucru nouă” și faceți clic pe „Ok”.

Obțineți analiza de regresie pentru problema dată.

Examinarea rezultatelor și concluziilor

„Colectăm” din datele rotunjite prezentate mai sus pe foaia de calcul Excel, ecuația de regresie:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Într-o formă matematică mai familiară, poate fi scrisă ca:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Datele pentru JSC „MMM” sunt prezentate în tabel:

Înlocuindu-le în ecuația de regresie, ei obțin o cifră de 64,72 milioane de dolari SUA. Aceasta înseamnă că acțiunile JSC MMM nu ar trebui cumpărate, deoarece valoarea lor de 70 de milioane de dolari SUA este mai degrabă supraevaluată.

După cum puteți vedea, utilizarea foii de calcul Excel și a ecuației de regresie au făcut posibilă luarea unei decizii informate cu privire la fezabilitatea unei tranzacții foarte specifice.

Acum știi ce este regresia. Exemplele în Excel discutate mai sus vă vor ajuta să rezolvați probleme practice din domeniul econometriei.

După ce se găsește ecuația de regresie liniară, se evaluează semnificația atât a ecuației în ansamblu, cât și a parametrilor ei individuali.

Verificați semnificația ecuației de regresie - înseamnă a stabili dacă modelul matematic care exprimă relația dintre variabile corespunde datelor experimentale și dacă există suficiente variabile explicative incluse în ecuație (una sau mai multe) pentru a descrie variabila dependentă.

Testarea semnificației se bazează pe analiza varianței.

Conform ideii de analiză a varianței, suma totală a abaterilor pătrate (RMS) ale lui y de la valoarea medie este descompusă în două părți - explicate și neexplicate:

sau, respectiv:

Există două cazuri extreme aici: când abaterea standard totală este exact egală cu reziduul și când abaterea standard totală este egală cu factorial.

În primul caz, factorul x nu afectează rezultatul, întreaga varianță a lui y se datorează influenței altor factori, linia de regresie este paralelă cu axa Ox, iar ecuația ar trebui să arate ca.

În al doilea caz, alți factori nu afectează rezultatul, y este legat de x din punct de vedere funcțional, iar abaterea standard reziduală este zero.

Cu toate acestea, în practică, ambii termeni sunt prezenți în partea dreaptă. Adecvarea liniei de regresie pentru predicție depinde de cât de mult din variația totală în y este explicată de varianța explicată. Dacă RMSD explicat este mai mare decât RMSD rezidual, atunci ecuația de regresie este semnificativă statistic și factorul x are un efect semnificativ asupra rezultatului y. Acest lucru este echivalent cu faptul că coeficientul de determinare se va apropia de unitate.

Numărul de grade de libertate (df-grade de libertate) este numărul de valori ale caracteristicilor variabile independent.

Abaterea standard generală necesită (n-1) abateri independente,

Deviația standard factorială are un grad de libertate și

Astfel, putem scrie:

Din acest echilibru, determinăm că = n-2.

Împărțind fiecare abatere standard la numărul ei de grade de libertate, obținem pătratul mediu al abaterilor, sau varianța pe un grad de libertate: - varianță totală, - factorială, - reziduală.

Analiza semnificației statistice a coeficienților de regresie liniară

Deși se presupune că valorile teoretice ale coeficienților ecuației de dependență liniară sunt constante, estimările lui a și b ale acestor coeficienți obținute în cursul construirii ecuației din date de eșantionare aleatorie sunt variabile aleatoare. Dacă erorile de regresie sunt distribuite în mod normal, atunci estimările coeficienților sunt, de asemenea, distribuite normal și pot fi caracterizate prin mediile și varianța lor. Prin urmare, analiza coeficienților începe cu calcularea acestor caracteristici.

Variațiile coeficienților sunt calculate prin formulele:

Varianta coeficientului de regresie:

unde este dispersia reziduală pe un grad de libertate.

Dispersia parametrilor:

Prin urmare, eroarea standard a coeficientului de regresie este determinată de formula:

Eroarea standard a parametrului este determinată de formula:

Acestea servesc la testarea ipotezelor nule conform cărora adevărata valoare a coeficientului de regresie b sau a intersecției a este zero: .

Ipoteza alternativă are forma: .

statisticile t au distribuție t-student cu grade de libertate. Conform tabelelor de distribuție ale lui Student, la un anumit nivel de semnificație b și grade de libertate, se găsește o valoare critică.

Dacă, deci, ipoteza nulă trebuie respinsă, coeficienții sunt considerați semnificativi statistic.

Dacă, atunci ipoteza nulă nu poate fi respinsă. (Dacă coeficientul b este nesemnificativ statistic, ecuația ar trebui să arate așa, iar asta înseamnă că nu există nicio relație între caracteristici. Dacă coeficientul a este nesemnificativ statistic, se recomandă evaluarea noii ecuații în formă).

Estimări de intervale ale coeficienților ecuației de regresie liniară:

Interval de încredere pentru A: .

Interval de încredere pentru b:

Aceasta înseamnă că, cu o anumită fiabilitate (unde este nivelul de semnificație), adevăratele valori ale lui a, b sunt în intervalele indicate.

Coeficientul de regresie are o interpretare economică clară, astfel încât limitele de încredere ale intervalului nu trebuie să conțină rezultate inconsistente, de exemplu, Nu trebuie să includă zero.

Analiza semnificației statistice a ecuației în ansamblu.

Distribuția Fisher în analiza de regresie

Evaluarea semnificației ecuației de regresie în ansamblu este dată folosind testul F Fisher. În acest caz, se propune ipoteza nulă că toți coeficienții de regresie, cu excepția termenului liber a, sunt egali cu zero și, prin urmare, factorul x nu afectează rezultatul y (sau).

Valoarea lui F - criteriu este asociată cu coeficientul de determinare. Când regresie multiplă:

unde m este numărul de variabile independente.

Când regresie pe perechi formula F - statistica ia forma:

La găsirea valorii tabelare a criteriului F se stabilește un nivel de semnificație (de obicei 0,05 sau 0,01) și două grade de libertate: - în cazul regresiei multiple, - pentru regresia pereche.

Dacă, atunci este respinsă și se face o concluzie despre semnificația relației statistice dintre y și x.

Dacă, atunci probabilitatea ecuației de regresie considerată nesemnificativă statistic nu este respinsă.

Cometariu. În regresie liniară perechi. De asemenea, prin urmare. Astfel, testarea ipotezelor despre semnificația coeficienților de regresie și corelație este echivalentă cu testarea ipotezei despre semnificația ecuației de regresie liniară.

Distribuția Fisher poate fi folosită nu numai pentru a testa ipoteza că toți coeficienții de regresie liniară sunt egali simultan cu zero, ci și ipoteza că unii dintre acești coeficienți sunt egali cu zero. Acest lucru este important în dezvoltarea unui model de regresie liniară, deoarece permite evaluarea validității excluderii variabilelor individuale sau a grupurilor acestora din numărul de variabile explicative sau, dimpotrivă, includerea lor în acest număr.

Să fie, de exemplu, regresia liniară multiplă a fost estimată mai întâi pentru n observații cu m variabile explicative, iar coeficientul de determinare este egal, apoi ultimele k variabile sunt excluse din lista de variabile explicative și ecuația pentru care coeficientul de determinarea este (, deoarece (fiecare variabilă suplimentară explică o parte, oricât de mică, a variației variabilei dependente).

Pentru a testa ipoteza despre egalitatea simultană la zero a tuturor coeficienților cu variabilele excluse, se calculează valoarea

care are o distribuţie Fisher cu grade de libertate.

Conform tabelelor de distribuție ale lui Fisher, la un anumit nivel de semnificație, ei găsesc. Și dacă, atunci ipoteza nulă este respinsă. În acest caz, este incorect să excludem toate k variabilele din ecuație.

Raționament similar poate fi efectuat cu privire la validitatea includerii uneia sau mai multor k variabile explicative noi în ecuația de regresie.

În acest caz, se calculează F - statistică

având o distribuţie. Și dacă depășește un nivel critic, atunci includerea de noi variabile explică o parte semnificativă a varianței neexplicate anterior a variabilei dependente (adică includerea de noi variabile explicative este justificată).

Observatii. 1. Este recomandabil să includeți variabile noi pe rând.

2. Pentru a calcula F - statistici, atunci când se ia în considerare includerea variabilelor explicative în ecuație, este de dorit să se ia în considerare coeficientul de determinare ajustat pentru numărul de grade de libertate.

F - Statistica Fisher este, de asemenea, folosită pentru a testa ipoteza despre coincidența ecuațiilor de regresie pentru grupuri individuale de observații.

Să fie 2 eșantioane care conțin, respectiv, observații. Pentru fiecare dintre aceste probe, a fost evaluată ecuația de regresie a speciilor. Fie abaterea standard de la dreapta de regresie (adică) să fie egală pentru ei, respectiv, .

Se testează ipoteza nulă: că toți coeficienții corespunzători acestor ecuații sunt egali între ei, i.e. ecuația de regresie pentru aceste eșantioane este aceeași.

Să fie estimată ecuația de regresie de același tip pentru toate observațiile simultan și RMS.

Apoi se calculează F - statistică după formula:

Are o distribuție Fisher cu grade de libertate. F - statisticile vor fi aproape de zero dacă ecuația pentru ambele eșantioane este aceeași, deoarece în acest caz. Acestea. dacă, atunci ipoteza nulă este acceptată.

Dacă, atunci ipoteza nulă este respinsă și nu se poate construi o singură ecuație de regresie.

După evaluarea parametrilor Ași b, am obținut o ecuație de regresie prin care putem estima valorile y prin valori stabilite X. Este firesc să presupunem că valorile calculate ale variabilei dependente nu vor coincide cu valorile reale, deoarece linia de regresie descrie relația doar în medie, în general. În jurul ei sunt împrăștiate semnificații separate. Astfel, fiabilitatea valorilor calculate obținute din ecuația de regresie este determinată în mare măsură de dispersia valorilor observate în jurul liniei de regresie. În practică, de regulă, varianța erorii este necunoscută și este estimată din observații simultan cu parametrii de regresie. Ași b. Este destul de logic să presupunem că estimarea este legată de suma pătratelor reziduurilor de regresie. Mărimea este un eșantion de estimare a varianței perturbațiilor conținute în modelul teoretic . Se poate demonstra că pentru un model de regresie pereche

unde este abaterea valorii reale a variabilei dependente de la valoarea ei calculată.

În cazul în care un , atunci pentru toate observațiile valorile reale ale variabilei dependente coincid cu valorile calculate (teoretice) . Grafic, aceasta înseamnă că linia de regresie teoretică (linia construită din funcția ) trece prin toate punctele câmpului de corelare, ceea ce este posibil doar cu o conexiune strict funcțională. Prin urmare, semnul efectiv laîn totalitate datorită influenţei factorului X.

De obicei, în practică, există o oarecare dispersie a punctelor câmpului de corelație în raport cu linia de regresie teoretică, adică abateri ale datelor empirice de la cele teoretice. Această împrăștiere se datorează atât influenței factorului X, adică regresie y pe X, (o astfel de varianță se numește explicată, deoarece este explicată prin ecuația de regresie) și acțiunea altor cauze (variație inexplicabilă, aleatorie). Mărimea acestor abateri stă la baza calculului indicatorilor de calitate ai ecuației.

Conform principiului de bază al analizei varianței, suma totală a abaterilor pătrate ale variabilei dependente y din valoarea medie poate fi descompusă în două componente: explicată prin ecuația de regresie și neexplicată:

,

unde - valori y, calculat prin ecuația .

Să găsim raportul dintre suma abaterilor pătrate, explicată prin ecuația de regresie, și suma totală a pătratelor:

, Unde

. (7.6)

Raportul dintre partea de varianță explicată de ecuația de regresie și varianța totală a caracteristicii rezultate se numește coeficient de determinare. Valoarea nu poate depăși unu și această valoare maximă va fi atinsă doar la , adică. când fiecare abatere este zero și, prin urmare, toate punctele diagramei de dispersie se află exact pe o linie dreaptă.

Coeficientul de determinare caracterizează ponderea varianței explicată prin regresie în valoarea totală a varianței variabilei dependente . În consecință, valoarea caracterizează proporția de variație (dispersie) y, neexplicat de ecuația de regresie și, prin urmare, cauzat de influența altor factori neluați în considerare în model. Cu cât este mai aproape de unul, cu atât calitatea modelului este mai mare.



La regresia liniară pereche, coeficientul de determinare este egal cu pătratul coeficientului de corelație liniară pereche: .

Rădăcina acestui coeficient de determinare este coeficientul (indicele) de corelație multiplă sau raportul de corelație teoretic.

Pentru a afla dacă valoarea coeficientului de determinare obţinut în timpul evaluării regresiei reflectă într-adevăr relaţia reală dintre yși X verificați semnificația ecuației construite ca întreg și a parametrilor individuali. Testarea de semnificație a ecuației de regresie vă permite să aflați dacă ecuația de regresie este potrivită pentru utilizare practică, de exemplu, pentru prognoză sau nu.

În același timp, se emite ipoteza principală despre nesemnificația ecuației în ansamblu, care se reduce formal la ipoteza că parametrii de regresie sunt egali cu zero, sau, ceea ce este același, că coeficientul de determinare este egal. la zero: . O ipoteză alternativă despre semnificația ecuației este ipoteza că parametrii de regresie nu sunt egali cu zero sau că coeficientul de determinare nu este egal cu zero: .

Pentru a testa semnificația modelului de regresie, utilizați F- Criteriul lui Fisher, calculat ca raportul dintre suma pătratelor (pe o variabilă independentă) și suma reziduală a pătratelor (pe un grad de libertate):

, (7.7)

Unde k este numărul de variabile independente.

După împărțirea numărătorului și numitorului relației (7.7) la suma totală a abaterilor pătrate ale variabilei dependente, F- Criteriul poate fi exprimat în mod echivalent în termeni de coeficient:

.

Dacă ipoteza nulă este adevărată, atunci varianța explicată de ecuația de regresie și varianța neexplicată (reziduală) nu diferă una de cealaltă.

Valoarea estimată F- criteriul este comparat cu o valoare critică care depinde de numărul de variabile independente k, și asupra numărului de grade de libertate (n-k-1). Valoarea tabelului (critică). F- criteriu - aceasta este valoarea maximă a raportului de varianțe, care poate apărea dacă acestea diverge aleatoriu pentru un anumit nivel de probabilitate a prezenței unei ipoteze nule. Dacă valoarea calculată F- criteriul este mai mare decât cel tabular la un nivel de semnificație dat, atunci se respinge ipoteza nulă despre absența unei legături și se face o concluzie despre semnificația acestei conexiuni, adică. modelul este considerat semnificativ.

Pentru un model de regresie pereche

.

În regresia liniară, semnificația nu numai a ecuației în ansamblu, ci și a coeficienților ei individuali este de obicei estimată. Pentru a face acest lucru, se determină eroarea standard a fiecăruia dintre parametri. Erorile standard ale coeficienților de regresie ai parametrilor sunt determinate de formulele:

, (7.8)

(7.9)

Erorile standard ale coeficienților de regresie sau abaterile standard calculate prin formulele (7.8,7.9), de regulă, sunt date în rezultatele calculării modelului de regresie în pachete statistice.

Pe baza erorilor standard ale coeficienților de regresie, se verifică semnificația acestor coeficienți folosind schema uzuală de testare a ipotezelor statistice.

Ca ipoteză principală, se propune o ipoteză despre o diferență nesemnificativă față de zero a coeficientului de regresie „adevărat”. O ipoteză alternativă în acest caz este ipoteza inversă, adică despre inegalitatea parametrului de regresie „adevărat” la zero. Această ipoteză este testată folosind t- statistici care au t-Repartizarea elevilor:

Apoi valorile calculate t- statisticile sunt comparate cu valorile critice t- statistici determinate din tabelele de distribuție ale Studentului. Valoarea critică este determinată în funcție de nivelul de semnificație α și numărul de grade de libertate, care este (n-k-1), n ​​- numărul de observații k- numărul de variabile independente. În cazul regresiei perechi liniare, numărul de grade de libertate este (P- 2). Valoarea critică poate fi calculată și pe un computer utilizând funcția STUDISP încorporată în Excel.

Dacă valoarea calculată t- statisticile sunt mai mari decât critice, atunci ipoteza principală este respinsă și se crede că cu o probabilitate (1-α) Coeficientul de regresie „adevărat” este semnificativ diferit de zero, ceea ce este o confirmare statistică a existenței unei relații liniare între variabilele corespunzătoare.

Dacă valoarea calculată t- statistica este mai puțin decât critică, atunci nu există niciun motiv pentru a respinge ipoteza principală, adică coeficientul de regresie „adevărat” nu este semnificativ diferit de zero la nivelul de semnificație α . În acest caz, factorul corespunzător acestui coeficient ar trebui exclus din model.

Semnificația coeficientului de regresie poate fi stabilită prin construirea unui interval de încredere. Interval de încredere pentru parametrii de regresie Ași b definit după cum urmează:

,

,

unde se determină din tabelul de distribuție a Studentului pentru nivelul de semnificație α și numărul de grade de libertate (P- 2) pentru regresia pe perechi.

Deoarece coeficienții de regresie din studiile econometrice au o interpretare economică clară, intervalele de încredere nu ar trebui să conțină zero. Valoarea adevărată a coeficientului de regresie nu poate conține simultan valori pozitive și negative, inclusiv zero, altfel obținem rezultate contradictorii în interpretarea economică a coeficienților, care nu pot fi. Astfel, coeficientul este semnificativ dacă intervalul de încredere obţinut nu acoperă zero.

Exemplul 7.4. Conform exemplului 7.1:

a) Construiți un model de regresie liniară pereche al dependenței profitului din vânzări de prețul de vânzare folosind software-ul de procesare a datelor.

b) Evaluați semnificația ecuației de regresie în ansamblu, folosind F- Criteriul lui Fisher la a=0,05.

c) Evaluați semnificația coeficienților modelului de regresie folosind t-Criteriul elevului pentru a=0,05și α=0,1.

Pentru analiza de regresie folosim programul standard de birou EXCEL. Vom construi un model de regresie folosind instrumentul REGRESIUNE al setărilor PACHET DE ANALIZĂ (Fig. 7.5), care este lansat după cum urmează:

Serviciu Analiza datelorREGRESIUNEOK.

Fig.7.5. Folosind instrumentul REGRESIUNE

În caseta de dialog REGRESIUNE, în câmpul Interval de intrare Y, introduceți adresa intervalului de celule care conține variabila dependentă. În câmpul Interval de introducere X, introduceți adresele unuia sau mai multor intervale care conțin valorile variabilelor independente Caseta de validare Etichete din prima linie este setată la starea activă dacă sunt selectate și anteturile coloanei. Pe fig. 7.6. este afișată forma de ecran de calcul a modelului de regresie folosind instrumentul REGRESIUNE.

Orez. 7.6. Construirea unui model de regresie pereche folosind

Instrument REGRESIUNE

Ca rezultat al muncii instrumentului REGRESIUNE, se formează următorul protocol de analiză de regresie (Fig. 7.7).

Orez. 7.7. Protocolul analizei regresiei

Ecuația pentru dependența profitului din vânzări de prețul de vânzare are forma:

Vom estima semnificația ecuației de regresie folosind F- criteriul lui Fisher. Sens F- Criteriul lui Fisher este preluat din tabelul „Analiza avariancei” a protocolului EXCEL (Fig. 7.7.). Valoarea estimată F- criteriul 53.372. Valoarea tabelului F- criteriu la nivel de semnificație a=0,05și numărul de grade de libertate este 4.964. pentru că , atunci ecuația este considerată semnificativă.

Valori estimate t- Criteriile studentului pentru coeficienții ecuației de regresie sunt date în tabelul rezultat (Fig. 7.7). Valoarea tabelului t-Testul elevului la nivel de semnificație a=0,05 iar 10 grade de libertate este 2,228. Pentru coeficientul de regresie A, de unde coeficientul A nesemnificativ. Pentru coeficientul de regresie b, prin urmare, coeficientul b semnificativ.

TEMA 4. METODE STATISTICE DE STUDIAREA RELATIILOR

Ecuația de regresie - aceasta este o reprezentare analitică a dependenței de corelație. Ecuația de regresie descrie o relație funcțională ipotetică între valoarea medie condiționată a caracteristicii efective și valoarea caracteristicii - factor (factori), i.e. tendința de bază a dependenței.

Dependența de corelație de perechi este descrisă de ecuația de regresie a perechii, dependența de corelație multiplă - de ecuația de regresie multiplă.

Caracteristica-rezultat din ecuația de regresie este variabila dependentă (răspuns, variabilă explicativă), iar factorul-trăsătură este variabila independentă (argument, variabilă explicativă).

Cel mai simplu tip de ecuație de regresie este ecuația unei relații liniare pereche:

unde y este variabila dependentă (semn-rezultat); x este o variabilă independentă (factor-semn); și sunt parametrii ecuației de regresie; - Eroare de estimare.

Diferite funcții matematice pot fi utilizate ca ecuație de regresie. Ecuațiile de dependență liniară, parabolă, hiperbolă, funcție de stepă etc. își găsesc aplicații practice frecvente.

De regulă, analiza începe cu o relație liniară, deoarece rezultatele sunt ușor de interpretat în mod semnificativ. Alegerea tipului de ecuație de constrângere este un pas destul de important în analiză. În era „pre-computer”, această procedură era asociată cu anumite dificultăți și impunea analistului să cunoască proprietățile funcțiilor matematice. În prezent, pe baza unor programe specializate, este posibil să se construiască rapid un set de ecuații de comunicare și, pe baza unor criterii formale, să se selecteze cel mai bun model (totuși, alfabetizarea matematică a unui analist nu și-a pierdut relevanța).

O ipoteză despre tipul de dependență de corelație poate fi prezentată pe baza rezultatelor construcției câmpului de corelație (vezi prelegerea 6). Pe baza naturii locației punctelor pe grafic (coordonatele punctelor corespund valorilor variabilelor dependente și independente), este dezvăluită tendința relației dintre semne (indicatori). Dacă linia de regresie trece prin toate punctele câmpului de corelare, atunci aceasta indică o relație funcțională. În practica cercetării socio-economice, o astfel de imagine nu poate fi observată, deoarece există o dependență statistică (corelație). În condițiile dependenței de corelație, la trasarea unei linii de regresie pe un grafic de dispersie, se observă o abatere a punctelor câmpului de corelație de la dreapta de regresie, care demonstrează așa-numitele erori reziduale sau de estimare (vezi Figura 7.1).

Prezența unei erori de ecuație se datorează faptului că:

§ nu toti factorii care influenteaza rezultatul sunt luati in considerare in ecuatia de regresie;

§ forma de conectare poate fi aleasă incorect - ecuaţia de regresie;

§ Nu toți factorii sunt incluși în ecuație.

A construi o ecuație de regresie înseamnă a calcula valorile parametrilor ei. Ecuația de regresie este construită pe baza valorilor reale ale caracteristicilor analizate. Calculul parametrilor se realizează de obicei folosind metoda celor mai mici pătrate (LSM).

Esența MNC este că este posibil să se obțină astfel de valori ale parametrilor ecuației, la care suma abaterilor pătrate ale valorilor teoretice ale atributului-rezultat (calculate pe baza ecuației de regresie) din reală. valorile sunt minimizate:

,

unde - valoarea reală a semnului-rezultat al unității i-a a populației; - valoarea semnului-rezultat al unității i-a a populației, obținută prin ecuația de regresie ().

Astfel, problema este rezolvată pentru un extremum, adică este necesar să găsim la ce valori ale parametrilor, funcția S atinge un minim.

Efectuarea diferențierii, echivalând derivatele parțiale cu zero:



, (7.3)

, (7.4)

unde este produsul mediu al valorilor factorului și rezultatului; - valoarea medie a semnului - factor; - valoarea medie a semnului-rezultat; - varianţa factorului-semn.

Parametrul din ecuația de regresie caracterizează panta dreptei de regresie pe grafic. Această opțiune este numită coeficient de regresie iar valoarea sa se caracterizează prin câte unități de măsură se va schimba semnul rezultat atunci când factorul de semn se schimbă cu unitatea de măsură. Semnul coeficientului de regresie reflectă direcția dependenței (directă sau inversă) și coincide cu semnul coeficientului de corelație (în condițiile dependenței perechi).

În cadrul exemplului luat în considerare, programul STATISTICA a calculat parametrii ecuației de regresie care descrie relația dintre nivelul venitului monetar mediu pe cap de locuitor al populației și valoarea produsului regional brut pe cap de locuitor în regiunile Rusiei. , vezi Tabelul 7.1.

Tabel 7.1 - Calculul și evaluarea parametrilor ecuației care descriu relația dintre nivelul venitului mediu pe cap de locuitor în numerar al populației și valoarea produsului regional brut pe cap de locuitor în regiunile Rusiei, 2013

Coloana „B” a tabelului conține valorile parametrilor ecuației de regresie pereche, prin urmare, puteți scrie: = 13406,89 + 22,82 x. Această ecuație descrie tendința relației dintre caracteristicile analizate. Parametrul este coeficientul de regresie. În acest caz, este egal cu 22,82 și caracterizează următoarele: cu o creștere a GRP pe cap de locuitor cu 1 mie de ruble, venitul mediu pe cap de locuitor în numerar crește în medie (după cum este indicat de semnul „+”) cu 22,28 ruble.

Parametrul ecuației de regresie în studiile socio-economice, de regulă, nu este interpretat în mod semnificativ. Formal, reflectă valoarea semnului - rezultatul, cu condiția ca semnul - factor să fie egal cu zero. Parametrul caracterizează locația dreptei de regresie pe grafic, vezi Figura 7.1.

Figura 7.1 - Câmp de corelație și linie de regresie, care reflectă dependența nivelului venitului monetar mediu pe cap de locuitor al populației din regiunile Rusiei și valoarea GRP pe cap de locuitor

Valoarea parametrului corespunde punctului de intersecție a dreptei de regresie cu axa Y, la X=0.

Construcția ecuației de regresie este însoțită de o evaluare a semnificației statistice a ecuației în ansamblu și a parametrilor acesteia. Necesitatea unor astfel de proceduri este asociată cu o cantitate limitată de date, ceea ce poate împiedica funcționarea legii numerelor mari și, prin urmare, identificarea unei adevărate tendințe în relația indicatorilor analizați. În plus, orice populație studiată poate fi considerată ca un eșantion din populația generală, iar caracteristicile obținute în timpul analizei ca o estimare a parametrilor generali.

Evaluarea semnificației statistice a parametrilor și a ecuației în ansamblu este fundamentarea posibilității utilizării modelului de comunicare construit pentru luarea deciziilor manageriale și prognoză (modelare).

Semnificația statistică a ecuației de regresieîn general se estimează utilizând Testul F Fisher, care este raportul dintre variațiile factoriale și reziduale calculate pentru un grad de libertate:

Unde - varianța factorială a caracteristicii - rezultat; k este numărul de grade de libertate de dispersie factorială (numărul de factori din ecuația de regresie); - valoarea medie a variabilei dependente; - valoarea teoretică (obținută prin ecuația de regresie) a variabilei dependente pentru unitatea i-a a populației; - varianta reziduala a semnului - rezultat; n este volumul populației; n-k-1 este numărul de grade de libertate ale dispersiei reziduale.

Valoarea testului F al lui Fisher, conform formulei, caracterizează raportul dintre factorul și variațiile reziduale ale variabilei dependente, demonstrând, în esență, de câte ori valoarea părții explicate a variației o depășește pe cea neexplicată.

Testul F al lui Fisher este tabelat, intrarea în tabel este numărul de grade de libertate ale variațiilor factoriale și reziduale. Compararea valorii calculate a criteriului cu cea tabulară (critică) permite răspunsul la întrebarea: este acea parte a variației trăsăturii-rezultat care poate fi explicată prin factorii incluși în ecuația de acest tip semnificativă statistic? În cazul în care un , atunci ecuația de regresie este recunoscută ca fiind semnificativă statistic și, în consecință, coeficientul de determinare este, de asemenea, semnificativ statistic. In caz contrar ( ), ecuația este nesemnificativă statistic, adică. variația factorilor luați în considerare în ecuație nu explică partea semnificativă statistic a variației trăsăturii-rezultat, sau ecuația relației nu este corect aleasă.

Estimarea semnificației statistice a parametrilor ecuației efectuate pe baza t-statistici, care se calculează ca raport dintre valoarea absolută a parametrilor ecuației de regresie și erorile standard ale acestora ( ):

, Unde ; (7.6)

, Unde ; (7.7)

Unde - abaterile standard ale semnului - factor și semn - rezultat; - coeficient de determinare.

În programele de statistică specializate, calculul parametrilor este întotdeauna însoțit de calcularea erorilor standard (rădăcină-medie-pătrată) și a statisticilor t (vezi Tabelul 7.1). Valoarea calculată a statisticilor t este comparată cu cea tabelară, dacă volumul populației studiate este mai mic de 30 de unități (cu siguranță un eșantion mic), se face referire la tabelul de distribuție t al lui Student, dacă volumul populației este mare , ar trebui să folosiți tabelul de distribuție normală (integrala de probabilitate a lui Laplace). Un parametru de ecuație este considerat semnificativ statistic dacă.

Estimarea parametrilor pe baza statisticilor t, în esență, este un test al ipotezei nule despre egalitatea parametrilor generali la zero (H 0: =0; H 0: =0;), adică despre o nesemnificativă statistică. valoarea parametrilor ecuației de regresie. Nivelul de semnificație al ipotezei, de regulă, se ia: = 0,05. Dacă nivelul de semnificație calculat este mai mic de 0,05, atunci ipoteza nulă este respinsă și este acceptată alternativa - despre semnificația statistică a parametrului.

Să continuăm cu exemplul. Tabelul 7.1 din coloana „B” arată valorile parametrilor, în coloana Std.Err.ofB - valorile erorilor standard ale parametrilor ( ), în coloana t (77 - numărul de grade de libertate) valorile t - statisticile sunt calculate ținând cont de numărul de grade de libertate. Pentru a evalua semnificația statistică a parametrilor, valorile calculate ale statisticilor t trebuie comparate cu valoarea tabelului. Nivelul de semnificație dat (0,05) în tabelul de distribuție normală corespunde cu t = 1,96. Din 18.02, 10.84, i.e. , ar trebui să recunoaștem semnificația statistică a valorilor parametrilor obținute, i.e. aceste valori se formează sub influența unor factori non-aleatori și reflectă tendința relației dintre indicatorii analizați.

Pentru a evalua semnificația statistică a ecuației în ansamblu, ne întoarcem la valoarea testului F Fisher (vezi Tabelul 7.1). Valoarea calculată a criteriului F = 117,51, valoarea tabelară a criteriului, pe baza numărului corespunzător de grade de libertate (pentru variația factorului d.f. =1, pentru varianța reziduală d.f. =77), este de 4,00 (vezi Anexa .. .. .). În acest fel, , prin urmare, ecuația de regresie în ansamblu este semnificativă statistic. Într-o astfel de situație, se poate vorbi și despre semnificația statistică a valorii coeficientului de determinare, i.e. Variația de 60 la sută a veniturilor medii pe cap de locuitor al populației din regiunile Rusiei poate fi explicată prin variația volumului produsului regional brut pe cap de locuitor.

Evaluând semnificația statistică a ecuației de regresie și a parametrilor acesteia, putem obține o combinație diferită de rezultate.

· Ecuația prin testul F este semnificativă statistic și toți parametrii ecuației prin statistica t sunt, de asemenea, semnificativi statistic. Această ecuație poate fi folosită atât pentru luarea deciziilor manageriale (care factori ar trebui influențați pentru a obține rezultatul dorit), cât și pentru prezicerea comportamentului atributului rezultat pentru anumite valori ale factorilor.

· Conform criteriului F, ecuația este semnificativă statistic, dar parametrii (parametrul) ecuației sunt nesemnificativi. Ecuația poate fi utilizată pentru a lua decizii de management (privind acei factori pentru care s-a confirmat semnificația statistică a influenței lor), dar ecuația nu poate fi utilizată pentru prognoză.

· Ecuația testului F nu este semnificativă statistic. Ecuația nu poate fi folosită. Căutarea semnelor-factori semnificative sau a unei forme analitice a conexiunii dintre argument și răspuns ar trebui continuată.

Dacă semnificația statistică a ecuației și a parametrilor ei este confirmată, atunci se poate implementa așa-numita prognoză punctuală, adică. s-a obținut o estimare a valorii atributului-rezultat (y) pentru anumite valori ale factorului (x).

Este destul de evident că valoarea prezisă a variabilei dependente, calculată pe baza ecuației relației, nu va coincide cu valoarea reală a acesteia ( Grafic, această situație este confirmată de faptul că nu toate punctele câmpului de corelație se află pe dreapta de regresie, doar cu o conexiune funcțională linia de regresie va trece prin toate punctele diagramei de dispersie. Prezența discrepanțelor între valorile reale și teoretice ale variabilei dependente se datorează în primul rând esenței dependenței de corelație: în același timp, mulți factori afectează rezultatul, dintre care doar o parte poate fi luată în considerare în o ecuație de relație specifică. În plus, forma relației dintre rezultat și factor (tipul de ecuație de regresie) poate fi aleasă incorect. În acest sens, se pune întrebarea cât de informativă este ecuația de constrângere construită. La această întrebare se răspunde prin doi indicatori: coeficientul de determinare (a fost deja discutat mai sus) și eroarea standard de estimare.

Se numește diferența dintre valorile reale și teoretice ale variabilei dependente abateri sau erori, sau resturi. Pe baza acestor valori se calculează varianța reziduală. Rădăcina pătrată a varianței reziduale este eroare de estimare rădăcină medie pătrată (standard):

= (7.8)

Eroarea standard a ecuației este măsurată în aceleași unități ca și rata prezisă. Dacă erorile de ecuație urmează o distribuție normală (cu cantități mari de date), atunci 95 la sută din valori ar trebui să fie de la linia de regresie la o distanță care nu depășește 2S (pe baza proprietății unei distribuții normale - regula de trei sigma). Valoarea erorii standard de estimare este utilizată în calculul intervalelor de încredere atunci când se prezică valoarea unui semn - rezultatul pentru o anumită unitate a populației.

În cercetarea practică, adesea devine necesar să se prezică valoarea medie a unei caracteristici - rezultatul pentru o anumită valoare a caracteristicii - factor. În acest caz, în calculul intervalului de încredere pentru valoarea medie a variabilei dependente()

se ia în considerare valoarea erorii medii:

(7.9)

Utilizarea diferitelor valori de eroare se explică prin faptul că variabilitatea nivelurilor indicatorilor pentru anumite unități ale populației este mult mai mare decât variabilitatea valorii medii, prin urmare, eroarea de prognoză a valorii medii este mai mică.

Interval de încredere al prognozei valorii medii a variabilei dependente:

, (7.10)

Unde - eroare marginală de estimare (vezi teoria eșantionării); t este coeficientul de încredere, a cărui valoare se află în tabelul corespunzător, pe baza nivelului de probabilitate adoptat de cercetător (număr de grade de libertate) (vezi teoria eșantionării).

Intervalul de încredere pentru valoarea prezisă a atributului rezultat poate fi calculat și ținând cont de corecția pentru deplasarea (deplasarea) dreptei de regresie. Valoarea factorului de corecție este determinată de:

(7.11)

unde este valoarea factorului-atribut, pe baza căreia este prezisă valoarea rezultatului-atribut.

Rezultă că, cu cât valoarea diferă mai mult de valoarea medie a factorului-atribut, cu atât valoarea factorului de corecție este mai mare, cu atât eroarea de prognoză este mai mare. Având în vedere acest coeficient, se va calcula intervalul de încredere al prognozei:

Precizia prognozei bazate pe ecuația de regresie poate fi afectată de diverse motive. În primul rând, trebuie avut în vedere faptul că evaluarea calității ecuației și a parametrilor acesteia se bazează pe ipoteza unei distribuții normale a reziduurilor aleatorii. Încălcarea acestei ipoteze se poate datora prezenței unor valori puternic diferite în date, cu variație neuniformă, cu prezența unei relații neliniare. În acest caz, calitatea prognozei este redusă. Al doilea lucru de reținut este că valorile factorilor luați în considerare la prezicerea rezultatului nu trebuie să depășească intervalul de variație a datelor pe care se bazează ecuația.

©2015-2019 site
Toate drepturile aparțin autorilor lor. Acest site nu pretinde autor, dar oferă o utilizare gratuită.
Data creării paginii: 2018-01-08

În cercetarea socio-economică, de multe ori trebuie să lucrăm în condiții de populație limitată, sau cu date selective. Prin urmare, după parametrii matematici ai ecuației de regresie, este necesară evaluarea acestora și a ecuației în ansamblu pentru semnificația statistică, i.e. este necesar să ne asigurăm că ecuația rezultată și parametrii săi se formează sub influența unor factori non-aleatori.

În primul rând, se evaluează semnificația statistică a ecuației în ansamblu. Evaluarea este de obicei efectuată folosind testul F Fisher. Calculul criteriului F se bazează pe regula adunării varianțelor. Și anume, varianța generală semn-rezultat = varianță factor + varianță reziduală.

prețul actual

Pretul teoretic
După construirea ecuației de regresie, este posibil să se calculeze valoarea teoretică a rezultatului semnului, i.e. calculată prin ecuația de regresie ținând cont de parametrii acesteia.

Aceste valori vor caracteriza semnul-rezultat format sub influența factorilor incluși în analiză.

Există întotdeauna discrepanțe (reziduuri) între valorile reale ale atributului rezultat și cele calculate pe baza ecuației de regresie, datorită influenței altor factori neincluși în analiză.

Diferența dintre valorile teoretice și reale ale atributului-rezultat se numește reziduuri. Variația generală a trăsăturii-rezultat:

Variația trăsăturii-rezultat, datorită variației trăsăturilor factorilor incluși în analiză, se estimează printr-o comparație a valorilor teoretice ale rezultatului. caracteristică și valorile sale medii. Variația reziduală printr-o comparație a valorilor teoretice și reale ale caracteristicii rezultate. Varianta totală, reziduală și reală au un număr diferit de grade de libertate.

general, P- numărul de unităţi din populaţia studiată

real, P- numărul de factori incluși în analiză

Rezidual

Testul F al lui Fisher este calculat ca raport la , și calculat pentru un grad de libertate.

Utilizarea testului F Fisher ca estimare a semnificației statistice a unei ecuații de regresie este foarte logică. este rezultatul. trăsătură, datorită factorilor incluși în analiză, i.e. aceasta este proporția rezultatului explicat. semn. - aceasta este o (variatie) semnului rezultatului datorata unor factori a caror influenta nu este luata in considerare, i.e. neincluse în analiză.

Acea. Criteriul F este conceput pentru a evalua semnificativ exces peste . Dacă este nesemnificativ mai mic decât , și cu atât mai mult dacă depășește , prin urmare, analiza nu include acei factori care afectează cu adevărat atributul rezultat.

Testul F Fisher este tabulat, valoarea reală este comparată cu tabelul. Dacă , atunci ecuația de regresie este considerată semnificativă statistic. Dacă, dimpotrivă, ecuația nu este semnificativă statistic și nu poate fi utilizată în practică, semnificația ecuației în ansamblu indică semnificația statistică a indicatorilor de corelație.

După evaluarea ecuației în ansamblu, este necesar să se evalueze semnificația statistică a parametrilor ecuației. Această estimare se face folosind statisticile t ale lui Student. Statistica t este calculată ca raportul dintre parametrii ecuației (modulo) și eroarea lor pătratică medie standard. Dacă se evaluează un model cu un singur factor, atunci se calculează 2 statistici.

În toate programele de calculator, calculul erorii standard și al statisticilor t pentru parametri se efectuează cu calculul parametrilor înșiși. T-statisticile sunt tabulate. Dacă valoarea este , atunci parametrul este considerat semnificativ statistic, adică. format sub influența unor factori non-aleatori.

Calcularea statisticii t înseamnă în esență testarea ipotezei nule că parametrul este nesemnificativ, adică. egalitatea lui la zero. Cu un model cu un singur factor se evaluează 2 ipoteze: și

Nivelul de semnificație al acceptării ipotezei nule depinde de nivelul nivelului de încredere acceptat. Deci, dacă cercetătorul specifică un nivel de probabilitate de 95%, se va calcula nivelul de semnificație de acceptare, prin urmare, dacă nivelul de semnificație ≥ 0,05, atunci este acceptat și parametrii sunt considerați nesemnificativi statistic. Dacă , atunci alternativa este respinsă și acceptată: și .

Pachetele de aplicații statistice oferă, de asemenea, un nivel de semnificație pentru acceptarea ipotezelor nule. O evaluare a semnificației ecuației de regresie și a parametrilor acesteia poate da următoarele rezultate:

În primul rând, ecuația în ansamblu este semnificativă (conform testului F) și toți parametrii ecuației sunt, de asemenea, semnificativi statistic. Aceasta înseamnă că ecuația rezultată poate fi folosită atât pentru luarea deciziilor manageriale, cât și pentru prognoză.

În al doilea rând, conform criteriului F, ecuația este semnificativă statistic, dar cel puțin unul dintre parametrii ecuației nu este semnificativ. Ecuația poate fi folosită pentru a lua decizii de management cu privire la factorii analizați, dar nu poate fi folosită pentru prognoză.

În al treilea rând, ecuația nu este semnificativă statistic sau ecuația este semnificativă conform criteriului F, dar toți parametrii ecuației rezultate nu sunt semnificativi. Ecuația nu poate fi folosită în niciun scop.

Pentru ca ecuația de regresie să fie recunoscută ca model al relației dintre atributul-rezultat și atributele-factori, este necesar ca ea să cuprindă toți cei mai importanți factori care determină rezultatul, astfel încât interpretarea semnificativă a ecuației parametrii corespunde relaţiilor justificate teoretic în fenomenul studiat. Coeficientul de determinare R 2 trebuie să fie > 0,5.

La construirea unei ecuații de regresie multiplă, este recomandabil să se efectueze o evaluare prin așa-numitul coeficient de determinare ajustat (R 2). Valoarea lui R 2 (precum și corelațiile) crește odată cu creșterea numărului de factori incluși în analiză. Valoarea coeficienților este supraestimată mai ales în condițiile populațiilor mici. Pentru a stinge influența negativă a lui R 2 și corelațiile sunt corectate ținând cont de numărul de grade de libertate, i.e. numărul de elemente care variază liber atunci când sunt incluși anumiți factori.

Coeficient de determinare ajustat

P–setează dimensiunea/numărul de observații

k– numărul de factori incluși în analiză

n-1 este numărul de grade de libertate

(1-R2)- valoarea varianței reziduale/inexplicabile a atributului rezultat

Întotdeauna mai puțin R2. pe baza, este posibil să se compare estimările ecuațiilor cu un număr diferit de factori analizați.

34. Probleme de studiu a seriilor temporale.

Serii de dinamică se numesc serii de timp sau serii de timp. O serie dinamică este o secvență ordonată în timp de indicatori care caracterizează un anumit fenomen (volumul PIB-ului de la 90 la 98 de ani). Scopul studierii seriei de dinamică este identificarea tiparelor de dezvoltare a fenomenului studiat (tendința principală) și prognozarea pe această bază. Din definiția RD rezultă că orice serie constă din două elemente: timpul t și nivelul seriei (acele valori specifice ale indicatorului pe baza cărora este construită seria DR). Seria DR poate fi 1) momentană - serie, ai căror indicatori sunt fixați la un moment dat, la o anumită dată, 2) interval - serie, ai căror indicatori sunt obținuți pentru o anumită perioadă de timp (1. populația de Sankt Petersburg, 2. PIB pentru perioada). Împărțirea seriei în momente și intervale este necesară, deoarece aceasta determină specificul calculului unor indicatori ai seriei DR. Însumarea nivelurilor serii de intervale dă un rezultat interpretat în mod semnificativ, ceea ce nu se poate spune despre însumarea nivelurilor serii de momente, deoarece acestea din urmă conțin numărări repetate. Cea mai importantă problemă în analiza seriilor de timp este problema comparabilității nivelurilor seriei. Acest concept este foarte versatil. Nivelurile ar trebui să fie comparabile în ceea ce privește metodele de calcul și în ceea ce privește teritoriul și acoperirea unităților de populație. Dacă seria DR este construită în termeni de cost, atunci toate nivelurile ar trebui prezentate sau calculate în prețuri comparabile. Când se construiesc serii de intervale, nivelurile ar trebui să caracterizeze aceleași perioade de timp. La construirea momentului Seria D, nivelurile trebuie fixate la aceeași dată. Rândurile pot fi complete sau incomplete. Serii incomplete sunt folosite în publicațiile oficiale (1980,1985,1990,1995,1996,1997,1998,1999…). O analiză cuprinzătoare a RD include studiul următoarelor puncte:

1. calculul indicatorilor de modificare a nivelurilor RD

2. calculul indicatorilor medii ai RD

3. identificarea trendului principal al seriei, construirea modelelor de trend

4. Estimarea autocorelației în RD, construcția modelelor autoregresive

5. corelarea RD

6. Prognoza RD.

35. Indicatori ai schimbării nivelurilor serii temporale .

În general, seria D poate fi reprezentată ca:

y este nivelul DR, t este momentul sau perioada de timp la care se referă nivelul (indicatorul), n este lungimea Seriei DR (numărul de perioade). la studierea unei serii de dinamici se calculează următorii indicatori: 1. creștere absolută, 2. factor de creștere (rata de creștere), 3. accelerare, 4. factor de creștere (rata de creștere), 5. valoare absolută a creșterii de 1%. Indicatorii calculați pot fi: 1. în lanț - obținuți prin compararea fiecărui nivel al seriei cu cel imediat precedent, 2. de bază - obținuți prin compararea cu nivelul ales ca bază de comparație (dacă nu se specifică altfel, nivelul I al seriei). este luată ca bază). 1. Câștiguri absolute în lanț:. Arată cât mai mult sau mai puțin. Creșterile absolute în lanț sunt numite indicatori ai ratei de schimbare a nivelurilor seriei dinamice. Creștere absolută de bază: . Dacă nivelurile seriei sunt indicatori relativi, exprimați în %, atunci creșterea absolută este exprimată în puncte de modificare. 2. factor de creștere (rata de creștere): Se calculează ca raport dintre nivelurile rândului la cele imediat precedente (factori de creștere în lanț), sau la nivelul luat ca bază de comparație (factori de creștere de bază): . Caracterizează de câte ori fiecare nivel al seriei > sau< предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. pe baza creșterii absolute, indicatorul este calculat - accelerarea creșterii absolute: . Accelerația este creșterea absolută a creșterilor absolute. Evaluează modul în care creșterile în sine se modifică, indiferent dacă sunt stabile sau accelerează (crește). 4. rata de crestere este raportul de creștere la baza de comparație. Exprimat în %: ; . Rata de creștere este rata de creștere minus 100%. Arată cât de procent este acest nivel de rând > sau< предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Calculul indicatorilor medii ai RD Calculați nivelurile medii ale seriei, câștigurile medii absolute, rata medie de creștere și rata medie de creștere. Indicatorii medii sunt calculați pentru a rezuma informațiile și pentru a putea compara nivelurile și indicatorii de modificare a acestora în diferite serii. 1. nivel mediu de rând a) pentru seriile temporale de interval se calculează prin media aritmetică simplă: , unde n este numărul de niveluri din seria temporală; b) pentru seriile de momente, nivelul mediu se calculează după o formulă specifică, care se numește medie cronologică: . 2. creştere medie absolută se calculează pe baza incrementelor absolute în lanț conform mediei aritmetice simple:

. 3. Factorul mediu de creștere calculată pe baza factorilor de creștere în lanț folosind formula mediei geometrice: . La comentarea indicatorilor medii ai Serii DR este necesar să se precizeze 2 puncte: perioada care caracterizează indicatorul analizat și intervalul de timp pentru care este construită Seria DR. 4. Rata medie de creștere: . 5. rata medie de creştere: .