Exemplu de analiză de regresie. Analiza de regresie

Caracteristica principală a analizei de regresie este că poate fi utilizată pentru a obține informații specifice despre forma și natura relației dintre variabilele studiate.

Secvența etapelor analizei de regresie

Să luăm în considerare pe scurt etapele analizei de regresie.

    Formularea sarcinilor. În această etapă se formează ipoteze preliminare despre dependența fenomenelor studiate.

    Definirea variabilelor dependente și independente (explicative).

    Colectarea datelor statistice. Datele trebuie colectate pentru fiecare dintre variabilele incluse în modelul de regresie.

    Formularea unei ipoteze despre forma de conexiune (simple sau multiplă, liniară sau neliniară).

    Definiție funcții de regresie (constă în calculul valorilor numerice ale parametrilor ecuației de regresie)

    Evaluarea acurateței analizei de regresie.

    Interpretarea rezultatelor obtinute. Rezultatele analizei de regresie sunt comparate cu ipotezele preliminare. Se evaluează corectitudinea și plauzibilitatea rezultatelor obținute.

    Predicția valorilor necunoscute ale variabilei dependente.

Cu ajutorul analizei de regresie, este posibil să se rezolve problema prognozării și clasificării. Valorile predictive se calculează prin înlocuirea valorilor variabilelor explicative în ecuația de regresie. Problema de clasificare se rezolvă astfel: linia de regresie împarte întregul set de obiecte în două clase, iar partea din mulțime în care valoarea funcției este mai mare decât zero aparține unei clase, iar partea în care aceasta este mai mică. decât zero aparține unei alte clase.

Sarcini de analiză de regresie

Luați în considerare principalele sarcini ale analizei de regresie: stabilirea formei de dependență, determinarea funcții de regresie, o estimare a valorilor necunoscute ale variabilei dependente.

Stabilirea formei de dependenţă.

Natura și forma relației dintre variabile pot forma următoarele tipuri de regresie:

    regresie liniară pozitivă (exprimată ca o creștere uniformă a funcției);

    regresie pozitivă care accelerează uniform;

    regresie pozitivă în creștere uniformă;

    regresie liniară negativă (exprimată ca o scădere uniformă a funcției);

    regresie descrescătoare negativă uniform accelerată;

    regresie negativă în scădere uniformă.

Cu toate acestea, soiurile descrise nu se găsesc de obicei în formă pură, ci în combinație între ele. În acest caz, se vorbește de forme combinate de regresie.

Definiția funcției de regresie.

A doua sarcină este de a afla efectul asupra variabilei dependente al factorilor sau cauzelor principale, toate celelalte lucruri fiind egale, și sub rezerva excluderii impactului asupra variabilei dependente a elementelor aleatoare. functie de regresie definită ca o ecuație matematică de un tip sau altul.

Estimarea valorilor necunoscute ale variabilei dependente.

Rezolvarea acestei probleme se reduce la rezolvarea unei probleme de unul dintre următoarele tipuri:

    Estimarea valorilor variabilei dependente în intervalul considerat al datelor inițiale, i.e. valori lipsă; aceasta rezolvă problema interpolării.

    Estimarea valorilor viitoare ale variabilei dependente, i.e. găsirea valorilor în afara intervalului dat al datelor inițiale; aceasta rezolvă problema extrapolării.

Ambele probleme sunt rezolvate prin substituirea estimărilor găsite ale parametrilor valorilor variabilelor independente în ecuația de regresie. Rezultatul rezolvării ecuației este o estimare a valorii variabilei țintă (dependente).

Să ne uităm la câteva dintre ipotezele pe care se bazează analiza de regresie.

Ipoteza de liniaritate, de ex. se presupune că relaţia dintre variabilele luate în considerare este liniară. Deci, în acest exemplu, am construit un grafic de dispersie și am putut vedea o relație liniară clară. Dacă, pe diagrama de dispersie a variabilelor, vedem o absență clară a unei relații liniare, i.e. există o relație neliniară, trebuie utilizate metode de analiză neliniare.

Ipoteza de normalitate resturi. Se presupune că distribuția diferenței dintre valorile prezise și cele observate este normală. Pentru a determina vizual natura distribuției, puteți utiliza histograme resturi.

Atunci când se utilizează analiza de regresie, ar trebui să se țină cont de principala sa limitare. Constă în faptul că analiza de regresie vă permite să detectați doar dependențe, și nu relațiile care stau la baza acestor dependențe.

Analiza de regresie face posibilă evaluarea gradului de asociere dintre variabile prin calcularea valorii așteptate a unei variabile pe baza mai multor valori cunoscute.

Ecuația de regresie.

Ecuația de regresie arată astfel: Y=a+b*X

Folosind această ecuație, variabila Y este exprimată în termeni de constantă a și panta dreptei (sau pantei) b înmulțite cu valoarea variabilei X. Constanta a se numește și intercept, iar panta este regresia. coeficient sau factor B.

În cele mai multe cazuri (dacă nu întotdeauna) există o anumită dispersie de observații despre linia de regresie.

Rest este abaterea unui punct individual (observare) de la linia de regresie (valoarea prezisă).

Pentru a rezolva problema analizei regresiei în MS Excel, selectați din meniu Serviciu„Pachet de analiză”și instrumentul de analiză de regresie. Specificați intervalele de intrare X și Y. Intervalul de intrare Y este intervalul de date dependente care sunt analizate și trebuie să includă o coloană. Intervalul de intrare X este intervalul de date independente care trebuie analizate. Numărul de domenii de intrare nu trebuie să depășească 16.

La ieșirea procedurii în intervalul de ieșire, obținem raportul dat în tabelul 8.3a-8,3v.

REZULTATE

Tabelul 8.3a. Statistici de regresie

Statistici de regresie

Multiplu R

R-pătrat

R-pătrat normalizat

eroare standard

Observatii

Mai întâi, luați în considerare partea superioară a calculelor prezentate în tabelul 8.3a, - statistici de regresie.

Valoare R-pătrat, numită și măsura certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele originale și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în intervalul .

În cele mai multe cazuri, valoarea R-pătrat este între aceste valori, numite extreme, i.e. intre zero si unu.

Dacă valoarea R-pătrat aproape de unitate, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor corespunzătoare. Dimpotrivă, valoarea R-pătrat, aproape de zero, înseamnă calitate slabă a modelului construit.

În exemplul nostru, măsura certitudinii este 0,99673, ceea ce indică o potrivire foarte bună a liniei de regresie la datele originale.

plural R - coeficientul de corelație multiplă R - exprimă gradul de dependență al variabilelor independente (X) și al variabilei dependente (Y).

Multiplu R egală cu rădăcina pătrată a coeficientului de determinare, această valoare ia valori în intervalul de la zero la unu.

În analiza de regresie liniară simplă plural R egal cu coeficientul de corelație Pearson. Într-adevăr, plural Rîn cazul nostru, este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienți de regresie

Cote

eroare standard

t-statistică

Intersecția în Y

Variabila X 1

* Se oferă o versiune trunchiată a calculelor

Acum luați în considerare partea de mijloc a calculelor prezentate în tabelul 8.3b. Aici, sunt date coeficientul de regresie b (2,305454545) și offset-ul de-a lungul axei y, i.e. constanta a (2,694545455).

Pe baza calculelor, putem scrie ecuația de regresie după cum urmează:

Y= x*2,305454545+2,694545455

Direcția relației dintre variabile se determină pe baza semnelor (negative sau pozitive) ale coeficienților de regresie (coeficientul b).

Dacă semnul coeficientului de regresie este pozitiv, relația dintre variabila dependentă și variabila independentă va fi pozitivă. În cazul nostru, semnul coeficientului de regresie este pozitiv, prin urmare, relația este și ea pozitivă.

Dacă semnul coeficientului de regresie este negativ, relația dintre variabila dependentă și variabila independentă este negativă (inversă).

LA tabelul 8.3c. sunt prezentate rezultatele rezultate resturi. Pentru ca aceste rezultate să apară în raport, este necesar să activați caseta de selectare „Reziduuri” la lansarea instrumentului „Regresie”.

RETRAGERE RĂMÂNĂ

Tabelul 8.3c. Rămășițe

Observare

A prezis Y

Rămășițe

Solduri standard

Folosind această parte a raportului, putem vedea abaterile fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută restîn cazul nostru - 0,778, cel mai mic - 0,043. Pentru o mai bună interpretare a acestor date, vom folosi graficul datelor originale și linia de regresie construită prezentată în Fig. orez. 8.3. După cum puteți vedea, linia de regresie este destul de precisă „adaptată” la valorile datelor originale.

Trebuie avut în vedere faptul că exemplul luat în considerare este destul de simplu și este departe de a fi întotdeauna posibil să se construiască calitativ o dreaptă de regresie liniară.

Orez. 8.3. Datele inițiale și linia de regresie

Problema estimării valorilor viitoare necunoscute ale variabilei dependente pe baza valorilor cunoscute ale variabilei independente a rămas neconsiderată, i.e. sarcina de prognoză.

Având o ecuație de regresie, problema de prognoză se reduce la rezolvarea ecuației Y= x*2.305454545+2.694545455 cu valorile cunoscute ale lui x. Sunt prezentate rezultatele predicției variabilei dependente Y cu șase pași înainte în tabelul 8.4.

Tabelul 8.4. Rezultatele predicției variabilei Y

Y (prevăzut)

Astfel, ca urmare a utilizării analizei de regresie în pachetul Microsoft Excel, noi:

    a construit o ecuație de regresie;

    a stabilit forma de dependență și direcția relației dintre variabile - o regresie liniară pozitivă, care se exprimă într-o creștere uniformă a funcției;

    a stabilit direcția relației dintre variabile;

    a evaluat calitatea dreptei de regresie rezultată;

    au putut vedea abaterile datelor calculate de la datele setului original;

    a prezis valorile viitoare ale variabilei dependente.

În cazul în care un functie de regresie este definit, interpretat și justificat, iar evaluarea acurateței analizei de regresie îndeplinește cerințele, putem presupune că modelul construit și valorile predictive sunt suficient de fiabile.

Valorile prezise obținute în acest fel sunt valorile medii la care se poate aștepta.

În această lucrare, am trecut în revistă principalele caracteristici Statisticile descriptive iar printre ele concepte precum Rău,median,maxim,minimși alte caracteristici ale variației datelor.

A existat și o scurtă discuție asupra conceptului emisii. Caracteristicile luate în considerare se referă la așa-numita analiză exploratorie a datelor, concluziile acesteia pot să nu se aplice populației generale, ci doar unui eșantion de date. Analiza exploratorie a datelor este utilizată pentru a trage concluzii primare și pentru a forma ipoteze despre populație.

De asemenea, au fost luate în considerare bazele analizei de corelare și regresie, sarcinile acestora și posibilitățile de utilizare practică.

Analiza regresiei este o metodă de stabilire a unei expresii analitice a unei relații stocastice între caracteristicile studiate. Ecuația de regresie arată cum se modifică, în medie la la schimbarea vreunuia dintre X i , si arata ca:

Unde y - variabilă dependentă (este întotdeauna una);

X i - variabile independente (factori) (pot fi mai mulți dintre ei).

Dacă există o singură variabilă independentă, aceasta este o simplă analiză de regresie. Dacă sunt mai multe P 2), atunci o astfel de analiză se numește multivariată.

În cursul analizei de regresie, sunt rezolvate două sarcini principale:

    construcția ecuației de regresie, i.e. găsirea tipului de relaţie dintre indicatorul de rezultat şi factorii independenţi X 1 , X 2 , …, X n .

    evaluarea semnificației ecuației rezultate, i.e. determinarea cât de mult explică caracteristicile factorilor selectate variația caracteristicii y.

Analiza de regresie este utilizată în principal pentru planificare, precum și pentru dezvoltarea unui cadru de reglementare.

Spre deosebire de analiza corelației, care răspunde doar la întrebarea dacă există o relație între trăsăturile analizate, analiza de regresie își dă și expresia formalizată. În plus, dacă analiza corelației studiază orice relație de factori, atunci analiza de regresie studiază dependența unilaterală, adică. o conexiune care arată modul în care o modificare a semnelor factorilor afectează semnul rezultat.

Analiza regresiei este una dintre cele mai dezvoltate metode de statistică matematică. Strict vorbind, implementarea analizei de regresie necesită îndeplinirea unui număr de cerințe speciale (în special, X l ,X 2 ,...,X n ;y trebuie să fie variabile aleatoare independente, distribuite normal, cu varianțe constante). În viața reală, respectarea strictă a cerințelor analizei de regresie și corelație este foarte rară, dar ambele metode sunt foarte frecvente în cercetarea economică. Dependențele din economie pot fi nu numai directe, ci și inverse și neliniare. Un model de regresie poate fi construit în prezența oricărei dependențe, cu toate acestea, în analiza multivariată, sunt utilizate numai modele liniare ale formei:

Construcția ecuației de regresie se realizează, de regulă, prin metoda celor mai mici pătrate, a cărei esență este de a minimiza suma abaterilor pătrate a valorilor reale ale atributului rezultat din valorile sale calculate, adică:

Unde t - numărul de observații;

j =a+b 1 X 1 j +b 2 X 2 j + ... + b n X n j - valoarea calculată a factorului rezultat.

Se recomandă determinarea coeficienților de regresie folosind pachete analitice pentru un computer personal sau un calculator financiar special. În cel mai simplu caz, coeficienții de regresie ai unei ecuații de regresie liniară cu un singur factor de forma y = a + bx poate fi găsit folosind formulele:

analiza grupului

Analiza cluster este una dintre metodele de analiză multivariată, concepută pentru gruparea (clustering) unei populații, ale cărei elemente sunt caracterizate de multe caracteristici. Valorile fiecăreia dintre caracteristici servesc drept coordonate ale fiecărei unități a populației studiate în spațiul multidimensional al caracteristicilor. Fiecare observație, caracterizată prin valorile mai multor indicatori, poate fi reprezentată ca un punct în spațiul acestor indicatori, ale căror valori sunt considerate coordonate într-un spațiu multidimensional. Distanța dintre puncte Rși q cu k coordonatele sunt definite ca:

Principalul criteriu de grupare este ca diferențele dintre clustere să fie mai semnificative decât între observațiile atribuite aceluiași cluster, de exemplu. într-un spațiu multidimensional trebuie observată inegalitatea:

Unde r 1, 2 - distanța dintre clusterele 1 și 2.

La fel ca și procedurile de analiză de regresie, procedura de clustering este destul de laborioasă, este indicat să o faci pe computer.

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este luată în considerare în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia este înțeleasă ca o anumită mărime care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y \u003d x, în care y acționează ca o variabilă dependentă, iar x este independent (factor de caracteristică). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile

În general, se disting două tipuri opuse de relații: corelația și regresia.

Primul este caracterizat de egalitatea variabilelor condiționate. În acest caz, nu se știe cu siguranță care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară, va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Până în prezent, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Se pare că y = c + m * x + E. Ecuația hiperbolică are forma unei hiperbole regulate y \u003d c + m / x + E. Ecuația liniară logaritmică exprimă relația folosind funcția logaritmică: În y \u003d În c + m * În x + În E.

Multiplu și neliniar

Două tipuri mai complexe de regresie sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y \u003d f (x 1, x 2 ... x c) + E. În această situație, y este variabila dependentă și x este variabila explicativă. Variabila E este stocastică și include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin inconsecventă. Pe de o parte, în ceea ce privește indicatorii luați în considerare, nu este liniară, iar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Regresii inverse și perechi

O inversă este un fel de funcție care trebuie convertită într-o formă liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y \u003d 1 / c + m * x + E. Ecuația de regresie pereche arată relația dintre date în funcție de y = f(x) + E. La fel ca și celelalte ecuații, y depinde de x și E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența feedback-ului, un indicator pozitiv indică unul direct. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1 - cu atât relația dintre parametri este mai puternică, cu atât mai aproape de 0 - cu atât mai slabă.

Metode

Metodele parametrice de corelație pot estima strângerea relației. Ele sunt utilizate pe baza estimărilor de distribuție pentru a studia parametrii care respectă legea distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație alese. Câmpul de corelație este folosit ca metodă de identificare a unei relații. Pentru a face acest lucru, toate datele existente trebuie reprezentate grafic. Într-un sistem de coordonate bidimensional dreptunghiular, toate datele cunoscute trebuie reprezentate grafic. Așa se formează câmpul de corelație. Valoarea factorului de descriere este marcată de-a lungul abscisei, în timp ce valorile factorului dependent sunt marcate de-a lungul ordonatei. Dacă există o relație funcțională între parametri, aceștia se aliniază sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi despre absența aproape completă a unei conexiuni. Dacă este între 30% și 70%, atunci aceasta indică prezența legăturilor de etanșeitate medie. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelației multiple. El vorbește despre strânsoarea relației dintre setul de indicatori prezentat cu trăsătura studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este evaluată folosind acest indicator.

Pentru a calcula indicele de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de estimare a factorilor de regresie. Esența sa constă în minimizarea sumei abaterilor pătrate obținute datorită dependenței factorului de funcție.

O ecuație de regresie liniară pereche poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat în cazul detectării între indicatorii unei relații liniare pereche.

Opțiuni de ecuație

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul t arată modificarea medie a indicatorului final al funcției y, sub rezerva unei scăderi (creșteri) a variabilei x cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune despre o schimbare lentă a rezultatului în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat în termeni de ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există astfel de condiții ale sarcinii în care toate informațiile sunt grupate în funcție de atributul x, dar, în același timp, pentru un anumit grup, sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care indicatorul depinde de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, mediile sunt adesea supuse fluctuațiilor externe. Aceste fluctuații nu sunt o reflectare a tiparelor relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind dimensiunea unei anumite populații cu media corespunzătoare, puteți obține suma lui y în cadrul grupului. Apoi, trebuie să eliminați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. În cazul în care intervalele sunt mici, putem lua condiționat indicatorul x pentru toate unitățile (din cadrul grupului) la fel. Înmulțiți-l cu suma lui y pentru a găsi suma produselor lui x și y. În plus, toate sumele sunt bătute împreună și se obține suma totală xy.

Regresia ecuației cu perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y \u003d f (x 1, x 2, ..., x m) + E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei pentru un produs, a veniturilor din dobânzi la acțiunile răscumpărate, studiind cauzele și tipul funcției de cost de producție. De asemenea, este utilizat în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivelul microeconomiei, o astfel de ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce efect are fiecare dintre factori individual și în totalitate asupra indicatorului de modelat și a coeficienților acestuia. Ecuația de regresie poate lua o varietate de valori. În acest caz, două tipuri de funcții sunt de obicei utilizate pentru a evalua relația: liniare și neliniare.

O funcție liniară este descrisă sub forma unei astfel de relații: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. În acest caz, a2, a m , sunt considerați a fi coeficienții de regresie „pură”. Este necesar să se caracterizeze modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția unei valori stabile a altor indicatori.

Ecuațiile neliniare au, de exemplu, forma unei funcții de putere y=ax 1 b1 x 2 b2 ...x m bm . În acest caz, indicatorii b 1, b 2 ..... b m - se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori ar trebui luați în considerare la construirea unei regresii multiple

Pentru a construi corect o regresie multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relației dintre factorii economici și cei modelați. Factorii care trebuie incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie măsurabil. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz, ar trebui să i se acorde o formă cantitativă.
  • Nu ar trebui să existe o intercorelație a factorilor sau o relație funcțională. Astfel de acțiuni duc cel mai adesea la consecințe ireversibile - sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și moduri de a explica cum puteți alege factorii pentru ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind indicele de corelație. Printre acestea se numără:

  • Metoda excluderii.
  • Activați metoda.
  • Analiza de regresie în trepte.

Prima metodă implică separarea tuturor coeficienților din mulțimea agregată. A doua metodă implică introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost aplicați anterior ecuației. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interconectate. Acestea includ analiza discriminantă, recunoașterea modelelor, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, totuși, aceasta a apărut ca urmare a dezvoltării metodei componentelor. Toate sunt aplicate în anumite circumstanțe, în anumite condiții și factori.

Scopul principal al analizei de regresie constă în determinarea formei analitice a relației, în care modificarea atributului rezultat se datorează influenței unuia sau mai multor semne factori, iar ansamblul tuturor celorlalți factori care afectează și atributul rezultat este luat ca valori constante și medii. .
Sarcini de analiză de regresie:
a) Stabilirea formei de dependenţă. În ceea ce privește natura și forma relației dintre fenomene, există regresii liniare pozitive și neliniare și regresii liniare și neliniare negative.
b) Definirea functiei de regresie sub forma unei ecuatii matematice de un tip sau altul si stabilirea influentei variabilelor explicative asupra variabilei dependente.
c) Estimarea valorilor necunoscute ale variabilei dependente. Folosind funcția de regresie, puteți reproduce valorile variabilei dependente în intervalul de valori date ale variabilelor explicative (adică, rezolvați problema de interpolare) sau puteți evalua cursul procesului în afara intervalului specificat (adică, rezolva problema extrapolării). Rezultatul este o estimare a valorii variabilei dependente.

Regresia perechi - ecuația relației dintre două variabile y și x: y=f(x), unde y este variabila dependentă (semnul rezultat); x - variabilă independentă, explicativă (factor-trăsătură).

Există regresii liniare și neliniare.
Regresia liniară: y = a + bx + ε
Regresiile neliniare sunt împărțite în două clase: regresiile care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați și regresiile care sunt neliniare în raport cu parametrii estimați.
Regresii care sunt neliniare în variabilele explicative:

Regresii care sunt neliniare în parametrii estimați:

  • puterea y=a x b ε
  • exponențial y=a b x ε
  • exponenţial y=e a+b x ε
Construcția ecuației de regresie se reduce la estimarea parametrilor acesteia. Pentru a estima parametrii regresiilor care sunt liniari în parametri, se utilizează metoda celor mai mici pătrate (LSM). LSM face posibilă obținerea unor astfel de estimări ale parametrilor sub care suma abaterilor pătrate ale valorilor reale ale caracteristicii efective y față de valorile teoretice y x este minimă, adică.
.
Pentru ecuațiile liniare și neliniare reductibile la liniare, următorul sistem este rezolvat pentru a și b:

Puteți folosi formule gata făcute care decurg din acest sistem:

Apropierea conexiunii dintre fenomenele studiate este estimată prin coeficientul de corelație liniară pereche r xy pentru regresia liniară (-1≤r xy ≤1):

și indicele de corelație p xy - pentru regresia neliniară (0≤p xy ≤1):

O evaluare a calității modelului construit va fi dată de coeficientul (indicele) de determinare, precum și de eroarea medie de aproximare.
Eroarea medie de aproximare este abaterea medie a valorilor calculate de la cele reale:
.
Limita admisibilă a valorilor A - nu mai mult de 8-10%.
Coeficientul mediu de elasticitate E arată câte procente în medie se va schimba rezultatul y față de valoarea sa medie atunci când factorul x se modifică cu 1% față de valoarea sa medie:
.

Sarcina analizei varianței este de a analiza varianța variabilei dependente:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
unde ∑(y-y)² este suma totală a abaterilor pătrate;
∑(y x -y)² - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y-y x)² - suma reziduală a abaterilor pătrate.
Ponderea varianței explicată prin regresie în varianța totală a caracteristicii efective y este caracterizată de coeficientul (indicele) de determinare R2:

Coeficientul de determinare este pătratul coeficientului sau indicelui de corelație.

F-test - evaluarea calității ecuației de regresie - constă în testarea ipotezei Dar despre nesemnificația statistică a ecuației de regresie și a indicatorului de apropiere a conexiunii. Pentru aceasta, se realizează o comparație a faptului F real și a tabelului F critic (tabelar) al valorilor criteriului F Fisher. Faptul F este determinat din raportul dintre valorile variațiilor factoriale și reziduale calculate pentru un grad de libertate:
,
unde n este numărul de unități de populație; m este numărul de parametri pentru variabilele x.
Tabelul F este valoarea maximă posibilă a criteriului sub influența unor factori aleatori pentru grade date de libertate și nivelul de semnificație a. Nivelul de semnificație a - probabilitatea de a respinge ipoteza corectă, cu condiția ca aceasta să fie adevărată. De obicei, a este luat egal cu 0,05 sau 0,01.
Dacă tabelul F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F este un fapt, atunci ipoteza H despre nu este respinsă și se recunoaște nesemnificația statistică, nefiabilitatea ecuației de regresie.
Pentru a evalua semnificația statistică a coeficienților de regresie și corelație, se calculează testul t Student și intervalele de încredere pentru fiecare dintre indicatori. Este înaintată o ipoteză H despre natura aleatorie a indicatorilor, adică. despre diferența lor nesemnificativă față de zero. Evaluarea semnificației coeficienților de regresie și corelație cu ajutorul testului t Student se realizează prin compararea valorilor acestora cu mărimea erorii aleatoare:
; ; .
Erorile aleatorii ale parametrilor de regresie liniară și ale coeficientului de corelație sunt determinate de formulele:



Comparând valorile reale și critice (tabulare) ale statisticilor t - t tabl și t fapt - acceptăm sau respingem ipoteza H o.
Relația dintre testul F al lui Fisher și statisticile t ale lui Student este exprimată prin egalitate

Dacă t tabel< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t faptul că ipoteza H despre nu este respinsă și se recunoaște natura aleatorie a formării lui a, b sau r xy.
Pentru a calcula intervalul de încredere, determinăm eroarea marginală D pentru fiecare indicator:
Δ a =t tabel m a , Δ b =t tabel m b .
Formulele pentru calcularea intervalelor de încredere sunt următoarele:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; y b = b-Δ b; yb =b+Δb
Dacă zero se încadrează în limitele intervalului de încredere, i.e. Dacă limita inferioară este negativă și limita superioară este pozitivă, atunci parametrul estimat se presupune a fi zero, deoarece nu poate prelua simultan atât valori pozitive, cât și negative.
Valoarea prognozată y p se determină prin înlocuirea valorii corespunzătoare (prognoză) x p în ecuația de regresie y x =a+b·x . Eroarea standard medie a prognozei m y x se calculează:
,
Unde
iar intervalul de încredere al prognozei este construit:
γ y x =y p Δ y p ; y y x min=y p -Δ y p; γ y x max=y p +Δ y p
unde Δ y x =t tabel ·m y x .

Exemplu de soluție

Sarcina numărul 1. Pentru șapte teritorii ale regiunii Ural Pentru 199X, sunt cunoscute valorile a două semne.
Tabelul 1.

Necesar: 1. Pentru a caracteriza dependența lui y de x, calculați parametrii următoarelor funcții:
a) liniară;
b) legea puterii (anterior este necesar să se efectueze procedura de liniarizare a variabilelor luând logaritmul ambelor părți);
c) demonstrativ;
d) hiperbola echilaterală (de asemenea, trebuie să vă dați seama cum să pre-linearizați acest model).
2. Evaluați fiecare model prin eroarea medie de aproximare A și testul F Fisher.

Soluție (opțiunea #1)

Pentru a calcula parametrii a și b ai regresiei liniare y=a+b·x (calculul se poate face folosind un calculator).
rezolva sistemul de ecuații normale în raport cu Ași b:
Pe baza datelor inițiale, calculăm ∑y, ∑x, ∑y x, ∑x², ∑y²:
y X yx x2 y2 y xy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
mier valoare (Total/n)57,89
y
54,90
X
3166,05
X y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Ecuația de regresie: y= 76,88 - 0,35X. Cu o creștere a salariului mediu zilnic cu 1 rub. ponderea cheltuielilor cu achiziționarea de produse alimentare se reduce în medie cu 0,35% puncte.
Calculați coeficientul liniar al corelației perechilor:

Comunicarea este moderată, inversă.
Să determinăm coeficientul de determinare: r² xy =(-0,35)=0,127
Variația de 12,7% a rezultatului se explică prin variația factorului x. Înlocuirea valorilor reale în ecuația de regresie X, determinăm valorile teoretice (calculate) ale lui y x . Să găsim valoarea erorii medii de aproximare A:

În medie, valorile calculate se abat de la cele reale cu 8,1%.
Să calculăm criteriul F:

Valoarea obținută indică necesitatea acceptării ipotezei H 0 despre natura aleatorie a dependenței relevate și nesemnificația statistică a parametrilor ecuației și a indicatorului de apropiere a conexiunii.
1b. Construcția modelului de putere y=a x b este precedată de procedura de liniarizare a variabilelor. În exemplu, liniarizarea se face luând logaritmul ambelor părți ale ecuației:
lg y=lg a + b lg x
Y=C+b Y
unde Y=lg(y), X=lg(x), C=lg(a).

Pentru calcule, folosim datele din tabel. 1.3.
Tabelul 1.3

YX YX Y2 x2 y xy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Rău1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Calculați C și b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Obținem o ecuație liniară: Y=2,278-0,298 X
După potențarea acestuia, obținem: y=10 2,278 x -0,298
Inlocuind in aceasta ecuatie valorile reale X, obținem valorile teoretice ale rezultatului. Pe baza acestora, calculăm indicatorii: etanșeitatea conexiunii - indicele de corelație p xy și eroarea medie de aproximare A .

Caracteristicile modelului de putere indică faptul că acesta descrie relația ceva mai bine decât funcția liniară.

1c. Construcția ecuației curbei exponențiale y \u003d a b x este precedată de procedura de liniarizare a variabilelor atunci când se iau logaritmul ambelor părți ale ecuației:
lg y=lg a + x lg b
Y=C+B x
Pentru calcule, folosim datele din tabel.

YX Yx Y2 x2y xy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
mier zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Valorile parametrilor de regresie A și LA se ridica la:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Se obține o ecuație liniară: Y=1,887-0,0023x. Potențim ecuația rezultată și o scriem în forma obișnuită:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Estimăm strângerea relației prin indicele de corelație p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Rău57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

Analiza regresiei este o metodă de cercetare statistică care vă permite să arătați dependența unui parametru de una sau mai multe variabile independente. În era pre-computer, utilizarea sa era destul de dificilă, mai ales când era vorba de cantități mari de date. Astăzi, după ce ați învățat cum să construiți o regresie în Excel, puteți rezolva probleme statistice complexe în doar câteva minute. Mai jos sunt exemple specifice din domeniul economiei.

Tipuri de regresie

Conceptul în sine a fost introdus în matematică în 1886. Are loc regresia:

  • liniar;
  • parabolic;
  • putere;
  • exponențial;
  • hiperbolic;
  • demonstrativ;
  • logaritmică.

Exemplul 1

Luați în considerare problema determinării dependenței numărului de membri ai echipei pensionari de salariul mediu la 6 întreprinderi industriale.

Sarcină. La șase întreprinderi, am analizat salariul mediu lunar și numărul de angajați plecați de bunăvoie. În formă tabelară avem:

Numărul de persoane care au plecat

Salariul

30000 de ruble

35000 de ruble

40000 de ruble

45000 de ruble

50000 de ruble

55000 de ruble

60000 de ruble

Pentru problema determinării dependenței numărului de pensionari de salariul mediu la 6 întreprinderi, modelul de regresie are forma ecuației Y = a 0 + a 1 x 1 +…+a k x k , unde x i sunt variabilele de influență. , a i sunt coeficienții de regresie, a k este numărul de factori.

Pentru această sarcină, Y este indicatorul angajaților plecați, iar factorul de influență este salariul, pe care îl notăm cu X.

Utilizarea capabilităților foii de calcul „Excel”

Analiza de regresie în Excel trebuie să fie precedată de aplicarea funcțiilor încorporate la datele tabelare disponibile. Cu toate acestea, în aceste scopuri, este mai bine să utilizați programul de completare foarte util „Setul de instrumente de analiză”. Pentru a-l activa aveți nevoie de:

  • din fila „Fișier”, accesați secțiunea „Opțiuni”;
  • în fereastra care se deschide, selectați linia „Suplimente”;
  • faceți clic pe butonul „Go” situat în jos, în dreapta liniei „Management”;
  • bifați caseta de lângă numele „Pachet de analiză” și confirmați acțiunile făcând clic pe „OK”.

Dacă totul este făcut corect, butonul dorit va apărea în partea dreaptă a filei Date, situată deasupra foii de lucru Excel.

în Excel

Acum că avem la îndemână toate instrumentele virtuale necesare pentru efectuarea calculelor econometrice, putem începe să ne rezolvăm problema. Pentru asta:

  • faceți clic pe butonul „Analiza datelor”;
  • în fereastra care se deschide, faceți clic pe butonul „Regresie”;
  • în fila care apare, introduceți intervalul de valori pentru Y (numărul de angajați care au demisionat) și pentru X (salariile lor);
  • Confirmăm acțiunile noastre apăsând butonul „Ok”.

Ca rezultat, programul va completa automat o nouă foaie a foii de calcul cu date de analiză de regresie. Notă! Excel are capacitatea de a seta manual locația pe care o preferați în acest scop. De exemplu, ar putea fi aceeași foaie în care sunt valorile Y și X sau chiar un nou registru de lucru special conceput pentru a stoca astfel de date.

Analiza rezultatelor regresiei pentru R-pătrat

În Excel, datele obținute în timpul procesării datelor din exemplul considerat arată astfel:

În primul rând, ar trebui să acordați atenție valorii pătratului R. Este coeficientul de determinare. În acest exemplu, R-pătrat = 0,755 (75,5%), adică parametrii calculați ai modelului explică relația dintre parametrii considerați cu 75,5%. Cu cât valoarea coeficientului de determinare este mai mare, cu atât modelul ales este mai aplicabil pentru o anumită sarcină. Se crede că descrie corect situația reală cu o valoare R pătrat peste 0,8. Dacă R-pătrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza raportului

Numărul 64,1428 arată care va fi valoarea lui Y dacă toate variabilele xi din modelul pe care îl luăm în considerare sunt setate la zero. Cu alte cuvinte, se poate susține că valoarea parametrului analizat este influențată și de alți factori care nu sunt descriși într-un anumit model.

Următorul coeficient -0,16285, situat în celula B18, arată ponderea influenței variabilei X asupra Y. Aceasta înseamnă că salariul mediu lunar al angajaților din cadrul modelului luat în considerare afectează numărul de renunțați cu o pondere de -0,16285, adică. gradul influenței sale deloc mic. Semnul „-” indică faptul că coeficientul are o valoare negativă. Acest lucru este evident, deoarece toată lumea știe că, cu cât salariul la întreprindere este mai mare, cu atât mai puține persoane își exprimă dorința de a rezilia contractul de muncă sau de a renunța.

Regresie multiplă

Acest termen se referă la o ecuație de conexiune cu mai multe variabile independente de forma:

y \u003d f (x 1 + x 2 + ... x m) + ε, unde y este caracteristica efectivă (variabilă dependentă) și x 1 , x 2 , ... x m sunt factorii factori (variabile independente).

Estimarea parametrilor

Pentru regresia multiplă (MR) se efectuează folosind metoda celor mai mici pătrate (OLS). Pentru ecuații liniare de forma Y = a + b 1 x 1 +…+b m x m + ε, construim un sistem de ecuații normale (vezi mai jos)

Pentru a înțelege principiul metodei, luați în considerare cazul cu doi factori. Atunci avem o situație descrisă de formula

De aici obținem:

unde σ este varianța caracteristicii corespunzătoare reflectate în indice.

LSM este aplicabil ecuației MP pe o scară standardizată. În acest caz, obținem ecuația:

unde t y , t x 1, … t xm sunt variabile standardizate pentru care valorile medii sunt 0; β i sunt coeficienții de regresie standardizați, iar abaterea standard este 1.

Vă rugăm să rețineți că toate β i în acest caz sunt setate ca normalizate și centralizate, astfel încât compararea lor între ele este considerată corectă și admisibilă. În plus, se obișnuiește să se filtreze factorii, eliminând cei cu cele mai mici valori ale βi.

Problemă folosind ecuația de regresie liniară

Să presupunem că există un tabel cu dinamica prețurilor unui anumit produs N în ultimele 8 luni. Este necesar să luați o decizie cu privire la oportunitatea de a cumpăra lotul său la un preț de 1850 de ruble/t.

numărul lunii

numele lunii

pretul articolului N

1750 de ruble pe tonă

1755 de ruble pe tonă

1767 ruble pe tonă

1760 de ruble pe tonă

1770 de ruble pe tonă

1790 de ruble pe tonă

1810 ruble pe tonă

1840 de ruble pe tonă

Pentru a rezolva această problemă în foaia de calcul Excel, trebuie să utilizați instrumentul de analiză a datelor deja cunoscut din exemplul de mai sus. Apoi, selectați secțiunea „Regresie” și setați parametrii. Trebuie reținut că în câmpul „Interval Y de intrare” trebuie introdus un interval de valori pentru variabila dependentă (în acest caz, prețul unui produs în anumite luni ale anului), iar în „Intrare” Interval X" - pentru variabila independentă (numărul lunii). Confirmați acțiunea făcând clic pe „Ok”. Pe o foaie nouă (dacă a fost indicat așa), obținem date pentru regresie.

Pe baza acestora, construim o ecuație liniară de forma y=ax+b, unde parametrii a și b sunt coeficienții rândului cu numele numărului lunii și coeficienții și rândul „Y-intersection” din fișă cu rezultatele analizei de regresie. Astfel, ecuația de regresie liniară (LE) pentru problema 3 se scrie astfel:

Prețul produsului N = 11,714* număr lunar + 1727,54.

sau în notaţie algebrică

y = 11,714 x + 1727,54

Analiza rezultatelor

Pentru a decide dacă ecuația de regresie liniară rezultată este adecvată, se folosesc coeficienți de corelație multipli (MCC) și coeficienți de determinare, precum și testul Fisher și testul Student. În tabelul Excel cu rezultatele de regresie, acestea apar sub numele de mai multe R, R-pătrat, F-statistic și, respectiv, t-statistic.

KMC R face posibilă evaluarea strânsei relației probabilistice dintre variabilele independente și dependente. Valoarea sa ridicată indică o relație destul de puternică între variabilele „Numărul lunii” și „Prețul mărfurilor N în ruble pe 1 tonă”. Cu toate acestea, natura acestei relații rămâne necunoscută.

Pătratul coeficientului de determinare R 2 (RI) este o caracteristică numerică a ponderii dispersiei totale și arată dispersia a cărei parte a datelor experimentale, adică. valorile variabilei dependente corespund ecuației de regresie liniară. În problema luată în considerare, această valoare este egală cu 84,8%, adică datele statistice sunt descrise cu un grad ridicat de acuratețe de către SD-ul obținut.

F-statistica, numită și testul lui Fisher, este folosită pentru a evalua semnificația unei relații liniare, infirmând sau confirmând ipoteza existenței acesteia.

(Criteriul studentului) ajută la evaluarea semnificației coeficientului cu termen necunoscut sau liber al unei relații liniare. Dacă valoarea criteriului t > t cr, atunci se respinge ipoteza nesemnificației termenului liber al ecuației liniare.

În problema luată în considerare pentru membrul liber, folosind instrumentele Excel, s-a obținut că t = 169,20903 și p = 2,89E-12, adică avem o probabilitate zero ca ipoteza corectă despre nesemnificația membrului liber să fie fi respins. Pentru coeficientul la necunoscut t=5,79405 și p=0,001158. Cu alte cuvinte, probabilitatea ca ipoteza corectă despre nesemnificația coeficientului pentru necunoscut să fie respinsă este de 0,12%.

Astfel, se poate susține că ecuația de regresie liniară rezultată este adecvată.

Problema oportunității cumpărării unui bloc de acțiuni

Regresia multiplă în Excel este efectuată folosind același instrument de analiză a datelor. Luați în considerare o problemă aplicată specifică.

Conducerea NNN trebuie să ia o decizie cu privire la oportunitatea achiziționării unui pachet de 20% din MMM SA. Costul pachetului (JV) este de 70 de milioane de dolari SUA. Specialiștii NNN au colectat date despre tranzacții similare. S-a decis evaluarea valorii blocului de acțiuni în funcție de astfel de parametri, exprimați în milioane de dolari SUA, astfel:

  • conturi de plătit (VK);
  • cifra de afaceri anuala (VO);
  • conturi de încasat (VD);
  • costul mijloacelor fixe (SOF).

În plus, este utilizat parametrul restanțe de salarii ale întreprinderii (V3 P) în mii de dolari SUA.

Soluție folosind foaia de calcul Excel

În primul rând, trebuie să creați un tabel de date inițiale. Arata cam asa:

  • apelați fereastra „Analiza datelor”;
  • selectați secțiunea „Regresie”;
  • în caseta „Interval de intrare Y” introduceți intervalul de valori ale variabilelor dependente din coloana G;
  • faceți clic pe pictograma cu o săgeată roșie din dreapta ferestrei „Interval de intrare X” și selectați intervalul tuturor valorilor din coloanele B, C, D, F de pe foaie.

Selectați „Foaie de lucru nouă” și faceți clic pe „Ok”.

Obțineți analiza de regresie pentru problema dată.

Examinarea rezultatelor și concluziilor

„Colectăm” din datele rotunjite prezentate mai sus pe foaia de calcul Excel, ecuația de regresie:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Într-o formă matematică mai familiară, poate fi scrisă ca:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Datele pentru JSC „MMM” sunt prezentate în tabel:

Înlocuindu-le în ecuația de regresie, ei obțin o cifră de 64,72 milioane de dolari SUA. Aceasta înseamnă că acțiunile JSC MMM nu ar trebui cumpărate, deoarece valoarea lor de 70 de milioane de dolari SUA este mai degrabă supraevaluată.

După cum puteți vedea, utilizarea foii de calcul Excel și a ecuației de regresie au făcut posibilă luarea unei decizii informate cu privire la fezabilitatea unei tranzacții foarte specifice.

Acum știi ce este regresia. Exemplele în Excel discutate mai sus vă vor ajuta să rezolvați probleme practice din domeniul econometriei.