Analiza regresiei pas cu pas. Fundamentele regresiei liniare

Analiza de regresie și corelație - metode de cercetare statistică. Acestea sunt cele mai comune moduri de a arăta dependența unui parametru de una sau mai multe variabile independente.

Mai jos, folosind exemple practice concrete, vom lua în considerare aceste două analize foarte populare în rândul economiștilor. Vom da, de asemenea, un exemplu de obținere a rezultatelor atunci când acestea sunt combinate.

Analiza de regresie în Excel

Arată influența unor valori (independente, independente) asupra variabilei dependente. De exemplu, modul în care numărul populației active din punct de vedere economic depinde de numărul de întreprinderi, salarii și alți parametri. Sau: cum afectează investițiile străine, prețurile la energie etc. nivelul PIB-ului.

Rezultatul analizei vă permite să stabiliți priorități. Și pe baza factorilor principali, pentru a prezice, a planifica dezvoltarea zonelor prioritare, a lua decizii de management.

Are loc regresia:

  • liniară (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponențial (y = a * exp(bx));
  • putere (y = a*x^b);
  • hiperbolic (y = b/x + a);
  • logaritmică (y = b * 1n(x) + a);
  • exponențial (y = a * b^x).

Luați în considerare exemplul de construire a unui model de regresie în Excel și interpretarea rezultatelor. Să luăm un tip liniar de regresie.

O sarcină. La 6 întreprinderi s-a analizat salariul mediu lunar și numărul de angajați plecați. Este necesar să se determine dependența numărului de salariați pensionari de salariul mediu.

Modelul de regresie liniară are următoarea formă:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Unde a sunt coeficienții de regresie, x sunt variabilele de influență și k este numărul de factori.

În exemplul nostru, Y este indicatorul lucrătorilor renunțați. Factorul de influență este salariul (x).

Excel are funcții încorporate care pot fi utilizate pentru a calcula parametrii unui model de regresie liniară. Dar programul de completare Analysis ToolPak o va face mai rapid.

Activați un instrument analitic puternic:

Odată activat, suplimentul va fi disponibil în fila Date.

Acum ne vom ocupa direct de analiza de regresie.



În primul rând, acordăm atenție pătratului R și coeficienților.

R-pătratul este coeficientul de determinare. În exemplul nostru, este 0,755 sau 75,5%. Aceasta înseamnă că parametrii calculați ai modelului explică relația dintre parametrii studiați cu 75,5%. Cu cât coeficientul de determinare este mai mare, cu atât modelul este mai bun. Bun - peste 0,8. Slab - mai puțin de 0,5 (o astfel de analiză cu greu poate fi considerată rezonabilă). În exemplul nostru - „nu e rău”.

Coeficientul 64,1428 arată ce va fi Y dacă toate variabilele din modelul luat în considerare sunt egale cu 0. Adică alți factori care nu sunt descriși în model afectează și valoarea parametrului analizat.

Coeficientul -0,16285 arată ponderea variabilei X pe Y. Adică salariul mediu lunar în cadrul acestui model afectează numărul de renunțați cu o pondere de -0,16285 (acesta este un grad mic de influență). Semnul „-” indică un impact negativ: cu cât salariul este mai mare, cu atât mai puține renunțe. Ceea ce este corect.



Analiza corelației în Excel

Analiza corelației ajută la stabilirea dacă există o relație între indicatorii din unul sau două eșantioane. De exemplu, între timpul de funcționare al mașinii și costul reparațiilor, prețul echipamentului și durata de funcționare, înălțimea și greutatea copiilor etc.

Dacă există o relație, atunci dacă o creștere a unui parametru duce la o creștere (corelație pozitivă) sau o scădere (negativă) a celuilalt. Analiza corelației ajută analistul să determine dacă valoarea unui indicator poate prezice valoarea posibilă a altuia.

Coeficientul de corelație se notează cu r. Variază de la +1 la -1. Clasificarea corelațiilor pentru diferite zone va fi diferită. Când valoarea coeficientului este 0, nu există o relație liniară între eșantioane.

Luați în considerare cum să utilizați Excel pentru a găsi coeficientul de corelație.

Funcția CORREL este utilizată pentru a găsi coeficienții perechi.

Sarcină: Determinați dacă există o relație între timpul de funcționare al unui strung și costul întreținerii acestuia.

Puneți cursorul în orice celulă și apăsați butonul fx.

  1. În categoria „Statistică”, selectați funcția CORREL.
  2. Argumentul „Matrice 1” - primul interval de valori - timpul mașinii: A2: A14.
  3. Argumentul „Matrice 2” - al doilea interval de valori - costul reparațiilor: B2:B14. Faceți clic pe OK.

Pentru a determina tipul de conexiune, trebuie să vă uitați la numărul absolut al coeficientului (fiecare domeniu de activitate are propria sa scară).

Pentru analiza corelației mai multor parametri (mai mult de 2), este mai convenabil să utilizați „Analiza datelor” („Pachet de analiză”). În listă, trebuie să selectați o corelație și să desemnați o matrice. Tot.

Coeficienții rezultați vor fi afișați în matricea de corelație. Ca acesta:

Analiza corelației-regresiune

În practică, aceste două tehnici sunt adesea folosite împreună.

Exemplu:


Acum datele analizei de regresie sunt vizibile.

În modelarea statistică, analiza de regresie este un studiu utilizat pentru a evalua relația dintre variabile. Această metodă matematică include multe alte metode pentru modelarea și analiza mai multor variabile atunci când accentul este pus pe relația dintre o variabilă dependentă și una sau mai multe variabile independente. Mai precis, analiza de regresie vă ajută să înțelegeți cum se modifică valoarea tipică a variabilei dependente dacă una dintre variabilele independente se modifică în timp ce celelalte variabile independente rămân fixe.

În toate cazurile, scorul țintă este o funcție a variabilelor independente și se numește funcție de regresie. În analiza de regresie, este, de asemenea, interesant să se caracterizeze modificarea variabilei dependente în funcție de regresie, care poate fi descrisă folosind o distribuție de probabilitate.

Sarcini de analiză de regresie

Această metodă de cercetare statistică este utilizată pe scară largă pentru prognoză, unde utilizarea ei are un avantaj semnificativ, dar uneori poate duce la iluzii sau relații false, de aceea este recomandat să o folosiți cu atenție în această întrebare, deoarece, de exemplu, corelarea nu înseamnă cauzalitate.

Au fost dezvoltate un număr mare de metode pentru efectuarea analizei de regresie, cum ar fi regresia liniară și cea obișnuită cu cele mai mici pătrate, care sunt parametrice. Esența lor este că funcția de regresie este definită în termeni de un număr finit de parametri necunoscuți care sunt estimați din date. Regresia neparametrică permite ca funcția sa să se afle într-un anumit set de funcții, care pot fi infinit-dimensionale.

Ca metodă de cercetare statistică, analiza regresiei în practică depinde de forma procesului de generare a datelor și de modul în care acesta se raportează la abordarea regresiei. Deoarece adevărata formă a procesului de generare a datelor este de obicei un număr necunoscut, analiza de regresie a datelor depinde adesea într-o oarecare măsură de ipotezele despre proces. Aceste ipoteze sunt uneori testabile dacă există suficiente date disponibile. Modelele de regresie sunt adesea utile chiar și atunci când ipotezele sunt încălcate moderat, deși s-ar putea să nu aibă rezultate optime.

Într-un sens mai restrâns, regresia se poate referi în mod specific la estimarea variabilelor de răspuns continuu, spre deosebire de variabilele de răspuns discret utilizate în clasificare. Cazul unei variabile de ieșire continuă este numit și regresie metrică pentru a o distinge de problemele conexe.

Istorie

Cea mai timpurie formă de regresie este binecunoscuta metodă a celor mai mici pătrate. A fost publicată de Legendre în 1805 și de Gauss în 1809. Legendre și Gauss au aplicat metoda la problema determinării din observații astronomice a orbitelor corpurilor în jurul Soarelui (în principal comete, dar mai târziu și planete minore nou descoperite). Gauss a publicat o dezvoltare ulterioară a teoriei celor mai mici pătrate în 1821, inclusiv o variantă a teoremei Gauss-Markov.

Termenul „regresie” a fost inventat de Francis Galton în secolul al XIX-lea pentru a descrie un fenomen biologic. Concluzia a fost că creșterea descendenților din creșterea strămoșilor, de regulă, regresează până la media normală. Pentru Galton, regresia avea doar acest sens biologic, dar mai târziu lucrarea sa a fost preluată de Udni Yoley și Karl Pearson și dusă într-un context statistic mai general. În lucrarea lui Yule și Pearson, distribuția comună a răspunsului și a variabilelor explicative este considerată Gaussiană. Această presupunere a fost respinsă de Fischer în lucrările din 1922 și 1925. Fisher a sugerat că distribuția condiționată a variabilei răspuns este Gauss, dar distribuția comună nu trebuie să fie. În acest sens, sugestia lui Fisher este mai apropiată de formularea lui Gauss din 1821. Înainte de 1970, uneori era nevoie de până la 24 de ore pentru a obține rezultatul unei analize de regresie.

Metodele de analiză de regresie continuă să fie un domeniu de cercetare activă. În ultimele decenii, au fost dezvoltate noi metode pentru regresia robustă; regresii care implică răspunsuri corelate; metode de regresie care găzduiesc diferite tipuri de date lipsă; regresie neparametrică; metode de regresie bayesiană; regresii în care variabilele predictoare sunt măsurate cu eroare; regresii cu mai mulți predictori decât observații și inferențe cauzale cu regresie.

Modele de regresie

Modelele de analiză de regresie includ următoarele variabile:

  • Parametri necunoscuți, notați ca beta, care pot fi un scalar sau un vector.
  • Variabile independente, X.
  • Variabile dependente, Y.

În diferite domenii ale științei în care se aplică analiza de regresie, se folosesc termeni diferiți în locul variabilelor dependente și independente, dar în toate cazurile modelul de regresie raportează Y la o funcție a lui X și β.

Aproximarea este de obicei formulată ca E (Y | X) = F (X, β). Pentru a efectua analiza de regresie, trebuie determinată forma funcției f. Mai rar, se bazează pe cunoștințe despre relația dintre Y și X care nu se bazează pe date. Dacă aceste cunoștințe nu sunt disponibile, atunci se alege o formă F flexibilă sau convenabilă.

Variabila dependentă Y

Să presupunem acum că vectorul parametrilor necunoscuți β are lungimea k. Pentru a efectua o analiză de regresie, utilizatorul trebuie să furnizeze informații despre variabila dependentă Y:

  • Dacă se observă N puncte de date de forma (Y, X), unde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Dacă se observă exact N = K, iar funcția F este liniară, atunci ecuația Y = F(X, β) poate fi rezolvată exact, nu aproximativ. Acest lucru se rezumă la rezolvarea unui set de N-ecuații cu N-necunoscute (elementele lui β) care are o soluție unică atâta timp cât X este independent liniar. Dacă F este neliniară, este posibil să nu existe o soluție sau pot exista multe soluții.
  • Cea mai frecventă situație este în cazul în care există N > puncte către date. În acest caz, există suficiente informații în date pentru a estima valoarea unică pentru β care se potrivește cel mai bine datelor, iar modelul de regresie atunci când este aplicat datelor poate fi văzut ca un sistem suprascris în β.

În acest din urmă caz, analiza de regresie oferă instrumente pentru:

  • Găsirea unei soluții pentru parametrii necunoscuți β, care, de exemplu, va minimiza distanța dintre valoarea măsurată și cea prezisă a lui Y.
  • În anumite ipoteze statistice, analiza de regresie folosește excesul de informații pentru a furniza informații statistice despre parametrii necunoscuți β și valorile prezise ale variabilei dependente Y.

Numărul necesar de măsurători independente

Considerăm un model de regresie care are trei parametri necunoscuți: β 0 , β 1 și β 2 . Să presupunem că experimentatorul face 10 măsurători în aceeași valoare a variabilei independente a vectorului X. În acest caz, analiza de regresie nu dă un set unic de valori. Cel mai bun lucru pe care îl puteți face este să estimați media și abaterea standard a variabilei dependente Y. În mod similar, măsurând două valori diferite ale lui X, puteți obține suficiente date pentru o regresie cu două necunoscute, dar nu pentru trei sau mai multe necunoscute. .

Dacă măsurătorile experimentatorului ar fi luate la trei valori diferite ale variabilei vectoriale independente X, atunci analiza de regresie ar oferi un set unic de estimări pentru cei trei parametri necunoscuți în β.

În cazul regresiei liniare generale, afirmația de mai sus este echivalentă cu cerința ca matricea X T X să fie inversabilă.

Ipoteze statistice

Atunci când numărul de măsurători N este mai mare decât numărul de parametri necunoscuți k și erorile de măsurare ε i , atunci, de regulă, atunci excesul de informație conținut în măsurători este distribuit și utilizat pentru predicții statistice privind parametrii necunoscuți. Acest exces de informație se numește gradul de libertate al regresiei.

Ipotezele de bază

Ipotezele clasice pentru analiza de regresie includ:

  • Eșantionarea este reprezentativă pentru predicția prin inferență.
  • Eroarea este o variabilă aleatoare cu o valoare medie zero, care este condiționată de variabilele explicative.
  • Variabilele independente sunt măsurate fără erori.
  • Ca variabile independente (predictori), ele sunt liniar independente, adică nu este posibil să se exprime niciun predictor ca o combinație liniară a celorlalți.
  • Erorile sunt necorelate, adică matricea de covarianță a erorilor a diagonalelor și fiecare element diferit de zero este varianța erorii.
  • Varianța erorii este constantă între observații (homoscedasticitate). Dacă nu, atunci pot fi utilizate cele mai mici pătrate ponderate sau alte metode.

Aceste condiții suficiente pentru estimarea celor mai mici pătrate au proprietățile cerute, în special aceste ipoteze înseamnă că estimările parametrilor vor fi obiective, consistente și eficiente, mai ales atunci când sunt luate în considerare în clasa estimărilor liniare. Este important de reținut că datele reale rareori îndeplinesc condițiile. Adică, metoda este folosită chiar dacă ipotezele nu sunt corecte. Variația față de ipoteze poate fi uneori utilizată ca o măsură a cât de util este modelul. Multe dintre aceste ipoteze pot fi relaxate prin metode mai avansate. Rapoartele de analiză statistică includ în mod obișnuit analiza testelor în raport cu datele eșantionului și metodologia pentru utilitatea modelului.

În plus, variabilele în unele cazuri se referă la valori măsurate în locații punctuale. Pot exista tendințe spațiale și autocorelații spațiale în variabile care încalcă ipotezele statistice. Regresia ponderată geografică este singura metodă care se ocupă cu astfel de date.

În regresia liniară, caracteristica este că variabila dependentă, care este Y i , este o combinație liniară de parametri. De exemplu, în regresia liniară simplă, modelarea în n puncte utilizează o variabilă independentă, x i , și doi parametri, β 0 și β 1 .

În regresia liniară multiplă, există mai multe variabile independente sau funcțiile acestora.

Atunci când sunt eșantionate aleatoriu dintr-o populație, parametrii acesteia fac posibilă obținerea unui eșantion dintr-un model de regresie liniară.

Sub acest aspect, metoda celor mai mici pătrate este cea mai populară. Oferă estimări ale parametrilor care minimizează suma pătratelor reziduurilor. Acest tip de minimizare (care este tipică regresiei liniare) a acestei funcții conduce la un set de ecuații normale și un set de ecuații liniare cu parametri, care sunt rezolvate pentru a obține estimări ale parametrilor.

Presupunând în continuare că eroarea populației se propagă în general, cercetătorul poate folosi aceste estimări ale erorilor standard pentru a crea intervale de încredere și pentru a efectua testarea ipotezelor cu privire la parametrii săi.

Analiza de regresie neliniară

Un exemplu în care funcția nu este liniară în raport cu parametrii indică faptul că suma pătratelor ar trebui redusă la minimum printr-o procedură iterativă. Acest lucru introduce multe complicații care definesc diferențele dintre metodele liniare și neliniare ale celor mai mici pătrate. În consecință, rezultatele analizei de regresie atunci când se utilizează o metodă neliniară sunt uneori imprevizibile.

Calculul puterii și al mărimii eșantionului

Aici, de regulă, nu există metode consistente în ceea ce privește numărul de observații comparativ cu numărul de variabile independente din model. Prima regulă a fost propusă de Dobra și Hardin și arată ca N = t^n, unde N este dimensiunea eșantionului, n este numărul de variabile explicative și t este numărul de observații necesare pentru a obține acuratețea dorită dacă modelul ar fi avut doar o variabilă explicativă. De exemplu, un cercetător construiește un model de regresie liniară folosind un set de date care conține 1000 de pacienți (N). Dacă cercetătorul decide că sunt necesare cinci observații pentru a determina cu precizie linia (m), atunci numărul maxim de variabile explicative pe care modelul le poate suporta este 4.

Alte Metode

Deși parametrii unui model de regresie sunt de obicei estimați folosind metoda celor mai mici pătrate, există și alte metode care sunt utilizate mult mai rar. De exemplu, acestea sunt următoarele metode:

  • Metode bayesiene (de exemplu, metoda Bayesiană de regresie liniară).
  • O regresie procentuală utilizată pentru situațiile în care reducerea erorilor procentuale este considerată mai adecvată.
  • Cele mai mici abateri absolute, care este mai robustă în prezența valorilor aberante care conduc la regresia cuantilă.
  • Regresia neparametrică care necesită un număr mare de observații și calcule.
  • Distanța metricii de învățare care este învățată în căutarea unei metrici a distanței semnificative în spațiul de intrare dat.

Software

Toate pachetele software statistice majore sunt realizate folosind analiza de regresie cu cele mai mici pătrate. Regresia liniară simplă și analiza regresiei multiple pot fi utilizate în unele aplicații pentru foi de calcul, precum și în unele calculatoare. Deși multe pachete software statistice pot efectua diverse tipuri de regresie neparametrică și robustă, aceste metode sunt mai puțin standardizate; diferite pachete software implementează diferite metode. Software-ul specializat de regresie a fost dezvoltat pentru utilizare în domenii precum analiza de sondaj și neuroimagistică.

În prezența unei corelații între factor și semnele rezultate, medicii trebuie adesea să determine cu ce valoare se poate schimba valoarea unui semn atunci când altul este modificat printr-o unitate de măsură general acceptată sau stabilită de însuși cercetătorul.

De exemplu, cum se va schimba greutatea corporală a școlarilor din clasa I (fete sau băieți) dacă înălțimea lor crește cu 1 cm. În acest scop, se folosește metoda analizei regresiei.

Cel mai adesea, metoda analizei regresiei este utilizată pentru a dezvolta scale normative și standarde pentru dezvoltarea fizică.

  1. Definiţia regresion. Regresia este o funcție care permite, pe baza valorii medii a unui atribut, să se determine valoarea medie a altui atribut care este corelat cu primul.

    În acest scop, se utilizează coeficientul de regresie și o serie de alți parametri. De exemplu, puteți calcula numărul de răceli în medie la anumite valori ale temperaturii medii lunare a aerului în perioada toamnă-iarnă.

  2. Definirea coeficientului de regresie. Coeficientul de regresie este valoarea absolută cu care valoarea unui atribut se modifică în medie atunci când un alt atribut asociat acestuia se modifică cu o unitate de măsură specificată.
  3. Formula coeficientului de regresie. R y / x \u003d r xy x (σ y / σ x)
    unde R y / x - coeficient de regresie;
    r xy - coeficientul de corelație între caracteristicile x și y;
    (σ y și σ x) - abaterile standard ale caracteristicilor x și y.

    În exemplul nostru;
    σ x = 4,6 (abaterea standard a temperaturii aerului în perioada toamnă-iarnă;
    σ y = 8,65 (abaterea standard a numărului de răceli infecțioase).
    Astfel, R y/x este coeficientul de regresie.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, adică. cu o scădere a temperaturii medii lunare a aerului (x) cu 1 grad, numărul mediu de răceli infecțioase (y) în perioada toamnă-iarnă se va modifica cu 1,8 cazuri.

  4. Ecuația de regresie. y \u003d M y + R y / x (x - M x)
    unde y este valoarea medie a atributului, care ar trebui determinată atunci când valoarea medie a altui atribut (x) se modifică;
    x - valoarea medie cunoscută a unei alte caracteristici;
    R y/x - coeficient de regresie;
    M x, M y - valori medii cunoscute ale caracteristicilor x și y.

    De exemplu, numărul mediu de răceli infecțioase (y) poate fi determinat fără măsurători speciale la orice valoare medie a temperaturii medii lunare a aerului (x). Deci, dacă x \u003d - 9 °, R y / x \u003d 1,8 boli, M x \u003d -7 °, M y \u003d 20 boli, atunci y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 boli.
    Această ecuație se aplică în cazul unei relații drepte între două caracteristici (x și y).

  5. Scopul ecuației de regresie. Ecuația de regresie este utilizată pentru a reprezenta linia de regresie. Acesta din urmă permite, fără măsurători speciale, să se determine orice valoare medie (y) a unui atribut, dacă valoarea (x) a altui atribut se modifică. Pe baza acestor date, se construiește un grafic - linie de regresie, care poate fi folosit pentru a determina numărul mediu de răceli la orice valoare a temperaturii medii lunare în intervalul dintre valorile calculate ale numărului de răceli.
  6. Regresie sigma (formula).
    unde σ Ru/x - sigma (deviația standard) a regresiei;
    σ y este abaterea standard a caracteristicii y;
    r xy - coeficientul de corelație între caracteristicile x și y.

    Deci, dacă σ y este abaterea standard a numărului de răceli = 8,65; r xy - coeficientul de corelație dintre numărul de răceli (y) și temperatura medie lunară a aerului în perioada toamnă-iarnă (x) este - 0,96, atunci

  7. Scopul regresiei sigma. Oferă o caracteristică a măsurătorii diversităţii caracteristicii rezultate (y).

    De exemplu, caracterizează diversitatea numărului de răceli la o anumită valoare a temperaturii medii lunare a aerului în perioada toamnă-iarnă. Deci, numărul mediu de răceli la temperatura aerului x 1 \u003d -6 ° poate varia de la 15,78 boli la 20,62 boli.
    La x 2 = -9°, numărul mediu de răceli poate varia de la 21,18 boli la 26,02 boli etc.

    Regresia sigma este utilizată în construirea unei scări de regresie, care reflectă abaterea valorilor atributului efectiv de la valoarea medie a acestuia reprezentată pe linia de regresie.

  8. Date necesare pentru calcularea și reprezentarea grafică a scalei de regresie
    • coeficient de regresie - Ry/x;
    • ecuația de regresie - y \u003d M y + R y / x (x-M x);
    • regresie sigma - σ Rx/y
  9. Secvența de calcule și reprezentarea grafică a scalei de regresie.
    • determinați coeficientul de regresie prin formulă (vezi paragraful 3). De exemplu, ar trebui să se determine cât de mult se va schimba greutatea corporală în medie (la o anumită vârstă în funcție de sex) dacă înălțimea medie se schimbă cu 1 cm.
    • conform formulei ecuației de regresie (a se vedea paragraful 4), determinați care va fi media, de exemplu, greutatea corporală (y, y 2, y 3 ...) * pentru o anumită valoare de creștere (x, x 2, x 3 ...).
      ________________
      * Valoarea lui „y” trebuie calculată pentru cel puțin trei valori cunoscute ale lui „x”.

      În același timp, se cunosc valorile medii ale greutății corporale și ale înălțimii (M x și M y) pentru o anumită vârstă și sex.

    • calculați sigma regresiei, cunoscând valorile corespunzătoare ale σ y și r xy și substituind valorile acestora în formulă (a se vedea paragraful 6).
    • pe baza valorilor cunoscute x 1, x 2, x 3 și a valorilor medii corespunzătoare ale acestora y 1, y 2 y 3, precum și pe cele mai mici (y - σ ru / x) și mai mari (y + σ ru) / x) valorile (y) construiesc o scară de regresie.

      Pentru o reprezentare grafică a scării de regresie, valorile x, x 2 , x 3 (axa y) sunt mai întâi marcate pe grafic, adică. se construiește o linie de regresie, de exemplu, dependența greutății corporale (y) de înălțimea (x).

      Apoi, la punctele corespunzătoare y 1 , y 2 , y 3 sunt marcate valorile numerice ale sigma de regresie, adică. pe grafic găsiți cele mai mici și cele mai mari valori ale lui y 1 , y 2 , y 3 .

  10. Utilizarea practică a scalei de regresie. Se dezvoltă scale normative și standarde, în special pentru dezvoltarea fizică. Conform scalei standard, este posibil să se ofere o evaluare individuală a dezvoltării copiilor. În același timp, dezvoltarea fizică este evaluată ca fiind armonioasă dacă, de exemplu, la o anumită înălțime, greutatea corporală a copilului se află la o sigma de regresie la unitatea medie calculată de greutate corporală - (y) pentru o anumită înălțime (x) (y ± 1 σ Ry / x).

    Dezvoltarea fizică este considerată dizarmonică în ceea ce privește greutatea corporală dacă greutatea corporală a copilului pentru o anumită înălțime se află în a doua sigma de regresie: (y ± 2 σ Ry/x)

    Dezvoltarea fizică va fi puternic dizarmonică atât din cauza excesului, cât și a greutății corporale insuficiente, dacă greutatea corporală pentru o anumită înălțime se află în a treia sigma a regresiei (y ± 3 σ Ry/x).

Conform rezultatelor unui studiu statistic al dezvoltării fizice a băieților de 5 ani, se știe că înălțimea lor medie (x) este de 109 cm, iar greutatea corporală medie (y) este de 19 kg. Coeficientul de corelație între înălțime și greutatea corporală este de +0,9, abaterile standard sunt prezentate în tabel.

Necesar:

  • calculați coeficientul de regresie;
  • folosind ecuația de regresie, determinați care va fi greutatea corporală așteptată a băieților de 5 ani cu o înălțime egală cu x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calculați sigma de regresie, construiți o scală de regresie, prezentați grafic rezultatele soluției acesteia;
  • trage concluziile adecvate.

Starea problemei și rezultatele soluționării acesteia sunt prezentate în tabelul rezumativ.

tabelul 1

Condițiile problemei Rezultate rezolvarea problemei
ecuația de regresie regresie sigma scară de regresie (greutate corporală estimată (în kg))
M σ r xy R y/x X La σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Înălțime (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Greutatea corporală (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Soluţie.

Ieșire. Astfel, scala de regresie în cadrul valorilor calculate ale greutății corporale vă permite să o determinați pentru orice altă valoare de creștere sau să evaluați dezvoltarea individuală a copilului. Pentru a face acest lucru, restabiliți perpendiculara pe dreapta de regresie.

  1. Vlasov V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sănătate publică și asistență medicală. Manual pentru licee. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Yuriev V.K. Un curs de prelegeri despre sănătatea publică și îngrijirea sănătății: Partea 1. Sănătatea publică. - M.: Medicină, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. şi altele.Medicina socială şi organizarea sănătăţii (Ghid în 2 volume). - Sankt Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. şi altele.Igiena socială şi organizarea îngrijirii sănătăţii (Tutorial) - Moscova, 2000. - 432 p.
  6. S. Glantz. Statistica medico-biologică. Per din engleză. - M., Practică, 1998. - 459 p.

După ce analiza de corelație a evidențiat prezența relațiilor statistice între variabile și a evaluat gradul de strângere a acestora, se procedează de obicei la descrierea matematică a unui anumit tip de dependență folosind analiza de regresie. În acest scop, se selectează o clasă de funcții care leagă indicatorul efectiv y și se selectează argumentele x 1, x 2, ..., x la cele mai informative argumente, estimări ale valorilor necunoscute ale parametrilor legăturii se calculează ecuația și se analizează proprietățile ecuației rezultate.

Funcția f (x 1, x 2, ..., x k) care descrie dependența valorii medii a caracteristicii efective y de valorile date ale argumentelor se numește funcție de regresie (ecuație). Termenul de „regresie” (lat. - regresie - retragere, întoarcere la ceva) a fost introdus de psihologul și antropologul englez F. Galton și este asociat exclusiv cu specificul unuia dintre primele exemple concrete în care a fost folosit acest concept. Deci, procesând datele statistice în legătură cu analiza eredității creșterii, F. Galton a descoperit că, dacă tații se abat de la înălțimea medie a tuturor taților cu x inci, atunci fiii lor se abat de la înălțimea medie a tuturor fiilor cu mai puțin de x inci. Tendința dezvăluită a fost numită „regresie la starea medie”. De atunci, termenul de „regresie” a fost utilizat pe scară largă în literatura statistică, deși în multe cazuri nu caracterizează cu acuratețe conceptul de dependență statistică.

Pentru o descriere exactă a ecuației de regresie este necesară cunoașterea legii de distribuție a indicatorului efectiv y. În practica statistică, de obicei, trebuie să ne limităm la căutarea aproximărilor adecvate pentru funcția de regresie adevărată necunoscută, deoarece cercetătorul nu are cunoștințe exacte despre legea condiționată a distribuției de probabilitate a indicatorului de rezultat analizat y pentru valori date. a argumentului x.

Luați în considerare relația dintre f(x) = M(y1x), regresia modelului? și scorul y al regresiei. Fie ca indicatorul efectiv y să fie legat de argumentul x prin raportul:

unde - e este o variabilă aleatorie având o lege de distribuție normală, cu Me \u003d 0 și D e \u003d y 2. Funcția de regresie adevărată în acest caz este: f(x) = M(y/x) = 2x 1,5.

Să presupunem că nu cunoaștem forma exactă a ecuației de regresie adevărată, dar avem nouă observații asupra unei variabile aleatoare bidimensionale legate de raportul yi = 2x1,5 + e și prezentate în Fig. unu

Figura 1 - Aranjamentul reciproc al adevărului f (x) și teoretic? modele de regresie

Localizarea punctelor din fig. 1 vă permite să vă limitați la clasa de dependențe liniare a formei? = la 0 + la 1 x. Folosind metoda celor mai mici pătrate, găsim o estimare a ecuației de regresie y = b 0 +b 1 x. Pentru comparație, în fig. 1 prezintă grafice ale funcției de regresie adevărată y \u003d 2x 1,5, funcția de regresie de aproximare teoretică? = la 0 + la 1 x .

Deoarece am făcut o greșeală în alegerea clasei funcției de regresie, iar acest lucru este destul de comun în practica cercetării statistice, concluziile și estimările noastre statistice se vor dovedi a fi eronate. Și indiferent cât de mult am crește volumul de observații, estimarea eșantionului nostru pentru y nu va fi aproape de adevărata funcție de regresie f(x). Dacă am ales corect clasa de funcții de regresie, atunci inexactitatea în descrierea lui f (x) folosind? ar putea fi explicată doar prin dimensiunea limitată a eșantionului.

Pentru a restabili cel mai bine valoarea condiționată a indicatorului efectiv y(x) și a funcției de regresie necunoscută f(x) = M(y/x) din datele statistice inițiale, se folosesc cel mai des următoarele criterii de adecvare (funcții de pierdere). .

Metoda celor mai mici pătrate. Potrivit acesteia, abaterea pătrată a valorilor observate ale indicatorului efectiv y, (i = 1,2,..., n) de la valorile modelului, este minimizată. = f(x i), unde x i este valoarea vectorului de argumente din a-a observație:

Metoda celor mai puține module. Potrivit acestuia, suma abaterilor absolute ale valorilor observate ale indicatorului efectiv de la valorile modulare este minimizată. Și primim = f(x i), regresie mediană absolută medie? |y i - f(х i)| >min.

Analiza de regresie este o metodă de analiză statistică a dependenței unei variabile aleatoare y de variabilele xj = (j = 1,2, ..., k), considerate în analiza regresiei ca variabile nealeatoare, indiferent de legea distribuției adevărate. x j.

De obicei, se presupune că variabila aleatoare y are o lege de distribuție normală cu o așteptare matematică condiționată y, care este o funcție a argumentelor x/ (/ = 1, 2, ..., k) și o constantă, independentă de argumente, varianță y 2 .

În general, modelul liniar al analizei regresiei are forma:

Y = Y k j=0în j c j(X 1 , X 2 . . .. ,X k)+E

unde c j este o funcție a variabilelor sale - x 1 , x 2 . . .. ,x k , E este o variabilă aleatoare cu așteptare matematică zero și varianță y 2 .

În analiza de regresie, tipul de ecuație de regresie este ales pe baza naturii fizice a fenomenului studiat și a rezultatelor observației.

Estimările parametrilor necunoscuți ai ecuației de regresie sunt de obicei găsite prin metoda celor mai mici pătrate. Mai jos ne vom opri asupra acestei probleme mai detaliat.

Ecuație de regresie liniară bidimensională. Fie, pe baza analizei fenomenului studiat, se presupune că în „medie” y are o funcție liniară a lui x, adică există o ecuație de regresie

y \u003d M (y / x) \u003d la 0 + la 1 x)

unde M(y1x) este așteptarea matematică condiționată a unei variabile aleatoare y pentru un x dat; la 0 și la 1 - parametri necunoscuți ai populației generale, care ar trebui estimați din rezultatele observațiilor eșantionului.

Să presupunem că pentru a estima parametrii la 0 și la 1, un eșantion de dimensiunea n este luat dintr-o populație generală bidimensională (x, y), unde (x, y,) este rezultatul observației i-a (i = 1, 2,..., n) . În acest caz, modelul de analiză de regresie are forma:

y j = la 0 + la 1 x+e j .

unde e j .- variabile aleatoare independente distribuite normal cu așteptări matematice zero și varianță y 2 , adică M e j . = 0;

D e j .= y 2 pentru tot i = 1, 2,..., n.

Conform metodei celor mai mici pătrate, ca estimări ale parametrilor necunoscuți la 0 și la 1, ar trebui luate astfel de valori ale caracteristicilor eșantionului b 0 și b 1 care să minimizeze suma abaterilor pătrate a valorilor rezultatelor. caracteristica yi din așteptarea matematică condiționată? i

Vom lua în considerare metodologia de determinare a influenței caracteristicilor de marketing asupra profitului unei întreprinderi folosind exemplul a șaptesprezece întreprinderi tipice cu dimensiuni medii și indicatori ai activității economice.

La rezolvarea problemei au fost luate în considerare următoarele caracteristici, identificate ca fiind cele mai semnificative (importante) în urma unui sondaj prin chestionar:

* activitatea inovatoare a întreprinderii;

* planificarea gamei de produse;

* formarea politicii de prețuri;

* relatii publice;

* sistem de marketing;

* sistem de stimulare a angajaților.

Pe baza unui sistem de comparații pe factori, s-au construit matrici pătrate de adiacență, în care s-au calculat valorile priorităților relative pentru fiecare factor: activitatea inovatoare a întreprinderii, planificarea gamei de produse, politica de prețuri, publicitate, relații publice, sistem de vânzări, sistem de stimulare a angajaților.

Estimări de priorități în ceea ce privește factorul „relația cu publicul” au fost obținute în urma unui sondaj efectuat de specialiștii companiei. Sunt acceptate următoarele denumiri: > (mai bine), > (mai bine sau la fel), = (egal),< (хуже или одинаково), <

În continuare, a fost rezolvată problema unei evaluări cuprinzătoare a nivelului de marketing al întreprinderii. La calcularea indicatorului a fost determinată semnificația (ponderea) caracteristicilor particulare considerate și a fost rezolvată problema convoluției liniare a anumitor indicatori. Prelucrarea datelor s-a realizat conform unor programe special dezvoltate.

În continuare, se calculează o evaluare cuprinzătoare a nivelului de marketing al întreprinderii - coeficientul de marketing, care este înscris în tabelul 1. În plus, tabelul de mai sus include indicatori care caracterizează întreprinderea în ansamblu. Datele din tabel vor fi folosite pentru analiza de regresie. Rezultatul este profitul. Alături de coeficientul de marketing au fost utilizați ca semne factoriale următorii indicatori: volumul producției brute, costul mijloacelor fixe, numărul de angajați, coeficientul de specializare.

Tabelul 1 - Date inițiale pentru analiza de regresie


Pe baza datelor din tabel și pe baza factorilor cu cele mai semnificative valori ale coeficienților de corelație, au fost construite funcții de regresie ale dependenței profitului de factori.

Ecuația de regresie în cazul nostru va lua forma:

Coeficienții ecuației de regresie vorbesc despre influența cantitativă a factorilor discutați mai sus asupra mărimii profitului. Ele arată câte mii de ruble se schimbă valoarea sa atunci când semnul factorului se modifică cu o unitate. După cum rezultă din ecuație, o creștere a raportului mixului de marketing cu o unitate dă o creștere a profitului cu 1547,7 mii de ruble. Acest lucru sugerează că există un potențial imens de îmbunătățire a performanței economice a întreprinderilor în îmbunătățirea activităților de marketing.

În studiul eficacității marketingului, cea mai interesantă și importantă caracteristică a factorului este factorul X5 - coeficientul de marketing. În conformitate cu teoria statisticii, avantajul ecuației de regresie multiplă existentă este capacitatea de a evalua influența izolată a fiecărui factor, inclusiv a factorului de marketing.

Rezultatele analizei de regresie efectuate sunt de asemenea utilizate mai pe scară largă decât pentru calcularea parametrilor ecuației. Criteriul de clasificare a întreprinderilor (Kef,) ca fiind relativ mai bune sau relativ mai proaste se bazează pe un indicator de performanță relativă:

unde Y facti este valoarea reală a întreprinderii i-a, mii de ruble;

Y calculat - valoarea profitului intreprinderii i-a, obtinuta prin calcul conform ecuatiei de regresie

În ceea ce privește problema care se rezolvă, valoarea se numește „factorul de eficiență”. Activitatea întreprinderii poate fi considerată eficientă în cazurile în care valoarea coeficientului este mai mare de unu. Aceasta înseamnă că profitul real este mai mare decât profitul mediat pe eșantion.

Valorile profitului efectiv și calculat sunt prezentate în tabel. 2.

Tabelul 2 - Analiza caracteristicii efective în modelul de regresie

Analiza tabelului arată că, în cazul nostru, activitățile întreprinderilor 3, 5, 7, 9, 12, 14, 15, 17 pentru perioada analizată pot fi considerate de succes.

Scopul principal al analizei de regresie constă în determinarea formei analitice a relației, în care modificarea atributului rezultat se datorează influenței unuia sau mai multor semne factori, iar ansamblul tuturor celorlalți factori care afectează și atributul rezultat este luat ca valori constante și medii. .
Sarcini de analiză de regresie:
a) Stabilirea formei de dependenţă. În ceea ce privește natura și forma relației dintre fenomene, există regresii liniare pozitive și neliniare și regresii liniare și neliniare negative.
b) Definirea functiei de regresie sub forma unei ecuatii matematice de un tip sau altul si stabilirea influentei variabilelor explicative asupra variabilei dependente.
c) Estimarea valorilor necunoscute ale variabilei dependente. Folosind funcția de regresie, puteți reproduce valorile variabilei dependente în intervalul de valori date ale variabilelor explicative (adică, rezolvați problema de interpolare) sau puteți evalua cursul procesului în afara intervalului specificat (adică, rezolva problema extrapolării). Rezultatul este o estimare a valorii variabilei dependente.

Regresia perechi - ecuația relației dintre două variabile y și x: y=f(x), unde y este variabila dependentă (semnul rezultat); x - variabilă independentă, explicativă (factor-trăsătură).

Există regresii liniare și neliniare.
Regresia liniară: y = a + bx + ε
Regresiile neliniare sunt împărțite în două clase: regresiile care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați și regresiile care sunt neliniare în raport cu parametrii estimați.
Regresii care sunt neliniare în variabilele explicative:

Regresii care sunt neliniare în parametrii estimați:

  • puterea y=a x b ε
  • exponențial y=a b x ε
  • exponenţial y=e a+b x ε
Construcția ecuației de regresie se reduce la estimarea parametrilor acesteia. Pentru a estima parametrii regresiilor care sunt liniari în parametri, se utilizează metoda celor mai mici pătrate (LSM). LSM face posibilă obținerea unor astfel de estimări ale parametrilor pentru care suma abaterilor pătrate ale valorilor reale ale caracteristicii efective y față de valorile teoretice y x este minimă, adică.
.
Pentru ecuațiile liniare și neliniare reductibile la liniare, următorul sistem este rezolvat pentru a și b:

Puteți folosi formule gata făcute care decurg din acest sistem:

Apropierea conexiunii dintre fenomenele studiate este estimată prin coeficientul de corelație liniară pereche r xy pentru regresia liniară (-1≤r xy ≤1):

și indicele de corelație p xy - pentru regresia neliniară (0≤p xy ≤1):

O evaluare a calității modelului construit va fi dată de coeficientul (indicele) de determinare, precum și de eroarea medie de aproximare.
Eroarea medie de aproximare este abaterea medie a valorilor calculate de la cele reale:
.
Limita admisibilă a valorilor A - nu mai mult de 8-10%.
Coeficientul mediu de elasticitate E arată câte procente în medie se va schimba rezultatul y față de valoarea sa medie atunci când factorul x se modifică cu 1% față de valoarea sa medie:
.

Sarcina analizei varianței este de a analiza varianța variabilei dependente:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
unde ∑(y-y)² este suma totală a abaterilor pătrate;
∑(y x -y)² - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y-y x)² - suma reziduală a abaterilor pătrate.
Ponderea varianței explicată prin regresie în varianța totală a caracteristicii efective y este caracterizată de coeficientul (indicele) de determinare R2:

Coeficientul de determinare este pătratul coeficientului sau indicelui de corelație.

F-test - evaluarea calității ecuației de regresie - constă în testarea ipotezei Dar despre nesemnificația statistică a ecuației de regresie și a indicatorului de apropiere a conexiunii. Pentru aceasta, se realizează o comparație a faptului F real și a tabelului F critic (tabelar) al valorilor criteriului F Fisher. Faptul F este determinat din raportul dintre valorile variațiilor factoriale și reziduale calculate pentru un grad de libertate:
,
unde n este numărul de unități de populație; m este numărul de parametri pentru variabilele x.
Tabelul F este valoarea maximă posibilă a criteriului sub influența unor factori aleatori pentru grade date de libertate și nivelul de semnificație a. Nivelul de semnificație a - probabilitatea de a respinge ipoteza corectă, cu condiția ca aceasta să fie adevărată. De obicei, a este luat egal cu 0,05 sau 0,01.
Dacă tabelul F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F este un fapt, atunci ipoteza H despre nu este respinsă și se recunoaște nesemnificația statistică, nefiabilitatea ecuației de regresie.
Pentru a evalua semnificația statistică a coeficienților de regresie și corelație, se calculează testul t Student și intervalele de încredere pentru fiecare dintre indicatori. Este înaintată o ipoteză H despre natura aleatorie a indicatorilor, adică. despre diferența lor nesemnificativă față de zero. Evaluarea semnificației coeficienților de regresie și corelație cu ajutorul testului t Student se realizează prin compararea valorilor acestora cu mărimea erorii aleatoare:
; ; .
Erorile aleatorii ale parametrilor de regresie liniară și ale coeficientului de corelație sunt determinate de formulele:



Comparând valorile reale și critice (tabulare) ale statisticilor t - t tabl și t fapt - acceptăm sau respingem ipoteza H o.
Relația dintre testul F al lui Fisher și statisticile t ale lui Student este exprimată prin egalitate

Dacă t tabelul< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t faptul că ipoteza H despre nu este respinsă și se recunoaște natura aleatorie a formării lui a, b sau r xy.
Pentru a calcula intervalul de încredere, determinăm eroarea marginală D pentru fiecare indicator:
Δ a =t tabel m a , Δ b =t tabel m b .
Formulele pentru calcularea intervalelor de încredere sunt următoarele:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; y b = b-Δ b; yb =b+Δb
Dacă zero se încadrează în limitele intervalului de încredere, i.e. Dacă limita inferioară este negativă și limita superioară este pozitivă, atunci parametrul estimat se presupune a fi zero, deoarece nu poate prelua simultan atât valori pozitive, cât și negative.
Valoarea prognozată y p este determinată prin înlocuirea valorii corespunzătoare (prognoză) x p în ecuația de regresie y x =a+b·x . Eroarea standard medie a prognozei m y x se calculează:
,
Unde
iar intervalul de încredere al prognozei este construit:
γ y x =y p Δ y p ; y y x min=y p -Δ y p; γ y x max=y p +Δ y p
unde Δ y x =t tabel ·m y x .

Exemplu de soluție

Sarcina numărul 1. Pentru șapte teritorii ale regiunii Ural Pentru 199X, sunt cunoscute valorile a două semne.
Tabelul 1.

Necesar: 1. Pentru a caracteriza dependența lui y de x, calculați parametrii următoarelor funcții:
a) liniară;
b) legea puterii (anterior este necesară efectuarea procedurii de liniarizare a variabilelor prin luarea logaritmului ambelor părți);
c) demonstrativ;
d) hiperbola echilaterală (de asemenea, trebuie să vă dați seama cum să pre-linearizați acest model).
2. Evaluați fiecare model prin eroarea medie de aproximare A și testul F Fisher.

Soluție (opțiunea #1)

Pentru a calcula parametrii a și b ai regresiei liniare y=a+b·x (calculul se poate face folosind un calculator).
rezolva sistemul de ecuații normale în raport cu darȘi b:
Pe baza datelor inițiale, calculăm ∑y, ∑x, ∑y x, ∑x², ∑y²:
y X yx x2 y2 y xy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
mier valoare (Total/n)57,89
y
54,90
X
3166,05
X y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Ecuația de regresie: y= 76,88 - 0,35X. Cu o creștere a salariului mediu zilnic cu 1 rub. ponderea cheltuielilor cu achiziționarea de produse alimentare se reduce în medie cu 0,35% puncte.
Calculați coeficientul liniar al corelației perechilor:

Comunicarea este moderată, inversă.
Să determinăm coeficientul de determinare: r² xy =(-0,35)=0,127
Variația de 12,7% a rezultatului se explică prin variația factorului x. Înlocuirea valorilor reale în ecuația de regresie X, determinăm valorile teoretice (calculate) ale lui y x . Să găsim valoarea erorii medii de aproximare A:

În medie, valorile calculate se abat de la cele reale cu 8,1%.
Să calculăm criteriul F:

Valoarea obținută indică necesitatea acceptării ipotezei H 0 despre natura aleatorie a dependenței relevate și nesemnificația statistică a parametrilor ecuației și a indicatorului de apropiere a conexiunii.
1b. Construcția modelului de putere y=a x b este precedată de procedura de liniarizare a variabilelor. În exemplu, liniarizarea se face luând logaritmul ambelor părți ale ecuației:
lg y=lg a + b lg x
Y=C+b Y
unde Y=lg(y), X=lg(x), C=lg(a).

Pentru calcule, folosim datele din tabel. 1.3.
Tabelul 1.3

YX YX Y2 x2 y xy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Rău1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Calculați C și b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Obținem o ecuație liniară: Y=2,278-0,298 X
După potențarea acestuia, obținem: y=10 2,278 x -0,298
Inlocuind in aceasta ecuatie valorile reale X, obținem valorile teoretice ale rezultatului. Pe baza acestora, calculăm indicatorii: etanșeitatea conexiunii - indicele de corelație p xy și eroarea medie de aproximare A .

Caracteristicile modelului de putere indică faptul că acesta descrie relația ceva mai bine decât funcția liniară.

1c. Construcția ecuației curbei exponențiale y \u003d a b x este precedată de procedura de liniarizare a variabilelor la luarea logaritmului ambelor părți ale ecuației:
lg y=lg a + x lg b
Y=C+B x
Pentru calcule, folosim datele din tabel.

YX Yx Y2 x2y xy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
mier zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Valorile parametrilor de regresie A și ÎN se ridica la:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Se obține o ecuație liniară: Y=1,887-0,0023x. Potențim ecuația rezultată și o scriem în forma obișnuită:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Estimăm strângerea relației prin indicele de corelație p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Rău57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX