Câmpurile de corelație și utilizarea lor în analiza preliminară a corelației.

Câmpul de corelație servește ca reprezentare vizuală a tabelului de corelație. Este un grafic în care valorile X sunt reprezentate pe axa absciselor, valorile Y sunt reprezentate de-a lungul axei ordonatelor, iar combinațiile de X și Y sunt afișate prin puncte.Prezența unei conexiuni poate fi judecată după locația punctele.

Folosind metoda grafică.

Această metodă este utilizată pentru vizualizarea formei de comunicare între indicatorii economici studiați. Pentru a face acest lucru, un grafic este construit într-un sistem de coordonate dreptunghiular, valorile individuale ale atributului rezultat Y sunt trasate de-a lungul axei ordonatelor, iar valorile individuale ale atributului factorului X sunt reprezentate de-a lungul axei absciselor.

Setul de puncte ale caracteristicilor efective și factoriale se numește câmp de corelație.

Pe baza câmpului de corelație, se poate emite ipoteza (pentru populația generală) că relația dintre toate valorile posibile ale lui X și Y este liniară.

Ecuația de regresie liniară este y = bx + a + ε

Aici ε este o eroare aleatorie (abatere, perturbare).

Motive pentru existența unei erori aleatorii:

1. Neincluderea variabilelor explicative semnificative în modelul de regresie;

2. Agregarea variabilelor. De exemplu, funcția de consum total este o încercare de exprimare generală a totalității deciziilor individuale de cheltuieli ale indivizilor. Aceasta este doar o aproximare a relațiilor individuale care au parametri diferiți.

3. Descrierea incorectă a structurii modelului;

4. Specificație funcțională greșită;

21. Analiza corelației și regresiei.

Analiza corelației-regresiune ca concept general include măsurarea etanșeității și direcției conexiunii și stabilirea expresiei (formei) analitice a conexiunii (analiza de regresie).

Scopul analizei de regresie este de a evalua dependența funcțională a valorii medii condiționate a atributului efectiv (Y) față de cele factoriale (x1, x2, ..., xk).

Ecuația de regresie, sau un model statistic al relației dintre fenomenele socio-economice, este exprimată prin funcția:

Yx = f(x1, x2, …, xn),

unde „n” este numărul de factori incluși în model;

Xi - factori care influențează rezultatul Y.

Etapele analizei de corelare și regresie:

Analiză preliminară (a priori). Dă rezultate bune dacă este realizat de un cercetător suficient de calificat.

Colectarea informațiilor și prelucrarea ei primară.

Construirea unui model (ecuații de regresie). De regulă, această procedură este efectuată pe un computer folosind programe standard.

Evaluarea strângerii relațiilor de trăsături, evaluarea ecuației de regresie și analiza modelului.

Prognoza evoluției sistemului analizat conform ecuației de regresie.

În prima etapă, se formulează sarcina studiului, se determină metodologia de măsurare a indicatorilor sau de colectare a informațiilor, se determină numărul de factori, se exclud factorii duplicați sau se leagă într-un sistem rigid determinist.

În a doua etapă se analizează volumul unităților: populația trebuie să fie suficient de mare ca număr de unități și observații (N>>50), numărul de factori „n” trebuie să corespundă numărului de observații „N”. ”. Datele trebuie să fie omogene din punct de vedere cantitativ și calitativ.

La a treia etapă se determină forma conexiunii și tipul funcției analitice (parabolă, hiperbolă, linie dreaptă) și se găsesc parametrii acesteia.

La a patra etapă se evaluează fiabilitatea tuturor caracteristicilor relației de corelație și a ecuației de regresie folosind criteriul de fiabilitate Fisher sau Student și se realizează o analiză economică și tehnologică a parametrilor.

În a cincea etapă, prognoza valorilor posibile ale rezultatelor se realizează în funcție de cele mai bune valori ale caracteristicilor factorilor incluse în model. Aici sunt selectate cele mai bune și cele mai proaste valori ale factorilor și rezultatul.

22. Tipuri de ecuații de regresie.

Pentru o descriere cantitativă a relației dintre variabilele economice din statistică se folosesc metode de regresie și corelare.

Regresia este o valoare care exprimă dependența valorii medii a unei variabile aleatoare y de valorile unei variabile aleatoare x.

Ecuația de regresie exprimă valoarea medie a unei caracteristici în funcție de alta.

Funcția de regresie este un model de forma y \u003d l ”, unde y este variabila dependentă (semnul rezultat); x este o variabilă independentă sau explicativă (factor-semn).

Linia de regresie este un grafic al funcției y \u003d f (x).

2 tipuri de relații între x și y:

1) este posibil să nu se știe care dintre cele două variabile este independentă și care este dependentă, variabilele sunt egale, aceasta este o relație de tip corelație;

2) dacă x și y nu sunt egale și una dintre ele este considerată ca o variabilă explicativă (independentă), iar cealaltă ca fiind dependentă, atunci aceasta este o relație de tip regresie.

Tipuri de regresii:

1) hiperbolic - regresia unei hiperbole echilaterale: y \u003d a + b / x + E;

2) liniar - regresie utilizată în statistică sub forma unei interpretări economice clare a parametrilor săi: y \u003d a + b * x + E;

3) liniar logaritmic - regresia formei: În y \u003d În a + b * În x + În E

4) multiplu - regresie între variabilele y și x1, x2 ... xm, adică model de formă: y \u003d f (x1, x2 ... xm) + E, unde y este o variabilă dependentă (semnul efectiv), x1 , х2 ...xm - variabile independente, explicative (semne-factori), Е - variabilă de perturbare sau stocastică, inclusiv influența factorilor necontabilizați în model;

5) neliniară - regresie, neliniară față de variabilele explicative incluse în analiză, dar lineară față de parametrii estimați; sau regresie care este neliniară în parametrii estimați.

6) inversă - regresie redusă la o formă liniară, implementată în pachete de aplicații standard de forma: y \u003d 1 / a + b * x + E;

    pereche - regresie între două variabile y și x, adică un model de forma: y \u003d f (x) + E, unde y este o variabilă dependentă (trăsătură eficientă), x este o variabilă independentă, explicativă (caracteristică - factor ), E - perturbare sau o variabilă stocastică care include influența factorilor necontabiliați în model.

    Serii de dinamică și tipurile lor

O serie temporală constă întotdeauna din 2 elemente: 1) un punct de timp sau o perioadă de timp în raport cu care sunt date date statistice, 2) un indicator statistic, care se numește nivelul seriei temporale.

În funcție de conținutul indicatorului de timp, seriile de dinamică sunt de moment sau interval

În funcție de tipul de indicator statistic, seriile dinamice sunt împărțite în serii de valori absolute, relative și medii.

Afișează valorile absolute exacte

Cele relative arată modificarea proporțiilor indicatorului în populația totală

Valorile medii conțin despre schimbarea în timp a indicatorului, care este nivelul mediu al fenomenului

    Indicatori ai unei serii de dinamici. Nivelul mediu al gamei de dinamică.

Indicatori: 1) nivelul mediu al seriei dinamice, 2) creștere absolută, în lanț și de bază, creștere medie absolută, 3) rate de creștere și creștere, în lanț și de bază, creștere medie și rata de creștere, 4) valori fmcjk.nyst ​​1 % crește

Dinamica medie

Caracteristicile generalizate ale unei serii de dinamici, cu ajutorul lor, compară intensitatea dezvoltării fenomenului în raport cu diferite obiecte, de exemplu, pe țară, industrie, întreprindere

Nivel mediu la momentul actual yi. Metoda de calcul a nivelului mediu depinde de tipul seriei (instantanee / interval) (cu intervale egale / diferite). Dacă o serie de intervale de dinamică a valorilor absolute sau medii este dată cu intervale de timp egale, atunci formula pentru calcularea mediei simple este utilizată pentru a calcula nivelul mediu. Dacă intervalele de timp ale seriei de intervale sunt inegale, atunci nivelul mediu este găsit prin media ponderată aritmetică. Usr=smmUi*Ti/smmTi

25. Creștere absolută(delta și) este diferența dintre două niveluri ale seriei dinamice, care arată cât de mult acest nivel al seriei depășește nivelul luat ca bază de comparație. Delta U=Ui-U0

Delta U=Ui-Ui-1

Accelerație absolută- diferența dintre creșterea absolută pentru perioada dată și creșterea absolută pentru perioada anterioară de aceeași durată: Delta și cu o bară=delta și - delta și-1. Accelerația absolută arată cât de mult a crescut (a scăzut) rata de schimbare a indicatorului. Indicatorul de accelerație este utilizat pentru câștigurile absolute în lanț. O valoare negativă a accelerației indică o încetinire a creșterii sau o accelerare a scăderii nivelurilor seriei.

    Indicatori ai schimbării relative a nivelurilor unei serii de dinamici.

Factorul de creștere (rata de creștere)- acesta este raportul a două niveluri comparate, care arată de câte ori acest nivel depășește nivelul perioadei de bază. Acesta reflectă intensitatea modificărilor nivelurilor unei serii de dinamică și arată de câte ori a crescut nivelul față de nivelul de bază, iar în cazul unei scăderi, ce parte a nivelului de bază este nivelul comparat.

Formula factorului de creștere: în comparație cu o bază constantă: Ki i .=y i /y 0 , în comparație cu o bază variabilă: K i .=y i /y i -1 .

Rata de crestere este rata de creștere, exprimată ca procent:

T R = La 100 %.

Ratele de creștere pentru orice serie de timp sunt indicatori de interval, de exemplu. caracterizează o anumită perioadă (interval) de timp.

Rata de crestere- valoarea relativă a creșterii, adică raportul dintre creșterea absolută și nivelul anterior sau de bază. Caracterizează prin ce procent nivelul perioadei date este mai mare (sau mai mic) decât nivelul de bază.

Rata de crestere- raportul dintre creșterea absolută și nivelul luat ca bază de comparație:

Tpr \u003d Ui-U0 / U0 * 100%

Rata de crestere- diferența dintre rata de creștere (în procente) și 100,

Vei avea nevoie

  • - serii de distribuţie a variabilei dependente şi independente;
  • - hartie, creion;
  • - Calculatoare și software pentru foi de calcul.

Instruire

Alegeți două care credeți că au o relație, de obicei iau , care se schimbă în timp. Rețineți că una dintre variabile trebuie să fie independentă, va acționa ca o cauză. Al doilea ar trebui să se schimbe odată cu el - să scadă, să crească sau să se schimbe aleatoriu.

Măsurați valoarea variabilei dependente pentru fiecare variabilă independentă. Înregistrați rezultatele într-un tabel, pe două rânduri sau două coloane. Sunt necesare cel puțin 30 de citiri pentru a detecta o conexiune, dar pentru un rezultat mai precis, aveți grijă să aveți cel puțin 100 de puncte.

Construiți un plan de coordonate, în timp ce trasați valorile variabilei dependente pe axa ordonatelor și ale variabilei independente pe axa absciselor. Semnează axele și indică unitățile de măsură pentru fiecare indicator.

Marcați punctele câmpului de corelație pe grafic. Pe axa x, găsiți prima valoare a variabilei independente, iar pe axa y, găsiți valoarea corespunzătoare a variabilei dependente. Construiți perpendiculare pe aceste proiecții și găsiți primul punct. Marcați-l, încercuiți-l cu un creion sau un stilou moale. Construiți toate celelalte puncte în același mod.

Setul de puncte rezultat se numește corelație camp. Analizați graficul rezultat, trageți concluzii despre prezența unei relații cauzale puternice sau slabe sau absența acesteia.

Acordați atenție abaterilor aleatorii de la program. Dacă, în general, este urmărită o dependență liniară sau de altă natură, dar întreaga „imagine” este stricat de unul sau două puncte care se află pe marginea populației totale, acestea pot fi erori aleatorii și nu sunt luate în considerare la interpretarea graficului .

Dacă trebuie să construiți și să analizați un câmp corelații Pentru cantități mari de date, utilizați un program de calcul tabelar, cum ar fi Excel, sau cumpărați un software special.

Relația mai multor mărimi, în timpul căreia o modificare a uneia duce la o modificare a restului, se numește corelație. Poate fi simplu, multiplu sau parțial. Acest concept este acceptat nu numai în matematică, ci și în biologie.

Cuvânt corelație derivat din latinescul corelatio, relație. Toate fenomenele, evenimentele și obiectele, precum și cantitățile care le caracterizează, sunt interconectate. Dependența de corelație diferă de cea funcțională prin aceea că, în acest tip de dependență, orice poate fi măsurată doar în medie, aproximativ Dependența de corelație presupune că o valoare variabilă corespunde modificărilor unei valori independente doar cu un anumit grad de probabilitate. Gradul de dependență se numește coeficient de corelație. Conceptul de corelație este raportul dintre structura și funcțiile părților individuale ale corpului. Destul de des, conceptul corelație utilizați statistici. În statistică, aceasta este relația dintre mărimile statistice, serii și grupuri. Pentru a determina prezența sau absența sau prezența unei corelații, se folosește o metodă specială. Metoda corelației este utilizată pentru a determina direct sau invers al modificărilor numerelor din seriile care sunt comparate. Când este găsit, atunci măsura în sine sau gradul de paralelism. Dar factorii cauzali interni nu se găsesc în acest fel. Sarcina principală a statisticii ca știință este de a descoperi astfel de dependențe cauzale pentru alte științe.În formă, o corelație poate fi liniară sau neliniară, pozitivă sau negativă. Când una dintre variabile crește sau scade, și cealaltă crește sau scade, atunci relația este liniară. Dacă, atunci când se schimbă o cantitate, natura modificărilor în cealaltă este neliniară, atunci aceasta corelație neliniar.Pozitiv corelație este considerată atunci când o creștere a nivelului unei cantități este însoțită de o creștere a nivelului alteia. De exemplu, atunci când o creștere a sunetului este însoțită de o senzație de creștere a tonului său.O corelație, atunci când o creștere a nivelului unei variabile este însoțită de o scădere a nivelului alteia, se numește negativă. În comunități, un nivel crescut de anxietate al unui individ duce la o scădere a probabilității ca acest individ să ocupe o nișă dominantă în rândul colegilor. Când nu există nicio legătură între variabile, corelație se numeste zero.

Videoclipuri similare

Surse:

  • Corelație neliniară în 2019

Corelația este dependența reciprocă a două variabile aleatoare (mai des - două grupuri de variabile), în care o modificare a uneia dintre ele duce la o schimbare a celeilalte. Coeficientul de corelație arată cât de probabilă este modificarea celei de-a doua valori atunci când se modifică valorile primei, adică. gradul de dependență. Cel mai simplu mod de a calcula această valoare este să utilizați funcția corespunzătoare încorporată în editorul de foi de calcul Microsoft Office Excel.

Vei avea nevoie

  • Editor de foi de calcul Microsoft Office Excel.

Instruire

Porniți Excel și deschideți un document care conține grupurile de date al căror coeficient de corelație doriți să îl calculați. Dacă un astfel de document nu a fost încă creat, atunci introduceți datele în - editorul de foi de calcul le creează automat când pornește programul. Introduceți fiecare dintre grupurile de valori, corelația dintre care vă interesează, introduceți într-o coloană separată. Acestea nu trebuie să fie coloane adiacente, sunteți liber să aranjați tabelul în modul cel mai convenabil - adăugați coloane suplimentare cu explicații la date, titluri de coloane, celule totale cu valori totale sau medii etc. Puteți chiar aranja datele nu pe verticală (în coloane), ci pe o direcție orizontală (în rânduri). Singura cerință care trebuie respectată este ca celulele cu datele fiecărui grup să fie amplasate secvenţial una după alta, astfel încât să fie creată în acest fel o matrice continuă.

Accesați celula care va conține valoarea corelației datelor celor două matrice și faceți clic pe fila „Formule” din meniul Excel. În grupul de comenzi „Biblioteca de funcții”, faceți clic pe pictograma cea mai recentă - „Alte funcții”. Se va deschide o listă derulantă, în care ar trebui să mergeți la secțiunea „Statistică” și să selectați funcția CORREL. Ca rezultat, fereastra expertului de funcții se va deschide cu un formular de completat. Aceeași fereastră poate fi apelată și fără fila „Formule”, pur și simplu făcând clic pe pictograma de inserare a funcției situată în stânga barei de formule.

Specificați primul grup de date corelate în câmpul Array1 din Formula Wizard. Pentru a introduce manual un interval de celule, introduceți adresa primei și ultimei celule, separându-le cu două puncte (fără spații). O altă opțiune este să selectați pur și simplu intervalul dorit cu mouse-ul, iar Excel va plasa singur intrarea dorită în acest câmp de formular. Aceeași operațiune trebuie făcută cu al doilea grup de date din câmpul „Matrice2”.

Faceți clic pe butonul OK. Editorul de foi de calcul va calcula și va afișa valoarea corelației în celula cu formula. Dacă este necesar, puteți salva acest document pentru utilizare ulterioară (comandă rapidă Ctrl + S).

Corelația este studiată pe baza datelor experimentale, care sunt valorile măsurate (xi, yi) a două caracteristici. Dacă există puține date experimentale, atunci distribuția empirică bidimensională este reprezentată ca o serie dublă de valori ale lui xi și yi. În acest caz, corelația dintre caracteristici poate fi descrisă în moduri diferite. Corespondența dintre un argument și o funcție poate fi dată de un tabel, formulă, grafic etc.

Analiza corelației, ca și alte metode statistice, se bazează pe utilizarea modelelor probabilistice care descriu comportamentul caracteristicilor studiate într-o anumită populație generală, din care se obțin valorile experimentale ale lui xi și yi. Atunci când se investighează corelația dintre caracteristicile cantitative, ale căror valori pot fi măsurate cu precizie în unități de scări metrice (metri, secunde, kilograme etc.), modelul unei populații generale bidimensionale distribuite normal este foarte des. adoptat. Un astfel de model afișează grafic relația dintre variabilele xi și yi ca loc de puncte într-un sistem de coordonate dreptunghiular. Această dependență grafică este numită și diagramă de dispersie sau câmp de corelație.

Acest model al unei distribuții normale bidimensionale (câmp de corelație) vă permite să oferiți o interpretare vizuală grafică a coeficientului de corelație, deoarece distribuția în agregat depinde de cinci parametri: μx, μy – valori medii (așteptări matematice); σx,σy sunt abaterile standard ale variabilelor aleatoare X și Y, iar p este coeficientul de corelație, care este o măsură a relației dintre variabilele aleatoare X și Y.

Dacă p \u003d 0, atunci valorile, xi, yi, obținute dintr-o populație normală bidimensională, sunt situate pe grafic în coordonatele x, y în zona delimitată de un cerc (Figura 5, a). În acest caz, nu există o corelație între variabilele aleatoare X și Y și se numesc necorelate. Pentru o distribuție normală bidimensională, necorelare înseamnă în același timp independența variabilelor aleatoare X și Y.

Dacă p = 1 sau p = -1, atunci există o relație funcțională liniară între variabilele aleatoare X și Y (Y = c + dX). În acest caz, se vorbește de o corelație completă. La p = 1, valorile xi, yi determină punctele situate pe o dreaptă cu pantă pozitivă (cu o creștere a xi, crește și valorile lui yi), la p = -1, linia dreaptă are o pantă negativă (Figura 5, b). În cazuri intermediare (-1< p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p >0, există o corelație pozitivă (cu creșterea xi, valorile lui yi tind să crească), la p< 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию.



Astfel, o analiză vizuală a câmpului de corelație ajută la identificarea nu numai a prezenței unei relații statistice (liniare sau neliniare) între caracteristicile studiate, ci și a etanșeității și formei acesteia. Acest lucru este esențial pentru următorul pas al analizei - alegerea și calcularea coeficientului de corelație adecvat.

Dependența de corelație dintre caracteristici poate fi descrisă în moduri diferite. În special, orice formă de conexiune poate fi exprimată printr-o ecuație generală Y = f(X), unde Y este o variabilă dependentă, sau o funcție a variabilei independente X, numită argument. Corespondența dintre un argument și o funcție poate fi dată de un tabel, formulă, grafic etc.

Grafic, relația dintre două caracteristici este reprezentată folosind câmpul de corelație. În sistemul de coordonate, valorile atributului factorului sunt reprezentate pe axa absciselor, iar atributul rezultat este reprezentat pe axa ordonatelor. Fiecare intersecție de linii trasate prin aceste axe este indicată printr-un punct. În absența unor legături strânse, există o aranjare aleatorie a punctelor pe grafic (Fig. 11.1).


Să reprezentăm grafic dependența obținută cu punctele planului de coordonate (Fig. 3.1). O astfel de imagine a unei relații statistice se numește câmp de corelație.

Construiți un câmp de corelare și formulați o ipoteză despre forma relației.

Când se studiază relația dintre două caracteristici, metoda grafică de selectare a tipului de ecuație de regresie este destul de clară. Se bazează pe câmpul de corelare. Principalele tipuri de curbe utilizate în evaluarea cantitativă a relațiilor sunt prezentate în fig. 2.1.

Deoarece nu toate punctele câmpului de corelație se află pe dreapta de regresie, există întotdeauna o împrăștiere atât datorită influenței factorului x, adică regresiei y pentru x, cât și cauzată de alte cauze (variație inexplicabilă). Adecvarea liniei de regresie pentru predicție depinde de cât de mult din variația totală a trăsăturii y este explicată de variația explicată. Evident, dacă suma abaterilor pătrate datorate regresiei este mai mare decât suma reziduală a pătratelor, atunci ecuația de regresie este semnificativă statistic și factorul x are un impact semnificativ asupra rezultatului. Acest lucru este echivalent cu faptul că coeficientul de determinare r2 se va apropia de unitate.

În consecință, pentru dependența descrisă în câmpurile de corelare din Fig. 3.5 b) și c), heteroscedasticitatea reziduurilor este prezentată în fig. 3.9 și 3.10.

Dacă valorile sunt independente, atunci „câmpul de corelare” sau pa-

Dacă câmpul de corelație poate fi aproximat printr-o linie dreaptă, care se numește linie de regresie, atunci treceți la calculul coeficientului de corelație de pereche r. Valorile sale numerice sunt în intervalul [-1, 1]. Dacă r este egal cu 1 sau -1, atunci există un feed funcțional sau feedback. Când r este aproape de zero, nu există nicio legătură între fenomene, iar la r 0,7 conexiunea este considerată semnificativă. Coeficientul de corelație se calculează prin formula

După identificarea grupelor de instalații feroviare de mai sus, a fost utilizată o altă metodă aproximativă de analiză preliminară a omogenității populației pentru fiecare grupă de instalații feroviare - construirea câmpurilor de corelare pentru fiecare dintre factorii incluși în studiu cu costul transportului. Principala trăsătură a omogenității sau eterogenității populațiilor selectate a fost absența sau prezența decalajelor și salturii în localizarea punctelor de pe câmpurile de corelație.

Pentru studiu, toți factorii posibili au fost selecționați preliminar prin analiză logică profesională, datele privind schimbările în care pentru întreprinderi sunt disponibile în raportarea ministerului. Astfel de factori ar trebui luați în considerare volumul total de transport, productivitatea medie a vagoanelor și locomotivelor flotei de lucru, intensitatea transportului de marfă, intensitatea capitalului unei unități de transport și productivitatea muncii etc. (11 factori în total). Astfel, au fost construite 44 de câmpuri de corelare pentru patru grupuri de întreprinderi.

După determinarea valorilor indicate se obține o ecuație de dependență de pereche a cărei reprezentare grafică în axele de coordonate se numește linie de regresie teoretică. Dacă toate măsurătorile sunt aplicate unui astfel de câmp, și nu doar linia de regresie teoretică, atunci vom obține un câmp de corelație.

Sistematizează materialul sursă în domeniul corelației și în tabelul de corelare. În exemplul nostru, factorul este costul mașinilor Cm, iar funcția este numărul mediu anual de muncitori P.

Ca urmare a defalcării în intervale, întregul plan pe care sunt trasate măsurătorile pentru ambele semne k și y, numit câmp de corelație, va fi celule, iar fiecare măsurătoare nu este caracterizată de valorile exacte ale coordonatelor sale, ci numai prin valorile intervalului în care este alocat.

Pe fig. 16 arată câmpul de corelare, pe care intervalele pentru valorile argumentului Сы sunt date de-a lungul axei absciselor, iar intervalele pentru valoarea funcției P sunt date de-a lungul axei ordonatelor Câmpul de corelație construit în acest fel se numeste secundar.

Un câmp de corelație primară poate fi, de asemenea, construit pentru a selecta intervalele. Toate punctele din acest câmp sunt marcate ținând cont de valorile coordonatelor lor. După densitatea punctelor se conturează intervalele.

Odată cu construirea câmpului de corelație, așa cum s-a indicat mai sus, se întocmește un tabel de corelare în care toate calculele legate de determinarea mediilor, construirea unei linii de regresie empirice și datele inițiale pentru determinarea parametrilor din sistemul normal. se efectuează ecuații.

În tabel. 36 tot materialul este împărțit în intervale. Folosind-o, construim un câmp de corelație secundar, pe care trasăm toate valorile variabilelor și determinăm valorile medii (/, //, ..., yn pe intervale. Conectarea valorilor medii) în fiecare interval cu segmente drepte, obținem o linie de regresie empirică (vezi Fig. 16).

Restabilind din centrul fiecărui interval perpendiculara pe axa absciselor, punem deoparte pe fiecare dintre ele valorile corespunzătoare ale lui y, dar intervalele r /, \u003d 1081, 1/2 \u003d 1774 etc. Conectăm puncte obţinute între ele prin segmente de dreaptă. Linia întreruptă rezultată este o linie de regresie empirică pentru relația dintre costul mașinilor Cm și numărul de muncitori P. Prin analogie cu calculele efectuate, putem construi tabele de corelare și câmpuri de corelare pentru a identifica relația dintre numărul de muncitori P. , volumul de lucru O, numărul de structuri prefabricate din beton și beton armat / Izh.b.
Orez. 18. Tabel de corelare și câmp secundar de corelare a dependenței numărului de muncitori și a volumului de utilizare a structurilor prefabricate din beton /info/5440"> Ecuațiile regresiei perechilor și regresiei multiple derivate ulterior sunt aplicabile dacă variabilele se modifică în următoarele limite: numărul de muncitori - de la 850 la 7850 de persoane, costul mașinilor - de la 0,15 la 3,15 milioane de ruble . , volumul structurilor prefabricate - de la 10 la 230 mii m și este reprezentat de-a lungul axei verticale, în valori independente \u200b\u200b- de-a lungul orizontalei. Câmpul de corelație este utilizat pentru a determina forma relației dintre variabile, Graficul oferă cercetătorului primul

A treia premisă a celor mai mici pătrate necesită ca varianța reziduurilor să fie homoscedastică. Aceasta înseamnă că pentru fiecare valoare a factorului Xj, reziduurile e, - au aceeași varianță. Dacă această condiție pentru aplicarea LSM nu este îndeplinită, atunci apare heteroscedasticitatea. Prezența heteroscedasticității poate fi observată clar din câmpul de corelație (Fig. 3.5).

O altă sarcină tipică de cercetare - evaluarea relației dintre fenomene - este rezolvată cu ajutorul aparatului bine dezvoltat al teoriei corelației în statistica matematică. Pentru a face acest lucru, este necesar să aveți mostre pentru fenomene comparate afișate pe hărți ale diferitelor subiecte (de exemplu, D și C). Valorile a și b sunt luate în aceleași puncte /-lea, adică. coordonate strict, apoi trasați câmpul de corelație.

1. Tema de lucru.

2. Informații teoretice scurte.

3. Ordinea lucrării.

4. Date inițiale pentru dezvoltarea unui model matematic.

5. Rezultatele elaborării unui model matematic.

6. Rezultatele studiului modelului. Construirea unei prognoze.

7. Concluzii.

În sarcinile 2-4, puteți utiliza Excel PPP pentru a calcula performanța modelului.

Lucrarea numarul 1.

Construirea modelelor de regresie pereche. Verificarea reziduurilor pentru heteroscedasticitate.

Pentru 15 întreprinderi care produc același tip de produs, se cunosc valorile a două caracteristici:

X - ieșire, mii de unități;

y - costuri de producție, milioane de ruble

X y
5,3 18,4
15,1 22,0
24,2 32,3
7,1 16,4
11,0 22,2
8,5 21,7
14,5 23,6
10,2 18,5
18,6 26,1
19,7 30,2
21,3 28,6
22,1 34,0
4,1 14,2
12,0 22,1
18,3 28,2

Necesar:

1. Construiți un câmp de corelație și formulați o ipoteză despre forma relației.

2. Construiți modele:

Regresia perechilor liniare.

Regresie semi-log perechi.

2.3 Regresia perechilor de putere.
Pentru asta:


2. Evaluați strângerea relației folosind coeficientul (indicele)
corelații.

3. Evaluați calitatea modelului folosind un coeficient (indice)
determinarea şi eroarea medie de aproximare
.

4. Scrieți folosind coeficientul mediu de elasticitate
evaluare comparativă a puterii relației dintre factor și rezultat
.

5. Folosind F- Criteriul lui Fisher pentru a evalua fiabilitatea statistică a rezultatelor modelării regresiei.

În funcție de valorile caracteristicilor calculate la paragrafele 2-5, alegeți cea mai bună ecuație de regresie.

Utilizând metoda Golfreld-Quandt, verificați reziduurile pentru heteroscedasticitate.

Construim un câmp de corelare.

Analizând locația punctelor câmpului de corelație presupunem că relația dintre semne Xși la poate fi liniară, adică y=a+bx, sau formă neliniară: y=a+blnx, y=ax b.

Pe baza teoriei relației studiate, ne așteptăm să obținem dependența la din X drăguț y=a+bx, deoarece costurile de producţie y poate fi împărțit în două tipuri: constant, independent de volumul producției - A precum chirie, întreținere administrativă etc.; și variabile care se modifică proporțional cu producția bx, precum consumul de material, electricitate etc.


2.1.Model de regresie liniară a perechilor.

2.1.1. Să calculăm parametrii Ași b regresie liniara y=a+bx.

Construim un tabel de calcul 1.

tabelul 1

Opțiuni Ași b ecuații

Y x = a + bx


Impartit de n b:

Ecuația de regresie:

=11,591+0,871x

Cu o creștere a producției cu 1 mie de ruble. costurile de producție cresc cu 0,871 milioane de ruble. în medie, costurile fixe sunt de 11,591 milioane de ruble.

2.1.2. Estimăm apropierea relației folosind coeficientul liniar al corelației perechilor.

Să determinăm preliminar abaterile standard ale caracteristicilor.

Abateri standard:

Coeficient de corelație:

Între semne Xși Y există o corelație liniară foarte puternică.

2.1.3. Să evaluăm calitatea modelului construit.

adică acest model explică 90,5% din varianța totală la, ponderea variației inexplicabile reprezintă 9,5%.

Prin urmare, calitatea modelului este ridicată.

DAR i .

În primul rând, din ecuația de regresie, determinăm valorile teoretice pentru fiecare valoare a factorului.

Eroare de aproximare A i, i=1…15:

Eroare medie de aproximare:

2.1.4. Să definim coeficientul mediu de elasticitate:

Acesta arată că, cu o creștere a producției cu 1%, costurile de producție cresc în medie cu 0,515%.

2.1.5. Să estimăm semnificația statistică a ecuației rezultate.
Să testăm ipoteza H0 că dependenţa revelată la din X este aleatorie, adică ecuația rezultată este nesemnificativă statistic. Să luăm α=0,05. Să găsim valoarea tabelară (critică). F- Criteriul lui Fisher:

Găsiți valoarea reală F- Criteriul lui Fisher:

de aici ipoteza H0 H1 Xși y nu este întâmplătoare.

Să construim ecuația rezultată.

2.2. Model de regresie perechi semilog.

2.2.1. Să calculăm parametrii Ași bîn regresie:

y x \u003d a + blnx.

Liniarizăm această ecuație, notând:

y=a + bz.

Opțiuni Ași b ecuații

= a+bz

determinat prin metoda celor mai mici pătrate:


Calculăm tabelul 2.

masa 2

Impartit de n iar rezolvând prin metoda lui Cramer, obținem o formulă de determinare b:

Ecuația de regresie:

= -1,136 + 9,902z

2.2.2. Să estimăm apropierea conexiunii dintre caracteristici lași X.

Din moment ce ecuația y = a + bln x liniară în raport cu parametrii Ași b iar liniarizarea sa nu a fost legată de transformarea variabilei dependente _ la, apoi strângerea conexiunii dintre variabile lași X, estimat folosind indicele de corelație de pereche Rxy, poate fi determinată și folosind coeficientul de corelație liniară a perechii r yz

deviație standard z:

Valoarea indicelui de corelare este apropiată de 1, prin urmare, între variabile lași X există o corelație foarte strânsă = a + bz.

2.2.3. Să evaluăm calitatea modelului construit.

Să definim coeficientul de determinare:

adică acest model explică 83,8% din variația totală a rezultatului la, ponderea variației inexplicabile reprezintă 16,2%. Prin urmare, calitatea modelului este ridicată.

Să găsim valoarea erorii medii de aproximare DAR i .

În primul rând, din ecuația de regresie, determinăm valorile teoretice pentru fiecare valoare a factorului. Eroare de aproximare Și eu ,:

, i=1…15.

Eroare medie de aproximare:

.

Eroarea este mică, calitatea modelului este ridicată.

2.2.4 Să determinăm coeficientul mediu de elasticitate:

Acesta arată că, cu o creștere a producției cu 1%, costurile de producție cresc cu o medie de 0,414%.

2.2.5. Să estimăm semnificația statistică a ecuației rezultate.
Să testăm ipoteza H0 că dependenţa revelată la din X este aleatoriu, adică ecuația rezultată este nesemnificativă statistic. Să luăm α=0,05.

Să găsim valoarea tabelară (critică). F- Criteriul lui Fisher:

Găsiți valoarea reală F- Criteriul lui Fisher:

de aici ipoteza H0 respinsă, ipoteza alternativă acceptată H1: cu o probabilitate de 1-α=0,95 ecuația rezultată este semnificativă statistic, relația dintre variabile Xși y nu este întâmplătoare.

Să construim o ecuație de regresie pe câmpul de corelație

2.3. Model de regresie perechi de putere.

2.3.1. Să calculăm parametrii Ași b regresia puterii:

Calculul parametrilor este precedat de procedura de liniarizare a acestei ecuații:

si modificarea variabilelor:

Y=lny, X=lnx, A=lna

Parametrii ecuației:

determinat prin metoda celor mai mici pătrate:


Calculăm tabelul 3.

Noi definim b:

Ecuația de regresie:

Să construim o ecuație de regresie pe câmpul de corelație:

2.3.2. Să estimăm apropierea conexiunii dintre caracteristici lași X folosind indicele de corelație de pereche R yx .

Calculați în prealabil valoarea teoretică pentru fiecare valoare a factorului X,și apoi:

Valoarea indicelui de corelație Rxy aproape de 1, deci între variabile lași X există o corelație foarte strânsă a formei:

2.3.3. Să evaluăm calitatea modelului construit.

Să definim indicele de determinare:

R2=0,936 2 =0,878,

adică acest model explică 87,6% din variația totală a rezultatului y, iar ponderea variației inexplicabile reprezintă 12,4%.

Calitatea modelului este ridicată.

Să găsim valoarea erorii medii de aproximare.

Eroare de aproximare A i, i=1…15:

Eroare medie de aproximare:

Eroarea este mică, calitatea modelului este ridicată.

2.3.4. Să definim coeficientul mediu de elasticitate:

Acesta arată că, cu o creștere a producției cu 1%, costurile de producție cresc cu o medie de 0,438%.

2.3.5 Să evaluăm semnificația statistică a ecuației rezultate.

Să testăm ipoteza H0 că dependenţa revelată la din X este aleatorie, adică ecuația rezultată este nesemnificativă statistic. Să luăm α=0,05.

valoare tabulară (critică). F- Criteriul lui Fisher:

valoarea reală F- Criteriul lui Fisher:

de aici ipoteza H0 respinsă, ipoteza alternativă acceptată H1: cu o probabilitate de 1-α=0,95 ecuația rezultată este semnificativă statistic, relația dintre variabile Xși y nu este întâmplătoare.

Tabelul 3

3. Alegerea celei mai bune ecuații.

Să facem un tabel cu rezultatele studiului.

Tabelul 4

Analizăm tabelul și tragem concluzii.

ú Toate cele trei ecuații s-au dovedit a fi semnificative și fiabile din punct de vedere statistic, au un coeficient de corelație (indice) apropiat de 1, un coeficient (indice) de determinare ridicat (aproape de 1) și o eroare de aproximare în limite acceptabile.

ú În același timp, caracteristicile modelului liniar indică faptul că acesta descrie relația dintre semne Xși y.

ú Prin urmare, alegem un model liniar ca ecuație de regresie.