Care este corelația. Analiza corelației. Utilizarea software-ului în analiza corelației

Testul de corelație al lui Pearson este o metodă statistică parametrică care vă permite să determinați prezența sau absența unei relații liniare între doi indicatori cantitativi, precum și să evaluați apropierea și semnificația statistică a acesteia. Cu alte cuvinte, testul de corelație Pearson vă permite să determinați dacă există o relație liniară între modificările valorilor a două variabile. În calculele statistice și inferențe, coeficientul de corelație este de obicei notat ca rxy sau Rxy.

1. Istoricul dezvoltării criteriului de corelare

Testul de corelație Pearson a fost dezvoltat de o echipă de oameni de știință britanici condusă de Karl Pearson(1857-1936) în anii 90 ai secolului al XIX-lea, pentru a simplifica analiza covarianței a două variabile aleatoare. Pe lângă Karl Pearson, s-a lucrat și testul de corelație al lui Pearson Francis Edgeworthși Raphael Weldon.

2. Pentru ce este folosit testul de corelație Pearson?

Criteriul de corelare Pearson vă permite să determinați care este apropierea (sau puterea) corelației dintre doi indicatori măsurați pe o scară cantitativă. Cu ajutorul unor calcule suplimentare, puteți determina și cât de semnificativă este statistic relația identificată.

De exemplu, folosind criteriul de corelare Pearson, se poate răspunde la întrebarea dacă există o relație între temperatura corpului și conținutul de leucocite din sânge în infecțiile respiratorii acute, între înălțimea și greutatea pacientului, între conținutul în bând apă fluor şi incidenţa cariilor în populaţie.

3. Condiții și restricții privind utilizarea testului chi-pătrat al lui Pearson

  1. Indicatorii comparabili ar trebui măsurați în scară cantitativă(de exemplu, ritmul cardiac, temperatura corpului, numărul de leucocite la 1 ml de sânge, tensiunea arterială sistolica).
  2. Prin intermediul criteriului de corelație Pearson, este posibil să se determine numai prezența și puterea unei relații liniareîntre cantităţi. Alte caracteristici ale conexiunii, inclusiv direcția (directă sau inversă), natura modificărilor (rectilinii sau curbilinii), precum și prezența dependenței unei variabile de alta, sunt determinate cu ajutorul analizei de regresie.
  3. Numărul de valori care trebuie comparate trebuie să fie egal cu două. În cazul analizei relației dintre trei sau mai mulți parametri, ar trebui să utilizați metoda analiza factorilor.
  4. Criteriul de corelare al lui Pearson este parametrice, în legătură cu care se află condiția aplicării acestuia distributie normala variabile potrivite. Dacă este necesară efectuarea unei analize de corelație a indicatorilor a căror distribuție diferă de cea normală, inclusiv a celor măsurați pe o scară ordinală, trebuie utilizat coeficientul de corelație de rang al lui Spearman.
  5. Este necesar să se facă distincția clară între conceptele de dependență și corelație. Dependența valorilor determină prezența unei corelații între ele, dar nu invers.

De exemplu, creșterea unui copil depinde de vârsta lui, adică de ce copil mai mare, cu atât este mai sus. Dacă luăm doi copii de vârste diferite, atunci cu un grad mare de probabilitate creșterea copilului mai mare va fi mai mare decât cea a celui mai mic. Acest fenomen se numește dependenta, implicând o relație cauzală între indicatori. Desigur, există și corelație, ceea ce înseamnă că modificările unui indicator sunt însoțite de modificări ale altui indicator.

Într-o altă situație, luați în considerare relația dintre creșterea copilului și ritmul cardiac (HR). După cum știți, ambele aceste valori depind direct de vârstă, prin urmare, în majoritatea cazurilor, copiii de statură mai mare (și, prin urmare, cei mai în vârstă) vor avea valori mai mici ale ritmului cardiac. Acesta este, corelație vor fi respectate și pot avea o etanșeitate suficient de mare. Totuși, dacă luăm copii aceasi varsta, dar înălțime diferită, atunci, cel mai probabil, ritmul cardiac va diferi nesemnificativ, în legătură cu care putem concluziona că independenţă Ritmul cardiac de la creștere.

Exemplul de mai sus arată cât de important este să se facă distincția între conceptele fundamentale în statistică conexiuniși dependențe indicatori pentru a trage concluzii corecte.

4. Cum se calculează coeficientul de corelație Pearson?

Coeficientul de corelație al lui Pearson se calculează folosind următoarea formulă:

5. Cum se interpretează valoarea coeficientului de corelație Pearson?

Valorile coeficientului de corelație Pearson sunt interpretate pe baza valorilor sale absolute. Valorile posibile ale coeficientului de corelație variază de la 0 la ±1. Cu cât valoarea absolută a lui r xy este mai mare, cu atât este mai mare apropierea relației dintre cele două mărimi. r xy = 0 indică o lipsă completă de conexiune. r xy = 1 - indică prezența unei conexiuni absolute (funcționale). Dacă valoarea criteriului de corelație Pearson s-a dovedit a fi mai mare de 1 sau mai mică de -1, a fost făcută o eroare în calcule.

Pentru a evalua apropierea sau puterea corelației, se folosesc criterii general acceptate, conform cărora valorile absolute ale r xy< 0.3 свидетельствуют о slab conexiune, valorile r xy de la 0,3 la 0,7 - despre conexiune mijloc etanșeitate, valori r xy > 0,7 - o puternic conexiuni.

O estimare mai precisă a puterii corelației poate fi obținută prin utilizarea Masa Chaddock:

Nota semnificație statistică coeficientul de corelație r xy se realizează folosind testul t, calculat prin următoarea formulă:

Se compară valoarea t r obţinută cu valoarea critică la un anumit nivel de semnificaţie şi cu numărul de grade de libertate n-2. Dacă t r depășește t crit, atunci se face o concluzie despre semnificația statistică a corelației identificate.

6. Un exemplu de calcul al coeficientului de corelație Pearson

Scopul studiului a fost de a identifica, determina etanșeitatea și semnificația statistică a corelației dintre doi indicatori cantitativi: nivelul de testosteron din sânge (X) și procentul de masă musculară din organism (Y). Datele inițiale pentru un eșantion de 5 subiecți (n = 5) sunt rezumate în tabel.

Cu o corelare aceeași valoare a unui atribut corespunde unor valori diferite ale celuilalt. De exemplu: există o corelație între înălțime și greutate, între incidența neoplasmelor maligne și vârstă etc.

Există 2 metode de calcul al coeficientului de corelație: metoda pătratelor (Pearson), metoda rangurilor (Spearman).

Cea mai precisă este metoda pătratelor (Pearson), în care coeficientul de corelație este determinat de formula: , unde

r xy este coeficientul de corelație dintre seriile statistice X și Y.

d x este abaterea fiecăruia dintre numere serii statistice X din media sa aritmetică.

d y este abaterea fiecăruia dintre numerele seriei statistice Y de la media sa aritmetică.

În funcție de puterea conexiunii și de direcția acesteia, coeficientul de corelație poate varia de la 0 la 1 (-1). Un coeficient de corelație de 0 indică o lipsă completă de conexiune. Cu cât nivelul coeficientului de corelație este mai aproape de 1 sau (-1), cu atât este mai mare, respectiv, cu atât direct sau feedback măsurat de acesta este mai aproape. Cu un coeficient de corelație egal cu 1 sau (-1), conexiunea este completă, funcțională.

Schema de estimare a puterii corelației prin coeficientul de corelație

Puterea conexiunii

Valoarea coeficientului de corelație, dacă este disponibil

conexiune directă (+)

părere (-)

Nici o legătură

Comunicarea este mică (slabă)

de la 0 la +0,29

0 până la -0,29

Comunicare medie (moderată)

+0,3 până la +0,69

-0,3 până la -0,69

Comunicare mare (puternica)

+0,7 până la +0,99

-0,7 până la -0,99

Comunicarea este completă

(funcţional)

Pentru a calcula coeficientul de corelație folosind metoda pătratelor, se întocmește un tabel de 7 coloane. Să analizăm procesul de calcul folosind un exemplu:

DETERMINAȚI FORTA ȘI NATURA RELAȚIEI DINTRE

Este timpul-

ness

guşă

(V y )

d x= V XM X

d y= V yM y

d X d y

d X 2

d y 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Determinați conținutul mediu de iod în apă (în mg/l).

mg/l

2. Determinați incidența medie a gușii în%.

3. Determinați abaterea fiecărui V x de la M x, adică. d x .

201–138=63; 178–138=40 etc.

4. În mod similar, determinăm abaterea fiecărui V y de la M y, adică. d

0,2–3,8=-3,6; 0,6–38=-3,2 etc.

5. Determinăm produsele abaterilor. Produsul rezultat este însumat și obținut.

6. Patratăm d x și rezumăm rezultatele, obținem.

7. În mod similar, pătratăm d y, rezumăm rezultatele, obținem

8. În cele din urmă, înlocuim toate sumele primite în formula:

Pentru a rezolva problema fiabilității coeficientului de corelare, eroarea medie a acestuia este determinată de formula:

(Dacă numărul de observații este mai mic de 30, atunci numitorul este n-1).

În exemplul nostru

Valoarea coeficientului de corelație este considerată fiabilă dacă este de cel puțin 3 ori mai mare decât eroarea sa medie.

În exemplul nostru

Astfel, coeficientul de corelație nu este de încredere, ceea ce face necesară creșterea numărului de observații.

Coeficientul de corelație poate fi determinat într-un mod ceva mai puțin precis, dar mult mai ușor, metoda rangului (Spearman).

Metoda Spearman: P=1-(6∑d 2 /n-(n 2 -1))

faceți două rânduri de caracteristici comparate pereche, desemnând primul și, respectiv, al doilea rând, x și y. În același timp, prezentați primul rând al atributului în ordine descrescătoare sau crescătoare și plasați valorile numerice ale celui de-al doilea rând vizavi de valorile primului rând cărora le corespund

valoarea caracteristicii din fiecare dintre rândurile comparate ar trebui înlocuită cu un număr de serie (rang). Rangurile, sau numerele, indică locurile indicatorilor (valorilor) din primul și al doilea rând. În acest caz, rangurile ar trebui să fie atribuite valorilor numerice ale celui de-al doilea atribut în aceeași ordine în care a fost adoptată la distribuirea valorilor lor la valorile primului atribut. Cu aceleași valori ale atributului din serie, rangurile ar trebui determinate ca număr mediu din suma numerelor ordinale ale acestor valori

determinați diferența de ranguri între x și y (d): d = x - y

la pătrat diferența de rang rezultată (d 2)

obțineți suma pătratelor diferenței (Σ d 2) și înlocuiți valorile obținute în formula:

Exemplu: folosind metoda rangului pentru a stabili direcția și puterea relației dintre vechimea în muncă în ani și frecvența accidentărilor, dacă se obțin următoarele date:

Motivul alegerii metodei: pentru a rezolva problema se poate alege doar metoda de corelare a rangului, deoarece primul rând al atributului „experiență de muncă în ani” are opțiuni deschise (experiență de muncă de până la 1 an și 7 sau mai mulți ani), ceea ce nu permite utilizarea unei metode mai precise - metoda pătratelor - pentru a stabili o relație între caracteristici comparate.

Soluţie. Secvența calculelor este descrisă în text, rezultatele sunt prezentate în tabel. 2.

masa 2

Experienta in munca de ani de zile

Numărul de răni

Numere ordinale (ranguri)

Diferența de rang

diferența de rang la pătrat

d(x-y)

d 2

Fiecare dintre rândurile de semne pereche este notat cu „x” și cu „y” (coloanele 1-2).

Valoarea fiecărui semn este înlocuită cu un număr de rang (de serie). Ordinea de distribuție a rangurilor din seria „x” este următoarea: valorii minime a atributului (experiență de până la 1 an) i se atribuie numărul de serie „1”, variantele ulterioare ale aceleiași serii ale atributului, respectiv , în ordinea crescătoare a numerelor de serie 2, 3, 4 și 5 - ranguri (vezi coloana 3). O ordine similară se observă la distribuirea rangurilor la a doua caracteristică „y” (coloana 4). În cazurile în care există mai multe variante de aceeași dimensiune (de exemplu, în sarcina standard, acestea sunt 12 și 12 răni la 100 de lucrători cu o experiență de 3-4 ani și 5-6 ani), numărul de serie este indicat prin numărul mediu din suma numerelor lor de serie. Aceste date privind numărul de accidentări (12 accidentări) în clasament ar trebui să ocupe locurile 2 și 3, deci numărul mediu al acestora este (2 + 3) / 2 = 2,5. ) ar trebui să distribuie aceleași numere de clasare - „2,5” (coloana 4).

Determinați diferența de ranguri d = (x - y) - (coloana 5)

Punerea la pătrat a diferenței de ranguri (d 2) și obținerea sumei pătratelor diferenței de ranguri Σ d 2 (coloana 6).

Calculați coeficientul de corelare a rangului folosind formula:

unde n este numărul de perechi de opțiuni potrivite în rândul „x” și rândul „y”

Cel mai important obiectiv statistici este studiul relaţiilor existente în mod obiectiv între fenomene. Pe parcursul cercetare statistică aceste relații, este necesar să se identifice relații cauză-efect între indicatori, adică modul în care modificarea unor indicatori depinde de modificarea altor indicatori.

Există două categorii de dependențe (funcționale și de corelare) și două grupuri de semne (semne-factori și semne efective). Spre deosebire de relația funcțională, unde există o corespondență completă între factor și caracteristicile rezultate, în relația de corelare nu există o astfel de corespondență completă.

corelație- aceasta este o relație în care impactul factorilor individuali apare doar ca tendință (în medie) cu observarea în masă a datelor reale. Exemple de dependență de corelație pot fi dependența dintre mărimea activelor băncii și valoarea profitului băncii, creșterea productivității muncii și vechimea în muncă a angajaților.

Cea mai simplă versiune a dependenței de corelare este corelarea perechilor, adică. dependenta intre doua semne (eficient si factorial sau intre doua factoriale). Din punct de vedere matematic, această dependență poate fi exprimată ca dependență a indicatorului efectiv y de indicatorul factor x. Conexiunile pot fi directe și inverse. În primul caz, cu o creștere a atributului x, și atributul y crește; cu feedback, cu o creștere a atributului x, atributul y scade.

Cea mai importantă sarcină este de a determina forma conexiunii cu calcularea ulterioară a parametrilor ecuației sau, cu alte cuvinte, găsirea ecuației de conectare ( ecuații de regresie).

Pot fi diverse formulare de contact:

rectilinie

curbilinii sub forma: parabole de ordinul doi (sau ordine superioare)

hiperbolă

funcția exponențială etc.

Parametrii pentru toate aceste ecuații de cuplare sunt de obicei determinați din sisteme de ecuații normale, care trebuie să îndeplinească cerința metodei celor mai mici pătrate (LSM):

Dacă relația este exprimată printr-o parabolă de ordinul doi ( ), atunci sistemul de ecuații normale pentru găsirea parametrilor a0, a1, a2 (o astfel de conexiune se numește multiplu, deoarece implică dependența a mai mult de doi factori) poate fi reprezentat ca

O altă sarcină majoră este măsurarea etanșeității în dependență- pentru toate formele de comunicare se poate rezolva prin calcularea raportului de corelație empirică:

unde - variația într-o serie de valori egalizate ale indicatorului efectiv;

Dispersia într-o serie de valori reale y.

Pentru a determina gradul de etanșeitate al unei dependențe liniare pereche, coeficient de corelație liniară r, care poate fi calculat folosind, de exemplu, următoarele două formule:

Coeficientul de corelație liniară poate lua valori cuprinse între -1 și + 1 sau modulo de la 0 la 1. Cu cât este mai aproape de 1 în valoare absolută, cu atât relația este mai apropiată. Semnul indică direcția relației: „+” - dependență directă, „-” are loc cu dependență inversă.

În practica statistică, pot exista cazuri când calitățile factorului și caracteristicile rezultate nu pot fi exprimate numeric. Prin urmare, pentru a măsura gradul de apropiere a dependenței, este necesar să folosiți alți indicatori. În acest scop, așa-zis metode neparametrice.

Cele mai răspândite sunt coeficienții de corelație de rang, care se bazează pe principiul numerotării valorilor seriei statistice. Atunci când se utilizează coeficienții de corelație ai rangurilor, nu valorile indicatorilor x și y sunt corelate, ci doar numerele locurilor lor pe care le ocupă în fiecare serie de valori. În acest caz, numărul fiecărei unități individuale va fi rangul acesteia.

Coeficienții de corelație bazați pe utilizarea metodei clasate au fost propuși de K. Spearman și M. Kendall.

Coeficientul de corelare a rangului Spearman(p) se bazează pe luarea în considerare a diferenței dintre rangurile valorilor caracteristicilor rezultante și factorilor și poate fi calculată prin formula

unde d = Nx - Ny , i.e. diferența de ranguri a fiecărei perechi de valori x și y; n este numărul de observații.

Coeficientul de corelare a rangului lui Kendal() poate fi determinată prin formula

unde S = P + Q.

Metodele de cercetare neparametrică includ coeficientul de asociere Cus și factor de contingență Kkon, care sunt utilizate dacă, de exemplu, este necesar să se investigheze proximitatea relației dintre caracteristicile calitative, fiecare dintre acestea fiind prezentată sub formă de caracteristici alternative.

Pentru determinarea acestor coeficienți se creează un tabel de calcul (tabelul „patru câmpuri”), unde predicatul statistic este prezentat schematic sub următoarea formă:

semne

Aici a, b, c, d sunt frecvențele combinației reciproce (combinației) a două semne alternative; n- valoare totală frecvente.

Coeficientul de alocare a produsului este calculat prin formula

Trebuie avut în vedere că pentru aceleași date, coeficientul de contingență (variază de la -1 la +1) este întotdeauna mai mic decât coeficientul de asociere.

Dacă este necesar să se evalueze gradul de apropiere a relației dintre caracteristicile alternative care pot prelua orice număr de opțiuni de valoare, se aplică Coeficientul de conjugare reciprocă al lui Pearson(KP).

Pentru a studia acest tip de relație, informațiile statistice primare sunt plasate sub forma unui tabel:

semne

Aici mij sunt frecvențele combinației reciproce a două trăsături atributive; P este numărul de perechi de observații.

Coeficientul de contingență reciproc al lui Pearson este determinat de formula

unde este indicele de conjugație pătrat mediu:

Coeficientul de contingență reciprocă variază de la 0 la 1.

În fine, trebuie menționat coeficientul Fechner, care caracterizează gradul elementar de apropiere a conexiunii, de care se recomandă utilizarea pentru stabilirea faptului existenței unei legături atunci când există o cantitate mică de informații inițiale. Acest coeficient este determinat de formula

unde na este numărul de coincidențe ale semnelor de abateri ale valorilor individuale de la media lor aritmetică; nb - respectiv, numărul de nepotriviri.

Coeficientul Fechner poate varia în -1,0 Kf +1,0.

Formula coeficientului de corelație

În procesul activitate economică omul s-a format treptat toată clasa sarcini de identificare a diferitelor modele statistice.

A fost necesar să se evalueze gradul de determinism al unor procese de către altele, a fost necesar să se stabilească strânsoarea interdependenței dintre diferite procese și variabile.
Corelația este relația dintre variabile între ele.

Pentru a evalua strângerea dependenței, a fost introdus un coeficient de corelație.

Semnificația fizică a coeficientului de corelație

crocant sens fizic coeficientul de corelație are, dacă parametrii statistici ai variabilelor independente sunt supuși unei distribuții normale, o astfel de distribuție reprezintă grafic o curbă gaussiană. Și relația este liniară.

Coeficientul de corelație arată modul în care un proces este determinat de altul. Acestea. când se schimbă un proces, cât de des se schimbă și procesul dependent. Nu se schimbă deloc - nu există dependență, se schimbă imediat de fiecare dată - dependență completă.

Coeficientul de corelație poate lua valori în intervalul [-1:1]

Valoarea zero a coeficientului înseamnă că nu există nicio relație între variabilele considerate.
Valorile extreme ale intervalului înseamnă dependență completă între variabile.

Dacă valoarea coeficientului este pozitivă, atunci dependența este directă.

Cu un coeficient negativ - opusul. Acestea. în primul caz, când argumentul se modifică, funcția se schimbă proporțional, în al doilea caz, invers.
Când valoarea coeficientului de corelație se află la mijlocul intervalului, i.e. de la 0 la 1 sau de la -1 la 0 indică o relație funcțională incompletă.
Cu cât valoarea coeficientului este mai aproape de indicatorii extremi, cu atât este mai mare relația dintre variabile sau variabile aleatoare. Cu cât valoarea este mai aproape de 0, cu atât interdependența este mai mică.
De obicei, coeficientul de corelare ia valori intermediare.

Coeficientul de corelație este o mărime fără măsură

Coeficientul de corelație este utilizat în statistică, în analiza corelației, pentru a testa ipotezele statistice.

Propunând o ipoteză statistică a dependenței unei variabile aleatoare de alta, se calculează coeficientul de corelație. Potrivit acesteia, este posibil să se facă o judecată - dacă există o relație între cantități și cât de dens este.

Chestia este că nu poți vedea întotdeauna legătura. Adesea, valorile nu sunt direct legate între ele, ci depind de mulți factori. Cu toate acestea, se poate dovedi că variabilele aleatoare sunt interdependente printr-un set de conexiuni mediate. Desigur, aceasta poate să nu însemne legătura lor directă, așa că, de exemplu, odată cu dispariția intermediarului, poate dispărea și dependența.

Scopul analizei corelației este de a identifica o estimare a puterii conexiunii dintre variabilele aleatoare (trăsături) care caracterizează un proces real.
Probleme de analiză a corelației:
a) Măsurarea gradului de legătură (etanșeitate, rezistență, severitate, intensitate) a două sau mai multe fenomene.
b) Selectarea factorilor care au cel mai semnificativ impact asupra atributului rezultat, pe baza măsurării gradului de conectivitate între fenomene. Factorii semnificativi în acest aspect sunt utilizați în continuare în analiza de regresie.
c) Detectarea relaţiilor cauzale necunoscute.

Formele de manifestare a interrelațiilor sunt foarte diverse. Ca tipurile lor cele mai comune, funcționale (complete) și conexiune de corelare (incompletă)..
corelație se manifestă în medie, pentru observațiile de masă, atunci când valorile date ale variabilei dependente corespund unui anumit număr de valori probabilistice ale variabilei independente. Legătura se numește corelație, dacă fiecare valoare a atributului factor corespunde unei valori non-aleatoare bine definite a atributului rezultat.
Câmpul de corelație servește ca reprezentare vizuală a tabelului de corelare. Este un grafic în care valorile X sunt reprezentate pe axa absciselor, valorile Y sunt reprezentate de-a lungul axei ordonatelor, iar combinațiile de X și Y sunt afișate prin puncte. Prezența unei conexiuni poate fi judecată după locația punctele.
Indicatori de etanșeitate fac posibilă caracterizarea dependenţei variaţiei trăsăturii rezultate de variaţia factorului-trăsătură.
Un indicator mai bun al gradului de etanșeitate corelație este coeficient de corelație liniară. La calcularea acestui indicator, nu sunt luate în considerare numai abaterile valori individuale semn de la medie, dar și amploarea acestor abateri.

Problemele cheie ale acestui subiect sunt ecuațiile relației de regresie dintre caracteristica rezultată și variabila explicativă, metoda celor mai mici pătrate pentru estimarea parametrilor model de regresie, analiza calității ecuației de regresie obținută, construirea intervalelor de încredere pentru predicția valorilor caracteristicii rezultante conform ecuației de regresie.

Exemplul 2


Sistem de ecuații normale.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pentru datele noastre, sistemul de ecuații are forma
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Din prima ecuație pe care o exprimăm Ași înlocuiți în a doua ecuație:
Obținem b = -3,46, a = 1379,33
Ecuația de regresie:
y = -3,46 x + 1379,33

2. Calculul parametrilor ecuației de regresie.
Eșantion înseamnă.



Variante de eșantion:


deviație standard


1.1. Coeficient de corelație
covarianta.

Calculăm indicatorul de apropiere a comunicării. Un astfel de indicator este un coeficient de corelație liniară selectivă, care este calculat prin formula:

Coeficientul de corelație liniară ia valori de la –1 la +1.
Relațiile dintre caracteristici pot fi slabe sau puternice (strânse). Criteriile lor sunt evaluate pe scara Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
În exemplul nostru, relația dintre caracteristica Y și factorul X este mare și inversă.
În plus, coeficientul de corelație liniară a perechii poate fi determinat în funcție de coeficientul de regresie b:

1.2. Ecuația de regresie(evaluarea ecuației de regresie).

Ecuația de regresie liniară este y = -3,46 x + 1379,33

Coeficientul b = -3,46 arată modificarea medie a indicatorului efectiv (în unități de y) cu o creștere sau scădere a valorii factorului x pe unitatea de măsură a acestuia. În acest exemplu, cu o creștere de 1 unitate, y scade cu o medie de -3,46.
Coeficientul a = 1379,33 arată în mod formal nivelul prezis al lui y, dar numai dacă x=0 este aproape de valorile eșantionului.
Dar dacă x=0 este departe de valorile eșantionului x, atunci o interpretare literală poate duce la rezultate incorecte și chiar dacă linia de regresie descrie cu acuratețe valorile eșantionului observat, nu există nicio garanție că aceasta va fi, de asemenea, cazul extrapolării la stânga sau la dreapta.
Prin înlocuirea valorilor corespunzătoare ale lui x în ecuația de regresie, este posibil să se determine valorile aliniate (prevăzute) ale indicatorului efectiv y(x) pentru fiecare observație.
Relația dintre y și x determină semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - inversă). În exemplul nostru, relația este inversă.
1.3. coeficient de elasticitate.
Nu este de dorit să se utilizeze coeficienți de regresie (în exemplul b) pentru o evaluare directă a influenței factorilor asupra atributului efectiv în cazul în care există o diferență între unitățile de măsură ale indicatorului efectiv y și atributul factorului x.
În aceste scopuri, se calculează coeficienții de elasticitate și coeficienții beta.
Coeficientul mediu de elasticitate E arată câte procente se va schimba rezultatul în medie în agregat la din valoarea sa medie la modificarea factorului X 1% din valoarea sa medie.
Coeficientul de elasticitate se gaseste prin formula:


Coeficientul de elasticitate este mai mic de 1. Prin urmare, dacă X se modifică cu 1%, Y se va modifica cu mai puțin de 1%. Cu alte cuvinte, influența lui X asupra lui Y nu este semnificativă.
Beta - coeficient arată cu ce parte din valoarea abaterii sale standard se va schimba valoarea atributului efectiv în medie atunci când atributul factorului se modifică cu valoarea abaterii sale standard cu valoarea variabilelor independente rămase fixată la un nivel constant:

Acestea. o creştere a lui x cu valoarea abaterii standard S x va duce la o scădere a valorii medii a lui Y cu 0,74 abaterea standard S y .
1.4. Eroare de aproximare.
Să evaluăm calitatea ecuației de regresie folosind eroarea de aproximare absolută. Eroarea medie de aproximare este abaterea medie a valorilor calculate de la cele reale:


Deoarece eroarea este mai mică de 15%, această ecuație poate fi folosită ca regresie.
Analiza dispersiei.
Sarcina analizei varianței este de a analiza varianța variabilei dependente:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Unde
∑(y i - y cp) 2 - suma totală a abaterilor pătrate;
∑(y(x) - y cp) 2 - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y - y(x)) 2 - suma reziduală a abaterilor pătrate.
Raportul teoretic de corelare pentru o relație liniară este egală cu coeficientul de corelație r xy .
Pentru orice formă de dependență, etanșeitatea conexiunii se determină folosind coeficient de corelație multiplă:

Acest coeficient este universal, deoarece reflectă etanșeitatea conexiunii și acuratețea modelului și poate fi folosit și pentru orice formă de conexiune între variabile. Când se construiește un model de corelație cu un singur factor, coeficientul de corelație multiplă este egal cu coeficientul de corelație de pereche r xy .
1.6. Coeficient de determinare.
Pătratul coeficientului de corelație (multiplu) se numește coeficient de determinare, care arată proporția variației atributului rezultat explicată prin variația atributului factorului.
Cel mai adesea, dând o interpretare a coeficientului de determinare, acesta este exprimat ca procent.
R 2 \u003d -0,74 2 \u003d 0,5413
acestea. în 54,13% din cazuri, modificările în x duc la o schimbare în y. Cu alte cuvinte, acuratețea selecției ecuației de regresie este medie. Restul de 45,87% din modificarea lui Y se datorează unor factori neluați în considerare în model.

Bibliografie

  1. Econometrie: Manual / Ed. I.I. Eliseeva. - M.: Finanțe și statistică, 2001, p. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Econometrie. Curs de început. Tutorial. - Ed. a II-a, Rev. – M.: Delo, 1998, p. 17..42.
  3. Atelier de econometrie: Proc. indemnizatie / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko și alții; Ed. I.I. Eliseeva. - M.: Finanțe și statistică, 2001, p. 5..48.