Care sunt cerințele într-un model de analiză de regresie. Fundamentele regresiei liniare. Corelație pentru regresia multiplă

Analiza regresiei este una dintre cele mai populare metode studiu statistic. Poate fi folosit pentru a determina gradul de influență al variabilelor independente asupra variabilei dependente. Funcționalitatea Microsoft Excel are instrumente concepute pentru a efectua acest tip de analiză. Să aruncăm o privire la ce sunt acestea și cum să le folosim.

Dar, pentru a utiliza funcția care vă permite să efectuați o analiză de regresie, în primul rând, trebuie să activați Pachetul de analiză. Abia atunci instrumentele necesare pentru această procedură vor apărea pe panglica Excel.


Acum, când mergem la filă "Date", pe panglica din cutia de instrumente "Analiză" vom vedea un buton nou - "Analiza datelor".

Tipuri de analiză de regresie

Există mai multe tipuri de regresii:

  • parabolic;
  • putere;
  • logaritmică;
  • exponențial;
  • demonstrație;
  • hiperbolic;
  • regresie liniara.

Despre executarea ultimei vederi analiza regresiei Vom vorbi mai multe despre Excel mai târziu.

Regresia liniară în Excel

Mai jos, ca exemplu, este un tabel care arată temperatura medie zilnică a aerului pe stradă și numărul de clienți ai magazinului pentru ziua lucrătoare corespunzătoare. Să aflăm cu ajutorul analizei de regresie exact cum vreme sub formă de temperatură a aerului poate afecta prezența unei unități comerciale.

Ecuația generală de regresie liniară arată astfel: Y = a0 + a1x1 + ... + axk. În această formulă Yînseamnă variabila a cărei influență încercăm să o studiem. În cazul nostru, acesta este numărul de cumpărători. Sens X- aceasta este diverși factori care afectează variabila. Opțiuni A sunt coeficienții de regresie. Adică, ele determină semnificația unui anumit factor. Index k reprezintă total aceiasi factori.


Analiza rezultatelor analizei

Rezultatele analizei de regresie sunt afișate sub forma unui tabel în locul specificat în setări.

Unul dintre principalii indicatori este R-pătrat. Indică calitatea modelului. În cazul nostru, acest coeficient este de 0,705 sau aproximativ 70,5%. Acesta este un nivel acceptabil de calitate. O relație mai mică de 0,5 este proastă.

Un alt indicator important este situat în celula de la intersecția liniei „Intersecția în Y” si coloana „Coeficienți”. Aici este indicată ce valoare va avea Y, iar în cazul nostru, acesta este numărul de cumpărători, cu toți ceilalți factori zero. În acest tabel, această valoare este 58,04.

Valoare la intersecția graficului „Variabila X1”și „Coeficienți” arată nivelul de dependență al lui Y față de X. În cazul nostru, acesta este nivelul de dependență a numărului de clienți din magazin de temperatură. Un coeficient de 1,31 este considerat un indicator de influență destul de ridicat.

După cum puteți vedea, este destul de ușor să creați un tabel de analiză de regresie folosind Microsoft Excel. Dar, doar o persoană instruită poate lucra cu datele obținute la ieșire și poate înțelege esența acestora.

REZULTATE

Tabelul 8.3a. Statistici de regresie
Statistici de regresie
Multiplu R 0,998364
R-pătrat 0,99673
R-pătrat normalizat 0,996321
eroare standard 0,42405
Observatii 10

Să ne uităm mai întâi la partea superioară a calculelor prezentate în Tabelul 8.3a, statisticile de regresie.

Valoarea R-pătrat, numită și măsură a certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele originale și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în intervalul .

În cele mai multe cazuri, valoarea R-pătratului se află între aceste valori, numite extreme, i.e. intre zero si unu.

Dacă valoarea pătratului R este aproape de unu, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor corespunzătoare. În schimb, o valoare R-pătrat apropiată de zero înseamnă o calitate slabă a modelului construit.

În exemplul nostru, măsura certitudinii este 0,99673, ceea ce indică o potrivire foarte bună a liniei de regresie la datele originale.

Multiplu R- coeficientul de corelație multiplă R - exprimă gradul de dependență al variabilelor independente (X) și al variabilei dependente (Y).

Multiplu R este egal rădăcină pătrată din coeficientul de determinare, această valoare ia valori în intervalul de la zero la unu.

Într-o analiză de regresie liniară simplă, multiplu R este egal cu coeficientul de corelație Pearson. Într-adevăr, multiplu R în cazul nostru este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienți de regresie
Cote eroare standard t-statistică
Intersecția în Y 2,694545455 0,33176878 8,121757129
Variabila X 1 2,305454545 0,04668634 49,38177965
* Se oferă o versiune trunchiată a calculelor

Acum luați în considerare partea de mijloc a calculelor prezentate în tabelul 8.3b. Aici, sunt date coeficientul de regresie b (2,305454545) și offset-ul de-a lungul axei y, i.e. constanta a (2,694545455).

Pe baza calculelor, putem scrie ecuația de regresie după cum urmează:

Y= x*2,305454545+2,694545455

Direcția relației dintre variabile este determinată pe baza semnelor (negative sau pozitive) coeficienții de regresie(coeficientul b).

Dacă semnul la coeficient de regresie- pozitivă, relația variabilei dependente cu cea independentă va fi pozitivă. În cazul nostru, semnul coeficientului de regresie este pozitiv, prin urmare, relația este și ea pozitivă.

Dacă semnul la coeficient de regresie- negativă, relația dintre variabila dependentă și variabila independentă este negativă (inversa).

În tabelul 8.3c. sunt prezentate rezultatele ieșirii reziduurilor. Pentru ca aceste rezultate să apară în raport, este necesar să activați caseta de selectare „Reziduuri” la lansarea instrumentului „Regresie”.

RETRAGERE RĂMÂNĂ

Tabelul 8.3c. Rămășițe
Observare A prezis Y Rămășițe Solduri standard
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Folosind această parte a raportului, putem vedea abaterile fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută

Ca urmare a studierii materialului din capitolul 4, studentul ar trebui:

stiu

  • concepte de bază ale analizei de regresie;
  • metode de estimare și proprietăți ale estimărilor metodei celor mai mici pătrate;
  • reguli de bază pentru testarea semnificației și estimarea pe intervale a ecuației și a coeficienților de regresie;

a fi capabil să

  • găsiți estimări ale parametrilor modelelor bidimensionale și multiple ale ecuațiilor de regresie din datele eșantionului, analizați proprietățile acestora;
  • verificați semnificația ecuației și a coeficienților de regresie;
  • găsiți estimări de interval ale parametrilor semnificativi;

proprii

  • abilitățile de estimare statistică a parametrilor ecuațiilor de regresie bidimensională și multiplă; abilități de verificare a adecvării modelelor de regresie;
  • abilități în obținerea unei ecuații de regresie cu toți coeficienții semnificativi folosind software analitic.

Noțiuni de bază

După analiza corelației, când se dezvăluie prezența unor relații semnificative statistic între variabile și se evaluează gradul de apropiere a acestora, se procedează de obicei la o descriere matematică a tipului de dependențe folosind metode de analiză de regresie. În acest scop, este selectată o clasă de funcții care leagă indicatorul efectiv lași argumente „ calculați estimări ale parametrilor ecuației de constrângere și analizați acuratețea ecuației rezultate .

Funcție| care descrie dependența valorii medii condiționate a caracteristicii efective la din valorile date ale argumentelor, se numește ecuația de regresie.

Termenul „regresie” (din lat. regresie- retragere, revenire la ceva) a fost introdus de psihologul și antropologul englez F. Galton și este asociat cu unul dintre primele sale exemple, în care Galton, prelucrând date statistice legate de problema eredității creșterii, a constatat că, dacă înălțimea de tații se abate de la înălțimea medie pe care toți tații X inci, atunci înălțimea fiilor lor se abate de la înălțimea medie a tuturor fiilor cu mai puțin de X inci Tendința identificată a fost numită regresie la medie.

Termenul de „regresie” este utilizat pe scară largă în literatura statistică, deși în multe cazuri nu caracterizează cu exactitate dependența statistică.

Pentru o descriere exactă a ecuației de regresie, este necesar să se cunoască legea condiționată de distribuție a indicatorului efectiv y.În practica statistică, este de obicei imposibil să se obțină astfel de informații, prin urmare, acestea se limitează la găsirea aproximărilor adecvate pentru funcție. f(x u X 2, .... l *), pe baza unei analize preliminare semnificative a fenomenului sau a datelor statistice originale.

În cadrul ipotezelor modelului individual despre tipul de distribuție a vectorului indicatorilor<) может быть получен общий вид ecuații de regresie, Unde. De exemplu, în ipoteza că setul de indicatori studiat respectă legea distribuției normale ()-dimensionale cu vectorul așteptărilor matematice

Unde și după matricea de covarianță,

unde este varianța y,

Ecuația de regresie (așteptarea condiționată) are forma

Astfel, dacă o variabilă aleatoare multivariată ()

respectă legea distribuției normale ()-dimensionale, apoi ecuația de regresie a indicatorului efectiv laîn variabile explicative are liniar în X vedere.

Cu toate acestea, în practica statistică, de obicei trebuie să ne limităm la găsirea aproximărilor adecvate pentru funcția de regresie adevărată necunoscută f(x),întrucât cercetătorul nu are cunoștințe exacte despre legea condiționată a distribuției de probabilitate a indicatorului de performanță analizat la pentru valorile date ale argumentelor X.

Luați în considerare relația dintre estimările adevărate, de model și de regresie. Lasă indicatorul de performanță la asociat cu argumentul X raport

unde este o variabilă aleatoare cu o lege de distribuție normală. Funcția de regresie adevărată în acest caz este

Să presupunem că nu cunoaștem forma exactă a ecuației de regresie adevărată, dar avem nouă observații asupra unei variabile aleatoare bidimensionale legate de relațiile prezentate în Fig. 4.1.

Orez. 4.1. Poziția relativă a adevăratuluif(x) și teoreticWowmodele de regresie

Localizarea punctelor din fig. 4.1 ne permite să ne limităm la clasa de dependențe liniare ale formei

Folosind metoda celor mai mici pătrate, găsim o estimare pentru ecuația de regresie.

Pentru comparație, în fig. 4.1 prezintă grafice ale funcției de regresie adevărată și ale funcției de regresie de aproximare teoretică. Estimarea ecuației de regresie converge în probabilitate către cea din urmă Wow cu o creștere nelimitată a dimensiunii eșantionului ().

Deoarece am ales greșit o funcție de regresie liniară în loc de o funcție de regresie adevărată, care, din păcate, este destul de comună în practica cercetării statistice, concluziile și estimările noastre statistice nu vor avea proprietatea de consistență, i.e. indiferent cât de mult am crește volumul de observații, estimarea eșantionului nostru nu va converge către funcția de regresie adevărată

Dacă am fi ales corect clasa de funcții de regresie, atunci inexactitatea în descriere folosind Wow s-ar explica doar prin caracterul limitat al eșantionului și, prin urmare, ar putea fi redus în mod arbitrar cu

Pentru a restabili cel mai bine valoarea condiționată a indicatorului efectiv și a funcției de regresie necunoscută din datele statistice originale, se folosesc cel mai des următoarele: criterii de adecvare funcții de pierdere.

1. metoda celor mai mici pătrate, conform căreia abaterea pătrată a valorilor observate ale indicatorului efectiv, , de la valorile modelului este minimizată, unde coeficienții ecuației de regresie; sunt valorile vectorului de argumente în observația „-M :

Problema găsirii unei estimări a vectorului este în curs de rezolvare. Regresia rezultată se numește medie pătrată.

2. Metoda celor mai puține module, conform căruia suma abaterilor absolute a valorilor observate ale indicatorului efectiv de la valorile modulare este minimizată, adică

Regresia rezultată se numește înseamnă absolut(median).

3. metoda minimax se reduce la minimizarea modulului de abatere maximă a valorii observate a indicatorului efectiv y, din valoarea modelului, adică

Regresia rezultată se numește minimax.

În aplicațiile practice, există adesea probleme în care este studiată variabila aleatoare y,în funcție de un set de variabile și parametri necunoscuți. Vom considera () ca (k + Populația generală 1)-dimensională, din care o mostră aleatorie de volum P, unde () este rezultatul observației /-a,. Este necesar să se estimeze parametrii necunoscuți pe baza rezultatelor observațiilor. Sarcina descrisă mai sus se referă la sarcinile analizei de regresie.

analiza regresiei numiți metoda analizei statistice a dependenței unei variabile aleatoare la asupra variabilelor considerate în analiza de regresie ca variabile non-aleatoare, indiferent de legea distribuției adevărate

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este luată în considerare în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia este înțeleasă ca o anumită mărime care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y \u003d x, în care y acționează ca o variabilă dependentă, iar x este o variabilă independentă (factor caracteristică). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile

În general, se disting două tipuri opuse de relații: corelația și regresia.

Prima este caracterizată de egalitatea variabilelor condiționale. În acest caz, nu se știe cu siguranță care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară, va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Până în prezent, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Arată ca y = c + m * x + E. Ecuația hiperbolică are forma unei hiperbole regulate y \u003d c + m / x + E. Ecuația liniară logaritmică exprimă relația folosind funcția logaritmică: În y \u003d În c + m * În x + În E.

Multiplu și neliniar

Două tipuri mai complexe de regresie sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y \u003d f (x 1, x 2 ... x c) + E. În această situație, y este variabila dependentă și x este variabila explicativă. Variabila E este stocastică și include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin inconsecventă. Pe de o parte, în ceea ce privește indicatorii luați în considerare, nu este liniară, iar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Regresii inverse și perechi

O inversă este un fel de funcție care trebuie convertită într-o formă liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y \u003d 1 / c + m * x + E. Ecuația de regresie perechi arată relația dintre date în funcție de y = f(x) + E. La fel ca și celelalte ecuații, y depinde de x și E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența feedback-ului, un indicator pozitiv indică unul direct. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1 - cu atât relația dintre parametri este mai puternică, cu atât mai aproape de 0 - cu atât mai slabă.

Metode

Metodele parametrice de corelație pot estima strângerea relației. Ele sunt utilizate pe baza estimărilor de distribuție pentru a studia parametrii care respectă legea distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație alese. Câmpul de corelație este folosit ca metodă de identificare a unei relații. Pentru a face acest lucru, toate datele existente trebuie reprezentate grafic. Într-un sistem de coordonate bidimensional dreptunghiular, toate datele cunoscute trebuie să fie reprezentate grafic. Așa se formează câmpul de corelație. Valoarea factorului de descriere este marcată de-a lungul abscisei, în timp ce valorile factorului dependent sunt marcate de-a lungul ordonatei. Dacă există o relație funcțională între parametri, aceștia se aliniază sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi despre absența aproape completă a unei conexiuni. Dacă este între 30% și 70%, atunci aceasta indică prezența legăturilor de etanșeitate medie. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelației multiple. El vorbește despre strânsoarea relației dintre setul de indicatori prezentat cu trăsătura studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este evaluată folosind acest indicator.

Pentru a calcula indicele de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de estimare a factorilor de regresie. Esența sa constă în minimizarea sumei abaterilor pătrate obținute datorită dependenței factorului de funcție.

O ecuație de regresie liniară pereche poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat în cazul detectării între indicatorii unei relații liniare pereche.

Opțiuni de ecuație

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul t arată modificarea medie a indicatorului final al funcției y, sub rezerva unei scăderi (creșteri) a variabilei x cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune despre o schimbare lentă a rezultatului în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat în termeni de ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există astfel de condiții ale sarcinii în care toate informațiile sunt grupate în funcție de atributul x, dar, în același timp, pentru un anumit grup, sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care indicatorul depinde de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, mediile sunt adesea supuse fluctuațiilor externe. Aceste fluctuații nu sunt o reflectare a tiparelor relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind dimensiunea unei anumite populații cu media corespunzătoare, puteți obține suma lui y în cadrul grupului. Apoi, trebuie să eliminați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. În cazul în care intervalele sunt mici, putem lua condiționat indicatorul x pentru toate unitățile (din cadrul grupului) la fel. Înmulțiți-l cu suma lui y pentru a găsi suma produselor lui x și y. În plus, toate sumele sunt bătute împreună și se obține suma totală xy.

Regresia ecuației cu perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y \u003d f (x 1, x 2, ..., x m) + E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei pentru un produs, a veniturilor din dobânzi la acțiunile răscumpărate, studiind cauzele și tipul funcției de cost de producție. De asemenea, este utilizat în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivelul microeconomiei, o astfel de ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce influență are fiecare dintre factori individual și în totalitate asupra indicatorului de modelat și a coeficienților acestuia. Ecuația de regresie poate lua o varietate de valori. În acest caz, două tipuri de funcții sunt de obicei folosite pentru a evalua relația: liniare și neliniare.

O funcție liniară este descrisă sub forma unei astfel de relații: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. În acest caz, a2, a m , sunt considerați a fi coeficienții de regresie „pură”. Este necesar să se caracterizeze modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția unei valori stabile a altor indicatori.

Ecuațiile neliniare au, de exemplu, forma unei funcții de putere y=ax 1 b1 x 2 b2 ...x m bm . În acest caz, indicatorii b 1, b 2 ..... b m - se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori ar trebui luați în considerare la construirea unei regresii multiple

Pentru a construi corect o regresie multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relației dintre factorii economici și cei modelați. Factorii care trebuie incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie măsurabil. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz, ar trebui să i se acorde o formă cantitativă.
  • Nu ar trebui să existe o intercorelație a factorilor sau o relație funcțională. Astfel de acțiuni conduc cel mai adesea la consecințe ireversibile - sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și moduri de a explica cum puteți alege factorii pentru ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind indicele de corelație. Printre acestea se numără:

  • Metoda excluderii.
  • Activați metoda.
  • Analiza de regresie în trepte.

Prima metodă implică separarea tuturor coeficienților din mulțimea agregată. A doua metodă implică introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost aplicați anterior ecuației. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interdependente. Acestea includ analiza discriminantă, recunoașterea modelelor, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, totuși, aceasta a apărut ca urmare a dezvoltării metodei componentelor. Toate sunt aplicate în anumite circumstanțe, în anumite condiții și factori.

Știința politică modernă pornește de la poziția privind relația dintre toate fenomenele și procesele din societate. Este imposibil să înțelegem evenimente și procese, să preziceți și să gestionați fenomenele vieții politice fără a studia conexiunile și dependențele care există în sfera politică a societății. Una dintre sarcinile cele mai comune ale cercetării politicilor este de a studia relația dintre unele variabile observabile. O întreagă clasă de metode statistice de analiză, unite prin denumirea comună „analiza de regresie” (sau, așa cum este numită și „analiza corelație-regresie”), ajută la rezolvarea acestei probleme. Cu toate acestea, dacă analiza corelației face posibilă evaluarea puterii relației dintre două variabile, atunci folosind analiza de regresie este posibilă determinarea tipului acestei relații, pentru a prezice dependența valorii oricărei variabile de valoarea altei variabile. .

În primul rând, să ne amintim ce este o corelație. Corelativ numit cel mai important caz special de relație statistică, care constă în faptul că valori egale ale unei variabile corespund diferitelor valori medii o alta. Odată cu o modificare a valorii atributului x, valoarea medie a atributului y se schimbă în mod natural, în timp ce în fiecare caz individual valoarea atributului la(cu probabilități diferite) poate lua multe valori diferite.

Apariția termenului „corelație” în statistică (și știința politică atrage realizarea statisticii pentru rezolvarea problemelor sale, care, prin urmare, este o disciplină legată de știința politică) este asociată cu numele biologului și statisticianului englez Francis Galton, care a propus în secolul al XIX-lea. fundamentele teoretice ale analizei corelație-regresie. Termenul „corelație” în știință era cunoscut înainte. În special, în paleontologie încă din secolul al XVIII-lea. a fost aplicat de omul de știință francez Georges Cuvier. El a introdus așa-numita lege a corelației, cu ajutorul căreia, conform rămășițelor de animale găsite în timpul săpăturilor, a fost posibilă restabilirea aspectului acestora.

Există o poveste binecunoscută asociată cu numele acestui om de știință și legea lui de corelare. Așa că, în zilele unei vacanțe universitare, studenții care s-au hotărât să joace un truc unui profesor celebru au tras o piele de capră cu coarne și copite peste un student. S-a urcat pe fereastra dormitorului lui Cuvier și a strigat: „Te mănânc”. Profesorul s-a trezit, s-a uitat la silueta și a răspuns: „Dacă ai coarne și copite, atunci ești ierbivor și nu mă poți mânca. Iar pentru necunoașterea legii corelației vei primi un deuce. S-a întors și a adormit. O glumă este o glumă, dar în acest exemplu vedem un caz special de utilizare a analizei de corelație-regresie multiplă. Aici profesorul, pe baza cunoașterii valorilor celor două trăsături observate (prezența coarnelor și a copitelor), pe baza legii corelației, a derivat valoarea medie a celei de-a treia trăsături (clasa căreia îi aparține acest animal). este un ierbivor). În acest caz, nu vorbim despre valoarea specifică a acestei variabile (adică acest animal ar putea lua diferite valori la scară nominală - ar putea fi o capră, un berbec sau un taur ...).

Acum să trecem la termenul „regresie”. Strict vorbind, nu are legătură cu semnificația acelor probleme statistice care sunt rezolvate cu ajutorul acestei metode. O explicație a termenului poate fi dată numai pe baza cunoașterii istoriei dezvoltării metodelor de studiere a relațiilor dintre trăsături. Unul dintre primele exemple de studii de acest fel a fost munca statisticienilor F. Galton și K. Pearson, care au încercat să găsească un model între creșterea taților și a copiilor lor după două semne observabile (unde X-înălțimea tatălui și U- creșterea copiilor). În studiul lor, ei au confirmat ipoteza inițială conform căreia, în medie, tații înalți cresc copii înalți. Același principiu se aplică taților și copiilor defavorizați. Cu toate acestea, dacă oamenii de știință s-ar opri acolo, lucrările lor nu ar fi niciodată menționate în manualele de statistică. Cercetătorii au găsit un alt model în cadrul ipotezei confirmate deja menționate. Ei au demonstrat că tații foarte înalți produc copii care sunt înalți în medie, dar nu foarte diferiți ca înălțime de copiii ai căror tați, deși peste medie, nu sunt foarte diferiți de înălțimea medie. Același lucru este valabil și pentru tații cu statură foarte mică (abaterea de la media grupului mic) - copiii lor, în medie, nu diferă ca înălțime de colegii ai căror tați erau pur și simplu scunzi. Ei au numit funcția care descrie această regularitate functie de regresie. După acest studiu, toate ecuațiile care descriu funcții similare și construite într-un mod similar au început să fie numite ecuații de regresie.

Analiza regresiei este una dintre metodele de analiză multivariată a datelor statistice, combinând un set de tehnici statistice menite să studieze sau să modeleze relațiile dintre o variabilă dependentă și mai multe (sau una) variabile independente. Variabila dependentă, conform tradiției acceptate în statistică, se numește răspuns și se notează ca V Variabilele independente sunt numite predictori și sunt notate ca X. Pe parcursul analizei, unele variabile vor fi slab legate de răspuns și vor fi în cele din urmă excluse din analiză. Variabilele rămase asociate cu dependenta pot fi numite și factori.

Analiza de regresie face posibilă prezicerea valorilor uneia sau mai multor variabile în funcție de o altă variabilă (de exemplu, înclinația pentru comportament politic neconvențional în funcție de nivelul de educație) sau mai multe variabile. Se calculeaza pe PC. Pentru a compila o ecuație de regresie care vă permite să măsurați gradul de dependență a caracteristicii controlate față de cele factori, este necesar să implicați matematicieni-programatori profesioniști. Analiza regresiei poate oferi un serviciu de neprețuit în construirea de modele predictive pentru dezvoltarea unei situații politice, evaluarea cauzelor tensiunii sociale și în efectuarea de experimente teoretice. Analiza de regresie este utilizată în mod activ pentru a studia impactul asupra comportamentului electoral al cetățenilor al unui număr de parametri socio-demografici: sex, vârstă, profesie, locul de reședință, naționalitate, nivelul și natura veniturilor.

În legătură cu analiza de regresie, conceptele independentși dependent variabile. O variabilă independentă este o variabilă care explică sau provoacă o modificare a unei alte variabile. O variabilă dependentă este o variabilă a cărei valoare se explică prin influența primei variabile. De exemplu, la alegerile prezidențiale din 2004, factorii determinanți, i.e. variabile independente au fost indicatori precum stabilizarea situației financiare a populației țării, nivelul de popularitate al candidaților și factorul incumbence.În acest caz, procentul de voturi exprimate pentru candidați poate fi considerat ca o variabilă dependentă. În mod similar, în perechea de variabile „vârsta alegătorului” și „nivelul activității electorale”, prima este independentă, a doua este dependentă.

Analiza regresiei vă permite să rezolvați următoarele probleme:

  • 1) stabilirea faptului însuși al prezenței sau absenței unei relații semnificative statistic între Ci X;
  • 2) construiți cele mai bune (în sens statistic) estimări ale funcției de regresie;
  • 3) conform valorilor date X construiți o predicție pentru necunoscut La
  • 4) evaluați ponderea specifică a influenței fiecărui factor X pe Lași, în consecință, excludeți caracteristicile nesemnificative din model;
  • 5) prin identificarea relațiilor cauzale dintre variabile, gestionați parțial valorile lui P prin ajustarea valorilor variabilelor explicative X.

Analiza de regresie este asociată cu necesitatea de a selecta variabile reciproc independente care afectează valoarea indicatorului studiat, de a determina forma ecuației de regresie și de a evalua parametrii folosind metode statistice pentru prelucrarea datelor sociologice primare. Acest tip de analiză se bazează pe ideea formei, direcției și apropierii (densității) relației. Distinge baie de aburiși regresie multiplăîn funcţie de numărul de caracteristici studiate. În practică, analiza de regresie este de obicei efectuată împreună cu analiza corelației. Ecuația de regresie descrie o relație numerică între cantități, exprimată ca tendință a unei variabile de a crește sau de a descrește, în timp ce alta crește sau scade. În același timp, razl și h a yut l îngheţși regresie neliniară. Atunci când descriem procesele politice, ambele variante de regresie sunt găsite în mod egal.

Scatterplot pentru distribuția interdependenței intereselor în articolele politice ( U)și educația respondenților (X) este o regresie liniară (Fig. 30).

Orez. treizeci.

Scatterplot pentru distribuția nivelului de activitate electorală ( U) iar vârsta respondentului (A) (exemplu condiționat) este o regresie neliniară (Fig. 31).


Orez. 31.

Pentru a descrie relația dintre două caracteristici (A și Y) într-un model de regresie pereche, se utilizează o ecuație liniară

unde a, este o valoare aleatorie a erorii ecuației cu variația caracteristicilor, i.e. abaterea ecuației de la „liniaritate”.

Pentru a evalua coeficienții Ași b utilizați metoda celor mai mici pătrate, care presupune că suma abaterilor pătrate ale fiecărui punct de pe diagrama de dispersie de la linia de regresie ar trebui să fie minimă. Cote a h b poate fi calculat folosind sistemul de ecuații:

Metoda estimării celor mai mici pătrate oferă astfel de estimări ale coeficienților Ași b, pentru care dreapta trece prin punctul cu coordonate Xși y, acestea. exista o relatie la = ax + b. Reprezentarea grafică a ecuației de regresie se numește linia de regresie teoretică. Cu o dependență liniară, coeficientul de regresie reprezintă pe grafic tangenta pantei dreptei de regresie teoretică la axa x. Semnul de la coeficient arată direcția relației. Dacă este mai mare decât zero, atunci relația este directă; dacă este mai mică, este inversă.

Următorul exemplu din studiul „Political Petersburg-2006” (Tabelul 56) arată o relație liniară între percepțiile cetățenilor asupra gradului de satisfacție față de viața lor în prezent și așteptările privind schimbările în calitatea vieții în viitor. Legătura este directă, liniară (coeficientul de regresie standardizat este 0,233, nivelul de semnificație este 0,000). În acest caz, coeficientul de regresie nu este mare, dar depășește limita inferioară a indicatorului semnificativ statistic (limita inferioară a pătratului indicatorului semnificativ statistic al coeficientului Pearson).

Tabelul 56

Impactul calității vieții cetățenilor în prezent asupra așteptărilor

(Sankt Petersburg, 2006)

* Variabila dependenta: "Cum crezi ca se va schimba viata ta in urmatorii 2-3 ani?"

În viața politică, valoarea variabilei studiate depinde cel mai adesea simultan de mai multe trăsături. De exemplu, nivelul și natura activității politice sunt influențate simultan de regimul politic al statului, tradițiile politice, particularitățile comportamentului politic al oamenilor dintr-o anumită zonă și microgrupul social al respondentului, vârsta acestuia, educația, venitul. nivel, orientare politică etc. În acest caz, trebuie să utilizați ecuația regresie multiplă, care are următoarea formă:

unde coeficient b.- coeficient de regresie parţială. Acesta arată contribuția fiecărei variabile independente la determinarea valorilor variabilei independente (rezultatul). Dacă coeficientul de regresie parțială este aproape de 0, atunci putem concluziona că nu există o relație directă între variabilele independente și dependente.

Calculul unui astfel de model poate fi efectuat pe un PC folosind algebra matriceală. Regresia multiplă vă permite să reflectați natura multifactorială a legăturilor sociale și să clarificați măsura impactului fiecărui factor individual și împreună asupra trăsăturii rezultate.

Coeficientul notat b, se numește coeficient de regresie liniară și arată puterea relației dintre variația trăsăturii factorului Xși variația caracteristicii efective Y Acest coeficient măsoară puterea relației în unități absolute de măsură ale caracteristicilor. Cu toate acestea, apropierea corelației caracteristicilor poate fi exprimată și în termeni de abatere standard a caracteristicii rezultate (un astfel de coeficient se numește coeficient de corelație). Spre deosebire de coeficientul de regresie b coeficientul de corelație nu depinde de unitățile de măsură acceptate ale caracteristicilor și, prin urmare, este comparabil pentru orice caracteristică. De obicei, conexiunea este considerată puternică dacă /> 0,7, etanșeitate medie - la 0,5 g 0,5.

După cum știți, cea mai apropiată conexiune este o conexiune funcțională, atunci când fiecare valoare individuală Y poate fi atribuit în mod unic valorii X. Astfel, cu cât coeficientul de corelație este mai apropiat de 1, cu atât relația este mai apropiată de unul funcțional. Nivelul de semnificație pentru analiza de regresie nu trebuie să depășească 0,001.

Coeficientul de corelație a fost mult timp considerat ca principalul indicator al strângerii relației de trăsături. Cu toate acestea, ulterior coeficientul de determinare a devenit un astfel de indicator. Semnificația acestui coeficient este următoarea - reflectă ponderea varianței totale a caracteristicii rezultate La, explicat prin varianța caracteristicii X. Se găsește prin simpla pătrare a coeficientului de corelație (schimbând de la 0 la 1) și, la rândul său, pentru o relație liniară reflectă ponderea de la 0 (0%) la 1 (100%) valori caracteristice Y, determinat de valorile atributului X. Este înregistrată ca eu 2, iar în tabelele rezultate ale analizei de regresie în pachetul SPSS - fără pătrat.

Să notăm principalele probleme ale construirii unei ecuații de regresie multiplă.

  • 1. Alegerea factorilor incluși în ecuația de regresie.În această etapă, cercetătorul întocmește mai întâi o listă generală a principalelor cauze care, conform teoriei, provoacă fenomenul studiat. Apoi trebuie să selecteze caracteristicile din ecuația de regresie. Regula principală de selecție este ca factorii incluși în analiză să se coreleze cât mai puțin între ei; numai în acest caz este posibil să se atribuie o măsură cantitativă a influenţei unui anumit factor-atribut.
  • 2. Selectarea formei ecuației de regresie multiplă(în practică, liniar sau liniar-logaritmic este mai des folosit). Deci, pentru a folosi regresia multiplă, cercetătorul trebuie mai întâi să construiască un model ipotetic al influenței mai multor variabile independente asupra celei rezultate. Pentru ca rezultatele obținute să fie de încredere, este necesar ca modelul să se potrivească exact cu procesul real, adică. relația dintre variabile trebuie să fie liniară, nu poate fi ignorată o singură variabilă semnificativă independentă, la fel cum nici o singură variabilă care să nu aibă legătură directă cu procesul studiat nu poate fi inclusă în analiză. În plus, toate măsurătorile variabilelor trebuie să fie extrem de precise.

Din descrierea de mai sus rezultă o serie de condiții pentru aplicarea acestei metode, fără de care este imposibil să se procedeze la procedura analizei de regresie multiplă (MRA). Numai respectarea tuturor punctelor următoare vă permite să efectuați corect analiza de regresie.