Analiza de regresie pentru manechine. Fundamentele analizei datelor. Analiza rezultatelor analizei

Scopul principal al analizei de regresie constă în determinarea formei analitice a relației, în care modificarea atributului rezultat se datorează influenței unuia sau mai multor semne factori, iar ansamblul tuturor celorlalți factori care afectează și atributul rezultat este luat ca valori constante și medii. .
Sarcini de analiză de regresie:
a) Stabilirea formei de dependenţă. În ceea ce privește natura și forma relației dintre fenomene, există regresii liniare pozitive și neliniare și regresii liniare și neliniare negative.
b) Definirea functiei de regresie sub forma unei ecuatii matematice de un tip sau altul si stabilirea influentei variabilelor explicative asupra variabilei dependente.
c) Estimarea valorilor necunoscute ale variabilei dependente. Folosind funcția de regresie, puteți reproduce valorile variabilei dependente în intervalul de valori date ale variabilelor explicative (adică, rezolvați problema de interpolare) sau puteți evalua cursul procesului în afara intervalului specificat (adică, rezolva problema extrapolării). Rezultatul este o estimare a valorii variabilei dependente.

Regresia perechi - ecuația relației dintre două variabile y și x: y=f(x), unde y este variabila dependentă (semnul rezultat); x - variabilă independentă, explicativă (factor-trăsătură).

Există regresii liniare și neliniare.
Regresia liniară: y = a + bx + ε
Regresiile neliniare sunt împărțite în două clase: regresiile care sunt neliniare în raport cu variabilele explicative incluse în analiză, dar liniare în raport cu parametrii estimați și regresiile care sunt neliniare în raport cu parametrii estimați.
Regresii care sunt neliniare în variabilele explicative:

Regresii care sunt neliniare în parametrii estimați:

  • puterea y=a x b ε
  • exponențial y=a b x ε
  • exponenţial y=e a+b x ε
Construcția ecuației de regresie se reduce la estimarea parametrilor acesteia. Pentru a estima parametrii regresiilor care sunt liniari în parametri, se utilizează metoda celor mai mici pătrate (LSM). LSM face posibilă obținerea unor astfel de estimări ale parametrilor sub care suma abaterilor pătrate ale valorilor reale ale caracteristicii efective y de la valorile teoretice y x este minimă, adică.
.
Pentru ecuațiile liniare și neliniare reductibile la liniare, următorul sistem este rezolvat pentru a și b:

Puteți folosi formule gata făcute care decurg din acest sistem:

Apropierea legăturii dintre fenomenele studiate este estimată prin coeficientul de corelație liniară pereche r xy pentru regresia liniară (-1≤r xy ≤1):

și indicele de corelație p xy - pentru regresia neliniară (0≤p xy ≤1):

O evaluare a calității modelului construit va fi dată de coeficientul (indicele) de determinare, precum și de eroarea medie de aproximare.
Eroarea medie de aproximare este abaterea medie a valorilor calculate de la cele reale:
.
Limita admisibilă a valorilor A - nu mai mult de 8-10%.
Coeficientul mediu de elasticitate E arată câte procente, în medie, se va schimba rezultatul y față de valoarea medie în medie atunci când factorul x se modifică cu 1% față de valoarea sa medie:
.

Sarcina analizei varianței este de a analiza varianța variabilei dependente:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
unde ∑(y-y )² - valoare totală abateri la pătrat;
∑(y x -y)² - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y-y x)² - suma reziduală a abaterilor pătrate.
Ponderea varianței explicată prin regresie în varianța totală a caracteristicii efective y este caracterizată de coeficientul (indicele) de determinare R2:

Coeficientul de determinare este pătratul coeficientului sau indicelui de corelație.

F-test - evaluarea calității ecuației de regresie - constă în testarea ipotezei Dar despre nesemnificația statistică a ecuației de regresie și a indicatorului de apropiere a conexiunii. Pentru aceasta, se realizează o comparație a faptului F real și a tabelului F critic (tabelar) al valorilor criteriului F Fisher. Faptul F este determinat din raportul dintre valorile variațiilor factoriale și reziduale calculate pentru un grad de libertate:
,
unde n este numărul de unități de populație; m este numărul de parametri pentru variabilele x.
Tabelul F este valoarea maximă posibilă a criteriului sub influența unor factori aleatori pentru grade date de libertate și nivelul de semnificație a. Nivelul de semnificație a - probabilitatea de a respinge ipoteza corectă, cu condiția ca aceasta să fie adevărată. De obicei, a este luat egal cu 0,05 sau 0,01.
Dacă tabelul F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F este un fapt, atunci ipoteza H despre nu este respinsă și se recunoaște nesemnificația statistică, nefiabilitatea ecuației de regresie.
Pentru a evalua semnificația statistică a coeficienților de regresie și corelație, se calculează testul t Student și intervalele de încredere pentru fiecare dintre indicatori. Este înaintată o ipoteză H despre natura aleatorie a indicatorilor, adică. despre diferența lor nesemnificativă față de zero. Evaluarea semnificației coeficienților de regresie și corelație cu ajutorul testului t Student se realizează prin compararea valorilor acestora cu mărimea erorii aleatoare:
; ; .
Erorile aleatoare ale parametrilor de regresie liniară și ale coeficientului de corelație sunt determinate de formulele:



Comparând valorile reale și critice (tabulare) ale statisticilor t - t tabl și t fapt - acceptăm sau respingem ipoteza H o.
Relația dintre testul F al lui Fisher și statisticile t ale lui Student este exprimată prin egalitate

Dacă t tabelul< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t faptul că ipoteza H despre nu este respinsă și se recunoaște natura aleatorie a formării lui a, b sau r xy.
Pentru a calcula intervalul de încredere, determinăm eroarea marginală D pentru fiecare indicator:
Δ a =t tabel m a , Δ b =t tabel m b .
Formulele pentru calcularea intervalelor de încredere sunt următoarele:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; y b = b-A b; yb =b+Δb
Dacă zero se încadrează în limitele intervalului de încredere, i.e. Dacă limita inferioară este negativă și limita superioară este pozitivă, atunci parametrul estimat se presupune a fi zero, deoarece nu poate prelua simultan atât valori pozitive, cât și negative.
Valoarea prognozată y p se determină prin înlocuirea valorii corespunzătoare (prognoză) x p în ecuația de regresie y x =a+b·x . Eroarea standard medie a prognozei m y x se calculează:
,
Unde
iar intervalul de încredere al prognozei este construit:
γ y x =y p Δ y p ; y y x min=y p -A y p; γ y x max=y p +Δ y p
unde Δ y x =t tabel ·m y x .

Exemplu de soluție

Sarcina numărul 1. Pentru șapte teritorii ale regiunii Ural Pentru 199X, sunt cunoscute valorile a două semne.
Tabelul 1.

Necesar: 1. Pentru a caracteriza dependența lui y de x, calculați parametrii următoarelor funcții:
a) liniară;
b) putere (anterior este necesară efectuarea procedurii de liniarizare a variabilelor, prin luarea logaritmului ambelor părți);
c) demonstrativ;
d) hiperbola echilaterală (de asemenea, trebuie să vă dați seama cum să pre-linearizați acest model).
2. Evaluați fiecare model prin eroarea medie de aproximare A și testul F Fisher.

Soluție (opțiunea #1)

Pentru a calcula parametrii a și b ai regresiei liniare y=a+b·x (calculul se poate face folosind un calculator).
rezolva sistemul de ecuații normale în raport cu Ași b:
Pe baza datelor inițiale, calculăm ∑y, ∑x, ∑y x, ∑x², ∑y²:
y X yx x2 y2 y xy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
mier valoare (Total/n)57,89
y
54,90
X
3166,05
X y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Ecuația de regresie: y= 76,88 - 0,35X. Cu o creștere a salariului mediu zilnic cu 1 rub. ponderea cheltuielilor pentru achiziționarea de produse alimentare se reduce în medie cu 0,35% puncte.
Calculați coeficientul liniar al corelației perechilor:

Comunicarea este moderată, inversă.
Să determinăm coeficientul de determinare: r² xy =(-0,35)=0,127
Variația de 12,7% a rezultatului se explică prin variația factorului x. Înlocuirea valorilor reale în ecuația de regresie X, determinăm valorile teoretice (calculate) ale lui y x . Să găsim valoarea erorii medii de aproximare A:

În medie, valorile calculate se abat de la cele reale cu 8,1%.
Să calculăm criteriul F:

Valoarea obținută indică necesitatea acceptării ipotezei H 0 despre natura aleatorie a dependenței relevate și nesemnificația statistică a parametrilor ecuației și a indicatorului de apropiere a conexiunii.
1b. Construcția modelului de putere y=a·x b este precedată de procedura de liniarizare a variabilelor. În exemplu, liniarizarea se face luând logaritmul ambelor părți ale ecuației:
lg y=lg a + b lg x
Y=C+b Y
unde Y=lg(y), X=lg(x), C=lg(a).

Pentru calcule, folosim datele din tabel. 1.3.
Tabelul 1.3

YX YX Y 2 x2 y xy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Rău1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Calculați C și b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Obținem o ecuație liniară: Y=2,278-0,298 X
După potențarea acestuia, obținem: y=10 2,278 x -0,298
Inlocuind in aceasta ecuatie valorile reale X, obținem valorile teoretice ale rezultatului. Pe baza acestora, calculăm indicatorii: etanșeitatea conexiunii - indicele de corelație p xy și eroarea medie de aproximare A .

Caracteristicile modelului de putere indică faptul că este ceva mai bun funcție liniară descrie relația.

1c. Construcția ecuației curbei exponențiale y \u003d a b x este precedată de procedura de liniarizare a variabilelor atunci când se iau logaritmul ambelor părți ale ecuației:
lg y=lg a + x lg b
Y=C+B x
Pentru calcule, folosim datele din tabel.

YX Yx Y 2 x2y xy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
mier zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Valorile parametrilor de regresie A și LA se ridica la:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Se obține o ecuație liniară: Y=1,887-0,0023x. Potențiem ecuația rezultată și o scriem în forma obișnuită:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Estimăm strângerea relației prin indicele de corelație p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Total405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Rău57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

Analiza regresiei o metodă pentru modelarea datelor măsurate și studierea proprietăților acestora. Datele constau din perechi de valori variabilă dependentă(variabila răspuns) și variabila independenta(variabila explicativă). Modelul de regresie este o funcție a variabilei independente și a parametrilor cu o variabilă aleatoare adăugată. Parametrii modelului sunt configurați astfel încât modelul cel mai bun mod aproximează datele. Criteriul pentru calitatea aproximării (funcția obiectivă) este de obicei eroarea pătratică medie: suma pătratelor diferenței dintre valorile modelului și variabila dependentă pentru toate valorile variabilei independente ca un argument. Secțiunea de analiză de regresie a statisticilor matematice și a învățării automate. Se presupune că variabila dependentă este suma valorilor unui model și a unei variabile aleatoare. În ceea ce privește natura distribuției acestei valori, se fac ipoteze, numite ipoteza de generare a datelor. Pentru confirmarea sau infirmarea acestei ipoteze se efectuează teste statistice, numite analiză reziduală. Aceasta presupune că variabila independentă nu conține erori. Analiza de regresie este utilizată pentru prognoză, analiza seriilor temporale, testarea ipotezelor și descoperirea relațiilor ascunse în date.

Definiţia analizei de regresie

Eșantionul poate să nu fie o funcție, ci o relație. De exemplu, datele pentru construirea unei regresii ar putea fi: . Într-un astfel de eșantion, o valoare a variabilei corespunde mai multor valori ale variabilei.

Regresie liniara

Regresia liniară presupune că funcția depinde liniar de parametri. În acest caz, o dependență liniară de variabila liberă este opțională,

În cazul în care funcția de regresie liniară are forma

aici sunt componente ale vectorului.

Valorile parametrilor în cazul regresiei liniare se găsesc folosind metoda celor mai mici pătrate. Utilizarea acestei metode este justificată de ipoteza unei distribuții gaussiene a unei variabile aleatoare.

Se numesc diferențele dintre valorile reale ale variabilei dependente și cele reconstruite reziduuri de regresie(reziduuri). Sinonime sunt, de asemenea, folosite în literatură: reziduuriși greșeli. Una dintre estimările importante ale criteriului de calitate al dependenței obținute este suma pătratelor reziduurilor:

Aici Suma erorilor pătrate.

Varianța reziduurilor se calculează prin formula

Aici Eroare pătrată medie.

Graficele arată mostre marcate cu puncte albastre și dependențe de regresie marcate cu linii continue. Variabila liberă este reprezentată de-a lungul abscisei, iar variabila dependentă este reprezentată de-a lungul ordonatei. Toate cele trei dependențe sunt liniare în raport cu parametrii.

Regresia neliniară

Modele de regresie neliniară - Vedeți modele

care nu poate fi reprezentat ca produs punctual

unde sunt parametrii modelului de regresie, este o variabilă liberă din spațiu, este variabilă dependentă, este o variabilă aleatoare și este o funcție dintr-o mulțime dată.

Valorile parametrilor în cazul regresiei neliniare sunt găsite folosind una dintre metodele de coborâre a gradientului, de exemplu algoritmul Levenberg-Marquardt.

Despre termeni

Termenul „regresiune” a fost inventat de Francis Galton la sfârșitul secolului al XIX-lea. Galton a descoperit că copiii cu părinți înalți sau scunzi nu moștenesc de obicei o înălțime remarcabilă și a numit acest fenomen „regresie la mediocritate”. La început, termenul a fost folosit exclusiv în sens biologic. După munca lui Karl Pearson, acest termen a început să fie folosit în statistică.

În literatura statistică se face o distincție între regresia care implică o variabilă liberă și cu mai multe variabile libere unidimensionalși multidimensionale regresie. Se presupune că folosim mai multe variabile libere, adică o variabilă liberă un vector. În cazuri speciale, când variabila liberă este scalară, ea va fi notată cu . Distinge liniarși neliniară regresie. Dacă modelul de regresie nu este o combinație liniară de funcții ale parametrilor, atunci se vorbește de o regresie neliniară. În acest caz, modelul poate fi o suprapunere arbitrară a funcțiilor dintr-o anumită mulțime. Modelele neliniare sunt exponențiale, trigonometrice și altele (de exemplu, funcții de bază radială sau perceptron Rosenblatt), care presupun că relația dintre parametri și variabila dependentă este neliniară.

Distinge parametriceși neparametric regresie. Este dificil de trasat o linie clară între aceste două tipuri de regresii. În prezent, nu există un criteriu general acceptat pentru a distinge un tip de model de altul. De exemplu, modelele liniare sunt considerate a fi parametrice, în timp ce modelele care implică mediarea variabilei dependente în spațiul variabilei libere sunt considerate a fi neparametrice. Un exemplu de model de regresie parametrică: predictor liniar, perceptron multistrat. Exemple de model de regresie mixtă: funcții de bază radială. Media mobilă a modelului neparametric într-o fereastră de o anumită lățime. În general, regresia neparametrică diferă de regresia parametrică prin aceea că variabila dependentă nu depinde de o valoare a variabilei libere, ci de o anumită vecinătate a acestei valori.

Există o distincție între termenii: „aproximare a funcției”, „aproximare”, „interpolare” și „regresie”. Constă în următoarele.

Aproximarea funcțiilor. Este dată o funcție a unui argument discret sau continuu. Este necesar să se găsească o funcție dintr-o familie parametrică, de exemplu, printre polinoamele algebrice de un anumit grad. Parametrii funcției trebuie să ofere un minim de anumite funcționalități, de exemplu,

Termen apropiere un sinonim pentru termenul „aproximare a funcțiilor”. Folosit mai des când se vorbește despre funcţie dată, ce zici de o funcție a unui argument discret. Aici este, de asemenea, necesar să găsiți o astfel de funcție care trece cel mai aproape de toate punctele funcției date. Aceasta introduce conceptul reziduuri distanţele dintre punctele unei funcţii continue şi punctele corespunzătoare ale unei funcţii a unui argument discret.

Interpolare funcţionează un caz special al problemei de aproximare, când se cere ca în anumite puncte, numit noduri de interpolare valorile funcției și ale funcției care o aproximează au coincis. Într-un caz mai general, se impun restricții asupra valorilor unor derivate ale instrumentelor derivate. Adică, dată fiind o funcție a unui argument discret. Este necesar să găsiți o funcție care trece prin toate punctele. În acest caz, metrica nu este utilizată de obicei, dar este adesea introdus conceptul de „netezime” a funcției dorite.

REZULTATE

Tabelul 8.3a. Statistici de regresie
Statistici de regresie
Multiplu R 0,998364
R-pătrat 0,99673
R-pătrat normalizat 0,996321
eroare standard 0,42405
Observatii 10

Să ne uităm mai întâi la partea superioară a calculelor prezentate în Tabelul 8.3a, statisticile de regresie.

Valoarea R-pătrat, numită și măsură a certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele originale și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în intervalul .

În cele mai multe cazuri, valoarea R-pătratului se află între aceste valori, numite extreme, i.e. intre zero si unu.

Dacă valoarea pătratului R este aproape de unu, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor corespunzătoare. În schimb, o valoare R-pătrat apropiată de zero înseamnă o calitate slabă a modelului construit.

În exemplul nostru, măsura certitudinii este 0,99673, ceea ce indică o potrivire foarte bună a liniei de regresie la datele originale.

Multiplu R- coeficient corelație multiplă R - exprimă gradul de dependență al variabilelor independente (X) și al variabilei dependente (Y).

Multiplu R este egal rădăcină pătrată din coeficientul de determinare, această valoare ia valori în intervalul de la zero la unu.

Într-o analiză de regresie liniară simplă, multiplu R este egal cu coeficientul de corelație Pearson. Într-adevăr, multiplu R în cazul nostru este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienți de regresie
Cote eroare standard t-statistică
Intersecția în Y 2,694545455 0,33176878 8,121757129
Variabila X 1 2,305454545 0,04668634 49,38177965
* Se oferă o versiune trunchiată a calculelor

Acum luați în considerare partea de mijloc a calculelor prezentate în tabelul 8.3b. Aici, sunt date coeficientul de regresie b (2,305454545) și offset-ul de-a lungul axei y, i.e. constanta a (2,694545455).

Pe baza calculelor, putem scrie ecuația de regresie după cum urmează:

Y= x*2,305454545+2,694545455

Direcția relației dintre variabile este determinată pe baza semnelor (negative sau pozitive) coeficienții de regresie(coeficientul b).

Dacă semnul la coeficient de regresie- pozitivă, relația variabilei dependente cu cea independentă va fi pozitivă. În cazul nostru, semnul coeficientului de regresie este pozitiv, prin urmare, relația este și ea pozitivă.

Dacă semnul la coeficient de regresie- negativă, relația dintre variabila dependentă și variabila independentă este negativă (inversa).

În tabelul 8.3c. sunt prezentate rezultatele ieșirii reziduurilor. Pentru ca aceste rezultate să apară în raport, este necesar să activați caseta de selectare „Reziduuri” la lansarea instrumentului „Regresie”.

RETRAGERE RĂMÂNĂ

Tabelul 8.3c. Rămășițe
Observare A prezis Y Rămășițe Solduri standard
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Folosind această parte a raportului, putem vedea abaterile fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută

Analiza de regresie și corelație - metode de cercetare statistică. Acestea sunt cele mai comune moduri de a arăta dependența unui parametru de una sau mai multe variabile independente.

Mai jos pe specific exemple practice Să luăm în considerare aceste două analize foarte populare printre economiști. Vom da, de asemenea, un exemplu de obținere a rezultatelor atunci când acestea sunt combinate.

Analiza de regresie în Excel

Arată influența unor valori (independente, independente) asupra variabilei dependente. De exemplu, modul în care numărul populației active din punct de vedere economic depinde de numărul de întreprinderi, salarii și alți parametri. Sau: cum afectează investițiile străine, prețurile la energie etc. nivelul PIB-ului.

Rezultatul analizei vă permite să stabiliți priorități. Și pe baza factorilor principali, să prezică, să planifice dezvoltarea zonelor prioritare, să ia decizii de management.

Are loc regresia:

  • liniară (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponențial (y = a * exp(bx));
  • putere (y = a*x^b);
  • hiperbolic (y = b/x + a);
  • logaritmică (y = b * 1n(x) + a);
  • exponențial (y = a * b^x).

Luați în considerare exemplul construirii unui model de regresie în Excel și interpretarea rezultatelor. Hai sa luam tip liniar regresie.

O sarcină. La 6 întreprinderi s-a analizat salariul mediu lunar și numărul de angajați plecați. Este necesar să se determine dependența numărului de salariați pensionari de salariul mediu.

Modelul de regresie liniară are următoarea formă:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Unde a sunt coeficienții de regresie, x sunt variabilele de influență și k este numărul de factori.

În exemplul nostru, Y este indicatorul lucrătorilor renunțați. Factorul de influență este salariul (x).

Excel are funcții încorporate care pot fi utilizate pentru a calcula parametrii unui model de regresie liniară. Dar programul de completare Analysis ToolPak o va face mai rapid.

Activați un instrument analitic puternic:

Odată activat, suplimentul va fi disponibil în fila Date.

Acum ne vom ocupa direct de analiza de regresie.



În primul rând, acordăm atenție pătratului R și coeficienților.

R-pătratul este coeficientul de determinare. În exemplul nostru, este 0,755 sau 75,5%. Aceasta înseamnă că parametrii calculați ai modelului explică relația dintre parametrii studiați cu 75,5%. Cu cât coeficientul de determinare este mai mare, cu atât model mai bun. Bun - peste 0,8. Slab - mai puțin de 0,5 (o astfel de analiză cu greu poate fi considerată rezonabilă). În exemplul nostru - „nu e rău”.

Coeficientul 64,1428 arată ce va fi Y dacă toate variabilele din modelul luat în considerare sunt egale cu 0. Adică alți factori care nu sunt descriși în model afectează și valoarea parametrului analizat.

Coeficientul -0,16285 arată ponderea variabilei X pe Y. Adică salariul mediu lunar în cadrul acestui model afectează numărul de renunțați cu o pondere de -0,16285 (acesta este un grad mic de influență). Semnul „-” indică un impact negativ: cu cât salariul este mai mare, cu atât mai puține renunțe. Ceea ce este corect.



Analiza corelației în Excel

Analiza corelației ajută la stabilirea dacă există o relație între indicatorii din unul sau două eșantioane. De exemplu, între timpul de funcționare al mașinii și costul reparațiilor, prețul echipamentului și durata de funcționare, înălțimea și greutatea copiilor etc.

Dacă există o relație, atunci dacă o creștere a unui parametru duce la o creștere (corelație pozitivă) sau o scădere (negativă) a celuilalt. Analiza corelației ajută analistul să determine dacă valoarea unui indicator poate prezice valoarea posibilă a altuia.

Coeficientul de corelație se notează cu r. Variază de la +1 la -1. Clasificarea corelaţiilor pentru zone diferite va fi diferit. Când valoarea coeficientului este 0, nu există o relație liniară între eșantioane.

Luați în considerare cum să utilizați Excel pentru a găsi coeficientul de corelație.

Funcția CORREL este utilizată pentru a găsi coeficienții perechi.

Sarcină: Determinați dacă există o relație între timpul de funcționare al unui strung și costul întreținerii acestuia.

Puneți cursorul în orice celulă și apăsați butonul fx.

  1. În categoria „Statistică”, selectați funcția CORREL.
  2. Argumentul „Matrice 1” - primul interval de valori - ora mașinii: A2: A14.
  3. Argumentul „Matrice 2” - al doilea interval de valori - costul reparațiilor: B2:B14. Faceți clic pe OK.

Pentru a determina tipul de conexiune, trebuie să vă uitați la numărul absolut al coeficientului (fiecare domeniu de activitate are propria sa scară).

Pentru analiza corelației mai mulți parametri (mai mult de 2), este mai convenabil să utilizați „Analiza datelor” (supliment „Pachet de analiză”). În listă, trebuie să selectați o corelație și să desemnați o matrice. Toate.

Coeficienții rezultați vor fi afișați în matricea de corelație. Ca acesta:

Analiza corelației-regresiune

În practică, aceste două tehnici sunt adesea folosite împreună.

Exemplu:


Acum datele analizei de regresie sunt vizibile.

În modelarea statistică, analiza de regresie este un studiu utilizat pentru a evalua relația dintre variabile. Această metodă matematică include multe alte metode pentru modelarea și analiza mai multor variabile atunci când accentul este pus pe relația dintre o variabilă dependentă și una sau mai multe variabile independente. Mai precis, analiza de regresie vă ajută să înțelegeți cum se modifică valoarea tipică a variabilei dependente dacă una dintre variabilele independente se modifică în timp ce celelalte variabile independente rămân fixe.

În toate cazurile, scorul țintă este o funcție a variabilelor independente și se numește funcție de regresie. În analiza de regresie, este, de asemenea, interesant să se caracterizeze modificarea variabilei dependente în funcție de regresie, care poate fi descrisă folosind o distribuție de probabilitate.

Sarcini de analiză de regresie

The metoda statistica cercetarea este utilizată pe scară largă pentru prognoză, unde utilizarea ei are un avantaj semnificativ, dar uneori poate duce la o iluzie sau la o relație falsă, de aceea este recomandat să o folosiți cu atenție în această întrebare, deoarece, de exemplu, corelația nu înseamnă cauzalitate .

Dezvoltat număr mare metode pentru efectuarea analizei de regresie, cum ar fi regresia liniară și obișnuită cu cele mai mici pătrate, care sunt parametrice. Esența lor este că funcția de regresie este definită în termenii unui număr finit de parametri necunoscuți care sunt estimați din date. Regresia neparametrică permite ca funcția sa să se afle într-un anumit set de funcții, care pot fi infinit-dimensionale.

Ca metodă de cercetare statistică, analiza regresiei în practică depinde de forma procesului de generare a datelor și de modul în care acesta se raportează la abordarea regresiei. Deoarece adevărata formă a procesului de generare a datelor este de obicei un număr necunoscut, analiza regresiei datelor depinde adesea într-o oarecare măsură de ipotezele despre proces. Aceste ipoteze sunt uneori testabile dacă există suficiente date disponibile. Modelele de regresie sunt adesea utile chiar și atunci când ipotezele sunt încălcate moderat, deși s-ar putea să nu aibă rezultate optime.

Într-un sens mai restrâns, regresia se poate referi în mod specific la estimarea variabilelor de răspuns continuu, spre deosebire de variabilele de răspuns discret utilizate în clasificare. Cazul unei variabile de ieșire continuă este numit și regresie metrică pentru a o distinge de problemele conexe.

Poveste

Cea mai timpurie formă de regresie este binecunoscuta metodă a celor mai mici pătrate. A fost publicată de Legendre în 1805 și de Gauss în 1809. Legendre și Gauss au aplicat metoda la problema determinării din observații astronomice a orbitelor corpurilor în jurul Soarelui (în principal comete, dar mai târziu și planete minore nou descoperite). a publicat Gauss dezvoltare ulterioară teoria celor mai mici pătrate în 1821, inclusiv o variantă a teoremei Gauss-Markov.

Termenul „regresiune” a fost inventat de Francis Galton în secolul al XIX-lea pentru a descrie fenomen biologic. Concluzia a fost că creșterea descendenților din creșterea strămoșilor, de regulă, regresează până la media normală. Pentru Galton, regresia avea doar acest sens biologic, dar mai târziu lucrarea sa a fost preluată de Udni Yoley și Karl Pearson și dusă într-un context statistic mai general. În lucrarea lui Yule și Pearson, distribuția comună a răspunsului și a variabilelor explicative este considerată a fi gaussiană. Această presupunere a fost respinsă de Fischer în lucrările din 1922 și 1925. Fisher a sugerat că distribuția condiționată a variabilei răspuns este Gauss, dar distribuția comună nu trebuie să fie. În acest sens, sugestia lui Fisher este mai apropiată de formularea lui Gauss din 1821. Înainte de 1970, uneori era nevoie de până la 24 de ore pentru a obține rezultatul unei analize de regresie.

Metodele de analiză de regresie continuă să fie un domeniu de cercetare activă. În ultimele decenii, au fost dezvoltate noi metode pentru regresie robustă; regresii care implică răspunsuri corelate; metode de regresie care conțin tipuri diferite date lipsa; regresie neparametrică; metode de regresie bayesiană; regresii în care variabilele predictoare sunt măsurate cu eroare; regresii cu mai mulți predictori decât observații și inferențe cauzale cu regresie.

Modele de regresie

Modelele de analiză de regresie includ următoarele variabile:

  • Parametri necunoscuți, notați ca beta, care pot fi un scalar sau un vector.
  • Variabile independente, X.
  • Variabile dependente, Y.

În diverse domenii ale științei în care se aplică analiza de regresie, se folosesc termeni diferiți în locul variabilelor dependente și independente, dar în toate cazurile modelul de regresie leagă Y la o funcție a lui X și β.

Aproximarea este de obicei formulată ca E (Y | X) = F (X, β). Pentru a efectua analiza de regresie, trebuie determinată forma funcției f. Mai rar, se bazează pe cunoștințe despre relația dintre Y și X care nu se bazează pe date. Dacă astfel de cunoștințe nu sunt disponibile, atunci se alege o formă F flexibilă sau convenabilă.

Variabila dependentă Y

Să presupunem acum că vectorul parametrilor necunoscuți β are lungimea k. Pentru a efectua o analiză de regresie, utilizatorul trebuie să furnizeze informații despre variabila dependentă Y:

  • Dacă se observă N puncte de date de forma (Y, X), unde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Dacă se observă exact N = K, iar funcția F este liniară, atunci ecuația Y = F(X, β) poate fi rezolvată exact, nu aproximativ. Acest lucru se rezumă la rezolvarea unui set de N-ecuații cu N-necunoscute (elementele lui β) care are o soluție unică atâta timp cât X este independent liniar. Dacă F este neliniară, este posibil să nu existe o soluție sau pot exista multe soluții.
  • Cea mai frecventă situație este în cazul în care există N > puncte către date. În acest caz, există suficiente informații în date pentru a estima valoarea unică pentru β care se potrivește cel mai bine datelor, iar modelul de regresie atunci când este aplicat datelor poate fi văzut ca un sistem suprascris în β.

În acest din urmă caz, analiza de regresie oferă instrumente pentru:

  • Găsirea unei soluții pentru parametrii necunoscuți β, care, de exemplu, va minimiza distanța dintre valoarea măsurată și cea prezisă a lui Y.
  • În anumite ipoteze statistice, analiza de regresie folosește excesul de informații pentru a furniza informații statistice despre parametrii necunoscuți β și valorile prezise ale variabilei dependente Y.

Numărul necesar de măsurători independente

Considerăm un model de regresie care are trei parametri necunoscuți: β 0 , β 1 și β 2 . Să presupunem că experimentatorul face 10 măsurători în aceeași valoare a variabilei independente a vectorului X. În acest caz, analiza de regresie nu dă un set unic de valori. Cel mai bun lucru pe care îl puteți face este să estimați media și abaterea standard a variabilei dependente Y. În mod similar, măsurând două valori diferite ale lui X, puteți obține suficiente date pentru o regresie cu două necunoscute, dar nu pentru trei sau mai multe necunoscute. .

Dacă măsurătorile experimentatorului ar fi luate la trei valori diferite ale variabilei vectoriale independente X, atunci analiza de regresie ar oferi un set unic de estimări pentru cei trei parametri necunoscuți în β.

În cazul regresiei liniare generale, afirmația de mai sus este echivalentă cu cerința ca matricea X T X să fie inversabilă.

Ipoteze statistice

Când numărul de măsurători N este mai mare decât numărul de parametri necunoscuți k și erorile de măsurare ε i , atunci, de regulă, un exces de informații conținute în măsurători este apoi distribuit și utilizat pentru predicții statistice privind parametrii necunoscuți. Acest exces de informație se numește gradul de libertate al regresiei.

Ipotezele de bază

Ipotezele clasice pentru analiza de regresie includ:

  • Eșantionarea este reprezentativă pentru predicția prin inferență.
  • Eroarea este variabilă aleatorie cu o medie de zero, care este condiționată de variabilele explicative.
  • Variabilele independente sunt măsurate fără erori.
  • Ca variabile independente (predictori), ele sunt liniar independente, adică nu este posibil să se exprime niciun predictor ca o combinație liniară a celorlalți.
  • Erorile sunt necorelate, adică matricea de covarianță a erorilor a diagonalelor și fiecare element diferit de zero este varianța erorii.
  • Varianța erorii este constantă între observații (homoscedasticitate). Dacă nu, atunci pot fi utilizate cele mai mici pătrate ponderate sau alte metode.

Aceste condiții suficiente pentru estimarea celor mai mici pătrate au proprietățile cerute, în special aceste ipoteze înseamnă că estimările parametrilor vor fi obiective, consistente și eficiente, mai ales atunci când sunt luate în considerare în clasa estimărilor liniare. Este important de reținut că datele reale îndeplinesc rareori condițiile. Adică, metoda este folosită chiar dacă ipotezele nu sunt corecte. Variația față de ipoteze poate fi uneori utilizată ca o măsură a cât de util este modelul. Multe dintre aceste ipoteze pot fi relaxate prin metode mai avansate. Rapoarte analize statistice de obicei includ analiza testelor pe baza datelor din eșantion și metodologie pentru utilitatea modelului.

În plus, variabilele în unele cazuri se referă la valori măsurate în locații punctuale. Pot exista tendințe spațiale și autocorelații spațiale în variabile care încalcă ipotezele statistice. Regresia ponderată geografică este singura metodă care se ocupă de astfel de date.

În regresia liniară, caracteristica este că variabila dependentă, care este Y i , este o combinație liniară de parametri. De exemplu, în regresia liniară simplă, modelarea în n puncte utilizează o variabilă independentă, x i , și doi parametri, β 0 și β 1 .

În regresia liniară multiplă, există mai multe variabile independente sau funcțiile acestora.

Atunci când sunt prelevate aleatoriu dintr-o populație, parametrii acesteia fac posibilă obținerea unui eșantion dintr-un model de regresie liniară.

În acest aspect, metoda celor mai mici pătrate este cea mai populară. Oferă estimări ale parametrilor care minimizează suma pătratelor reziduurilor. Acest tip de minimizare (care este tipică regresiei liniare) a acestei funcții conduce la un set de ecuații normale și un set de ecuații liniare cu parametri, care sunt rezolvate pentru a obține estimări ale parametrilor.

Presupunând în continuare că eroarea populației se propagă în general, cercetătorul poate folosi aceste estimări ale erorilor standard pentru a crea intervale de încredere și pentru a efectua testarea ipotezelor cu privire la parametrii săi.

Analiza de regresie neliniară

Un exemplu în care funcția nu este liniară în raport cu parametrii indică faptul că suma pătratelor ar trebui redusă la minimum printr-o procedură iterativă. Acest lucru introduce multe complicații care definesc diferențele dintre metodele liniare și neliniare ale celor mai mici pătrate. În consecință, rezultatele analizei de regresie atunci când se utilizează o metodă neliniară sunt uneori imprevizibile.

Calculul puterii și al mărimii eșantionului

Aici, de regulă, nu există metode consistente în ceea ce privește numărul de observații comparativ cu numărul de variabile independente din model. Prima regulă a fost propusă de Dobra și Hardin și arată ca N = t^n, unde N este dimensiunea eșantionului, n este numărul de variabile explicative și t este numărul de observații necesare pentru a obține acuratețea dorită dacă modelul ar fi avut doar o variabilă explicativă. De exemplu, un cercetător construiește un model de regresie liniară folosind un set de date care conține 1000 de pacienți (N). Dacă cercetătorul decide că sunt necesare cinci observații pentru a determina cu precizie linia (m), atunci numărul maxim de variabile explicative pe care modelul le poate suporta este de 4.

Alte Metode

Deși parametrii unui model de regresie sunt de obicei estimați folosind metoda celor mai mici pătrate, există și alte metode care sunt utilizate mult mai rar. De exemplu, acestea sunt următoarele metode:

  • Metode bayesiene (de exemplu, metoda Bayesiană de regresie liniară).
  • O regresie procentuală utilizată pentru situațiile în care reducerea erorilor procentuale este considerată mai adecvată.
  • Cele mai mici abateri absolute, care este mai robustă în prezența valorilor aberante care conduc la regresia cuantilă.
  • Regresia neparametrică care necesită un număr mare de observații și calcule.
  • Distanța metricii de învățare care este învățată în căutarea unei metrici a distanței semnificative în spațiul de intrare dat.

Software

Toate pachetele software statistice majore sunt realizate folosind analiza de regresie cu cele mai mici pătrate. Regresia liniară simplă și analiza regresiei multiplă pot fi utilizate în unele aplicații pentru foi de calcul, precum și în unele calculatoare. În timp ce multe pachete software statistice pot efectua diverse tipuri de regresie neparametrică și robustă, aceste metode sunt mai puțin standardizate; diferite pachete software implementează diferite metode. Regresie specializată software a fost dezvoltat pentru a fi utilizat în domenii precum analiza de sondaj și neuroimaging.