Regresijska analiza za lutke. Osnove analize podataka. Analiza rezultata analize

Glavni cilj regresijske analize sastoji se u određivanju analitičkog oblika odnosa, u kojem je promjena rezultantnog atributa posljedica utjecaja jednog ili više faktorskih predznaka, a skup svih ostalih čimbenika koji također utječu na rezultantno svojstvo uzima se kao konstantna i prosječna vrijednost .
Zadaci regresijske analize:
a) Utvrđivanje oblika ovisnosti. S obzirom na prirodu i oblik odnosa među pojavama, razlikuju se pozitivna linearna i nelinearna te negativna linearna i nelinearna regresija.
b) Definiranje regresijske funkcije u obliku jedne ili druge matematičke jednadžbe i utvrđivanje utjecaja eksplanatornih varijabli na zavisnu varijablu.
c) Procjena nepoznatih vrijednosti zavisne varijable. Pomoću regresijske funkcije možete reproducirati vrijednosti zavisne varijable unutar intervala zadanih vrijednosti eksplanatornih varijabli (tj. riješiti problem interpolacije) ili ocijeniti tijek procesa izvan navedenog intervala (tj. riješiti problem ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Parna regresija - jednadžba odnosa dviju varijabli y i x: y=f(x), gdje je y zavisna varijabla (rezultantni predznak); x - nezavisna, eksplanatorna varijabla (feature-factor).

Postoje linearne i nelinearne regresije.
Linearna regresija: y = a + bx + ε
Nelinearne regresije dijele se u dvije klase: regresije koje su nelinearne s obzirom na varijable objašnjenja uključene u analizu, ali su linearne s obzirom na procijenjene parametre, i regresije koje su nelinearne s obzirom na procijenjene parametre.
Regresije koje su nelinearne u eksplanatornim varijablama:

Regresije koje nisu linearne u procijenjenim parametrima:

  • snaga y=a x b ε
  • eksponencijalni y=a b x ε
  • eksponencijalni y=e a+b x ε
Konstrukcija regresijske jednadžbe svodi se na procjenu njezinih parametara. Za procjenu parametara regresija koje su linearne po parametrima koristi se metoda najmanjih kvadrata (LSM). LSM omogućuje dobivanje takvih procjena parametara za koje je zbroj kvadratnih odstupanja stvarnih vrijednosti efektivne značajke y od teoretskih vrijednosti y x minimalan, tj.
.
Za linearne i nelinearne jednadžbe koje se mogu svesti na linearne, sljedeći sustav se rješava za a i b:

Možete koristiti gotove formule koje slijede iz ovog sustava:

Bliskost veze između proučavanih pojava procjenjuje se koeficijentom korelacije linearnog para r xy za linearnu regresiju (-1≤r xy ≤1):

i indeks korelacije p xy - za nelinearnu regresiju (0≤p xy ≤1):

Ocjenu kvalitete izgrađenog modela dat će koeficijent (indeks) determinacije, kao i prosječna pogreška aproksimacije.
Prosječna pogreška aproksimacije je prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dopuštena granica vrijednosti A - ne više od 8-10%.
Prosječni koeficijent elastičnosti E pokazuje koliko će se postotaka u prosjeku rezultat y promijeniti od svoje prosječne vrijednosti kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Zadatak analize varijance je analizirati varijancu zavisne varijable:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
gdje je ∑(y-y )² - ukupni iznos kvadrat odstupanja;
∑(y x -y)² - zbroj kvadrata odstupanja uslijed regresije ("objašnjeno" ili "faktorijel");
∑(y-y x)² - rezidualni zbroj kvadrata odstupanja.
Udio varijance objašnjene regresijom u ukupnoj varijanci efektivnog svojstva y karakterizira koeficijent (indeks) determinacije R2:

Koeficijent determinacije je kvadrat koeficijenta ili indeksa korelacije.

F-test - procjena kvalitete regresijske jednadžbe - sastoji se u testiranju hipoteze Ali o statističkoj beznačajnosti regresijske jednadžbe i pokazatelja bliskosti veze. Za to se vrši usporedba stvarne F činjenice i kritične (tabularne) F tablice vrijednosti Fišerovog F-kriterija. F fact se određuje iz omjera vrijednosti faktorijela i rezidualnih varijanci izračunatih za jedan stupanj slobode:
,
gdje je n broj populacijskih jedinica; m je broj parametara za varijable x.
F tablica je najveća moguća vrijednost kriterija pod utjecajem slučajnih faktora za zadane stupnjeve slobode i razinu značajnosti a. Razina značajnosti a - vjerojatnost odbacivanja točne hipoteze, pod uvjetom da je istinita. Obično se a uzima jednako 0,05 ili 0,01.
Ako je F tablica< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F je činjenica, tada se hipoteza H o ne odbacuje i priznaje se statistička beznačajnost, nepouzdanost regresijske jednadžbe.
Za procjenu statističke značajnosti koeficijenata regresije i korelacije izračunat je Studentov t-test i intervali pouzdanosti za svaki od pokazatelja. Iznesena je hipoteza H o slučajnoj prirodi indikatora, tj. o njihovoj beznačajnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa provodi se usporedbom njihovih vrijednosti s veličinom slučajne pogreške:
; ; .
Slučajne pogreške parametara linearne regresije i koeficijenta korelacije određuju se formulama:



Uspoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tabl i t fact - prihvaćamo ili odbacujemo hipotezu H o.
Odnos između Fisherova F-testa i Studentove t-statistike izražava se jednakošću

Ako je t tablica< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t činjenica da hipoteza H o nije odbačena i da je prepoznata nasumična priroda formiranja a, b ili r xy.
Za izračun intervala pouzdanosti određujemo graničnu pogrešku D za svaki pokazatelj:
Δ a =t stol m a , Δ b =t stol m b .
Formule za izračunavanje intervala pouzdanosti su sljedeće:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γ b = b-Δ b ; γb =b+Δb
Ako nula padne unutar granica intervala pouzdanosti, tj. Ako je donja granica negativna, a gornja granica pozitivna, tada se pretpostavlja da je procijenjeni parametar jednak nuli, budući da ne može istodobno poprimiti i pozitivne i negativne vrijednosti.
Vrijednost prognoze y p određena je zamjenom odgovarajuće (prognozirane) vrijednosti x p u regresijsku jednadžbu y x =a+b·x . Izračunava se prosječna standardna pogreška prognoze m y x:
,
gdje
i gradi se interval pouzdanosti prognoze:
y y x =y p Δ y p ; y y x min=y p -Δ y p ; γ y x max=y p +Δ y p
gdje je Δ y x =t tablica ·m y x .

Primjer rješenja

Zadatak broj 1. Za sedam teritorija uralske regije za 199X poznate su vrijednosti dva znaka.
Stol 1.

Potreban: 1. Da biste karakterizirali ovisnost y o x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) zakon potencije (prethodno je potrebno provesti postupak linearizacije varijabli logaritmiranjem oba dijela);
c) demonstrativna;
d) jednakostranična hiperbola (također trebate smisliti kako unaprijed linearizirati ovaj model).
2. Ocijenite svaki model pomoću prosječne pogreške aproksimacije A i Fisherova F-testa.

Rješenje (Opcija #1)

Za izračun parametara a i b linearne regresije y=a+b·x (izračun se može napraviti pomoću kalkulatora).
riješiti sustav normalnih jednadžbi s obzirom na a i b:
Na temelju početnih podataka izračunavamo ∑y, ∑x, ∑y x, ∑x², ∑y²:
g x yx x2 y2 y xy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
oženiti se vrijednost (Ukupno/n)57,89
g
54,90
x
3166,05
x y
3048,34
3383,68
xx8,1
s 5,74 5,86 xxxxxx
s232,92 34,34 xxxxxx


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Regresijska jednadžba: y= 76,88 - 0,35X. Uz povećanje prosječne dnevne plaće za 1 rub. udio izdataka za kupnju prehrambenih proizvoda u prosjeku se smanjuje za 0,35 postotnih bodova.
Izračunajte linearni koeficijent parne korelacije:

Komunikacija je umjerena, obrnuto.
Odredimo koeficijent determinacije: r² xy =(-0,35)=0,127
Varijacija rezultata od 12,7% objašnjava se varijacijom x faktora. Zamjena stvarnih vrijednosti u regresijsku jednadžbu x, određujemo teorijske (izračunate) vrijednosti y x . Nađimo vrijednost prosječne greške aproksimacije A:

U prosjeku, izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterij:

Dobivena vrijednost ukazuje na potrebu prihvaćanja hipoteze H 0 o slučajnosti otkrivene ovisnosti i statističkoj neznatnosti parametara jednadžbe i pokazatelja bliskosti povezanosti.
1b. Konstrukciji modela snage y=a x b prethodi postupak linearizacije varijabli. U primjeru, linearizacija se provodi uzimanjem logaritma obje strane jednadžbe:
lg y=lg a + b lg x
Y=C+b Y
gdje je Y=lg(y), X=lg(x), C=lg(a).

Za izračune koristimo podatke u tablici. 1.3.
Tablica 1.3

Yx YX Y2 x2 y xy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Zlobno1,7605 1,7370 3,0572 3,1011 3,0194 xx28,27 8,0
σ 0,0425 0,0484 xxxxxxx
σ20,0018 0,0023 xxxxxxx

Izračunajte C i b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Dobivamo linearnu jednadžbu: Y=2,278-0,298 X
Nakon što ga potenciramo, dobivamo: y=10 2,278 x -0,298
Zamjenjujući u ovu jednadžbu stvarne vrijednosti X, dobivamo teorijske vrijednosti rezultata. Na temelju njih izračunavamo pokazatelje: nepropusnost veze - indeks korelacije p xy i prosječnu pogrešku aproksimacije A .

Karakteristike modela snage pokazuju da je nešto bolji linearna funkcija opisuje odnos.

1c. Konstrukciji jednadžbe eksponencijalne krivulje y \u003d a b x prethodi postupak linearizacije varijabli pri uzimanju logaritma oba dijela jednadžbe:
lg y=lg a + x lg b
Y=C+B x
Za izračune koristimo podatke iz tablice.

Yx Yx Y2 x2y xy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
oženiti se zn.1,7605 54,9 96,5711 3,1011 3048,34 xx28,68 8,0
σ 0,0425 5,86 xxxxxxx
σ20,0018 34,339 xxxxxxx

Vrijednosti regresijskih parametara A i NA iznosio:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Dobije se linearna jednadžba: Y=1,887-0,0023x. Dobivenu jednadžbu potenciramo i zapisujemo u uobičajenom obliku:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Čvrstoću veze procjenjujemo preko korelacijskog indeksa p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Ukupno405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Zlobno57,9 0,0184 1,0723 0,000345 3383,68 xx27,84 8,1 σ 5,74 0,002145 xxxxxxx σ232,9476 0,000005 xx

Regresijska analiza metoda za modeliranje izmjerenih podataka i proučavanje njihovih svojstava. Podaci se sastoje od parova vrijednosti zavisna varijabla(varijabla odgovora) i neovisna varijabla(varijabla koja objašnjava). Regresijski model je funkcija nezavisne varijable i parametara s dodanom slučajnom varijablom. Parametri modela su konfigurirani na takav način da model najbolji način približava podatke. Kriterij kvalitete aproksimacije (objektivna funkcija) obično je srednja kvadratna pogreška: zbroj kvadrata razlike između vrijednosti modela i zavisne varijable za sve vrijednosti nezavisne varijable kao argumenta. Sekcija regresijske analize matematičke statistike i strojnog učenja. Pretpostavlja se da je zavisna varijabla zbroj vrijednosti nekog modela i slučajne varijable. Što se tiče prirode distribucije ove vrijednosti, napravljene su pretpostavke koje se nazivaju hipoteza generiranja podataka. Kako bi se potvrdila ili opovrgla ova hipoteza, provode se statistički testovi koji se nazivaju rezidualna analiza. Ovo pretpostavlja da nezavisna varijabla ne sadrži pogreške. Regresijska analiza koristi se za predviđanje, analizu vremenskih serija, testiranje hipoteza i otkrivanje skrivenih odnosa u podacima.

Definicija regresijske analize

Uzorak možda nije funkcija, već relacija. Na primjer, podaci za izradu regresije mogu biti: . U takvom uzorku, jedna vrijednost varijable odgovara nekoliko vrijednosti varijable.

Linearna regresija

Linearna regresija pretpostavlja da funkcija linearno ovisi o parametrima. U ovom slučaju, linearna ovisnost o slobodnoj varijabli nije obavezna,

U slučaju kada funkcija linearne regresije ima oblik

ovdje su komponente vektora.

Vrijednosti parametara u slučaju linearne regresije nalaze se metodom najmanjih kvadrata. Korištenje ove metode opravdava se pretpostavkom Gaussove distribucije slučajne varijable.

Razlike između stvarnih vrijednosti zavisne varijable i rekonstruiranih nazivaju se regresijski ostaci(ostaci). U literaturi se također koriste sinonimi: ostaci i greške. Jedna od važnih procjena kriterija kvalitete dobivene ovisnosti je zbroj kvadrata reziduala:

Ovdje zbroj kvadrata pogrešaka.

Varijanca reziduala izračunava se formulom

Ovdje srednja kvadratna pogreška.

Grafikoni prikazuju uzorke označene plavim točkama i regresijske ovisnosti označene punim linijama. Na apscisi je nacrtana slobodna varijabla, a na ordinati zavisna varijabla. Sve tri ovisnosti su linearne u odnosu na parametre.

Nelinearna regresija

Nelinearni regresijski modeli - Prikaz modela

koji se ne može prikazati kao točkasti produkt

gdje su parametri regresijskog modela, je slobodna varijabla iz prostora , je zavisna varijabla, je slučajna varijabla i je funkcija iz nekog zadanog skupa.

Vrijednosti parametara u slučaju nelinearne regresije nalaze se pomoću jedne od metoda gradijentnog spuštanja, na primjer, Levenberg-Marquardt algoritma.

O uvjetima

Pojam "regresija" skovao je Francis Galton krajem 19. stoljeća. Galton je otkrio da djeca visokih ili niskih roditelja obično ne nasljeđuju izuzetnu visinu i nazvao je ovaj fenomen "regresijom u prosječnost". U početku se pojam koristio isključivo u biološkom smislu. Nakon rada Karla Pearsona ovaj se pojam počeo koristiti u statistici.

U statističkoj literaturi postoji razlika između regresije koja uključuje jednu slobodnu varijablu i regresije s nekoliko slobodnih varijabli. jednodimenzionalni i višedimenzionalni regresija. Pretpostavlja se da koristimo više slobodnih varijabli, odnosno slobodnu varijablu vektor. U posebnim slučajevima, kada je slobodna varijabla skalar, ona će biti označena sa . razlikovati linearni i nelinearni regresija. Ako regresijski model nije linearna kombinacija funkcija parametara, tada se govori o nelinearnoj regresiji. U tom slučaju model može biti proizvoljna superpozicija funkcija iz određenog skupa. Nelinearni modeli su eksponencijalni, trigonometrijski i drugi (npr. radijalne bazične funkcije ili Rosenblatt perceptron), koji pretpostavljaju da je odnos između parametara i zavisne varijable nelinearan.

razlikovati parametarski i neparametarski regresija. Teško je povući oštru granicu između ove dvije vrste regresija. Trenutno ne postoji općeprihvaćeni kriterij za razlikovanje jedne vrste modela od druge. Na primjer, linearni modeli se smatraju parametričkim, dok se modeli koji uključuju usrednjavanje ovisne varijable po prostoru slobodne varijable smatraju neparametrijskim. Primjer parametarskog regresijskog modela: linearni prediktor, višeslojni perceptron. Primjeri modela mješovite regresije: radijalne bazične funkcije. Neparametarski model pokretnog prosjeka u prozoru neke širine. Općenito, neparametarska regresija razlikuje se od parametarske regresije po tome što zavisna varijabla ne ovisi o jednoj vrijednosti slobodne varijable, već o nekom danom susjedstvu te vrijednosti.

Razlikuju se pojmovi: "aproksimacija funkcije", "aproksimacija", "interpolacija" i "regresija". Sastoji se u sljedećem.

Aproksimacija funkcija. Zadana je funkcija diskretnog ili kontinuiranog argumenta. Potrebno je pronaći funkciju iz neke parametarske obitelji, na primjer, među algebarskim polinomima zadanog stupnja. Parametri funkcije moraju isporučiti minimalno neke funkcije, na primjer,

Termin aproksimacija sinonim za pojam "aproksimacija funkcija". Češće se koristi kada se govori o dana funkcija, što kažete na funkciju diskretnog argumenta. Ovdje se također traži pronaći takvu funkciju koja prolazi najbliže svim točkama zadane funkcije. Ovo uvodi koncept ostaci udaljenosti između točaka kontinuirane funkcije i odgovarajućih točaka funkcije diskretnog argumenta.

Interpolacija funkcije poseban slučaj problema aproksimacije, kada se traži da se u određenim točkama, tzv interpolacijski čvorovi vrijednosti funkcije i funkcije koja je aproksimira poklapaju se. U općenitijem slučaju, ograničenja su nametnuta na vrijednosti nekih izvedenica izvedenica. To jest, dana je funkcija diskretnog argumenta. Potrebno je pronaći funkciju koja prolazi kroz sve točke. U ovom slučaju metrika se obično ne koristi, ali se često uvodi koncept "glatkoće" željene funkcije.

REZULTATI

Tablica 8.3a. Regresijska statistika
Regresijska statistika
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
standardna pogreška 0,42405
Zapažanja 10

Pogledajmo najprije gornji dio izračuna prikazanih u tablici 8.3a, regresijsku statistiku.

Vrijednost R-kvadrata, koja se također naziva i mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremi, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedinice, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Obrnuto, vrijednost R-kvadrata blizu nule znači lošu kvalitetu konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

Višestruki R- koeficijent višestruka korelacija R - izražava stupanj ovisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Više R jednako korijen od koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nula do jedan.

U jednostavnoj analizi linearne regresije, višestruki R jednak je Pearsonovom koeficijentu korelacije. Doista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti
Izgledi standardna pogreška t-statistika
Y-raskrižje 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Dana je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna prikazanih u tablici 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak duž y-osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) koeficijenti regresije(koeficijent b).

Ako znak na koeficijent regresije- pozitivan, odnos ovisne varijable s nezavisnom bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tablici 8.3c. prikazani su rezultati izlaza reziduala. Kako bi se ovi rezultati pojavili u izvješću, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tablica 8.3c. Ostaci
Promatranje Predviđeno Y Ostaci Standardna stanja
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost

Regresijska i korelacijska analiza - statističke metode istraživanja. Ovo su najčešći načini za prikaz ovisnosti parametra o jednoj ili više neovisnih varijabli.

U nastavku o određenim praktični primjeri Razmotrimo ove dvije vrlo popularne analize među ekonomistima. Također ćemo dati primjer dobivanja rezultata kada se oni kombiniraju.

Regresijska analiza u Excelu

Prikazuje utjecaj nekih vrijednosti (nezavisnih, neovisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva ovisi o broju poduzeća, plaćama i drugim parametrima. Ili: kako strana ulaganja, cijene energenata i sl. utječu na razinu BDP-a.

Rezultat analize omogućuje vam određivanje prioriteta. I na temelju glavnih čimbenika, predvidjeti, planirati razvoj prioritetnih područja, donositi upravljačke odluke.

Regresija se događa:

  • linearno (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolički (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Razmotrimo primjer izgradnje regresijskog modela u Excelu i tumačenje rezultata. Idemo uzeti linearni tip regresija.

Zadatak. U 6 poduzeća analizirana je prosječna mjesečna plaća i broj zaposlenih koji su otišli. Potrebno je utvrditi ovisnost broja umirovljenih radnika o prosječnoj plaći.

Model linearne regresije ima sljedeći oblik:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Gdje su a regresijski koeficijenti, x su utjecajne varijable, a k je broj faktora.

U našem primjeru, Y je pokazatelj broja radnika koji su napustili posao. Faktor utjecaja je plaća (x).

Excel ima ugrađene funkcije koje se mogu koristiti za izračunavanje parametara modela linearne regresije. Ali dodatak Analysis ToolPak to će učiniti brže.

Aktivirajte moćan analitički alat:

Nakon aktivacije, dodatak će biti dostupan na kartici Podaci.

Sada ćemo se izravno pozabaviti regresijskom analizom.



Prije svega, obraćamo pozornost na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru to je 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju odnos između proučavanih parametara za 75,5%. Što je veći koeficijent determinacije, to bolji model. Dobro - iznad 0,8. Loše - manje od 0,5 (takva se analiza teško može smatrati razumnom). U našem primjeru - "nije loše".

Koeficijent 64,1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatra jednake 0. Odnosno, drugi faktori koji nisu opisani u modelu također utječu na vrijednost analiziranog parametra.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plaća unutar ovog modela utječe na broj onih koji su odustali s težinom od -0,16285 (ovo je mali stupanj utjecaja). Znak “-” označava negativan utjecaj: što je veća plaća, to manje odustaje. Što je pošteno.



Korelacijska analiza u Excelu

Korelacijska analiza pomaže utvrditi postoji li odnos između pokazatelja u jednom ili dva uzorka. Na primjer, između vremena rada stroja i troškova popravaka, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji odnos, tada dovodi li povećanje jednog parametra do povećanja (pozitivna korelacija) ili do smanjenja (negativna) drugog. Korelacijska analiza pomaže analitičaru odrediti može li vrijednost jednog pokazatelja predvidjeti moguću vrijednost drugog.

Koeficijent korelacije označava se r. Varira od +1 do -1. Klasifikacija korelacija za različitim područjima bit će drugačije. Kada je vrijednost koeficijenta 0, ne postoji linearni odnos između uzoraka.

Razmotrite kako pomoću programa Excel pronaći koeficijent korelacije.

Funkcija CORREL koristi se za pronalaženje uparenih koeficijenata.

Zadatak: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite gumb fx.

  1. U kategoriji "Statistika" odaberite funkciju CORREL.
  2. Argument "Niz 1" - prvi raspon vrijednosti - vrijeme stroja: A2: A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - trošak popravka: B2:B14. Pritisnite OK.

Da biste odredili vrstu veze, morate pogledati apsolutni broj koeficijenta (svako područje djelatnosti ima svoju ljestvicu).

Za korelacijska analiza nekoliko parametara (više od 2), prikladnije je koristiti "Analizu podataka" (dodatak "Paket analize"). Na popisu trebate odabrati korelaciju i označiti niz. Svi.

Rezultirajući koeficijenti bit će prikazani u korelacijskoj matrici. Kao ova:

Korelacijska-regresijska analiza

U praksi se ove dvije tehnike često koriste zajedno.

Primjer:


Sada su vidljivi podaci regresijske analize.

U statističkom modeliranju, regresijska analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu višestrukih varijabli kada je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih varijabli. Točnije, regresijska analiza pomaže vam razumjeti kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostanu fiksne.

U svim slučajevima ciljni rezultat je funkcija nezavisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi također je od interesa karakterizirati promjenu ovisne varijable kao funkciju regresije, koja se može opisati korištenjem distribucije vjerojatnosti.

Zadaci regresijske analize

The statistička metoda istraživanje se široko koristi za prognoziranje, gdje njegova uporaba ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnog odnosa, pa se preporuča pažljivo ga koristiti u ovom pitanju, jer npr. korelacija ne znači uzročnost .

Razvijen veliki broj metode za izvođenje regresijske analize, kao što su linearna i obična regresija najmanjih kvadrata, koje su parametarske. Njihova bit je da je regresijska funkcija definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija dopušta da njena funkcija leži u određenom skupu funkcija, koji može biti beskonačno dimenzionalan.

Kao statistička istraživačka metoda, regresijska analiza u praksi ovisi o obliku procesa generiranja podataka i načinu na koji se odnosi na regresijski pristup. Budući da je pravi oblik generiranja podataka u procesu obično nepoznat broj, regresijska analiza podataka često u određenoj mjeri ovisi o pretpostavkama o procesu. Te se pretpostavke ponekad mogu provjeriti ako je dostupno dovoljno podataka. Regresijski modeli često su korisni čak i kada su pretpostavke umjereno prekršene, iako možda neće raditi najbolje.

U užem smislu, regresija se može posebno odnositi na procjenu kontinuiranih varijabli odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable naziva se i metrička regresija kako bi se razlikovao od srodnih problema.

Priča

Najraniji oblik regresije je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss primijenili su metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih malih planeta) iz astronomskih promatranja. Gauss objavio daljnji razvoj teoriju najmanjih kvadrata 1821., uključujući varijantu Gauss-Markovljevog teorema.

Pojam "regresija" skovao je Francis Galton u 19. stoljeću kako bi opisao biološki fenomen. Zaključak je bio da se rast potomaka od rasta predaka u pravilu smanjuje do normalnog prosjeka. Za Galtona, regresija je imala samo ovo biološko značenje, ali kasnije su njegov rad preuzeli Udni Yoley i Karl Pearson i odveli ga u općenitiji statistički kontekst. U radu Yulea i Pearsona, zajednička distribucija varijabli odgovora i objašnjenja smatra se Gaussovom. Tu je pretpostavku odbacio Fischer u radovima iz 1922. i 1925. godine. Fisher je predložio da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom smislu, Fisherov prijedlog bliži je Gaussovoj formulaciji iz 1821. godine. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresijske analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Posljednjih desetljeća razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; regresijske metode koje sadrže različiti tipovi podaci koji nedostaju; neparametarska regresija; metode Bayesove regresije; regresije u kojima se prediktorske varijable mjere s greškom; regresije s više prediktora nego opažanja i uzročni zaključci s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalari ili vektori.
  • Neovisne varijable, X.
  • Zavisne varijable, Y.

U raznim područjima znanosti u kojima se primjenjuje regresijska analiza koriste se različiti termini umjesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresijski model povezuje Y s funkcijom od X i β.

Aproksimacija se obično formulira kao E (Y | X) = F (X, β). Za izvođenje regresijske analize potrebno je odrediti oblik funkcije f. Rjeđe se temelji na znanju o odnosu između Y i X koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, odabire se fleksibilan ili prikladan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima duljinu k. Za izvođenje regresijske analize korisnik mora dati informacije o ovisnoj varijabli Y:

  • Ako se promatra N podatkovnih točaka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se promatra točno N = K, a funkcija F je linearna, tada se jednadžba Y = F(X, β) može riješiti točno, a ne približno. Ovo se svodi na rješavanje skupa N-jednadžbi s N-nepoznatim (elementima od β) koje imaju jedinstveno rješenje sve dok je X linearno neovisan. Ako je F nelinearan, rješenje možda ne postoji ili može postojati mnogo rješenja.
  • Najčešća situacija je kada postoji N > točaka na podacima. U ovom slučaju postoji dovoljno informacija u podacima za procjenu jedinstvene vrijednosti za β koja najbolje odgovara podacima, a regresijski model kada se primijeni na podatke može se promatrati kao nadjačani sustav u β.

U potonjem slučaju, regresijska analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresijska analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj neovisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator napravi 10 mjerenja iste vrijednosti nezavisne varijable vektora X. U ovom slučaju regresijska analiza ne daje jedinstven skup vrijednosti. Najbolje što možete učiniti je procijeniti srednju vrijednost i standardnu ​​devijaciju zavisne varijable Y. Slično, mjerenjem dvije različite vrijednosti X, možete dobiti dovoljno podataka za regresiju s dvije nepoznanice, ali ne i za tri ili više nepoznanica .

Ako su eksperimentatorova mjerenja obavljena na tri različite vrijednosti nezavisne vektorske varijable X, tada bi regresijska analiza dala jedinstven skup procjena za tri nepoznata parametra u β.

U slučaju opće linearne regresije, gornja izjava je ekvivalentna zahtjevu da je matrica X T X invertibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i pogreške mjerenja ε i , tada se u pravilu višak informacija sadržanih u mjerenjima distribuira i koristi za statistička predviđanja u vezi s nepoznatim parametrima. Ovaj višak informacija naziva se stupanj slobode regresije.

Temeljne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje zaključivanja.
  • Greška je nasumična varijabla sa sredinom od nule, koja je uvjetovana eksplanatornim varijablama.
  • Neovisne varijable mjere se bez grešaka.
  • Kao nezavisne varijable (prediktori) one su linearno neovisne, odnosno nijedan prediktor nije moguće izraziti kao linearnu kombinaciju ostalih.
  • Pogreške su nekorelirane, to jest matrica kovarijancije pogrešaka dijagonala i svaki različit od nule element je varijanca pogreške.
  • Varijanca pogreške je konstantna kroz promatranja (homoskedastičnost). Ako nije, tada se mogu koristiti ponderirani najmanji kvadrati ili druge metode.

Ovi dovoljni uvjeti za procjenu najmanjih kvadrata imaju tražena svojstva, posebice ove pretpostavke znače da će procjene parametara biti objektivne, dosljedne i učinkovite, posebno kada se uzmu u obzir u klasi linearnih procjena. Važno je napomenuti da stvarni podaci rijetko zadovoljavaju uvjete. Odnosno, metoda se koristi čak i ako pretpostavke nisu točne. Odstupanja od pretpostavki ponekad se mogu koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvještaji Statistička analiza obično uključuju analizu testova na uzorku podataka i metodologije za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na točkama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderirana regresija jedina je metoda koja se bavi takvim podacima.

U linearnoj regresiji, značajka je da je zavisna varijabla, koja je Y i , linearna kombinacija parametara. Na primjer, u jednostavnoj linearnoj regresiji, n-točkasto modeliranje koristi jednu nezavisnu varijablu, x i, i dva parametra, β 0 i β 1 .

U višestrukoj linearnoj regresiji postoji nekoliko neovisnih varijabli ili njihovih funkcija.

Kada se nasumično uzorkuje iz populacije, njegovi parametri omogućuju dobivanje uzorka linearnog regresijskog modela.

S ovog aspekta najpopularnija je metoda najmanjih kvadrata. Pruža procjene parametara koje minimiziraju zbroj kvadrata reziduala. Ova vrsta minimizacije (što je tipično za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednadžbi i skupa linearnih jednadžbi s parametrima, koji se rješavaju da bi se dobile procjene parametara.

Pretpostavljajući nadalje da se pogreška populacije općenito širi, istraživač može koristiti te procjene standardnih pogrešaka za stvaranje intervala pouzdanosti i izvođenje testiranja hipoteza o njezinim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna s obzirom na parametre pokazuje da bi zbroj kvadrata trebalo minimizirati iterativnim postupkom. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Posljedično, rezultati regresijske analize pri korištenju nelinearne metode ponekad su nepredvidivi.

Izračun snage i veličine uzorka

Ovdje u pravilu ne postoje konzistentne metode u pogledu broja promatranja u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo predložili su Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj objašnjavajućih varijabli, a t broj opažanja potrebnih za postizanje željene točnosti ako je model imao samo jedna eksplanatorna varijabla. Na primjer, istraživač gradi linearni regresijski model koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet opažanja za točno određivanje linije (m), tada je najveći broj eksplanatornih varijabli koje model može podržati 4.

Druge metode

Iako se parametri regresijskog modela obično procjenjuju metodom najmanjih kvadrata, postoje druge metode koje se mnogo rjeđe koriste. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (primjerice, Bayesova metoda linearne regresije).
  • Postotna regresija koja se koristi za situacije u kojima se smanjenje postotnih pogrešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisutnosti odstupanja što dovodi do kvantilne regresije.
  • Neparametarska regresija koja zahtijeva veliki broj promatranja i izračuna.
  • Udaljenost metrike učenja koja se uči u potrazi za smislenom metrikom udaljenosti u zadanom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi izvode se pomoću regresijske analize najmanjih kvadrata. Jednostavna linearna regresija i višestruka regresijska analiza mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Dok mnogi paketi statističkog softvera mogu izvoditi različite vrste neparametarske i robusne regresije, te su metode manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizirana regresija softver je razvijen za korištenje u područjima kao što su analiza ankete i neuroimaging.