Aké sú požiadavky na model regresnej analýzy. Základy lineárnej regresie. Korelácia pre viacnásobnú regresiu

Regresná analýza je jednou z najpopulárnejších metód štatistická štúdia. Môže sa použiť na určenie miery vplyvu nezávislých premenných na závislú premennú. Funkcionalita programu Microsoft Excel má nástroje navrhnuté na vykonávanie tohto typu analýzy. Poďme sa pozrieť na to, čo sú a ako ich používať.

Aby ste však mohli použiť funkciu, ktorá vám umožňuje vykonávať regresnú analýzu, musíte najskôr aktivovať analytický balík. Až potom sa na páse s nástrojmi Excelu objavia nástroje potrebné na tento postup.


Teraz, keď prejdeme na kartu "údaje", na páse s nástrojmi "analýza" uvidíme nové tlačidlo - "Analýza dát".

Typy regresnej analýzy

Existuje niekoľko typov regresií:

  • parabolický;
  • moc;
  • logaritmický;
  • exponenciálny;
  • demonštrácia;
  • hyperbolický;
  • lineárna regresia.

O vykonaní posledného pohľadu regresná analýza O Exceli si povieme viac neskôr.

Lineárna regresia v Exceli

Nižšie je ako príklad uvedená tabuľka, ktorá ukazuje priemernú dennú teplotu vzduchu na ulici a počet zákazníkov obchodu za príslušný pracovný deň. Poďme zistiť pomocou regresnej analýzy presne ako počasie vo forme teploty vzduchu môže ovplyvniť návštevnosť obchodnej prevádzky.

Všeobecná rovnica lineárnej regresie vyzerá takto: Y = a0 + a1x1 + ... + axk. V tomto vzorci Y znamená premennú, ktorej vplyv sa snažíme študovať. V našom prípade ide o počet kupujúcich. Význam X- toto je rôznych faktorov ktoré ovplyvňujú premennú. možnosti a sú regresné koeficienty. To znamená, že určujú význam konkrétneho faktora. Index k znamenať Celkom tieto isté faktory.


Analýza výsledkov analýzy

Výsledky regresnej analýzy sa zobrazia vo forme tabuľky na mieste určenom v nastaveniach.

Jedným z hlavných ukazovateľov je R-štvorec. Označuje kvalitu modelu. V našom prípade je tento koeficient 0,705 alebo približne 70,5 %. Toto je prijateľná úroveň kvality. Vzťah menší ako 0,5 je zlý.

Ďalší dôležitý ukazovateľ sa nachádza v bunke na priesečníku čiary "Y-križovatka" a stĺpec "koeficienty". Tu je uvedené, akú hodnotu bude mať Y a v našom prípade je to počet kupujúcich so všetkými ostatnými faktormi nula. V tejto tabuľke je táto hodnota 58,04.

Hodnota v priesečníku grafu "Premenná X1" a "koeficienty" ukazuje úroveň závislosti Y na X. V našom prípade ide o úroveň závislosti počtu zákazníkov predajne od teploty. Koeficient 1,31 sa považuje za pomerne vysoký ukazovateľ vplyvu.

Ako vidíte, je celkom jednoduché vytvoriť tabuľku regresnej analýzy pomocou programu Microsoft Excel. S dátami získanými na výstupe však môže pracovať a pochopiť ich podstatu len vyškolený človek.

VÝSLEDKY

Tabuľka 8.3a. Regresná štatistika
Regresná štatistika
Viacnásobné R 0,998364
R-štvorec 0,99673
Normalizovaný R-štvorec 0,996321
štandardná chyba 0,42405
Pozorovania 10

Najprv sa pozrime na hornú časť výpočtov uvedených v tabuľke 8.3a, regresnú štatistiku.

Hodnota R-štvorca, nazývaná aj miera istoty, charakterizuje kvalitu výslednej regresnej priamky. Táto kvalita je vyjadrená mierou zhody medzi pôvodnými údajmi a regresným modelom (vypočítané údaje). Miera istoty je vždy v rámci intervalu .

Vo väčšine prípadov je hodnota R-squared medzi týmito hodnotami, nazývanými extrémy, t.j. medzi nulou a jednotkou.

Ak sa hodnota R-štvorca blíži k jednej, znamená to, že skonštruovaný model vysvetľuje takmer všetku variabilitu zodpovedajúcich premenných. Naopak, hodnota R blízka nule znamená zlú kvalitu skonštruovaného modelu.

V našom príklade je miera istoty 0,99673, čo naznačuje veľmi dobré prispôsobenie regresnej priamky pôvodným údajom.

Viacnásobné R- koeficient viacnásobnej korelácie R - vyjadruje mieru závislosti nezávisle premenných (X) a závisle premennej (Y).

Viacnásobné R sa rovná odmocnina z koeficientu determinácie táto hodnota nadobúda hodnoty v rozsahu od nuly do jednej.

V jednoduchej lineárnej regresnej analýze sa násobok R rovná Pearsonovmu korelačnému koeficientu. V skutočnosti sa násobok R v našom prípade rovná Pearsonovmu korelačnému koeficientu z predchádzajúceho príkladu (0,998364).

Tabuľka 8.3b. Regresné koeficienty
Odds štandardná chyba t-štatistika
Priesečník Y 2,694545455 0,33176878 8,121757129
Premenná X1 2,305454545 0,04668634 49,38177965
* Uvádza sa skrátená verzia výpočtov

Teraz zvážte strednú časť výpočtov uvedených v tabuľke 8.3b. Tu je uvedený regresný koeficient b (2,305454545) a posun pozdĺž osi y, t.j. konštanta a (2,694545455).

Na základe výpočtov môžeme napísať regresnú rovnicu takto:

Y= x*2,305454545 + 2,694545455

Smer vzťahu medzi premennými je určený na základe znamienok (negatívne alebo pozitívne) regresné koeficienty(koeficient b).

Ak je znak pri regresný koeficient- pozitívny, vzťah závislej premennej s nezávislou bude pozitívny. V našom prípade je znamienko regresného koeficientu kladné, teda aj vzťah je kladný.

Ak je znak pri regresný koeficient- negatívny, vzťah medzi závisle premennou a nezávisle premennou je negatívny (inverzný).

V tabuľke 8.3c. sú prezentované výsledky produkcie rezíduí. Aby sa tieto výsledky zobrazili v prehľade, musíte pri spustení nástroja "Regresia" aktivovať začiarkavacie políčko "Residuals".

ZOSTÁVAJÚCE VYŤAŽENIE

Tabuľka 8.3c. Zvyšky
Pozorovanie Predpokladaný Y Zvyšky Štandardné zostatky
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomocou tejto časti správy môžeme vidieť odchýlky každého bodu od zostrojenej regresnej priamky. Najvyššia absolútna hodnota

V dôsledku preštudovania materiálu kapitoly 4 by študent mal:

vedieť

  • základné pojmy regresnej analýzy;
  • metódy odhadu a vlastnosti odhadov metódy najmenších štvorcov;
  • základné pravidlá testovania významnosti a intervalového odhadu rovnice a regresných koeficientov;

byť schopný

  • nájsť odhady parametrov dvojrozmerných a viacnásobných modelov regresných rovníc zo vzorových údajov, analyzovať ich vlastnosti;
  • skontrolujte význam rovnice a regresných koeficientov;
  • nájsť intervalové odhady významných parametrov;

vlastné

  • schopnosti štatistického odhadu parametrov dvojrozmerných a viacnásobných regresných rovníc; schopnosti kontrolovať primeranosť regresných modelov;
  • zručnosti pri získavaní regresnej rovnice so všetkými významnými koeficientmi pomocou analytického softvéru.

Základné pojmy

Po korelačná analýza, keď sa odhalí prítomnosť štatisticky významných vzťahov medzi premennými a posúdi sa miera ich blízkosti, zvyčajne pristúpia k matematickému popisu typu závislostí pomocou metód regresnej analýzy. Na tento účel sa vyberie trieda funkcií, ktorá spája efektívny indikátor pri a argumenty „ vypočítajte odhady parametrov obmedzujúcej rovnice a analyzujte presnosť výslednej rovnice.

Funkcia| popisujúca závislosť podmienenej priemernej hodnoty efektívnej funkcie pri z daných hodnôt argumentov sa volá regresná rovnica.

Termín „regresia“ (z lat. regresia-ústup, návrat k niečomu) zaviedol anglický psychológ a antropológ F. Galton a spája sa s jedným z jeho prvých príkladov, v ktorom Galton pri spracovaní štatistických údajov súvisiacich s otázkou dedičnosti rastu zistil, že ak výška otcovia sa odchyľujú od priemernej výšky všetkých otcov X palce, potom sa výška ich synov odchyľuje od priemernej výšky všetkých synov o menej ako X palce Identifikovaný trend bol tzv regresia k priemeru.

Pojem „regresia“ je v štatistickej literatúre široko používaný, hoci v mnohých prípadoch presne necharakterizuje štatistickú závislosť.

Pre presný popis regresnej rovnice je potrebné poznať podmienený zákon rozdelenia efektívneho ukazovateľa r. V štatistickej praxi je zvyčajne nemožné získať takéto informácie, preto sa obmedzujú na hľadanie vhodných aproximácií pre funkciu f(x u X 2, .... l *), na základe predbežnej zmysluplnej analýzy javu alebo pôvodných štatistických údajov.

V rámci jednotlivých modelových predpokladov o type rozloženia vektora ukazovateľov<) может быть получен общий вид regresných rovníc, kde. Napríklad za predpokladu, že študovaný súbor indikátorov sa riadi ()-rozmerným zákonom normálneho rozdelenia s vektorom matematických očakávaní.

Kde a podľa kovariančnej matice

kde je rozptyl y,

Regresná rovnica (podmienené očakávanie) má tvar

Ak teda viacrozmerná náhodná premenná ()

sa riadi ()-rozmerným zákonom normálneho rozdelenia, potom regresnou rovnicou efektívneho indikátora pri vo vysvetľujúcich premenných má lineárny in X vyhliadka.

V štatistickej praxi sa však zvyčajne treba obmedziť na hľadanie vhodných aproximácií pre neznámu skutočnú regresnú funkciu f(x), keďže výskumník nemá presné znalosti o podmienenom zákone rozdelenia pravdepodobnosti analyzovaného ukazovateľa výkonnosti pri pre dané hodnoty argumentov X.

Zvážte vzťah medzi pravdivými, modelovými a regresnými odhadmi. Nechajte ukazovateľ výkonu pri spojené s argumentom X pomer

kde je náhodná premenná so zákonom normálneho rozdelenia, navyše. Skutočná regresná funkcia v tomto prípade je

Predpokladajme, že nepoznáme presnú formu skutočnej regresnej rovnice, ale máme deväť pozorovaní dvojrozmernej náhodnej premennej súvisiacej so vzťahmi znázornenými na obr. 4.1.

Ryža. 4.1. Relatívna poloha pravdyf(x) a teoretickáWowregresné modely

Umiestnenie bodov na obr. 4.1 nám umožňuje obmedziť sa na triedu lineárnych závislostí formulára

Pomocou metódy najmenších štvorcov nájdeme odhad pre regresnú rovnicu.

Pre porovnanie na obr. 4.1 sú znázornené grafy skutočnej regresnej funkcie a teoretickej aproximačnej regresnej funkcie. Odhad regresnej rovnice konverguje v pravdepodobnosti k druhej Wow s neobmedzeným nárastom veľkosti vzorky ().

Keďže sme omylom zvolili lineárnu regresnú funkciu namiesto skutočnej regresnej funkcie, ktorá je, žiaľ, v praxi štatistického výskumu pomerne bežná, naše štatistické závery a odhady nebudú mať vlastnosť konzistencie, t.j. bez ohľadu na to, ako veľmi zvýšime objem pozorovaní, náš odhad vzorky nebude konvergovať k skutočnej regresnej funkcii

Ak by sme triedu regresných funkcií zvolili správne, tak nepresnosť v popise pomocou Wow by sa dalo vysvetliť iba obmedzenosťou vzorky, a preto by sa dala ľubovoľne zmenšiť

Aby sa čo najlepšie obnovila podmienená hodnota efektívneho ukazovateľa a neznáma regresná funkcia z pôvodných štatistických údajov, najčastejšie sa používajú: kritériá primeranosti stratové funkcie.

1. Metóda najmenších štvorcov, podľa ktorého je minimalizovaná štvorcová odchýlka pozorovaných hodnôt efektívneho ukazovateľa, od modelových hodnôt, kde koeficienty regresnej rovnice; sú hodnoty vektora argumentov v "-M pozorovaní" :

Rieši sa problém nájdenia odhadu vektora. Výsledná regresia sa nazýva hlavné námestie.

2. Metóda najmenších modulov, podľa ktorého je súčet absolútnych odchýlok pozorovaných hodnôt efektívneho ukazovateľa od modulárnych hodnôt minimalizovaný, t.j.

Výsledná regresia sa nazýva znamená absolútne(medián).

3. minimax metóda sa redukuje na minimalizáciu modulu maximálnej odchýlky pozorovanej hodnoty efektívneho ukazovateľa y, z hodnoty modelu, t.j.

Výsledná regresia sa nazýva minimax.

V praktických aplikáciách sa často vyskytujú problémy, pri ktorých sa študuje náhodná veličina y, v závislosti od nejakej množiny premenných a neznámych parametrov. Budeme považovať () za (k + 1)-dimenzionálna všeobecná populácia, z ktorej náhodná vzorka obj P, kde () je výsledok /-tého pozorovania,. Je potrebné odhadnúť neznáme parametre na základe výsledkov pozorovaní. Úloha opísaná vyššie sa týka úloh regresnej analýzy.

regresná analýza nazývame metódu štatistickej analýzy závislosti náhodnej premennej pri z premenných považovaných v regresnej analýze za nenáhodné premenné bez ohľadu na skutočný zákon rozdelenia

Študenti sa počas štúdia veľmi často stretávajú s rôznymi rovnicami. Jeden z nich - regresná rovnica - sa zaoberá v tomto článku. Tento typ rovnice sa používa špecificky na opis charakteristík vzťahu medzi matematickými parametrami. Tento typ rovnosti sa používa v štatistike a ekonometrii.

Definícia regresie

V matematike sa regresia chápe ako určitá veličina, ktorá opisuje závislosť priemernej hodnoty súboru údajov od hodnôt inej veličiny. Regresná rovnica ukazuje, ako funkciu konkrétneho znaku, priemernú hodnotu iného znaku. Regresná funkcia má formu jednoduchej rovnice y \u003d x, v ktorej y pôsobí ako závislá premenná a x je nezávislá premenná (faktor funkcie). V skutočnosti je regresia vyjadrená ako y = f (x).

Aké sú typy vzťahov medzi premennými

Vo všeobecnosti sa rozlišujú dva opačné typy vzťahov: korelácia a regresia.

Prvý je charakterizovaný rovnosťou podmienených premenných. V tomto prípade nie je s určitosťou známe, ktorá premenná závisí od druhej.

Ak medzi premennými neexistuje rovnosť a podmienky hovoria, ktorá premenná je vysvetľujúca a ktorá je závislá, potom môžeme hovoriť o prítomnosti spojenia druhého typu. Na zostavenie lineárnej regresnej rovnice bude potrebné zistiť, aký typ vzťahu je pozorovaný.

Typy regresií

K dnešnému dňu existuje 7 rôznych typov regresie: hyperbolická, lineárna, viacnásobná, nelineárna, párová, inverzná, logaritmicky lineárna.

Hyperbolické, lineárne a logaritmické

Rovnica lineárnej regresie sa používa v štatistike na jasné vysvetlenie parametrov rovnice. Vyzerá to ako y = c + m * x + E. Hyperbolická rovnica má tvar pravidelnej hyperboly y \u003d c + m / x + E. Logaritmicky lineárna rovnica vyjadruje vzťah pomocou logaritmickej funkcie: In y \u003d In c + m * In x + In E.

Viacnásobné a nelineárne

Dva zložitejšie typy regresie sú viacnásobné a nelineárne. Rovnica viacnásobnej regresie je vyjadrená funkciou y \u003d f (x 1, x 2 ... x c) + E. V tejto situácii je y závislá premenná a x je vysvetľujúca premenná. Premenná E je stochastická a zahŕňa vplyv iných faktorov v rovnici. Nelineárna regresná rovnica je trochu nekonzistentná. Na jednej strane vzhľadom na zohľadňované ukazovatele nie je lineárny a na druhej strane v úlohe hodnotenia ukazovateľov je lineárny.

Inverzná a párová regresia

Inverzia je druh funkcie, ktorú je potrebné previesť na lineárnu formu. V najtradičnejších aplikačných programoch má formu funkcie y \u003d 1 / c + m * x + E. Rovnica párovej regresie ukazuje vzťah medzi údajmi ako funkciu y = f(x) + E. Rovnako ako ostatné rovnice, y závisí od x a E je stochastický parameter.

Koncept korelácie

Ide o indikátor, ktorý dokazuje existenciu vzťahu medzi dvoma javmi alebo procesmi. Sila vzťahu je vyjadrená ako korelačný koeficient. Jeho hodnota kolíše v intervale [-1;+1]. Negatívny indikátor indikuje prítomnosť spätnej väzby, pozitívny indikátor znamená priamu. Ak má koeficient hodnotu rovnú 0, potom neexistuje žiadny vzťah. Čím bližšie je hodnota k 1, tým silnejší je vzťah medzi parametrami, čím bližšie k 0, tým slabší.

Metódy

Korelačné parametrické metódy dokážu odhadnúť tesnosť vzťahu. Používajú sa na základe odhadov rozdelenia na štúdium parametrov, ktoré sa riadia zákonom normálneho rozdelenia.

Parametre lineárnej regresnej rovnice sú potrebné na identifikáciu typu závislosti, funkcie regresnej rovnice a vyhodnotenie ukazovateľov zvoleného vzorca vzťahu. Korelačné pole sa používa ako metóda na identifikáciu vzťahu. Na tento účel musia byť všetky existujúce údaje znázornené graficky. V pravouhlom dvojrozmernom súradnicovom systéme musia byť vynesené všetky známe údaje. Takto sa tvorí korelačné pole. Hodnota popisujúceho faktora je vyznačená pozdĺž úsečky, zatiaľ čo hodnoty závislého faktora sú vyznačené pozdĺž zvislej osi. Ak medzi parametrami existuje funkčný vzťah, zoradia sa vo forme čiary.

Ak je korelačný koeficient takýchto údajov menší ako 30 %, môžeme hovoriť o takmer úplnej absencii spojenia. Ak je medzi 30% a 70%, potom to naznačuje prítomnosť väzieb strednej blízkosti. Indikátor 100% je dôkazom funkčného spojenia.

Nelineárna regresná rovnica, rovnako ako lineárna, musí byť doplnená o korelačný index (R).

Korelácia pre viacnásobnú regresiu

Koeficient determinácie je indikátorom druhej mocniny viacnásobnej korelácie. Hovorí o tesnosti vzťahu prezentovaného súboru ukazovateľov so skúmaným znakom. Môže tiež hovoriť o povahe vplyvu parametrov na výsledok. Pomocou tohto indikátora sa vyhodnocuje rovnica viacnásobnej regresie.

Na výpočet indexu viacnásobnej korelácie je potrebné vypočítať jeho index.

Metóda najmenších štvorcov

Táto metóda je spôsob odhadu regresných faktorov. Jeho podstata spočíva v minimalizácii súčtu kvadratických odchýlok získaných v dôsledku závislosti faktora od funkcie.

Pomocou takejto metódy možno odhadnúť rovnicu párovej lineárnej regresie. Tento typ rovníc sa používa v prípade detekcie medzi indikátormi párového lineárneho vzťahu.

Možnosti rovnice

Každý parameter lineárnej regresnej funkcie má špecifický význam. Rovnica párovej lineárnej regresie obsahuje dva parametre: c a m. Parameter t vyjadruje priemernú zmenu konečného ukazovateľa funkcie y pri znížení (zvýšenie) premennej x o jednu konvenčnú jednotku. Ak je premenná x nula, potom sa funkcia rovná parametru c. Ak premenná x nie je nula, potom faktor c nedáva ekonomický zmysel. Jediný vplyv na funkciu má znamienko pred faktorom c. Ak je mínus, potom môžeme povedať o pomalej zmene výsledku v porovnaní s faktorom. Ak existuje plus, znamená to zrýchlenú zmenu výsledku.

Každý parameter, ktorý mení hodnotu regresnej rovnice, možno vyjadriť pomocou rovnice. Napríklad faktor c má tvar c = y - mx.

Zoskupené údaje

Existujú také podmienky úlohy, v ktorých sú všetky informácie zoskupené podľa atribútu x, ale zároveň sú pre určitú skupinu uvedené zodpovedajúce priemerné hodnoty závislého ukazovateľa. V tomto prípade priemerné hodnoty charakterizujú, ako indikátor závisí od x. Zoskupené informácie teda pomáhajú nájsť regresnú rovnicu. Používa sa ako analýza vzťahov. Táto metóda má však svoje nevýhody. Bohužiaľ, priemery často podliehajú vonkajším výkyvom. Tieto výkyvy nie sú odrazom vzorcov vzťahu, len maskujú jeho „šum“. Priemery ukazujú vzorce vzťahu oveľa horšie ako lineárna regresná rovnica. Môžu sa však použiť ako základ pre nájdenie rovnice. Vynásobením veľkosti konkrétnej populácie zodpovedajúcim priemerom môžete získať súčet y v rámci skupiny. Ďalej musíte vyradiť všetky prijaté sumy a nájsť konečný ukazovateľ y. Trochu zložitejšie je robiť výpočty so súčtom ukazovateľa xy. V prípade, že sú intervaly malé, môžeme podmienečne brať ukazovateľ x pre všetky jednotky (v rámci skupiny) rovnako. Vynásobte ho súčtom y, aby ste našli súčet súčinov x a y. Ďalej sa všetky súčty spoja a získa sa celkový súčet xy.

Regresia viacerých párov: Posúdenie dôležitosti vzťahu

Ako už bolo uvedené, viacnásobná regresia má funkciu tvaru y \u003d f (x 1, x 2, ..., x m) + E. Najčastejšie sa takáto rovnica používa na riešenie problému ponuky a dopytu po produkte, úrokového výnosu zo spätne odkúpených akcií, skúmanie príčin a typu funkcie výrobných nákladov. Aktívne sa používa aj v širokej škále makroekonomických štúdií a výpočtov, ale na úrovni mikroekonómie sa takáto rovnica používa o niečo menej často.

Hlavnou úlohou viacnásobnej regresie je zostaviť dátový model obsahujúci obrovské množstvo informácií, aby bolo možné ďalej určiť, aký vplyv má každý z faktorov jednotlivo a ako celok na modelovaný ukazovateľ a jeho koeficienty. Regresná rovnica môže nadobúdať rôzne hodnoty. V tomto prípade sa na posúdenie vzťahu zvyčajne používajú dva typy funkcií: lineárne a nelineárne.

Lineárna funkcia je znázornená vo forme takéhoto vzťahu: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. V tomto prípade sa a2, am považujú za koeficienty "čistej" regresie. Je potrebné charakterizovať priemernú zmenu parametra y so zmenou (poklesom alebo zvýšením) každého zodpovedajúceho parametra x o jednu jednotku, s podmienkou stabilnej hodnoty ostatných ukazovateľov.

Nelineárne rovnice majú napríklad tvar mocninnej funkcie y=ax 1 b1 x 2 b2 ...x m bm . V tomto prípade sa ukazovatele b 1, b 2 ..... b m - nazývajú koeficienty elasticity, ukazujú, ako sa výsledok zmení (o koľko%) so zvýšením (poklesom) príslušného ukazovateľa x o 1% a so stabilným ukazovateľom ostatných faktorov.

Aké faktory treba brať do úvahy pri budovaní viacnásobnej regresie?

Pre správnu konštrukciu viacnásobnej regresie je potrebné zistiť, ktorým faktorom treba venovať osobitnú pozornosť.

Je potrebné mať určité pochopenie podstaty vzťahu medzi ekonomickými faktormi a modelovaným. Faktory, ktoré sa majú zahrnúť, musia spĺňať nasledujúce kritériá:

  • Musí byť merateľné. Aby bolo možné použiť faktor opisujúci kvalitu objektu, mal by mať v každom prípade kvantitatívnu formu.
  • Nemala by existovať žiadna vzájomná korelácia faktorov alebo funkčný vzťah. Takéto akcie najčastejšie vedú k nezvratným dôsledkom - systém obyčajných rovníc sa stáva nepodmieneným, čo má za následok jeho nespoľahlivosť a nejasné odhady.
  • V prípade obrovského korelačného ukazovateľa nie je možné zistiť izolovaný vplyv faktorov na konečný výsledok ukazovateľa, preto sa koeficienty stávajú neinterpretovateľnými.

Stavebné metódy

Existuje veľké množstvo metód a spôsobov, ako vysvetliť, ako si môžete vybrať faktory pre rovnicu. Všetky tieto metódy sú však založené na výbere koeficientov pomocou korelačného indexu. Medzi nimi sú:

  • Metóda vylúčenia.
  • Zapnite metódu.
  • Postupná regresná analýza.

Prvý spôsob zahŕňa preosievanie všetkých koeficientov z agregovaného súboru. Druhá metóda zahŕňa zavedenie mnohých ďalších faktorov. No a tretím je eliminácia faktorov, ktoré boli predtým aplikované na rovnicu. Každá z týchto metód má právo na existenciu. Majú svoje klady a zápory, ale môžu vyriešiť otázku skríningu nepotrebných ukazovateľov po svojom. Výsledky získané každou jednotlivou metódou sú spravidla veľmi blízke.

Metódy viacrozmernej analýzy

Takéto metódy určovania faktorov sú založené na zvažovaní jednotlivých kombinácií vzájomne súvisiacich znakov. Patria sem diskriminačná analýza, rozpoznávanie vzorov, analýza hlavných komponentov a zhluková analýza. Okrem toho existuje aj faktorová analýza, ktorá sa však objavila ako výsledok vývoja komponentovej metódy. Všetky sa uplatňujú za určitých okolností, za určitých podmienok a faktorov.

Moderná politológia vychádza z pozície vzťahu všetkých javov a procesov v spoločnosti. Je nemožné pochopiť udalosti a procesy, predvídať a riadiť javy politického života bez štúdia súvislostí a závislostí, ktoré existujú v politickej sfére života spoločnosti. Jednou z najbežnejších úloh politického výskumu je študovať vzťah medzi niektorými pozorovateľnými premennými. Tento problém pomáha riešiť celá trieda štatistických metód analýzy, zjednotená spoločným názvom „regresná analýza“ (alebo, ako sa tiež nazýva „korelačno-regresná analýza“). Ak však korelačná analýza umožňuje posúdiť silu vzťahu medzi dvoma premennými, potom pomocou regresnej analýzy je možné určiť typ tohto vzťahu, predpovedať závislosť hodnoty ktorejkoľvek premennej od hodnoty inej premennej. .

Najprv si pripomeňme, čo je to korelácia. Korelačné nazývaný najdôležitejší špeciálny prípad štatistického vzťahu, ktorý spočíva v tom, že rovnaké hodnoty jednej premennej zodpovedajú rôznym priemerné hodnotyďalší. So zmenou hodnoty atribútu x sa prirodzene mení aj priemerná hodnota atribútu y, pričom v každom jednotlivom prípade hodnota atribútu pri(s rôznymi pravdepodobnosťami) môže nadobudnúť mnoho rôznych hodnôt.

Výskyt pojmu „korelácia“ v štatistike (a politológia priťahuje dosahovanie štatistiky na riešenie jej problémov, čo je teda disciplína súvisiaca s politológiou) sa spája s menom anglického biológa a štatistika Francisa Galtona, ktorý navrhol v 19. storočí. teoretické základy korelačno-regresnej analýzy. Pojem „korelácia“ vo vede bol známy už skôr. Najmä v paleontológii ešte v 18. storočí. aplikoval ho francúzsky vedec Georges Cuvier. Zaviedol takzvaný korelačný zákon, pomocou ktorého sa podľa pozostatkov zvierat nájdených pri vykopávkach podarilo obnoviť ich vzhľad.

S menom tohto vedca a jeho zákonom korelácie sa spája známy príbeh. A tak v dňoch univerzitných prázdnin študenti, ktorí sa rozhodli zahrať na známeho profesora, stiahli cez jedného študenta koziu kožu s rohmi a kopytami. Vyliezol do okna Cuvierovej spálne a zakričal: "Ja ťa zjem." Profesor sa zobudil, pozrel na siluetu a odpovedal: „Ak máš rohy a kopytá, tak si bylinožravec a nemôžeš ma zjesť. A za neznalosť zákona korelácie dostanete dvojku. Otočil sa a zaspal. Vtip je vtip, ale v tomto príklade vidíme špeciálny prípad použitia viacnásobnej korelačno-regresnej analýzy. Tu profesor na základe znalosti hodnôt dvoch pozorovaných znakov (prítomnosť rohov a kopýt) na základe zákona korelácie odvodil priemernú hodnotu tretieho znaku (triedy, do ktorej toto zviera patrí je bylinožravec). V tomto prípade nehovoríme o konkrétnej hodnote tejto premennej (t. j. toto zviera môže nadobudnúť rôzne hodnoty v nominálnom meradle - môže to byť koza, baran alebo býk ...).

Teraz prejdime k pojmu „regresia“. Presne povedané, nesúvisí to s významom tých štatistických problémov, ktoré sa pomocou tejto metódy riešia. Vysvetlenie pojmu možno podať len na základe znalosti histórie vývoja metód na štúdium vzťahov medzi znakmi. Jedným z prvých príkladov štúdií tohto druhu bola práca štatistov F. Galtona a K. Pearsona, ktorí sa snažili nájsť zákonitosť medzi rastom otcov a ich detí podľa dvoch pozorovateľných znakov (kde X- výška otca a U- rast detí). Vo svojej štúdii potvrdili prvotnú hypotézu, že v priemere vysokí otcovia vychovávajú priemerne vysoké deti. Rovnaký princíp platí pre nízkych otcov a deti. Ak by sa tam však vedci zastavili, ich práce by sa v učebniciach štatistiky nikdy nespomínali. V rámci už spomínanej potvrdenej hypotézy vedci našli ďalší vzor. Dokázali, že veľmi vysokí otcovia rodia deti, ktoré sú v priemere vysoké, ale nie veľmi rozdielne vo výške od detí, ktorých otcovia, hoci sú vyšší ako priemer, sa príliš nelíšia od priemernej výšky. To isté platí pre otcov s veľmi malým vzrastom (odchyľujúcim sa od priemeru nízkej skupiny) – ich deti sa v priemere nelíšili výškou od rovesníkov, ktorých otcovia boli jednoducho nízky. Nazvali funkciu, ktorá popisuje túto pravidelnosť regresná funkcia. Po tejto štúdii sa všetky rovnice popisujúce podobné funkcie a konštruované podobným spôsobom začali nazývať regresné rovnice.

Regresná analýza je jednou z metód viacrozmernej štatistickej analýzy údajov, ktorá kombinuje súbor štatistických techník určených na štúdium alebo modelovanie vzťahov medzi jednou závislou a niekoľkými (alebo jednou) nezávislými premennými. Závislá premenná sa podľa tradície akceptovanej v štatistike nazýva odozva a označuje sa ako V Nezávislé premenné sa nazývajú prediktory a označujú sa ako X. V priebehu analýzy budú niektoré premenné slabo súvisieť s odpoveďou a nakoniec budú z analýzy vylúčené. Zostávajúce premenné spojené so závislým sa môžu tiež nazývať faktory.

Regresná analýza umožňuje predpovedať hodnoty jednej alebo viacerých premenných v závislosti od inej premennej (napríklad sklon k nekonvenčnému politickému správaniu v závislosti od úrovne vzdelania) alebo viacerých premenných. Počíta sa na PC. Na zostavenie regresnej rovnice, ktorá umožňuje zmerať mieru závislosti riadeného znaku od faktorových, je potrebné zapojiť profesionálnych matematikov-programátorov. Regresná analýza môže poskytnúť neoceniteľnú službu pri budovaní prediktívnych modelov pre vývoj politickej situácie, hodnotení príčin sociálneho napätia a pri vykonávaní teoretických experimentov. Regresná analýza sa aktívne využíva na skúmanie vplyvu viacerých sociodemografických parametrov na volebné správanie občanov: pohlavie, vek, povolanie, miesto bydliska, národnosť, úroveň a povaha príjmu.

Vo vzťahu k regresnej analýze, pojmy nezávislý a závislý premenných. Nezávislá premenná je premenná, ktorá vysvetľuje alebo spôsobuje zmenu inej premennej. Závislá premenná je premenná, ktorej hodnota sa vysvetľuje vplyvom prvej premennej. Napríklad v prezidentských voľbách v roku 2004 boli rozhodujúce faktory, t.j. nezávislými premennými boli ukazovatele ako stabilizácia finančnej situácie obyvateľstva krajiny, miera obľúbenosti kandidátov a faktor úrad. V tomto prípade možno percento odovzdaných hlasov pre kandidátov považovať za závislú premennú. Podobne v dvojici premenných „vek voliča“ a „úroveň volebnej aktivity“ je prvá nezávislá, druhá závislá.

Regresná analýza vám umožňuje vyriešiť nasledujúce problémy:

  • 1) preukázať samotný fakt prítomnosti alebo neprítomnosti štatisticky významného vzťahu medzi Ci X;
  • 2) zostaviť najlepšie (v štatistickom zmysle) odhady regresnej funkcie;
  • 3) podľa uvedených hodnôt X vytvoriť predpoveď pre neznáme O
  • 4) vyhodnotiť špecifickú váhu vplyvu každého faktora X na O a podľa toho vylúčiť z modelu nepodstatné prvky;
  • 5) identifikáciou kauzálnych vzťahov medzi premennými čiastočne spravujte hodnoty P úpravou hodnôt vysvetľujúcich premenných X.

S regresnou analýzou je spojená potreba výberu vzájomne nezávislých premenných, ktoré ovplyvňujú hodnotu sledovaného ukazovateľa, určenie tvaru regresnej rovnice a vyhodnotenie parametrov pomocou štatistických metód spracovania primárnych sociologických údajov. Tento typ analýzy je založený na myšlienke formy, smeru a blízkosti (hustoty) vzťahu. Rozlišovať parná miestnosť a viacnásobná regresia v závislosti od počtu študovaných znakov. V praxi sa regresná analýza zvyčajne vykonáva v spojení s korelačnou analýzou. Regresná rovnica opisuje číselný vzťah medzi veličinami, vyjadrený ako tendencia jednej premennej rásť alebo klesať, zatiaľ čo iná rastie alebo klesá. Zároveň razl a h a jut l mráz a nelineárna regresia. Pri popise politických procesov sa oba varianty regresie nachádzajú rovnako.

Rozptylový graf na rozdelenie vzájomnej závislosti záujmu v politických článkoch ( U) a vzdelanie respondentov (X) je lineárna regresia (obr. 30).

Ryža. tridsať.

Bodový graf pre rozdelenie úrovne volebnej aktivity ( U) a vek respondenta (A) (podmienený príklad) je nelineárna regresia (obr. 31).


Ryža. 31.

Na opísanie vzťahu dvoch znakov (A" a Y) v párovom regresnom modeli sa používa lineárna rovnica

kde a, je náhodná hodnota chyby rovnice s variáciou znakov, t.j. odchýlka rovnice od „lineárnosti“.

Na vyhodnotenie koeficientov a a b použiť metódu najmenších štvorcov, ktorá predpokladá, že súčet štvorcových odchýlok každého bodu na bodovom grafe od regresnej priamky by mal byť minimálny. Odds a h b možno vypočítať pomocou sústavy rovníc:

Takéto odhady koeficientov poskytuje metóda odhadu najmenších štvorcov a a b, pre ktorú priamka prechádza bodom so súradnicami X a y, tie. existuje vzťah pri = sekera + b. Grafické znázornenie regresnej rovnice je tzv teoretická regresná línia. Pri lineárnej závislosti regresný koeficient predstavuje na grafe dotyčnicu sklonu teoretickej regresnej priamky k osi x. Znamienko pri koeficiente ukazuje smer vzťahu. Ak je väčší ako nula, potom je vzťah priamy, ak je menší, je inverzný.

Nasledujúci príklad zo štúdie „Politický Petrohrad-2006“ (tabuľka 56) ukazuje lineárny vzťah medzi vnímaním miery spokojnosti občanov so svojím životom v súčasnosti a očakávaniami zmien v kvalite života v budúcnosti. Súvislosť je priama, lineárna (normalizovaný regresný koeficient je 0,233, hladina významnosti je 0,000). V tomto prípade regresný koeficient nie je vysoký, ale presahuje dolnú hranicu štatisticky významného ukazovateľa (dolnú hranicu štvorca štatisticky významného ukazovateľa Pearsonovho koeficientu).

Tabuľka 56

Vplyv kvality života občanov v súčasnosti na očakávania

(Petrohrad, 2006)

* Závislá premenná: "Ako si myslíte, že sa váš život zmení v najbližších 2-3 rokoch?"

V politickom živote hodnota skúmanej premennej najčastejšie súčasne závisí od viacerých znakov. Napríklad úroveň a charakter politickej činnosti sú súčasne ovplyvňované politickým režimom štátu, politickými tradíciami, osobitosťami politického správania ľudí v danej oblasti a sociálnou mikroskupinou respondenta, jeho vekom, vzdelaním, príjmom. úroveň, politická orientácia a pod. V tomto prípade musíte použiť rovnicu viacnásobná regresia, ktorý má nasledujúci tvar:

kde koeficient b.- parciálny regresný koeficient. Ukazuje príspevok každej nezávislej premennej k určovaniu hodnôt nezávislej (výsledkovej) premennej. Ak je parciálny regresný koeficient blízky 0, potom môžeme konštatovať, že neexistuje priamy vzťah medzi nezávislými a závislými premennými.

Výpočet takéhoto modelu je možné vykonať na PC pomocou maticovej algebry. Viacnásobná regresia vám umožňuje odrážať multifaktoriálny charakter sociálnych väzieb a objasniť mieru vplyvu každého faktora jednotlivo a všetkých spolu na výslednú vlastnosť.

Koeficient označený b, sa nazýva koeficient lineárnej regresie a ukazuje silu vzťahu medzi variáciou faktorovej vlastnosti X a variáciu efektívnej funkcie Y Tento koeficient meria silu vzťahu v absolútnych jednotkách merania vlastností. Blízkosť korelácie znakov však možno vyjadriť aj pomocou smerodajnej odchýlky výsledného znaku (takýto koeficient sa nazýva korelačný koeficient). Na rozdiel od regresného koeficientu b korelačný koeficient nezávisí od akceptovaných jednotiek merania vlastností, a preto je porovnateľný pre akékoľvek vlastnosti. Zvyčajne sa spojenie považuje za silné, ak /> 0,7, stredná tesnosť - pri 0,5 g 0,5.

Ako viete, najužšie spojenie je funkčné spojenie, keď každý individuálna hodnota Y možno jednoznačne priradiť k hodnote X.Čím je teda korelačný koeficient bližšie k 1, tým je vzťah bližšie k funkčnému. Hladina významnosti pre regresnú analýzu by nemala presiahnuť 0,001.

Korelačný koeficient bol dlho považovaný za hlavný indikátor blízkosti vzťahu znakov. Neskôr sa však takýmto ukazovateľom stal koeficient determinácie. Význam tohto koeficientu je nasledovný – odráža podiel celkového rozptylu výsledného znaku O, vysvetlené rozptylom funkcie X. Zisťuje sa jednoduchým umocnením korelačného koeficientu (zmena od 0 do 1) a naopak, pre lineárny vzťah odráža podiel od 0 (0 %) do 1 (100 %) charakteristických hodnôt Y, určené hodnotami atribútu X. Zaznamenáva sa ako ja 2, a vo výsledných tabuľkách regresnej analýzy v balíku SPSS - bez štvorca.

Označme hlavné problémy konštrukcie viacnásobnej regresnej rovnice.

  • 1. Výber faktorov zahrnutých do regresnej rovnice. V tejto fáze výskumník najskôr zostaví všeobecný zoznam hlavných príčin, ktoré podľa teórie spôsobujú skúmaný jav. Potom musí vybrať vlastnosti v regresnej rovnici. Základné pravidlo výberu: faktory zahrnuté do analýzy by mali medzi sebou čo najmenej korelovať; iba v tomto prípade je možné určitému faktoru-atribútu prisúdiť kvantitatívnu mieru vplyvu.
  • 2. Výber tvaru viacnásobnej regresnej rovnice(v praxi sa častejšie používa lineárna alebo lineárno-logaritmická). Ak teda chcete použiť viacnásobnú regresiu, výskumník musí najprv zostaviť hypotetický model vplyvu niekoľkých nezávislých premenných na výslednú. Aby boli získané výsledky spoľahlivé, je potrebné, aby sa model presne zhodoval s reálnym procesom, t.j. vzťah medzi premennými musí byť lineárny, nemožno ignorovať ani jednu významnú nezávislú premennú, rovnako ako do analýzy nemožno zahrnúť ani jednu premennú, ktorá priamo nesúvisí so skúmaným procesom. Všetky merania premenných musia byť navyše mimoriadne presné.

Z vyššie uvedeného popisu vyplýva niekoľko podmienok pre aplikáciu tejto metódy, bez ktorých nie je možné pristúpiť k postupu viacnásobnej regresnej analýzy (MRA). Iba súlad so všetkými nasledujúcimi bodmi vám umožní správne vykonať regresnú analýzu.