Jednoduchá regresná analýza. Regresná analýza je štatistická metóda na štúdium závislosti náhodnej premennej od premenných. Analýza výsledkov analýzy

Študenti sa počas štúdia veľmi často stretávajú s rôznymi rovnicami. Jeden z nich - regresná rovnica - sa zaoberá v tomto článku. Tento typ rovnice sa používa špecificky na opis charakteristík vzťahu medzi matematickými parametrami. Tento typ rovnosti sa používajú v štatistike a ekonometrii.

Definícia regresie

V matematike sa regresia chápe ako určitá veličina, ktorá opisuje závislosť priemernej hodnoty súboru údajov od hodnôt inej veličiny. Regresná rovnica ukazuje, ako funkciu konkrétneho znaku, priemernú hodnotu iného znaku. Regresná funkcia má formu jednoduchej rovnice y \u003d x, v ktorej y pôsobí ako závislá premenná a x je nezávislá (faktor funkcie). V skutočnosti je regresia vyjadrená ako y = f (x).

Aké sú typy vzťahov medzi premennými

Vo všeobecnosti sa rozlišujú dva opačné typy vzťahov: korelácia a regresia.

Prvý je charakterizovaný rovnosťou podmienených premenných. AT tento prípad nie je s určitosťou známe, ktorá premenná závisí od druhej.

Ak medzi premennými neexistuje rovnosť a podmienky hovoria, ktorá premenná je vysvetľujúca a ktorá je závislá, potom môžeme hovoriť o prítomnosti spojenia druhého typu. Na zostavenie lineárnej regresnej rovnice bude potrebné zistiť, aký typ vzťahu je pozorovaný.

Typy regresií

K dnešnému dňu existuje 7 rôznych typov regresie: hyperbolická, lineárna, viacnásobná, nelineárna, párová, inverzná, logaritmicky lineárna.

Hyperbolické, lineárne a logaritmické

Rovnica lineárnej regresie sa používa v štatistike na jasné vysvetlenie parametrov rovnice. Vyzerá to ako y = c + m * x + E. Hyperbolická rovnica má tvar pravidelnej hyperboly y \u003d c + m / x + E. Logaritmicky lineárna rovnica vyjadruje vzťah pomocou logaritmickej funkcie: In y \u003d In c + m * In x + In E.

Viacnásobné a nelineárne

ďalšie dva komplexné typy regresie sú viacnásobné a nelineárne. Rovnica viacnásobnej regresie je vyjadrená funkciou y \u003d f (x 1, x 2 ... x c) + E. V tejto situácii je y závislá premenná a x je vysvetľujúca premenná. Premenná E je stochastická a zahŕňa vplyv iných faktorov v rovnici. Nelineárna regresná rovnica je trochu nekonzistentná. Na jednej strane vzhľadom na zohľadňované ukazovatele nie je lineárny a na druhej strane v úlohe hodnotenia ukazovateľov je lineárny.

Inverzná a párová regresia

Inverzia je druh funkcie, ktorú je potrebné previesť na lineárnu formu. V najtradičnejších aplikačných programoch má formu funkcie y \u003d 1 / c + m * x + E. Párová regresná rovnica ukazuje vzťah medzi údajmi ako funkciu y = f(x) + E. Rovnako ako ostatné rovnice, y závisí od x a E je stochastický parameter.

Koncept korelácie

Ide o indikátor, ktorý dokazuje existenciu vzťahu medzi dvoma javmi alebo procesmi. Sila vzťahu je vyjadrená ako korelačný koeficient. Jeho hodnota kolíše v intervale [-1;+1]. Negatívny indikátor indikuje prítomnosť spätná väzba, pozitívny - o priamke. Ak má koeficient hodnotu rovnú 0, potom neexistuje žiadny vzťah. Čím bližšie je hodnota k 1 – tým silnejší je vzťah medzi parametrami, tým bližšie k 0 – tým slabší.

Metódy

Korelačné parametrické metódy dokážu odhadnúť tesnosť vzťahu. Používajú sa na základe odhadov rozdelenia na štúdium parametrov, ktoré sa riadia zákonom normálneho rozdelenia.

Parametre lineárnej regresnej rovnice sú potrebné na identifikáciu typu závislosti, funkcie regresnej rovnice a vyhodnotenie ukazovateľov zvoleného vzťahu. Korelačné pole sa používa ako metóda na identifikáciu vzťahu. Na tento účel musia byť všetky existujúce údaje znázornené graficky. V pravouhlom dvojrozmernom súradnicovom systéme musia byť vynesené všetky známe údaje. Takto sa tvorí korelačné pole. Hodnota popisujúceho faktora je vyznačená pozdĺž úsečky, zatiaľ čo hodnoty závislého faktora sú vyznačené pozdĺž zvislej osi. Ak medzi parametrami existuje funkčný vzťah, zoradia sa vo forme čiary.

Ak je korelačný koeficient takýchto údajov menší ako 30 %, môžeme hovoriť o takmer úplnej absencii spojenia. Ak je medzi 30% a 70%, znamená to prítomnosť článkov strednej tesnosti. Indikátor 100% je dôkazom funkčného spojenia.

Nelineárna regresná rovnica, rovnako ako lineárna, musí byť doplnená o korelačný index (R).

Korelácia pre viacnásobnú regresiu

Koeficient determinácie je indikátorom druhej mocniny viacnásobnej korelácie. Hovorí o tesnosti vzťahu prezentovaného súboru ukazovateľov so skúmaným znakom. Môže tiež hovoriť o povahe vplyvu parametrov na výsledok. Pomocou tohto indikátora sa vyhodnocuje rovnica viacnásobnej regresie.

Na výpočet indexu viacnásobnej korelácie je potrebné vypočítať jeho index.

Metóda najmenších štvorcov

Táto metóda je spôsob odhadu regresných faktorov. Jeho podstata spočíva v minimalizácii súčtu kvadratických odchýlok získaných v dôsledku závislosti faktora od funkcie.

Pomocou takejto metódy možno odhadnúť rovnicu párovej lineárnej regresie. Tento typ rovníc sa používa v prípade detekcie medzi indikátormi párového lineárneho vzťahu.

Možnosti rovnice

Každý parameter lineárnej regresnej funkcie má špecifický význam. Rovnica párovej lineárnej regresie obsahuje dva parametre: c a m. Parameter t vyjadruje priemernú zmenu konečného ukazovateľa funkcie y pri znížení (zvýšenie) premennej x o jednu. konvenčná jednotka. Ak je premenná x nula, potom sa funkcia rovná parametru c. Ak premenná x nie je nula, potom faktor c nedáva ekonomický zmysel. Jediný vplyv na funkciu má znamienko pred faktorom c. Ak je mínus, potom môžeme povedať o pomalej zmene výsledku v porovnaní s faktorom. Ak existuje plus, znamená to zrýchlenú zmenu výsledku.

Každý parameter, ktorý mení hodnotu regresnej rovnice, možno vyjadriť pomocou rovnice. Napríklad faktor c má tvar c = y - mx.

Zoskupené údaje

Existujú také podmienky úlohy, v ktorých sú všetky informácie zoskupené podľa atribútu x, ale zároveň sú pre určitú skupinu uvedené zodpovedajúce priemerné hodnoty závislého ukazovateľa. V tomto prípade priemerné hodnoty charakterizujú, ako indikátor závisí od x. Zoskupené informácie teda pomáhajú nájsť regresnú rovnicu. Používa sa ako analýza vzťahov. Táto metóda má však svoje nevýhody. Bohužiaľ, priemery často podliehajú vonkajším výkyvom. Tieto výkyvy nie sú odrazom vzorcov vzťahu, len maskujú jeho „šum“. Priemery ukazujú vzorce vzťahu oveľa horšie ako lineárna regresná rovnica. Môžu sa však použiť ako základ pre nájdenie rovnice. Vynásobením veľkosti konkrétnej populácie zodpovedajúcim priemerom môžete získať súčet y v rámci skupiny. Ďalej musíte vyradiť všetky prijaté sumy a nájsť konečný ukazovateľ y. Trochu zložitejšie je robiť výpočty so súčtom ukazovateľa xy. V prípade, že sú intervaly malé, môžeme podmienečne brať ukazovateľ x pre všetky jednotky (v rámci skupiny) rovnako. Vynásobte ho súčtom y, aby ste našli súčet súčinov x a y. Ďalej sa všetky sumy spoja a ukáže sa celková suma hu.

Viacnásobná párová regresia: Hodnotenie dôležitosti vzťahu

Ako už bolo uvedené, viacnásobná regresia má funkciu tvaru y \u003d f (x 1, x 2, ..., x m) + E. Najčastejšie sa takáto rovnica používa na vyriešenie problému ponuky a dopytu po tovare, úrokový príjem zo spätne odkúpených akcií, štúdium príčin a typu funkcie výrobných nákladov. Aktívne sa používa aj v širokej škále makroekonomických štúdií a výpočtov, ale na úrovni mikroekonómie sa takáto rovnica používa o niečo menej často.

Hlavnou úlohou viacnásobnej regresie je zostaviť dátový model obsahujúci obrovské množstvo informácií, aby bolo možné ďalej určiť, aký vplyv má každý z faktorov jednotlivo a ako celok na modelovaný ukazovateľ a jeho koeficienty. Regresná rovnica môže nadobúdať rôzne hodnoty. V tomto prípade sa na posúdenie vzťahu zvyčajne používajú dva typy funkcií: lineárne a nelineárne.

Lineárna funkcia je znázornená vo forme takéhoto vzťahu: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. V tomto prípade sa a2, am považujú za koeficienty "čistej" regresie. Je potrebné charakterizovať priemernú zmenu parametra y so zmenou (poklesom alebo zvýšením) každého zodpovedajúceho parametra x o jednu jednotku, s podmienkou stabilnej hodnoty ostatných ukazovateľov.

Nelineárne rovnice majú napríklad tvar výkonová funkcia y=ax 1 b1 x 2 b2 ...x m bm . V tomto prípade sa ukazovatele b 1, b 2 ..... b m - nazývajú koeficienty elasticity, ukazujú, ako sa výsledok zmení (o koľko%) so zvýšením (poklesom) zodpovedajúceho ukazovateľa x o 1% a so stabilným ukazovateľom ostatných faktorov.

Aké faktory treba brať do úvahy pri budovaní viacnásobnej regresie?

Pre správnu konštrukciu viacnásobnej regresie je potrebné zistiť, ktorým faktorom treba venovať osobitnú pozornosť.

Je potrebné mať určité pochopenie podstaty vzťahu medzi ekonomickými faktormi a modelovaným. Faktory, ktoré sa majú zahrnúť, musia spĺňať nasledujúce kritériá:

  • Musí byť merateľné. Aby bolo možné použiť faktor opisujúci kvalitu objektu, mal by mať v každom prípade kvantitatívnu formu.
  • Nemala by existovať žiadna vzájomná korelácia faktorov alebo funkčný vzťah. Takéto akcie najčastejšie vedú k nezvratným dôsledkom - systému obyčajné rovnice sa stáva nepodmieneným, a to so sebou nesie jeho nespoľahlivosť a nejasné hodnotenia.
  • V prípade obrovského korelačného ukazovateľa nie je možné zistiť izolovaný vplyv faktorov na konečný výsledok ukazovateľa, preto sa koeficienty stávajú neinterpretovateľnými.

Stavebné metódy

Existuje veľké množstvo metód a spôsobov, ako vysvetliť, ako si môžete vybrať faktory pre rovnicu. Všetky tieto metódy sú však založené na výbere koeficientov pomocou korelačného indexu. Medzi nimi sú:

  • Metóda vylúčenia.
  • Zapnite metódu.
  • Postupná regresná analýza.

Prvá metóda zahŕňa preosievanie všetkých koeficientov z agregovaného súboru. Druhá metóda zahŕňa zavedenie mnohých ďalších faktorov. No a tretím je eliminácia faktorov, ktoré boli predtým aplikované na rovnicu. Každá z týchto metód má právo na existenciu. Majú svoje klady a zápory, ale môžu vyriešiť otázku skríningu nepotrebných ukazovateľov po svojom. Výsledky získané každou jednotlivou metódou sú spravidla veľmi blízke.

Metódy viacrozmernej analýzy

Takéto metódy určovania faktorov sú založené na zvažovaní jednotlivých kombinácií vzájomne súvisiacich znakov. Patria sem diskriminačná analýza, rozpoznávanie vzorov, analýza hlavných komponentov a zhluková analýza. Okrem toho existuje aj faktorová analýza, ktorá sa však objavila ako výsledok vývoja komponentovej metódy. Všetky sa uplatňujú za určitých okolností, za určitých podmienok a faktorov.

Čo je regresia?

Zvážte dve spojité premenné x=(x1,x2,..,xn), y=(y1,y2,...,yn).

Umiestnime body na 2D bodový graf a povedzme, že máme lineárny vzťah ak sú údaje aproximované priamkou.

Ak to predpokladáme r záleží na X a zmeny v r spôsobené zmenami v X môžeme definovať regresnú čiaru (regres r na X), ktorý najlepšie popisuje priamy vzťah medzi týmito dvoma premennými.

Štatistické použitie slova „regresia“ pochádza z javu známeho ako regresia k priemeru, ktorý sa pripisuje Sirovi Francisovi Galtonovi (1889).

Ukázal, že zatiaľ čo vysokí otcovia majú tendenciu mať vysokých synov, priemerná výška synov je menšia ako u ich vysokých otcov. Priemerná výška synov „regresovala“ a „posunula sa späť“ na priemernú výšku všetkých otcov v populácii. Vysokí otcovia majú teda v priemere nižších (ale stále vysokých) synov a nízki otcovia vyšších (ale stále skôr nízkych) synov.

regresná čiara

Matematická rovnica, ktorá vyhodnocuje jednoduchú (párovú) lineárnu regresnú priamku:

X nazývaná nezávislá premenná alebo prediktor.

Y je závislá alebo odozvová premenná. Toto je hodnota, ktorú očakávame r(v priemere), ak poznáme hodnotu X, t.j. je predpokladaná hodnota r»

  • a- voľný člen (prekročenie) hodnotiacej línie; túto hodnotu Y, kedy x=0(Obr. 1).
  • b- sklon alebo sklon odhadovanej čiary; je to suma, o ktorú Y sa v priemere zvýši, ak zvýšime X pre jednu jednotku.
  • a a b sa nazývajú regresné koeficienty odhadovanej čiary, aj keď sa tento termín často používa len pre b.

Párová lineárna regresia môže byť rozšírená tak, aby zahŕňala viac ako jednu nezávislú premennú; v tomto prípade je známy ako viacnásobná regresia.

Obr.1. Lineárna regresná čiara zobrazujúca priesečník a a sklon b (veľkosť nárastu Y, keď sa x zvýši o jednu jednotku)

Metóda najmenších štvorcov

Regresnú analýzu vykonávame pomocou vzorky pozorovaní, kde a a b- vzorové odhady skutočných (všeobecných) parametrov α a β , ktoré určujú líniu lineárnej regresie v populácii (všeobecná populácia).

Väčšina jednoduchá metóda určujúce koeficienty a a b je metóda najmenších štvorcov(MNK).

Zhoda sa vyhodnotí zvážením zvyškov (vertikálna vzdialenosť každého bodu od čiary, napr. zvyšok = pozorovateľný r- predpovedal r, Ryža. 2).

Čiara, ktorá najlepšie vyhovuje, je zvolená tak, aby súčet druhých mocnín zvyškov bol minimálny.

Ryža. 2. Lineárna regresná čiara so znázornenými reziduami (vertikálne bodkované čiary) pre každý bod.

Predpoklady lineárnej regresie

Takže pre každú pozorovanú hodnotu sa rezíduum rovná rozdielu a zodpovedajúcej predpovedanej hodnote, pričom každé rezíduum môže byť kladné alebo záporné.

Rezíduá môžete použiť na testovanie nasledujúcich predpokladov za lineárnou regresiou:

  • Zvyšky sú normálne rozdelené s nulovým priemerom;

Ak sú predpoklady linearity, normality a/alebo konštantného rozptylu sporné, môžeme transformovať alebo vypočítať Nový riadok regresia, pre ktorú sú tieto predpoklady splnené (napríklad použitie logaritmická transformácia alebo iné).

Abnormálne hodnoty (odľahlé hodnoty) a body vplyvu

Ak sa vynechá „vplyvné“ pozorovanie, zmení sa jeden alebo viacero odhadov parametrov modelu (tj sklon alebo priesečník).

Odľahlá hodnota (pozorovanie, ktoré je v rozpore s väčšinou hodnôt v súbore údajov) môže byť „vplyvným“ pozorovaním a dá sa dobre zistiť vizuálne pri pohľade na 2D bodový graf alebo graf zvyškov.

Ako pre odľahlé hodnoty, tak aj pre „vplyvné“ pozorovania (body) sa používajú modely s ich zahrnutím aj bez nich, pozor na zmenu odhadu (regresné koeficienty).

Pri vykonávaní analýzy automaticky nezahadzujte odľahlé hodnoty alebo ovplyvňujúce body, pretože ich jednoduché ignorovanie môže ovplyvniť výsledky. Vždy si preštudujte príčiny týchto odľahlých hodnôt a analyzujte ich.

Hypotéza lineárnej regresie

Pri konštrukcii lineárnej regresie sa kontroluje nulová hypotéza, že všeobecný sklon regresnej priamky β nula.

Ak je sklon čiary nulový, neexistuje lineárny vzťah medzi a: zmena neovplyvní

Ak chcete otestovať nulovú hypotézu, že skutočný sklon je nula, môžete použiť nasledujúci algoritmus:

Vypočítajte testovaciu štatistiku rovnú pomeru , ktorý sa riadi distribúciou so stupňami voľnosti, kde je štandardná chyba koeficientu


,

- odhad rozptylu rezíduí.

Ak je dosiahnutá hladina významnosti, nulová hypotéza sa zvyčajne zamietne.


kde je percentuálny bod rozdelenia so stupňami voľnosti, ktorý udáva pravdepodobnosť obojstranného testu

Toto je interval, ktorý obsahuje všeobecný sklon s pravdepodobnosťou 95 %.

Pre veľké vzorky povedzme, že môžeme aproximovať s hodnotou 1,96 (to znamená, že testovacia štatistika bude mať tendenciu byť normálne rozložená)

Hodnotenie kvality lineárnej regresie: koeficient determinácie R 2

Kvôli lineárnemu vzťahu a očakávame, že sa mení ako zmeny a nazývame to variácia, ktorá je spôsobená alebo vysvetlená regresiou. Zvyšková odchýlka by mala byť čo najmenšia.

Ak áno, potom väčšina variácií bude vysvetlená regresiou a body budú ležať blízko regresnej priamky, t.j. riadok dobre zapadá do údajov.

Podiel celkového rozptylu, ktorý je vysvetlený regresiou, sa nazýva determinačný koeficient, zvyčajne vyjadrené v percentách a označené R2(v párovej lineárnej regresii je to hodnota r2, druhá mocnina korelačného koeficientu), umožňuje subjektívne posúdiť kvalitu regresnej rovnice.

Rozdiel je percento rozptylu, ktoré nemožno vysvetliť regresiou.

Neexistuje žiadny formálny test na vyhodnotenie, pri určovaní kvality preloženia regresnej priamky sme nútení spoliehať sa na subjektívny úsudok.

Použitie regresnej čiary na prognózu

Regresnú čiaru môžete použiť na predpovedanie hodnoty z hodnoty v rámci pozorovaného rozsahu (nikdy extrapolovať mimo týchto limitov).

Predpovedáme priemer pre pozorovateľné veličiny, ktoré majú určitú hodnotu, dosadením tejto hodnoty do rovnice regresnej priamky.

Ak teda predpovedáme ako, použijeme túto predpovedanú hodnotu a jej štandardnú chybu na odhadnutie intervalu spoľahlivosti pre skutočný priemer populácie.

Opakovanie tohto postupu pre rôzne hodnoty vám umožňuje vytvoriť limity spoľahlivosti pre tento riadok. Toto je pásmo alebo oblasť, ktorá obsahuje skutočnú čiaru, napríklad s 95% úrovňou spoľahlivosti.

Jednoduché regresné plány

Jednoduché regresné návrhy obsahujú jeden spojitý prediktor. Ak existujú 3 prípady s prediktorovými hodnotami P, ako napríklad 7, 4 a 9, a návrh zahŕňa efekt prvého rádu P, potom bude matica návrhu X

a regresná rovnica použitie P pre X1 vyzerá takto

Y = b0 + b1 P

Ak jednoduchý regresný návrh obsahuje efekt vyššieho rádu na P, ako je kvadratický efekt, potom sa hodnoty v stĺpci X1 v matici návrhu zvýšia na druhú mocninu:

a rovnica bude mať tvar

Y = b0 + b1 P2

Sigma-obmedzené a preparametrizované metódy kódovania sa nevzťahujú na jednoduché regresné návrhy a iné návrhy obsahujúce iba spojité prediktory (pretože jednoducho neexistujú žiadne kategorické prediktory). Bez ohľadu na zvolenú metódu kódovania sa hodnoty spojitých premenných zvýšia o príslušný výkon a použijú sa ako hodnoty pre premenné X. V tomto prípade sa nevykonáva žiadna konverzia. Okrem toho pri popise regresných plánov môžete vynechať zohľadnenie plánovej matice X a pracovať len s regresnou rovnicou.

Príklad: Jednoduchá regresná analýza

Tento príklad používa údaje uvedené v tabuľke:

Ryža. 3. Tabuľka počiatočných údajov.

Údaje sú založené na porovnaní sčítania v roku 1960 a 1970 v 30 náhodne vybraných okresoch. Názvy krajov sú uvedené ako názvy pozorovaní. Informácie o každej premennej sú uvedené nižšie:

Ryža. 4. Tabuľka špecifikácií premenných.

Cieľ výskumu

V tomto príklade sa bude analyzovať korelácia medzi mierou chudoby a silou, ktorá predpovedá percento rodín, ktoré sú pod hranicou chudoby. Preto budeme premennú 3 (Pt_Poor ) považovať za závislú premennú.

Dá sa vysloviť hypotéza: zmena v populácii a percento rodín, ktoré sú pod hranicou chudoby, spolu súvisia. Zdá sa rozumné očakávať, že chudoba vedie k odlivu obyvateľstva, a preto by existovala negatívna korelácia medzi percentom ľudí pod hranicou chudoby a zmenou populácie. Preto budeme s premennou 1 (Pop_Chng ) zaobchádzať ako s prediktorovou premennou.

Zobraziť výsledky

Regresné koeficienty

Ryža. 5. Regresné koeficienty Pt_Poor on Pop_Chng.

Na priesečníku riadku Pop_Chng a Param. neštandardizovaný koeficient pre regresiu Pt_Poor na Pop_Chng je -0,40374. To znamená, že s každým jednotkovým úbytkom obyvateľstva pribudne miera chudoby o 0,40374. Horné a dolné (predvolené) 95 % medze spoľahlivosti pre tento neštandardizovaný koeficient nezahŕňajú nulu, takže regresný koeficient je významný na úrovni p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribúcia premenných

Korelačné koeficienty môžu byť výrazne nadhodnotené alebo podhodnotené, ak sú v údajoch veľké odľahlé hodnoty. Pozrime sa na rozdelenie závislej premennej Pt_Poor podľa okresov. Na tento účel vytvoríme histogram premennej Pt_Poor.

Ryža. 6. Histogram premennej Pt_Poor.

Ako vidíte, rozdelenie tejto premennej sa výrazne líši od normálneho rozdelenia. Avšak aj keď dokonca dva okresy (dva stĺpce vpravo) majú vyššie percento rodín, ktoré sú pod hranicou chudoby, ako sa očakáva pri bežnom rozložení, zdá sa, že sú „v rámci rozsahu“.

Ryža. 7. Histogram premennej Pt_Poor.

Tento úsudok je do istej miery subjektívny. Pravidlom je, že ak pozorovanie (alebo pozorovania) nespadajú do intervalu (priemer ± 3-násobok štandardnej odchýlky), musia sa zvážiť odľahlé hodnoty. V tomto prípade stojí za to zopakovať analýzu s a bez odľahlých hodnôt, aby ste sa uistili, že nemajú vážny vplyv na koreláciu medzi členmi populácie.

Bodový diagram

Ak je jedna z hypotéz a priori o vzťahu medzi danými premennými, potom je užitočné skontrolovať ju na grafe príslušného bodového grafu.

Ryža. 8. Bodový graf.

Bodový graf ukazuje jasnú negatívnu koreláciu (-0,65) medzi týmito dvoma premennými. Zobrazuje tiež 95 % interval spoľahlivosti pre regresnú čiaru, t. j. s 95 % pravdepodobnosťou regresná čiara prechádza medzi dvoma prerušovanými krivkami.

Kritériá významnosti

Ryža. 9. Tabuľka obsahujúca kritériá významnosti.

Test regresného koeficientu Pop_Chng potvrdzuje, že Pop_Chng silne súvisí s Pt_Poor, p<.001 .

Výsledok

Tento príklad ukázal, ako analyzovať jednoduchý regresný plán. Prezentovaná bola aj interpretácia neštandardizovaných a štandardizovaných regresných koeficientov. Diskutuje sa o dôležitosti štúdia distribúcie odozvy závislej premennej a demonštruje sa technika na určenie smeru a sily vzťahu medzi prediktorom a závislou premennou.

V prítomnosti korelácie medzi faktorom a výslednými znakmi musia lekári často určiť, o koľko sa môže zmeniť hodnota jedného znaku, keď sa zmení iný znak všeobecne akceptovanou alebo stanovenou samotným výskumníkom.

Ako sa napríklad zmení telesná hmotnosť školákov 1. ročníka (dievčat alebo chlapcov), ak sa ich výška zvýši o 1 cm, na tento účel sa používa metóda regresnej analýzy.

Najčastejšie sa metóda regresnej analýzy používa na vývoj normatívnych škál a štandardov pre telesný vývoj.

  1. Definícia regresie. Regresia je funkcia, ktorá umožňuje na základe priemernej hodnoty jedného atribútu určiť priemernú hodnotu iného atribútu, ktorý koreluje s prvým atribútom.

    Na tento účel sa používa regresný koeficient a množstvo ďalších parametrov. Môžete napríklad vypočítať priemerný počet prechladnutí pri určitých hodnotách priemernej mesačnej teploty vzduchu v období jeseň-zima.

  2. Definícia regresného koeficientu. Regresný koeficient je absolútna hodnota, o ktorú sa priemerne zmení hodnota jedného atribútu, keď sa iný s ním spojený atribút zmení o stanovenú jednotku merania.
  3. Vzorec regresného koeficientu. R y / x \u003d r xy x (σ y / σ x)
    kde R y / x - regresný koeficient;
    r xy - korelačný koeficient medzi znakmi x a y;
    (σ y a σ x) - smerodajné odchýlky znakov x a y.

    V našom príklade;
    σ x = 4,6 (štandardná odchýlka teploty vzduchu v období jeseň-zima;
    σ y = 8,65 (štandardná odchýlka počtu infekčných prechladnutí).
    R y/x je teda regresný koeficient.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, t.j. pri poklese priemernej mesačnej teploty vzduchu (x) o 1 stupeň sa priemerný počet infekčných prechladnutí (y) v jesenno-zimnom období zmení o 1,8 prípadu.

  4. Regresná rovnica. y \u003d M y + R y / x (x - M x)
    kde y je priemerná hodnota atribútu, ktorá by sa mala určiť, keď sa zmení priemerná hodnota iného atribútu (x);
    x - známa priemerná hodnota iného znaku;
    R y/x - regresný koeficient;
    M x, M y - známe priemerné hodnoty znakov x a y.

    Napríklad priemerný počet infekčných prechladnutí (y) možno určiť bez špeciálnych meraní pri akejkoľvek priemernej hodnote priemernej mesačnej teploty vzduchu (x). Ak teda x \u003d - 9 °, R y / x \u003d 1,8 chorôb, M x \u003d -7 °, M y \u003d 20 chorôb, potom y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 ,6 = 23,6 chorôb.
    Táto rovnica sa používa v prípade priameho vzťahu medzi dvoma znakmi (x a y).

  5. Účel regresnej rovnice. Na vykreslenie regresnej priamky sa používa regresná rovnica. Ten umožňuje bez špeciálnych meraní určiť akúkoľvek priemernú hodnotu (y) jedného atribútu, ak sa zmení hodnota (x) iného atribútu. Na základe týchto údajov sa vytvorí graf - regresná čiara, pomocou ktorého je možné určiť priemerný počet prechladnutí pri ľubovoľnej hodnote priemernej mesačnej teploty v rozmedzí medzi vypočítanými hodnotami počtu prechladnutí.
  6. Regresná sigma (vzorec).
    kde σ Ru/x - sigma (štandardná odchýlka) regresie;
    σ y je štandardná odchýlka znaku y;
    r xy - korelačný koeficient medzi znakmi x a y.

    Takže, ak σ y je štandardná odchýlka počtu prechladnutí = 8,65; r xy - korelačný koeficient medzi počtom prechladnutí (y) a priemernou mesačnou teplotou vzduchu v období jeseň-zima (x) je - 0,96, potom

  7. Účel sigma regresie. Udáva charakteristiku miery diverzity výsledného znaku (y).

    Napríklad charakterizuje rôznorodosť počtu prechladnutí pri určitej hodnote priemernej mesačnej teploty vzduchu v jesenno-zimnom období. Priemerný počet prechladnutí pri teplote vzduchu x 1 \u003d -6 ° sa teda môže pohybovať od 15,78 chorôb do 20,62 chorôb.
    Pri x 2 = -9° sa priemerný počet prechladnutí môže pohybovať od 21,18 chorôb do 26,02 chorôb atď.

    Regresná sigma sa používa pri konštrukcii regresnej škály, ktorá odráža odchýlku hodnôt efektívneho atribútu od jeho priemernej hodnoty vynesenej na regresnej priamke.

  8. Údaje potrebné na výpočet a vykreslenie regresnej stupnice
    • regresný koeficient - Ry/x;
    • regresná rovnica - y \u003d M y + R y / x (x-M x);
    • regresná sigma - σ Rx/y
  9. Postupnosť výpočtov a grafické znázornenie regresnej stupnice.
    • určiť regresný koeficient podľa vzorca (pozri odsek 3). Napríklad by sa malo určiť, ako veľmi sa zmení telesná hmotnosť v priemere (v určitom veku v závislosti od pohlavia), ak sa priemerná výška zmení o 1 cm.
    • podľa vzorca regresnej rovnice (pozri odsek 4) určte, aký bude priemer, napríklad telesná hmotnosť (y, y 2, y 3 ...) * pre určitú hodnotu rastu (x, x 2, x 3...).
      ________________
      * Hodnota "y" by sa mala vypočítať aspoň pre tri známe hodnoty"X".

      Zároveň sú známe priemerné hodnoty telesnej hmotnosti a výšky (M x a M y) pre určitý vek a pohlavie

    • vypočítajte sigmu regresie, pričom poznáte zodpovedajúce hodnoty σ y a r xy a dosaďte ich hodnoty do vzorca (pozri odsek 6).
    • na základe známych hodnôt x 1, x 2, x 3 a ich zodpovedajúcich priemerných hodnôt y 1, y 2 y 3, ako aj najmenšej (y - σ ru / x) a najväčšej (y + σ ru / x) hodnoty (y) vytvárajú regresnú stupnicu.

      Pre grafické znázornenie regresnej škály sú na grafe najskôr vyznačené hodnoty x, x 2 , x 3 (os y), t.j. zostrojí sa regresná priamka, napríklad závislosť telesnej hmotnosti (y) od výšky (x).

      Potom sú v zodpovedajúcich bodoch y 1 , y 2 , y 3 označené číselné hodnoty regresnej sigmy, t.j. na grafe nájdite najmenšiu a najväčšiu hodnotu y 1 , y 2 , y 3 .

  10. Praktické využitie regresnej škály. Vyvíjajú sa normatívne stupnice a štandardy, najmä pre telesný rozvoj. Podľa štandardnej stupnice je možné individuálne posúdiť vývoj detí. Telesný vývoj sa zároveň hodnotí ako harmonický, ak sa napríklad pri určitej výške telesná hmotnosť dieťaťa pohybuje v rozmedzí jednej regresnej sigmy k priemernej vypočítanej jednotke telesnej hmotnosti - (y) pre danú výšku (x) ( y ± 1 σ Ry / x).

    Telesný vývoj sa považuje za disharmonický z hľadiska telesnej hmotnosti, ak je telesná hmotnosť dieťaťa pre určitú výšku v rámci druhej regresnej sigmy: (y ± 2 σ Ry/x)

    Fyzický vývoj bude výrazne disharmonický v dôsledku nadmernej aj nedostatočnej telesnej hmotnosti, ak telesná hmotnosť pre určitú výšku bude v rámci tretej sigmy regresie (y ± 3 σ Ry/x).

Podľa výsledkov štatistickej štúdie fyzického vývoja 5-ročných chlapcov je známe, že ich priemerná výška (x) je 109 cm a ich priemerná telesná hmotnosť (y) je 19 kg. Korelačný koeficient medzi výškou a telesnou hmotnosťou je +0,9, štandardné odchýlky sú uvedené v tabuľke.

Požadovaný:

  • vypočítajte regresný koeficient;
  • pomocou regresnej rovnice určte, aká bude predpokladaná telesná hmotnosť 5-ročných chlapcov s výškou rovnajúcou sa x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • vypočítať regresnú sigmu, zostaviť regresnú stupnicu, graficky prezentovať výsledky jej riešenia;
  • vyvodiť príslušné závery.

Stav problému a výsledky jeho riešenia sú uvedené v súhrnnej tabuľke.

stôl 1

Podmienky problému Výsledky riešenia problému
regresná rovnica sigma regresia regresná škála (očakávaná telesná hmotnosť (v kg))
M σ r xy R y/x X O σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
výška (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Telesná hmotnosť (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Riešenie.

Záver. Regresná škála v rámci vypočítaných hodnôt telesnej hmotnosti vám teda umožňuje určiť ju pre akúkoľvek inú hodnotu rastu alebo posúdiť individuálny vývoj dieťaťa. Ak to chcete urobiť, obnovte kolmicu na regresnú čiaru.

  1. Vlasov V.V. Epidemiológia. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Verejné zdravie a zdravotníctvo. Učebnica pre stredné školy. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medik V.A., Yuriev V.K. Kurz prednášok z verejného zdravotníctva a zdravotnej starostlivosti: 1. časť. Verejné zdravotníctvo. - M.: Medicína, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. a iné Organizácia sociálneho lekárstva a zdravotníctva (Sprievodca v 2 zväzkoch). - Petrohrad, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. a iné Sociálna hygiena a organizácia zdravotnej starostlivosti (Výukový program) - Moskva, 2000. - 432 s.
  6. S. Glantz. Lekársko-biologická štatistika. Per z angličtiny. - M., Prax, 1998. - 459 s.

Regresná analýza skúma závislosť určitej veličiny od inej veličiny alebo niekoľkých iných veličín. Regresná analýza sa používa najmä v strednodobom predpovedaní, ako aj pri dlhodobom predpovedaní. Strednodobé a dlhodobé obdobia umožňujú stanoviť zmeny v podnikateľskom prostredí a zohľadniť vplyv týchto zmien na sledovaný ukazovateľ.

Na vykonanie regresnej analýzy je potrebné:

    dostupnosť ročných údajov o študovaných ukazovateľoch,

    dostupnosť jednorazových predpovedí, t.j. prognózy, ktoré sa s novými údajmi nezlepšia.

Regresná analýza sa zvyčajne vykonáva pre objekty, ktoré majú komplexnú, multifaktoriálnu povahu, ako je objem investícií, zisky, objemy predaja atď.

O normatívna metóda prognózovania sú určené spôsoby a termíny dosiahnutia možných stavov javu braných ako cieľ. Hovoríme o predpovedaní dosiahnutia želaných stavov javu na základe vopred stanovených noriem, ideálov, podnetov a cieľov. Takáto predpoveď odpovedá na otázku: akými spôsobmi možno dosiahnuť želané? Pri programových alebo cielených prognózach sa častejšie používa normatívna metóda. Využíva sa tak kvantitatívne vyjadrenie normy, ako aj určitá škála možností hodnotiacej funkcie.

V prípade použitia kvantitatívneho vyjadrenia, napríklad fyziologických a racionálnych noriem spotreby niektorých potravín a nepotravinárskych výrobkov vypracovaných odborníkmi pre rôzne skupiny obyvateľstva, je možné určiť úroveň spotreby týchto tovarov za rokov pred dosiahnutím stanovenej normy. Takéto výpočty sa nazývajú interpolácia. Interpolácia je spôsob výpočtu ukazovateľov, ktoré chýbajú v časovom rade javu, na základe stanoveného vzťahu. Ak vezmeme skutočnú hodnotu ukazovateľa a hodnotu jeho noriem ako extrémnych členov dynamického radu, je možné určiť veľkosť hodnôt v rámci tohto radu. Preto sa interpolácia považuje za normatívnu metódu. Predtým uvedený vzorec (4), použitý pri extrapolácii, možno použiť pri interpolácii, kde y n už nebude charakterizovať skutočné údaje, ale štandard ukazovateľa.

Ak sa v normatívnej metóde použije škála (pole, spektrum) možností hodnotiacej funkcie, t. j. preferenčná distribučná funkcia, uvádza sa približne toto stupňovanie: nežiaduce - menej žiaduce - viac žiaduce - najžiadanejšie - optimálne ( štandard).

Metóda normatívneho prognózovania pomáha vypracovať odporúčania na zvýšenie úrovne objektivity, a tým aj účinnosti rozhodnutí.

Modelovanie, možno najťažšia metóda prognózovania. Matematické modelovanie znamená popis ekonomického javu prostredníctvom matematických vzorcov, rovníc a nerovníc. Matematický aparát by mal presne odrážať pozadie predpovede, aj keď je dosť ťažké plne odrážať celú hĺbku a zložitosť predpovedaného objektu. Pojem „model“ je odvodený z latinského slova models, čo znamená „merať“. Preto by bolo správnejšie považovať modelovanie nie za metódu prognózovania, ale za metódu na štúdium podobného javu na modeli.

V širšom zmysle sa modely nazývajú náhrady predmetu štúdia, ktoré sú s ním v takej podobnosti, že vám umožňujú získať nové poznatky o objekte. Model by sa mal považovať za matematický popis objektu. V tomto prípade je model definovaný ako jav (objekt, inštalácia), ktorý je v určitej korešpondencii so skúmaným objektom a môže ho nahradiť v procese výskumu, prezentujúc informácie o objekte.

Pri užšom chápaní modelu je považovaný za objekt prognózovania, jeho štúdium umožňuje získať informácie o možných stavoch objektu v budúcnosti a spôsoboch, ako tieto stavy dosiahnuť. V tomto prípade je účelom prediktívneho modelu získať informácie nie o objekte vo všeobecnosti, ale len o jeho budúcich stavoch. Potom pri zostavovaní modelu môže byť nemožné priamo skontrolovať jeho zhodu s objektom, pretože model predstavuje iba jeho budúci stav a samotný objekt môže v súčasnosti chýbať alebo mať inú existenciu.

Modely môžu byť materiálne a ideálne.

Ideálne modely sa používajú v ekonomike. Najdokonalejším ideálnym modelom pre kvantitatívny popis sociálno-ekonomického (ekonomického) javu je matematický model, ktorý využíva čísla, vzorce, rovnice, algoritmy alebo grafické znázornenie. Pomocou ekonomických modelov určte:

    vzťah medzi rôznymi ekonomickými ukazovateľmi;

    rôzne druhy obmedzení uvalených na ukazovatele;

    kritériá na optimalizáciu procesu.

Zmysluplný popis objektu môže byť reprezentovaný vo forme jeho formalizovanej schémy, ktorá naznačuje, ktoré parametre a počiatočné informácie sa musia zhromaždiť, aby sa vypočítali požadované hodnoty. Matematický model, na rozdiel od formalizovanej schémy, obsahuje špecifické číselné údaje charakterizujúce objekt. Vývoj matematického modelu do značnej miery závisí od predstavy prognostika o podstate modelovaného procesu. Na základe svojich predstáv predkladá pracovnú hypotézu, pomocou ktorej sa vytvára analytický záznam modelu vo forme vzorcov, rovníc a nerovníc. Výsledkom riešenia sústavy rovníc sa získajú špecifické parametre funkcie, ktoré popisujú zmenu požadovaných premenných v čase.

Poradie a postupnosť prác ako prvok organizácie prognózovania sa určuje v závislosti od použitej metódy prognózovania. Zvyčajne sa táto práca vykonáva v niekoľkých etapách.

Fáza 1 - prediktívna retrospekcia, t.j. stanovenie objektu prognózy a pozadia prognózy. Práca v prvej fáze sa vykonáva v nasledujúcom poradí:

    vytvorenie popisu objektu v minulosti, ktorý zahŕňa predprognóznu analýzu objektu, posúdenie jeho parametrov, ich významu a vzájomných vzťahov,

    identifikácia a vyhodnocovanie zdrojov informácií, postup a organizácia práce s nimi, zber a umiestňovanie retrospektívnych informácií;

    stanovenie cieľov výskumu.

Prognostici, ktorí vykonávajú úlohy prediktívnej retrospekcie, študujú históriu vývoja objektu a predpovedné pozadie, aby získali ich systematický popis.

2. etapa - prediktívna diagnostika, počas ktorej sa študuje systematický popis objektu prognózovania a pozadia prognózy s cieľom identifikovať trendy v ich vývoji a vybrať modely a metódy prognózovania. Práca sa vykonáva v nasledujúcom poradí:

    vypracovanie predpovedného modelu objektu, vrátane formalizovaného popisu objektu, kontrola stupňa primeranosti modelu k objektu;

    výber prognostických metód (hlavných a pomocných), vývoj algoritmu a pracovných programov.

3. etapa - patronát, t.j. proces rozsiahleho vývoja prognózy, zahŕňajúci: 1) výpočet predikovaných parametrov pre dané predstihové obdobie; 2) syntéza jednotlivých komponentov prognózy.

4. etapa - posúdenie prognózy vrátane jej overenia, t.j. určenie stupňa spoľahlivosti, presnosti a platnosti.

V priebehu prospekcie a hodnotenia sa na základe predchádzajúcich etáp riešia prognostické úlohy a ich vyhodnotenie.

Uvedená fáza je približná a závisí od hlavnej metódy prognózovania.

Výsledky prognózy sa vypracujú vo forme certifikátu, správy alebo iného materiálu a predložia sa zákazníkovi.

Pri predpovedi je možné uviesť odchýlku predpovede od skutočného stavu objektu, ktorá sa nazýva chyba predpovede, ktorá sa vypočíta podľa vzorca:

;
;
. (9.3)

Zdroje chýb v prognózovaní

Hlavnými zdrojmi môžu byť:

1. Jednoduchý prenos (extrapolácia) údajov z minulosti do budúcnosti (napr. spoločnosť nemá iné možnosti prognózy, okrem 10% nárastu tržieb).

2. Neschopnosť presne určiť pravdepodobnosť udalosti a jej dopad na skúmaný objekt.

3. Nepredvídané ťažkosti (rušivé udalosti) ovplyvňujúce realizáciu plánu, napríklad náhle odvolanie vedúceho obchodného oddelenia.

Vo všeobecnosti sa presnosť prognózovania zvyšuje s hromadením skúseností s prognózovaním a vývojom jeho metód.

Regresná analýza je základom tvorby väčšiny ekonometrických modelov, medzi ktoré treba zaradiť aj modely odhadu nákladov. Na zostavenie modelov oceňovania možno túto metódu použiť, ak počet analógov (porovnateľných objektov) a počet nákladových faktorov (prvkov porovnávania) navzájom korelujú takto: P> (5-g-10) x do, tie. malo by existovať 5-10 krát viac analógov ako nákladových faktorov. Rovnaká požiadavka na pomer množstva údajov a počtu faktorov platí pre ďalšie úlohy: stanovenie vzťahu medzi nákladmi a spotrebiteľskými parametrami objektu; zdôvodnenie postupu pri výpočte opravných indexov; objasnenie cenových trendov; stanovenie vzťahu medzi opotrebovaním a zmenami ovplyvňujúcich faktorov; získanie závislostí pre výpočet nákladových noriem a pod. Splnenie tejto požiadavky je nevyhnutné z dôvodu zníženia pravdepodobnosti práce so vzorkou údajov, ktorá nespĺňa požiadavku normálneho rozdelenia náhodných veličín.

Regresný vzťah odráža iba priemerný trend výslednej premennej, napríklad nákladov, zo zmien jednej alebo viacerých faktorových premenných, napríklad umiestnenie, počet izieb, plocha, poschodie atď. Ide o rozdiel medzi regresným vzťahom a funkčným, v ktorom je hodnota výslednej premennej striktne definovaná pre danú hodnotu faktorových premenných.

Prítomnosť regresného vzťahu / medzi výsledným pri a faktorové premenné x str ..., x k(faktory) naznačuje, že tento vzťah je určený nielen vplyvom vybraných faktorových premenných, ale aj vplyvom premenných, z ktorých niektoré sú všeobecne neznáme, iné sa nedajú posúdiť a vziať do úvahy:

Vplyv nezapočítaných premenných je označený druhým členom tejto rovnice ?, čo sa nazýva chyba aproximácie.

Existujú nasledujúce typy regresných závislostí:

  • ? párová regresia – vzťah medzi dvoma premennými (výsledkovou a faktoriálovou);
  • ? viacnásobná regresia - závislosť jednej výslednej premennej a dvoch alebo viacerých faktorových premenných zahrnutých do štúdie.

Hlavnou úlohou regresnej analýzy je kvantifikovať blízkosť vzťahu medzi premennými (pri párovej regresii) a viacnásobnými premennými (pri viacnásobnej regresii). Tesnosť vzťahu je kvantifikovaná korelačným koeficientom.

Použitie regresnej analýzy vám umožňuje stanoviť vzorec vplyvu hlavných faktorov (hedonických charakteristík) na skúmaný ukazovateľ, a to ako v celku, tak aj každého z nich jednotlivo. Pomocou regresnej analýzy, ako metódy matematickej štatistiky, je možné po prvé nájsť a popísať formu analytickej závislosti výslednej (požadovanej) premennej od faktoriálnych a po druhé odhadnúť tesnosť túto závislosť.

Vyriešením prvej úlohy sa získa matematický regresný model, pomocou ktorého sa potom vypočíta požadovaný ukazovateľ pre dané hodnoty faktorov. Riešenie druhého problému umožňuje stanoviť spoľahlivosť vypočítaného výsledku.

Regresnú analýzu teda možno definovať ako súbor formálnych (matematických) postupov určených na meranie tesnosti, smerovania a analytického vyjadrenia formy vzťahu medzi výslednými a faktorovými premennými, t.j. výstupom takejto analýzy by mal byť štrukturálne a kvantitatívne definovaný štatistický model vo forme:

kde y - priemerná hodnota výslednej premennej (požadovaný ukazovateľ, napr. náklady, nájomné, miera kapitalizácie) nad P jej pozorovania; x je hodnota faktorovej premennej (/-tý nákladový faktor); do - počet faktorových premenných.

Funkcia f(x l ,...,x lc), popis závislosti výslednej premennej od faktoriálnych sa nazýva regresná rovnica (funkcia). Pojem „regresia“ (regresia (lat.) - ústup, návrat k niečomu) sa spája so špecifikami jednej z konkrétnych úloh riešených vo fáze formovania metódy a v súčasnosti neodráža celú podstatu metóda, ale naďalej sa používa.

Regresná analýza vo všeobecnosti zahŕňa nasledujúce kroky:

  • ? vytvorenie vzorky homogénnych objektov a zber počiatočných informácií o týchto objektoch;
  • ? výber hlavných faktorov ovplyvňujúcich výslednú premennú;
  • ? pomocou kontroly normality vzorky X 2 alebo binomické kritérium;
  • ? prijatie hypotézy o forme komunikácie;
  • ? spracovanie matematických údajov;
  • ? získanie regresného modelu;
  • ? hodnotenie jeho štatistických ukazovateľov;
  • ? overovacie výpočty pomocou regresného modelu;
  • ? analýza výsledkov.

Uvedená postupnosť operácií prebieha pri štúdiu párového vzťahu medzi faktorovou premennou a jednou výslednou premennou, ako aj viacnásobného vzťahu medzi výslednou premennou a viacerými faktorovými premennými.

Použitie regresnej analýzy kladie určité požiadavky na počiatočné informácie:

  • ? štatistická vzorka objektov by mala byť homogénna z funkčného a konštruktívno-technologického hľadiska;
  • ? pomerne početné;
  • ? skúmaný ukazovateľ nákladov - výsledná premenná (cena, náklady, náklady) - je potrebné pre jeho výpočet zredukovať na rovnaké podmienky pre všetky objekty vo vzorke;
  • ? faktorové premenné sa musia merať dostatočne presne;
  • ? faktorové premenné musia byť nezávislé alebo minimálne závislé.

Požiadavky na homogenitu a úplnosť vzorky sú v rozpore: čím prísnejšie sa výber predmetov vykonáva podľa ich homogenity, tým menšia je vzorka prijatá a naopak, pre zväčšenie vzorky je potrebné zahrnúť predmety. ktoré si nie sú veľmi podobné.

Po zozbieraní údajov pre skupinu homogénnych objektov sa tieto analyzujú, aby sa stanovila forma vzťahu medzi výslednými a faktorovými premennými vo forme teoretickej regresnej priamky. Proces hľadania teoretickej regresnej priamky spočíva v rozumnom výbere aproximačnej krivky a výpočte koeficientov jej rovnice. Regresná čiara je hladká krivka (v konkrétnom prípade priamka), ktorá pomocou matematickej funkcie opisuje všeobecný trend skúmanej závislosti a vyhladzuje nepravidelné, náhodné odľahlé hodnoty od vplyvu vedľajších faktorov.

Na zobrazenie párových regresných závislostí v hodnotiacich úlohách sa najčastejšie používajú tieto funkcie: lineárne - y - a 0 + ars + s moc - y - aj&i + c demonštratívne - y - lineárna exponenciálna - y - a 0 + ar * + s. Tu - e chyba aproximácie v dôsledku pôsobenia nezapočítaných náhodných faktorov.

V týchto funkciách je y výslednou premennou; x - faktorová premenná (faktor); a 0 , a r a 2 - parametre regresného modelu, regresné koeficienty.

Lineárny exponenciálny model patrí do triedy takzvaných hybridných modelov tvaru:

kde

kde x (i = 1, /) - hodnoty faktorov;

bt (i = 0, /) sú koeficienty regresnej rovnice.

V tejto rovnici sú komponenty A, B a Z zodpovedajú nákladom na jednotlivé zložky majetku, ktoré sa oceňujú, napríklad nákladom na pozemok a nákladom na zlepšenie, a parametru Q je bežné. Je navrhnutý tak, aby prispôsobil hodnotu všetkých komponentov oceňovaného majetku spoločnému faktoru vplyvu, akým je napríklad lokalita.

Hodnoty faktorov, ktoré sú v miere zodpovedajúcich koeficientov, sú binárne premenné (0 alebo 1). Faktory, ktoré sú základom stupňa, sú diskrétne alebo spojité premenné.

Faktory spojené s koeficientmi násobenia sú tiež spojité alebo diskrétne.

Špecifikácia sa spravidla vykonáva pomocou empirického prístupu a zahŕňa dve fázy:

  • ? vynesenie bodov regresného poľa do grafu;
  • ? grafická (vizuálna) analýza typu možnej aproximačnej krivky.

Typ regresnej krivky nie je vždy okamžite voliteľný. Na jej určenie sa body regresného poľa najskôr vynesú do grafu podľa počiatočných údajov. Potom sa pozdĺž polohy bodov vizuálne nakreslí čiara, ktorá sa snaží zistiť kvalitatívny vzorec vzťahu: rovnomerný rast alebo rovnomerný pokles, rast (pokles) so zvýšením (poklesom) dynamiky, hladký prístup k určitú úroveň.

Tento empirický prístup je doplnený logickou analýzou, vychádzajúc z už známych predstáv o ekonomickej a fyzikálnej podstate skúmaných faktorov a ich vzájomnom vplyve.

Napríklad je známe, že závislosti výsledných premenných - ekonomických ukazovateľov (ceny, nájomné) od množstva faktorových premenných - cenotvorných faktorov (vzdialenosť od centra sídla, oblasť a pod.) sú nelineárne. a dajú sa celkom striktne opísať mocninou, exponenciálnou alebo kvadratickou funkciou. Ale s malým rozsahom faktorov je možné dosiahnuť prijateľné výsledky aj použitím lineárnej funkcie.

Ak stále nie je možné okamžite s istotou vybrať niektorú z funkcií, vyberú sa dve alebo tri funkcie, vypočítajú sa ich parametre a potom sa pomocou vhodných kritérií pre tesnosť spojenia nakoniec vyberie funkcia.

Teoreticky sa regresný proces hľadania tvaru krivky nazýva tzv špecifikácia model a jeho koeficienty - kalibrácia modelov.

Ak sa zistí, že výsledná premenná y závisí od viacerých faktorových premenných (faktorov) x ( , x 2, ..., x k, potom sa uchýlia k vytvoreniu viacnásobného regresného modelu. Zvyčajne sa používajú tri formy viacnásobnej komunikácie: lineárna - y - a 0 + a x x x + a^ x 2 + ... + a k x k, demonštratívne - y - a 0 a*i a x t - a x b, moc - y - a 0 x x ix 2 a 2. .x^ alebo ich kombinácie.

Exponenciálne a exponenciálne funkcie sú univerzálnejšie, pretože aproximujú nelineárne vzťahy, čo je väčšina závislostí skúmaných v hodnotení. Okrem toho sa dajú využiť pri hodnotení objektov a v metóde štatistického modelovania pre hromadné hodnotenie a v metóde priameho porovnávania pri individuálnom hodnotení pri stanovovaní korekčných faktorov.

Vo fáze kalibrácie sa parametre regresného modelu vypočítajú metódou najmenších štvorcov, ktorej podstatou je, že súčet štvorcových odchýlok vypočítaných hodnôt výslednej premennej pri., t.j. vypočítané podľa zvolenej rovnice vzťahu, zo skutočných hodnôt by mali byť minimálne:

Hodnoty j) (. a r. známe teda Q je funkciou iba koeficientov rovnice. Ak chcete nájsť minimum S vziať parciálne deriváty Q koeficientmi rovnice a prirovnať ich k nule:

Výsledkom je systém normálnych rovníc, ktorých počet sa rovná počtu určených koeficientov požadovanej regresnej rovnice.

Predpokladajme, že potrebujeme nájsť koeficienty lineárnej rovnice y - a 0 + ars. Súčet štvorcových odchýlok je:

/=1

Diferencujte funkciu Q neznámymi koeficientmi 0 a prirovnať parciálne deriváty k nule:

Po transformáciách dostaneme:

kde P - počet pôvodných skutočných hodnôt pri(počet analógov).

Uvedený postup výpočtu koeficientov regresnej rovnice je použiteľný aj pre nelineárne závislosti, ak je možné tieto závislosti linearizovať, t.j. priviesť do lineárnej formy pomocou zmeny premenných. Mocninné a exponenciálne funkcie po logaritmovaní a zodpovedajúcej zmene premenných nadobúdajú lineárny tvar. Napríklad výkonová funkcia po logaritmovaní má tvar: In y \u003d 1n 0 +a x 1ph. Po zmene premenných Y- In y, L 0 - In a č. X- V x dostaneme lineárnu funkciu

Y=A0 + cijX, ktorých koeficienty sa nachádzajú tak, ako je opísané vyššie.

Metóda najmenších štvorcov sa používa aj na výpočet koeficientov viacnásobného regresného modelu. Takže systém normálnych rovníc na výpočet lineárnej funkcie s dvoma premennými Xj a x 2 po sérii transformácií to vyzerá takto:

Obvykle sa tento systém rovníc rieši pomocou metód lineárnej algebry. Viacnásobná mocninná funkcia je privedená do lineárnej formy logaritmovaním a zmenou premenných rovnakým spôsobom ako spárovaná mocninná funkcia.

Pri použití hybridných modelov sa pomocou numerických postupov metódy postupných aproximácií zisťujú viacnásobné regresné koeficienty.

Pre konečný výber z niekoľkých regresných rovníc je potrebné otestovať každú rovnicu na tesnosť vzťahu, ktorá sa meria korelačným koeficientom, rozptylom a variačným koeficientom. Na hodnotenie môžete použiť aj kritériá Študent a Rybár. Čím väčšia tesnosť spojenia odhaľuje krivku, tým je výhodnejšia, pričom všetky ostatné veci sú rovnaké.

Ak sa rieši problém takejto triedy, keď je potrebné stanoviť závislosť ukazovateľa nákladov na nákladových faktoroch, potom je snaha vziať do úvahy čo najviac ovplyvňujúcich faktorov a vytvoriť tak presnejší viacnásobný regresný model. pochopiteľné. Rozšíreniu počtu faktorov však bránia dve objektívne obmedzenia. Po prvé, vytvorenie viacnásobného regresného modelu vyžaduje oveľa väčšiu vzorku objektov ako vytvorenie párového modelu. Všeobecne sa uznáva, že počet objektov vo vzorke by mal prevyšovať počet P faktorov, aspoň 5-10 krát. Z toho vyplýva, že na zostavenie modelu s tromi ovplyvňujúcimi faktormi je potrebné zhromaždiť vzorku asi 20 objektov s rôznymi súbormi hodnôt faktorov. Po druhé, faktory vybrané pre model vo svojom vplyve na hodnotový ukazovateľ by mali byť navzájom dostatočne nezávislé. To nie je ľahké zabezpečiť, pretože vzorka zvyčajne kombinuje objekty patriace do rovnakej rodiny, v ktorej dochádza k pravidelnej zmene mnohých faktorov od objektu k objektu.

Kvalita regresné modely, spravidla skontrolujte pomocou nasledujúcej štatistiky.

Smerodajná odchýlka chyby regresnej rovnice (chyba odhadu):

kde P - veľkosť vzorky (počet analógov);

do - počet faktorov (nákladových faktorov);

Chyba nevysvetlená regresnou rovnicou (obr. 3.2);

r. - skutočná hodnota výslednej premennej (napríklad náklady); y t - vypočítaná hodnota výslednej premennej.

Tento indikátor sa tiež nazýva štandardná chyba odhadu (RMS chyba). Na obrázku bodky označujú konkrétne hodnoty vzorky, symbol označuje čiaru stredných hodnôt vzorky, naklonená prerušovaná čiara je regresná čiara.


Ryža. 3.2.

Smerodajná odchýlka chyby odhadu meria veľkosť odchýlky skutočných hodnôt y od zodpovedajúcich vypočítaných hodnôt. pri( , získané pomocou regresného modelu. Ak vzorka, na ktorej je model zostavený, podlieha zákonu normálneho rozdelenia, potom možno tvrdiť, že 68 % skutočných hodnôt pri sú v rozsahu pri ± &e od regresnej priamky a 95 % - v rozsahu pri ± 2d e. Tento indikátor je vhodný, pretože merné jednotky sg? zodpovedajú merným jednotkám pri,. V tomto ohľade sa môže použiť na označenie presnosti výsledku získaného v procese hodnotenia. Napríklad v certifikáte hodnoty môžete uviesť, že hodnota trhovej hodnoty získaná pomocou regresného modelu V s pravdepodobnosťou 95% je v rozmedzí od (V-2d,.) predtým (at + 2ds).

Variačný koeficient výslednej premennej:

kde y - stredná hodnota výslednej premennej (obrázok 3.2).

V regresnej analýze je variačný koeficient var štandardná odchýlka výsledku, vyjadrená ako percento priemeru výsledkovej premennej. Variačný koeficient môže slúžiť ako kritérium pre prediktívne vlastnosti výsledného regresného modelu: čím menšia je hodnota var, tým vyššie sú prediktívne vlastnosti modelu. Použitie variačného koeficientu je vhodnejšie ako exponent &e, pretože ide o relatívny exponent. Pri praktickom použití tohto ukazovateľa možno odporučiť nepoužívať model, ktorého variačný koeficient presahuje 33 %, keďže v tomto prípade nemožno povedať, že tieto vzorky podliehajú zákonu normálneho rozdelenia.

Koeficient determinácie (viacnásobný korelačný koeficient na druhú):

Tento ukazovateľ sa používa na analýzu celkovej kvality výsledného regresného modelu. Udáva, aké percento variácie vo výslednej premennej je spôsobené vplyvom všetkých faktorových premenných zahrnutých v modeli. Koeficient determinácie leží vždy v rozmedzí od nuly do jednej. Čím je hodnota koeficientu determinácie bližšie k jednotke, tým lepšie model popisuje pôvodný rad údajov. Koeficient determinácie môže byť vyjadrený iným spôsobom:

Tu je chyba vysvetlená regresným modelom,

a - chyba nevysvetlená

regresný model. Z ekonomického hľadiska toto kritérium umožňuje posúdiť, aké percento cenovej odchýlky je vysvetlené regresnou rovnicou.

Presný limit prijatia indikátora R2 nie je možné špecifikovať pre všetky prípady. Musí sa brať do úvahy veľkosť vzorky aj zmysluplná interpretácia rovnice. Spravidla pri štúdiu údajov o objektoch rovnakého typu, získaných približne v rovnakom čase, hodnotu R2 nepresahuje úroveň 0,6-0,7. Ak sú všetky chyby predikcie nulové, t.j. keď je vzťah medzi výslednými a faktorovými premennými funkčný, potom R2 =1.

Upravený koeficient determinácie:

Potreba zavedenia upraveného koeficientu determinácie sa vysvetľuje tým, že s nárastom počtu faktorov do obvyklý koeficient determinácie sa takmer vždy zvyšuje, ale počet stupňov voľnosti klesá (n - k- jeden). Zadaná úprava vždy znižuje hodnotu R2, pretože (P - 1) > (p- až - jeden). V dôsledku toho hodnota R 2 CKOf) môže byť dokonca negatívny. To znamená, že hodnota R2 bol blízko nule pred úpravou a podiel rozptylu vysvetlený regresnou rovnicou premennej pri veľmi malé.

Z dvoch variantov regresných modelov, ktoré sa líšia hodnotou upraveného koeficientu determinácie, ale majú rovnako dobré iné kvalitatívne kritériá, je výhodnejší variant s vysokou hodnotou upraveného koeficientu determinácie. Koeficient determinácie sa neupravuje, ak (n - k): k> 20.

Fisherov pomer:

Toto kritérium sa používa na posúdenie významnosti determinačného koeficientu. Zvyškový súčet štvorcov je miera chyby predikcie pomocou regresie známych nákladových hodnôt na .. Jeho porovnanie s regresným súčtom štvorcov ukazuje, koľkokrát regresná závislosť predpovedá výsledok lepšie ako priemer pri. Existuje tabuľka kritických hodnôt F R Fisherov koeficient v závislosti od počtu stupňov voľnosti čitateľa - do, menovateľ v 2 = p - k- 1 a hladina významnosti a. Ak vypočítaná hodnota Fisherovho kritéria F R je väčšia ako tabuľková hodnota, potom hypotéza o nevýznamnosti koeficientu determinácie, t.j. o nesúlade medzi vzťahmi zakotvenými v regresnej rovnici a skutočne existujúcimi, s pravdepodobnosťou p = 1 - a sa zamieta.

Priemerná chyba aproximácie(priemerná percentuálna odchýlka) sa vypočíta ako priemerný relatívny rozdiel, vyjadrený v percentách, medzi skutočnými a vypočítanými hodnotami výslednej premennej:

Ako menšiu hodnotu daný ukazovateľ, tým lepšia je prediktívna kvalita modelu. Keď hodnota tohto ukazovateľa nie je vyššia ako 7%, naznačujú vysokú presnosť modelu. Ak 8 > 15 %, naznačujú neuspokojivú presnosť modelu.

Štandardná chyba regresného koeficientu:

kde (/I) -1 .- diagonálny prvok matice (X G X) ~ 1 až - počet faktorov;

X- matica hodnôt faktorových premenných:

X7- transponovaná matica hodnôt faktorových premenných;

(JL) _| je matica inverzná k matici.

Čím menšie sú tieto skóre pre každý regresný koeficient, tým spoľahlivejší je odhad zodpovedajúceho regresného koeficientu.

Študentský test (t-štatistika):

Toto kritérium vám umožňuje merať stupeň spoľahlivosti (významnosti) vzťahu v dôsledku daného regresného koeficientu. Ak vypočítaná hodnota t. vyššia ako tabuľková hodnota

t av , kde v - p - k - 1 je počet stupňov voľnosti, potom je hypotéza, že tento koeficient je štatisticky nevýznamný, zamietnutá s pravdepodobnosťou (100 - a)%. Existujú špeciálne tabuľky rozdelenia /-, ktoré umožňujú určiť kritickú hodnotu kritéria pri danej hladine významnosti a a počtu stupňov voľnosti v. Najčastejšie používaná hodnota a je 5 %.

Multikolinearita, t.j. pôsobenie vzájomných vzťahov medzi faktorovými premennými vedie k potrebe uspokojiť sa s ich obmedzeným počtom. Ak sa to neberie do úvahy, môžete skončiť s nelogickým regresným modelom. Aby sa predišlo negatívnemu účinku multikolinearity, pred vytvorením viacnásobného regresného modelu sa vypočítajú párové korelačné koeficienty rxjxj medzi vybranými premennými X. a X

Tu XjX; - stredná hodnota súčinu dvoch faktorových premenných;

XjXj- súčin priemerných hodnôt dvoch faktorových premenných;

Vyhodnotenie rozptylu faktorovej premennej x..

Dve premenné sa považujú za regresívne súvisiace (t. j. kolineárne), ak je ich párový korelačný koeficient striktne väčší ako 0,8 v absolútnej hodnote. V tomto prípade by sa mala ktorákoľvek z týchto premenných vylúčiť z úvahy.

Pre rozšírenie možností ekonomickej analýzy výsledných regresných modelov sa používajú priemery koeficienty pružnosti, určený podľa vzorca:

kde Xj- stredná hodnota zodpovedajúcej faktorovej premennej;

y - stredná hodnota výslednej premennej; a ja - regresný koeficient pre zodpovedajúcu faktorovú premennú.

Koeficient elasticity ukazuje, o koľko percent sa v priemere zmení hodnota výslednej premennej pri zmene faktorovej premennej o 1 %, t.j. ako výsledná premenná reaguje na zmenu premennej faktora. Napríklad, ako sa cena m2. m plochy bytu vo vzdialenosti od centra mesta.

Užitočný z hľadiska analýzy významnosti konkrétneho regresného koeficientu je odhad súkromný koeficient určenia:

Tu je odhad rozptylu výsledku

premenlivý. Tento koeficient ukazuje, o koľko percent je variácia výslednej premennej vysvetlená variáciou premennej /-tého faktora zahrnutej v regresnej rovnici.

  • Hedonické vlastnosti sú chápané ako vlastnosti predmetu, ktoré odrážajú jeho úžitkové (hodnotné) vlastnosti z pohľadu kupujúcich a predávajúcich.