Простий регресійний аналіз. Регресійний аналіз – статистичний метод дослідження залежності випадкової величини від змінних. Розбір результатів аналізу

Під час навчання студенти часто стикаються з різноманітними рівняннями. Одне з них – рівняння регресії – розглянуто у цій статті. Такий тип рівняння використовується спеціально для опису характеристики зв'язку між математичними параметрами. Цей видрівностей використовують у статистиці та економетриці.

Визначення поняття регресії

У математиці під регресією мається на увазі певна величина, що описує залежність середнього значення сукупності даних від значень іншої величини. Рівняння регресії показує як функцію певної ознаки середнє значення іншої ознаки. Функція регресії має вигляд простого рівняння у = х, в якому у виступає залежною змінною, а х - незалежною (ознака-фактор). Фактично регресія виражається як у = f(x).

Які бувають типи зв'язків між змінними

Загалом, виділяється два протилежні типи взаємозв'язку: кореляційна та регресійна.

Перша характеризується рівноправністю умовних змінних. У даному випадкудостовірно не відомо, яка змінна залежить від іншої.

Якщо ж між змінними немає рівноправності й умовах сказано, яка змінна пояснює, яка - залежна, можна говорити про наявність зв'язку другого типу. Для того, щоб побудувати рівняння лінійної регресії, необхідно буде з'ясувати, який тип зв'язку спостерігається.

Види регресій

На сьогоднішній день виділяють 7 різноманітних видів регресії: гіперболічна, лінійна, множинна, нелінійна, парна, зворотна, логарифмічно лінійна.

Гіперболічна, лінійна та логарифмічна

Рівняння лінійної регресії застосовують у статистиці для чіткого пояснення параметрів рівняння. Воно виглядає як у = с+т*х+Е. Гіперболічне рівняння має вигляд правильної гіперболи у = с + т / х + Е. Логарифмічно лінійне рівняння виражає взаємозв'язок за допомогою логарифмічної функції: In у = In + т * In x + In E.

Множинна та нелінійна

Два більше складних видурегресії - це множинна та нелінійна. Рівняння множинної регресії виражається функцією у = f(х 1 х 2 ... х с) + E. У цій ситуації у виступає залежною змінною, а х - що пояснює. Змінна Е – стохастична, вона включає вплив інших факторів у рівнянні. Нелінійне рівняння регресії трохи суперечливе. З одного боку, щодо врахованих показників воно не лінійне, а з іншого боку, у ролі оцінки показників воно є лінійним.

Зворотні та парні види регресій

Зворотний - це такий вид функції, який необхідно перетворити на лінійний вигляд. У традиційних прикладних програмах вона має вигляд функції у = 1/с + т*х+Е. Парне рівняння регресії демонструє взаємозв'язок між даними як функції у = f(x) + Е. Так само, як і в інших рівняннях, у залежить від х, а Е - стохастичний параметр.

Поняття кореляції

Це показник, що демонструє існування взаємозв'язку двох явищ чи процесів. Сила взаємозв'язку виявляється як коефіцієнт кореляції. Його значення коливається у межах інтервалу [-1;+1]. Негативний показник говорить про наявність зворотнього зв'язкупозитивний - про пряму. Якщо коефіцієнт набуває значення, що дорівнює 0, то взаємозв'язку немає. Чим ближче значення до 1 – тим сильніший зв'язок між параметрами, чим ближче до 0 – тим слабше.

Методи

Кореляційні параметричні методи можуть оцінити тісноту взаємозв'язку. Їх застосовують з урахуванням оцінки розподілу вивчення параметрів, підпорядковуються закону нормального розподілу.

Параметри рівняння лінійної регресії необхідні ідентифікації виду залежності, функції регресійного рівняння та оцінювання показників обраної формули взаємозв'язку. Як метод ідентифікації зв'язку використовується поле кореляції. Для цього всі наявні дані необхідно зобразити графічно. У прямокутній двовимірній системі координат необхідно нанести всі відомі дані. Так утворюється поле кореляції. Значення описуючого чинника відзначаються вздовж осі абсцис, тоді як значення залежного - вздовж осі ординат. Якщо між параметрами є функціональна залежність, вони шикуються у формі лінії.

Якщо коефіцієнт кореляції таких даних буде менше 30 %, можна говорити про практично повну відсутність зв'язку. Якщо він знаходиться між 30% і 70%, це говорить про наявність зв'язків середньої тісноти. 100% показник – свідчення функціонального зв'язку.

Нелінійне рівняння регресії як і, як і лінійне, необхідно доповнювати індексом кореляції (R).

Кореляція для множинної регресії

Коефіцієнт детермінації є показник квадрата множинної кореляції. Він говорить про тісноті взаємозв'язку представленого комплексу показників з ознакою, що досліджується. Він може говорити про характер впливу параметрів на результат. Рівняння множинної регресії оцінюють за допомогою цього показника.

Щоб обчислити показник множинної кореляції, необхідно розрахувати його індекс.

Метод найменших квадратів

Цей метод є способом оцінювання факторів регресії. Його суть полягає у мінімізуванні суми відхилень у квадраті, отриманих внаслідок залежності фактора від функції.

Парне лінійне рівняння регресії можна оцінити з допомогою такого методу. Цей тип рівнянь використовують у разі виявлення між показниками парної лінійної залежності.

Параметри рівнянь

Кожен параметр функції лінійної регресії несе певний зміст. Парне лінійне рівняння регресії містить два параметри: с і т. Параметр т демонструє середню зміну кінцевого показника функції у, за умови зменшення (збільшення) змінної х на одну умовну одиницю. Якщо змінна х – нульова, то функція дорівнює параметру с. Якщо ж змінна х не нульова, то фактор не несе в собі економічний сенс. Єдиний вплив на функцію має знак перед фактором с. Якщо там мінус, то можна сказати про уповільнену зміну результату порівняно з фактором. Якщо там плюс, то це свідчить про прискорену зміну результату.

Кожен параметр, що змінює значення рівняння регресії, можна виразити через рівняння. Наприклад, фактор с має вигляд с = y - тх.

Згруповані дані

Бувають такі умови завдання, у яких вся інформація групується за ознакою x, але для певної групи вказуються відповідні середні значення залежного показника. У разі середні значення характеризують, як змінюється показник, залежить від х. Таким чином, згрупована інформація допомагає знайти рівняння регресії. Її використовують як аналіз взаємозв'язків. Однак такий метод має свої недоліки. На жаль, середні показники досить часто зазнають зовнішніх коливань. Дані коливання є відображенням закономірності взаємозв'язку, вони лише маскують її «шум». Середні показники демонструють закономірності взаємозв'язку набагато гірше, ніж рівняння лінійної регресії. Однак їх можна застосовувати у вигляді бази для пошуку рівняння. Перемножуючи чисельність окремої сукупності на відповідну середню можна отримати суму в межах групи. Далі необхідно підбити всі отримані суми і знайти кінцевий показник. Трохи складніше робити розрахунки з показником суми ху. Якщо інтервали малі, можна умовно взяти показник х для всіх одиниць (у межах групи) однаковим. Слід перемножити його із сумою у, щоб дізнатися суму творів x на у. Далі всі суми підбиваються разом і виходить Загальна сумаху.

Множинне парне рівняння регресії: оцінка важливості зв'язку

Як розглядалося раніше, множинна регресія має функцію виду у = f (x 1 x 2 ... x m) + E. Найчастіше таке рівняння використовують для вирішення проблеми попиту та пропозиції на товар, відсоткового доходу за викупленими акціями, вивчення причин та виду функції витрат виробництва. Її також активно застосовують у найрізноманітніших макроекономічних дослідженнях і розрахунках, а на рівні мікроекономіки таке рівняння застосовують трохи рідше.

Основним завданням множинної регресії є побудова моделі даних, що містять величезну кількість інформації, для того щоб надалі визначити, який вплив має кожен із факторів окремо та в їхній загальній сукупності на показник, який необхідно змоделювати, та його коефіцієнти. Рівняння регресії може набувати найрізноманітніших значень. При цьому для оцінки взаємозв'язку зазвичай використовується два типи функцій: лінійна та нелінійна.

Лінійна функція зображується у формі такого взаємозв'язку: у = а 0 + a 1 х 1 + а 2 х 2 + + + m x m . У цьому а2, a m , вважаються коефіцієнтами «чистої» регресії. Вони необхідні для характеристики середньої зміни параметра з зміною (зменшенням або збільшенням) кожного відповідного параметра х на одну одиницю, з умовою стабільного значення інших показників.

Нелінійні рівняння мають, наприклад, вигляд статечної функціїу=ах 1 b1 х 2 b2 ... x m bm. У разі показники b 1 , b 2 ..... b m - називаються коефіцієнтами еластичності, демонструють, як зміниться результат (на скільки %) зі збільшенням (зменшенні) відповідного показника x 1 % і за стабільному показнику інших чинників.

Які фактори необхідно враховувати при побудові множинної регресії

Для того, щоб правильно побудувати множинну регресію, необхідно з'ясувати, на які саме фактори слід звернути особливу увагу.

Необхідно мати певне розуміння природи взаємозв'язків між економічними факторами та модельованим. Чинники, які потрібно буде включати, повинні відповідати таким признакам:

  • Повинні бути підвладні кількісному виміру. Для того щоб використовувати фактор, який описує якість предмета, у будь-якому випадку слід надати йому кількісну форму.
  • Не повинна бути інтеркореляція факторів, або функціональний взаємозв'язок. Такі дії найчастіше призводять до незворотних наслідків – система звичайних рівняньстає не обумовленою, а це тягне за собою її ненадійність та нечіткість оцінок.
  • У разі існування величезного показника кореляції немає способу для з'ясування ізольованого впливу факторів на остаточний результат показника, отже, коефіцієнти стають неінтерпретованими.

Методи побудови

Існує безліч методів і методів, пояснюють, як можна вибрати чинники рівняння. Проте ці методи будуються на відборі коефіцієнтів з допомогою показника кореляції. Серед них виділяють:

  • Спосіб виключення.
  • Спосіб включення.
  • Покроковий аналіз регресії.

Перший метод має на увазі відсів усіх коефіцієнтів із сукупного набору. Другий метод включає введення множини додаткових факторів. Ну а третій – відсів факторів, які були раніше застосовані для рівняння. Кожен із цих методів має право на існування. Вони мають свої плюси та мінуси, але вони всі по-своєму можуть вирішити питання відсіву непотрібних показників. Зазвичай, результати, отримані кожним окремим методом, досить близькі.

Методи багатовимірного аналізу

Такі методи визначення чинників базуються на розгляді окремих поєднань взаємозалежних ознак. Вони включають дискримінантний аналіз, розпізнання видів, метод основних компонентів і аналіз кластерів. Крім того, існує факторний аналіз, однак він з'явився внаслідок розвитку способу компонент. Усі вони застосовуються у певних обставинах, за наявності певних умов та факторів.

Що таке регресія?

Розглянемо дві безперервні змінні x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Розмістимо крапки на двовимірному графіку розсіювання та скажемо, що ми маємо лінійне співвідношенняякщо дані апроксимуються прямою лінією.

Якщо ми вважаємо, що yзалежить від x, причому зміни в yвикликаються саме змінами в x, ми можемо визначити лінію регресії (регресія yна x), яка найкраще описує прямолінійне співвідношення між цими двома змінними.

Статистичне використання слова " регресія " походить від явища, відомого як регресія до середнього, приписуваного серу Френсісу Гальтону (1889).

Він показав, що хоча вищі батьки мають тенденцію мати високих синів, середнє зростання синів менше, ніж у їхніх високих батьків. Середнє зростання синів " регресував " і " рухався назад " до середнього зростання всіх батьків у населенні. Таким чином, у середньому високі батьки мають нижчих (але все-таки високих) синів, а низькі батьки мають синів вищі (але все-таки досить низькі).

Лінія регресії

Математичне рівняння, яке оцінює лінію простої (парної) лінійної регресії:

xназивається незалежною змінною чи предиктором.

Y- Залежна змінна або змінна відгуку. Це значення, яке ми очікуємо для y(у середньому), якщо ми знаємо величину x, тобто. це «передбачене значення y»

  • a- вільний член (перетин) лінії оцінки; це значення Y, коли x=0(Рис.1).
  • b- Кутовий коефіцієнт або градієнт оціненої лінії; вона є величиною, на яку Yзбільшується в середньому, якщо ми збільшуємо xодну одиницю.
  • aі bназивають коефіцієнтами регресії оціненої лінії, хоча цей термін часто використовують тільки для b.

Парну лінійну регресію можна розширити, включивши до неї більше однієї незалежної змінної; у цьому випадку вона відома як множинна регресія.

Рис.1. Лінія лінійної регресії, що показує перетин a і кутовий коефіцієнт b (величину зростання Y при збільшенні x на одну одиницю)

Метод найменших квадратів

Ми виконуємо регресійний аналіз, використовуючи вибірку спостережень, де aі b- вибіркові оцінки істинних (генеральних) параметрів, і β, які визначають лінію лінійної регресії в популяції (генеральної сукупності).

Найбільш простим методомвизначення коефіцієнтів aі bє метод найменших квадратів(МНК).

Підганяння оцінюється, розглядаючи залишки (вертикальна відстань кожної точки від лінії, наприклад, залишок = спостережуваному y- Передбачений y, Рис. 2).

Лінію кращого припасування вибирають так, щоб сума квадратів залишків була мінімальною.

Рис. 2. Лінія лінійної регресії із зображеними залишками (вертикальні пунктирні лінії) кожної точки.

Припущення лінійної регресії

Отже, для кожної величини, що спостерігається, залишок дорівнює різниці і відповідного передбаченого Кожен залишок може бути позитивним або негативним.

Можна використовувати залишки для перевірки таких припущень, що лежать в основі лінійної регресії:

  • Залишки нормально розподілені з нульовим середнім значенням;

Якщо припущення лінійності, нормальності та/або постійної дисперсії сумнівні, ми можемо перетворити або розрахувати нову лініюрегресії, для якої ці припущення задовольняються (наприклад, використовувати логарифмічне перетвореннячи ін.).

Аномальні значення (викиди) та точки впливу

"Впливове" спостереження, якщо воно опущене, змінює одну або більше оцінок параметрів моделі (тобто кутовий коефіцієнт або вільний член).

Викид (спостереження, яке суперечить більшості значень у наборі даних) може бути "впливовим" спостереженням і може добре виявлятися візуально при огляді двовимірної діаграми розсіювання або графіка залишків.

І для викидів, і для "впливових" спостережень (крапок) використовують моделі як з їх включенням, так і без них звертають увагу на зміну оцінки (коефіцієнтів регресії).

При проведенні аналізу не варто відкидати викиди або точки впливу автоматично, оскільки звичайне ігнорування може вплинути на отримані результати. Завжди вивчайте причини появи цих викидів та аналізуйте їх.

Гіпотеза лінійної регресії

При побудові лінійної регресії перевіряється нульова гіпотеза у тому, що генеральний кутовий коефіцієнт лінії регресії β дорівнює нулю.

Якщо кутовий коефіцієнт лінії дорівнює нулю, між і немає лінійного співвідношення: зміна не впливає на

Для тестування нульової гіпотези про те, що справжній кутовий коефіцієнт дорівнює нулю, можна скористатися наступним алгоритмом:

Обчислити статистику критерію, рівну відношенню , яка підпорядковується розподілу зі ступенями свободи, де стандартна помилка коефіцієнта


,

- Оцінка дисперсії залишків.

Зазвичай, якщо досягнутий рівень значущості нульова гіпотеза відхиляється.


де процентна точка розподілу зі ступенями свободи що дає можливість двостороннього критерію

Це той інтервал, який містить генеральний кутовий коефіцієнт із ймовірністю 95%.

Для великих вибірок, скажімо, ми можемо апроксимувати значенням 1,96 (тобто статистика критерію прагнутиме нормального розподілу)

Оцінка якості лінійної регресії: коефіцієнт детермінації R 2

Через лінійне співвідношення і ми очікуємо, що змінюється, у міру того, як змінюється , і називаємо це варіацією, яка обумовлена ​​чи пояснюється регресією. Залишкова варіація має бути якнайменше.

Якщо це, то більшість варіації пояснюватиметься регресією, а точки лежатимуть близько до лінії регресії, тобто. лінія добре відповідає даним.

Частку загальної дисперсії , яка пояснюється регресією називають коефіцієнтом детермінаціїзазвичай виражають через відсоткове співвідношення і позначають R 2(У парній лінійній регресії це величина r 2, квадрат коефіцієнта кореляції), дозволяє суб'єктивно оцінити якість рівняння регресії.

Різниця є відсотком дисперсії який не можна пояснити регресією.

Немає формального тесту для оцінки ми змушені покластися на суб'єктивне судження, щоб визначити якість припасування лінії регресії.

Застосування лінії регресії для прогнозу

Можна застосовувати регресійну лінію для прогнозування значення за межею спостерігається діапазону (ніколи не екстраполюйте поза цими межами).

Ми передбачаємо середню величину для спостережуваних, які мають певне значення шляхом встановлення цього значення в рівняння лінії регресії.

Отже, якщо прогнозуємо як Використовуємо цю передбачену величину та її стандартну помилку, щоб оцінити довірчий інтервал для середньої величини в популяції.

Повторення цієї процедури для різних величин дозволяє побудувати довірчі межі цієї лінії. Це смуга або область, яка містить справжню лінію, наприклад, з 95% вірогідністю.

Прості регресійні плани

Прості регресійні плани містять один безперервний предиктор. Якщо існує 3 спостереження зі значеннями предиктора P, наприклад, 7, 4 і 9, а план включає ефект першого порядку P, то матриця плану X матиме вигляд

а регресійне рівнянняз використанням P для X1 виглядає як

Y = b0 + b1 P

Якщо простий регресійний план містить ефект вищого порядку для P , наприклад, квадратичний ефект, то значення в стовпці X1 в матриці плану будуть зведені в другий ступінь:

а рівняння набуде вигляду

Y = b0 + b1 P2

Сигма -обмежені та надпараметризовані методи кодування не застосовуються по відношенню до простих регресійних планів та інших планів, що містять тільки безперервні предиктори (оскільки просто не існує категоріальних предикторов). Незалежно від вибраного методу кодування, значення безперервних змінних збільшуються у відповідному ступені та використовуються як значення для змінних X . При цьому перекодування не виконується. Крім того, при описі регресійних планів можна опустити розгляд матриці плану X, а працювати тільки з регресійним рівнянням.

Приклад: простий регресійний аналіз

Цей приклад використовує дані, подані у таблиці:

Рис. 3. Таблиця вихідних даних.

Дані складені на основі порівняння переписів 1960 та 1970 у довільно обраних 30 округах. Назви округів представлені як імен спостережень. Інформація щодо кожної змінної представлена ​​нижче:

Рис. 4. Таблиця специфікацій змінних.

Завдання дослідження

Для цього прикладу будуть аналізуватися кореляція рівня бідності та ступінь, що передбачає відсоток сімей, які перебувають за межею бідності. Отже ми трактуватимемо змінну 3 (Pt_Poor ) як залежну змінну.

Можна висунути гіпотезу: зміна чисельності населення та відсоток сімей, які перебувають за межею бідності, пов'язані між собою. Здається розумним очікувати, що бідність веде до відтоку населення, отже, тут буде негативна кореляція між відсотком людей за межею бідності та зміною чисельності населення. Отже ми трактуватимемо змінну 1 (Pop_Chng ) як змінну-предиктор.

Перегляд результатів

Коефіцієнти регресії

Рис. 5. Коефіцієнти регресії Pt_Poor на Pop_Chng.

На перетині рядка Pop_Chng та стовпця Парам. не стандартизований коефіцієнт для регресії Pt_Poor на Pop_Chng дорівнює -0.40374. Це означає, що для кожного зменшення чисельності населення на одиницю є збільшення рівня бідності на.40374. Верхній та нижній (за замовчуванням) 95% довірчі межі для цього не стандартизованого коефіцієнта не включають нуль, так що коефіцієнт регресії значимий на рівні p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Розподіл змінних

Коефіцієнти кореляції можуть стати суттєво завищені або занижені, якщо в даних є великі викиди. Вивчимо розподіл залежної змінної Pt_Poor по округах. Для цього побудуємо гістограму змінної Pt_Poor.

Рис. 6. Гістограма змінної Pt_Poor.

Як можна помітити, розподіл цієї змінної помітно відрізняється від нормального розподілу. Тим не менш, хоча навіть два округи (два праві стовпці) мають високий відсоток сімей, які знаходяться за межею бідності, ніж очікувалося у разі нормального розподілу, здається, що вони знаходяться "всередині діапазону."

Рис. 7. Гістограма змінної Pt_Poor.

Це судження певною мірою суб'єктивне. Емпіричне правило свідчить, що викиди необхідно враховувати, якщо спостереження (або спостереження) не потрапляють до інтервалу (середнє ± 3 помножене на стандартне відхилення). У цьому випадку варто повторити аналіз з викидами і без, щоб переконатися, що вони не мають серйозного ефекту на кореляцію між членами сукупності.

Діаграма розсіювання

Якщо одна з гіпотез апріорі про взаємозв'язок між заданими змінними, її корисно перевірити на графіку відповідної діаграми розсіювання.

Рис. 8. Діаграма розсіювання.

Діаграма розсіювання показує явну негативну кореляцію (-.65) між двома змінними. На ній також показаний 95% довірчий інтервал для лінії регресії, тобто з 95% ймовірністю лінія регресії проходить між двома пунктирними кривими.

Критерії значимості

Рис. 9. Таблиця, що містить критерії значущості.

Критерій коефіцієнта регресії Pop_Chng підтверджує, що Pop_Chng сильно пов'язані з Pt_Poor , p<.001 .

Підсумок

У цьому прикладі було показано, як проаналізувати простий регресійний план. Була також представлена ​​інтерпретація нестандартизованих та стандартизованих коефіцієнтів регресії. Обговорено важливість вивчення розподілу відгуків залежною змінною, продемонстровано техніку визначення напрямку та сили взаємозв'язку між предиктором та залежною змінною.

За наявності кореляційного зв'язку між факторними і результативними ознаками лікарям нерідко доводиться встановлювати, яку величину може змінитися значення однієї ознаки за зміни іншого на загальноприйняту чи встановлену самим дослідником одиницю виміру.

Наприклад, як зміниться маса тіла школярів 1-го класу (дівчат або хлопчиків), якщо зростання їх збільшиться на 1 см. З цією метою застосовується метод регресійного аналізу.

Найчастіше метод регресійного аналізу застосовується розробки нормативних шкал і стандартів фізичного розвитку.

  1. Визначення регресії. Регресія - функція, що дозволяє за середньою величиною однієї ознаки визначити середню величину іншої ознаки, що кореляційно пов'язана з першою.

    З цією метою застосовується коефіцієнт регресії та низку інших параметрів. Наприклад, можна розрахувати кількість простудних захворювань у середньому за певних значень середньомісячної температури повітря в осінньо-зимовий період.

  2. Визначення коефіцієнта регресії. p align="justify"> Коефіцієнт регресії - абсолютна величина, на яку в середньому змінюється величина однієї ознаки при зміні іншої пов'язаної з ним ознаки на встановлену одиницю виміру.
  3. Формула коефіцієнта регресії. R у/х = r ху x (σ у / σ x)
    де R у/г - коефіцієнт регресії;
    r ху - коефіцієнт кореляції між ознаками х та у;
    (σ у та σ x) - середньоквадратичні відхилення ознак x та у.

    У нашому прикладі;
    σ х = 4,6 (середньоквадратичне відхилення температури повітря в осінньо-зимовий період;
    σ у = 8,65 (середньоквадратичне відхилення числа інфекційно-застудних захворювань).
    Таким чином, R у/г - коефіцієнт регресії.
    R у/г = -0,96 x (4,6 / 8,65) = 1,8, тобто. при зниженні середньомісячної температури повітря (x) на 1 градус середня кількість інфекційно-простудних захворювань у осінньо-зимовий період змінюватиметься на 1,8 випадків.

  4. Рівняння регресії. у = М у + R y/x (х - М x)
    де у - середня величина ознаки, яку слід визначати за зміни середньої величини іншої ознаки (х);
    х - відома середня величина іншої ознаки;
    R y/x – коефіцієнт регресії;
    М х, М у - відомі середні величини ознак x та у.

    Наприклад, середню кількість інфекційно-простудних захворювань можна визначити без спеціальних вимірювань при будь-якому середньому значенні середньомісячної температури повітря (х). Так, якщо х = - 9 °, R у / х = 1,8 захворювань, М х = -7 °, М у = 20 захворювань, то у = 20 + 1,8 х (9-7) = 20 + 3 6 = 236 захворювань.
    Дане рівняння застосовується у разі прямолінійного зв'язку між двома ознаками (х та у).

  5. Призначення рівняння регресії. Рівняння регресії використовують для побудови лінії регресії. Остання дозволяє без спеціальних вимірювань визначити будь-яку середню величину (у) однієї ознаки, якщо змінюється величина (х) іншої ознаки. За цими даними будується графік - лінія регресії, за якою можна визначити середню кількість простудних захворювань за будь-якого значення середньомісячної температури в межах між розрахунковими значеннями числа простудних захворювань.
  6. Сигма регресії (формула).
    де R R/х - сигма (середньоквадратичне відхилення) регресії;
    σ у - середньоквадратичне відхилення ознаки у;
    r ху - коефіцієнт кореляції між ознаками х та у.

    Так, якщо у - середньоквадратичне відхилення числа простудних захворювань = 8,65; r ху - коефіцієнт кореляції між числом простудних захворювань (у) та середньомісячною температурою повітря в осінньо-зимовий період (х) дорівнює - 0,96, то

  7. Призначення сигми регресії. Дає характеристику міри різноманітності результативної ознаки (у).

    Наприклад, характеризує різноманітність числа простудних захворювань за певного значення середньомісячної температури повітря в осінньо-зимовий період. Так, середня кількість простудних захворювань за температури повітря х 1 = -6° може коливатися не більше від 15,78 захворювань до 20,62 захворювань.
    При х 2 = -9 ° середня кількість простудних захворювань може коливатися в межах від 21,18 до 26,02 захворювань і т.д.

    Сигма регресії використовується при побудові шкали регресії, яка відбиває відхилення величин результативної ознаки від середнього значення, відкладеного на лінії регресії.

  8. Дані, необхідні для розрахунку та графічного зображення шкали регресії
    • коефіцієнт регресії - R у/г;
    • рівняння регресії - у = М у + R у/г (х-М x);
    • сигма регресії - Rx/y
  9. Послідовність розрахунків та графічного зображення шкали регресії.
    • визначити коефіцієнт регресії за такою формулою (див. п. 3). Наприклад, слід визначити, наскільки в середньому змінюватиметься маса тіла (у певному віці залежно від статі), якщо середнє зростання зміниться на 1 см.
    • за формулою рівняння регресії (див. п. 4) визначити, якою буде в середньому, наприклад, маса тіла (у, у 2, у 3...)* для певного значення росту (х, х2, х3...) .
      ________________
      * Величину "у" слід розраховувати не менше ніж для трьох відомих значень"х".

      При цьому середні значення маси тіла та росту (М х, і М у) для певного віку та статі відомі

    • обчислити сигму регресії, знаючи відповідні величини у і r ху і підставляючи їх значення у формулу (див. п. 6).
    • на підставі відомих значень х 1 , х 2 , х 3 і відповідних їм середніх значень у 1 , у 2 у 3 а також найменших (у - σ rу / х) і найбільших (у + σ rу / х) значень (у) побудувати шкалу регресії.

      Для графічного зображення шкали регресії на графіці спочатку відзначаються значення x, x2, x3 (вісь ординат), тобто. будується лінія регресії, наприклад залежності маси тіла (у) від зростання (х).

      Потім у відповідних точках у 1 y 2 y 3 відзначаються числові значення сигми регресії, тобто. на графіку знаходять найменше та найбільше значення у 1 , y 2 , y 3 .

  10. Практичне використання шкали регресії. Розробляються нормативні шкали та стандарти, зокрема з фізичного розвитку. За стандартною шкалою можна надати індивідуальну оцінку розвитку дітей. При цьому фізичний розвиток оцінюється як гармонійний, якщо, наприклад, при певному зростанні маса тіла дитини знаходиться в межах однієї сигми регресії до середньої розрахункової одиниці маси тіла (у) для даного росту (x) (± 1 σ Ry/x).

    Фізичний розвиток вважається дисгармонічним за масою тіла, якщо маса тіла дитини для певного росту знаходиться в межах другої сигми регресії: (± 2 σ Ry/x)

    Фізичний розвиток буде різко дисгармонійним як за рахунок надлишкової, так і за рахунок недостатньої маси тіла, якщо маса тіла для певного зростання знаходиться в межах третьої сигми регресії (± 3 σ Ry/x).

За результатами статистичного дослідження фізичного розвитку хлопчиків 5 років відомо, що їхнє середнє зростання (х) дорівнює 109 см, а середня маса тіла (у) дорівнює 19 кг. Коефіцієнт кореляції між зростанням і масою тіла становить +0,9, середні відхилення квадратичні представлені в таблиці.

Потрібно:

  • розрахувати коефіцієнт регресії;
  • за рівнянням регресії визначити, якою буде очікувана маса тіла хлопчиків 5 років при зростанні, що дорівнює х1 = 100 см, х2 = 110 см, х3 = 120 см;
  • розрахувати сигму регресії, побудувати шкалу регресії, результати її вирішення подати графічно;
  • зробити відповідні висновки.

Умову завдання та результати її вирішення представлені у зведеній таблиці.

Таблиця 1

Умови завдання Результати вирішення задачі
рівняння регресії сигма регресії шкала регресії (очікувана маса тіла (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Зростання (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Маса тіла (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Рішення.

Висновок.Таким чином, шкала регресії в межах розрахункових величин маси тіла дозволяє визначити її за будь-якого іншого значення зростання або оцінити індивідуальний розвиток дитини. Для цього слід повернути перпендикуляр до лінії регресії.

  1. Власов В.В. Епідеміологія. – М.: ГЕОТАР-МЕД, 2004. – 464 с.
  2. Лісіцин Ю.П. Громадське здоров'я та охорона здоров'я. Підручник для вишів. – М.: ГЕОТАР-МЕД, 2007. – 512 с.
  3. Медик В.А., Юр'єв В.К. Курс лекцій з громадського здоров'я та охорони здоров'я: Частина 1. Суспільне здоров'я. – М.: Медицина, 2003. – 368 с.
  4. Міняєв В.А., Вишняков Н.І. та ін Соціальна медицина та організація охорони здоров'я (Керівництво у 2 томах). – СПб, 1998. –528 с.
  5. Кучеренко В.З., Агарков Н.М. та ін. Соціальна гігієна та організація охорони здоров'я (Навчальний посібник) – Москва, 2000. – 432 с.
  6. С. Гланц. Медико-біологічна статистика Пер з англ. – М., Практика, 1998. – 459 с.

Регресійний аналіз досліджує залежність певної величини від іншої або декількох інших величин. Регресійний аналіз застосовується переважно у середньостроковому прогнозуванні, а також у довгостроковому прогнозуванні. Середньо- та довгостроковий періоди дають можливість встановлення змін у середовищі бізнесу та обліку впливів цих змін на досліджуваний показник.

Для здійснення регресійного аналізу необхідно:

    наявність щорічних даних за досліджуваними показниками,

    наявність одноразових прогнозів, тобто. таких прогнозів, які не одужують з надходженням нових даних.

Регресійний аналіз зазвичай проводиться для об'єктів, що мають складну, багатофакторну природу, таких як обсяг інвестицій, прибуток, обсяги продажів та ін.

При нормативному методі прогнозуваннявизначаються шляхи та терміни досягнення можливих станів явища, що приймаються як ціль. Йдеться про прогнозування досягнення бажаних станів явища на основі заздалегідь заданих норм, ідеалів, стимулів та цілей. Такий прогноз відповідає питанням: якими шляхами можна досягти бажаного? Нормативний метод найчастіше застосовується для програмних чи цільових прогнозів. Використовуються як кількісний вираз нормативу, і певна шкала можливостей оціночної функції.

У разі використання кількісного виразу, наприклад фізіологічних та раціональних норм споживання окремих продовольчих та непродовольчих товарів, розроблених фахівцями для різних груп населення, можна визначити рівень споживання цих товарів на роки, що передують досягненню зазначеної норми. Такі розрахунки називають інтерполяцією. Інтерполяція - це спосіб обчислення показників, які бракують динамічному ряду явища, на основі встановленого взаємозв'язку. Приймаючи фактичне значення показника і його нормативів за крайні члени динамічного ряду, можна визначити величини значень всередині цього ряду. Тому інтерполяцію вважають за нормативний метод. Раніше наведена формула (4), яка використовується в екстраполяції, може застосовуватися в інтерполяції, де у п буде характеризувати вже не фактичні дані, а норматив показника.

У разі використання в нормативному методі шкали (поля, спектра) можливостей оціночної функції, тобто функції розподілу переваги, вказують приблизно таку градацію: небажано - менш бажано - більш бажано - найбільш бажано - оптимально (норматив).

Нормативний метод прогнозування допомагає виробити рекомендації щодо підвищення рівня об'єктивності, отже, ефективності рішень.

Моделювання, мабуть, найскладніший метод прогнозування Математичне моделювання означає опис економічного явища за допомогою математичних формул, рівнянь та нерівностей. Математичний апарат повинен досить точно відображати прогнозне тло, хоча повністю відобразити всю глибину і складність прогнозованого об'єкта досить важко. Термін "модель" утворений від латинського слова modelus, що означає "захід". Тому моделювання правильніше було вважати не методом прогнозування, а методом вивчення аналогічного явища на моделі.

У широкому значенні моделями називаються заступники об'єкта дослідження, що знаходяться з ним у такій схожості, що дозволяє отримати нове знання про об'єкт. Модель слід розглядати як математичний опис об'єкта. У цьому випадку модель визначається як явище (предмет, установка), яке знаходиться в певній відповідності до об'єкта, що вивчається, і може його замінювати в процесі дослідження, представляючи інформацію про об'єкт.

При більш вузькому розумінні моделі вона розглядається як об'єкт прогнозування, її дослідження дозволяє отримати інформацію про можливі стани об'єкта в майбутньому та шляхи досягнення цих станів. У цьому випадку метою прогнозної моделі є отримання інформації не про об'єкт взагалі, а лише про його майбутні стани. Тоді при побудові моделі буває неможливо провести пряму перевірку її відповідності об'єкту, так як модель є лише його майбутнім станом, а сам об'єкт в даний час може бути відсутнім або мати інше існування.

Моделі можуть бути матеріальними та ідеальними.

В економіці використовуються ідеальні моделі. Найбільш досконалою ідеальною моделлю кількісного опису соціально-економічного (економічного) явища є математична модель, яка використовує числа, формули, рівняння, алгоритми чи графічне уявлення. За допомогою економічних моделей визначають:

    залежність між різними економічними показниками;

    різного роду обмеження, що накладаються на показники;

    критерії, що дозволяють оптимізувати процес.

Змістовний опис об'єкта може бути представлений у вигляді його формалізованої схеми, яка вказує, які параметри та вихідну інформацію потрібно зібрати, щоб обчислити шукані величини. p align="justify"> Математична модель на відміну від формалізованої схеми містить конкретні числові дані, що характеризують об'єкт Розробка математичної моделі багато в чому залежить від уявлення прогнозиста про сутність модельованого процесу. На основі своїх уявлень він висуває робочу гіпотезу, за допомогою якої створюється аналітичний запис моделі у вигляді формул, рівнянь та нерівностей. Через війну розв'язання системи рівнянь отримують конкретні параметри функції, якими описується зміна змінних величин у часі.

Порядок і послідовність роботи як елемент організації прогнозування визначається залежно від методу прогнозування, що застосовується. Зазвичай ця робота виконується у кілька етапів.

1-й етап - прогнозна ретроспекція, тобто встановлення об'єкта прогнозування та прогнозного фону. Робота на першому етапі виконується в такій послідовності:

    формування опису об'єкта в минулому, що включає передпрогнозний аналіз об'єкта, оцінку його параметрів, їх значущості та взаємних зв'язків,

    визначення та оцінка джерел інформації, порядку та організації роботи з ними, збирання та розміщення ретроспективної інформації;

    постановка завдань дослідження.

Виконуючи завдання прогнозної ретроспекції, прогнозисти досліджують історію розвитку об'єкта та прогнозного фону з метою отримання їх систематизованого опису.

2-й етап - прогнозний діагноз, у ході якого досліджується систематизований опис об'єкта прогнозування та прогнозного фону з метою виявлення тенденцій їх розвитку та вибору моделей та методів прогнозування. Робота виконується у такій послідовності:

    розробка моделі об'єкта прогнозу, у тому числі формалізований опис об'єкта; перевірка ступеня адекватності моделі об'єкту;

    вибір методів прогнозування (основного та допоміжних), розробка алгоритму та робочих програм.

3-й етап - протекція, т. е. процес широкої розробки прогнозу, зокрема: 1) розрахунок прогнозованих параметрів заданий період попередження; 2) синтез окремих складових прогнозу.

4-й етап - оцінка прогнозу, зокрема його верифікація, т. е. визначення ступеня достовірності, точності та обгрунтованості.

У ході проспектії та оцінки на підставі попередніх етапів вирішуються завдання прогнозу та його оцінка.

Зазначена етапність є зразковою і залежить від основного методу прогнозування.

Результати прогнозу оформляються у вигляді довідки, доповіді чи іншого матеріалу та надаються замовнику.

У прогнозуванні може бути зазначена величина відхилення прогнозу від дійсного стану об'єкта, яка називається помилкою прогнозу, яка розраховується за формулою:

;
;
. (9.3)

Джерела помилок у прогнозуванні

Основними джерелами можуть бути:

1. Просте перенесення (екстраполяція) даних із минулого на майбутнє (наприклад, відсутність у фірми інших варіантів прогнозу, крім 10% зростання продажів).

2. Неможливість точно визначити ймовірність події та її впливу на досліджуваний об'єкт.

3. Непередбачені труднощі (руйнівні події), які впливають здійснення плану, наприклад, раптове звільнення начальника відділу збуту.

В цілому точність прогнозування підвищується в міру накопичення досвіду прогнозування та відпрацювання його методів.

Регресійний аналіз лежить в основі створення більшості економетричних моделей, до яких слід віднести і моделі оцінки вартості. Для побудови моделей оцінки цей метод можна використовувати, якщо кількість аналогів (порівняних об'єктів) та кількість факторів вартості (елементів порівняння) співвідносяться між собою таким чином: п> (5-г-10) х до,тобто. аналогів має бути у 5-10 разів більше, ніж факторів вартості. Ця ж вимога до співвідношення кількості даних та кількості факторів поширюється і на інші завдання: встановлення зв'язку між вартістю та споживчими параметрами об'єкта; обґрунтування порядку розрахунку коригувальних індексів; з'ясування трендів цін; встановлення зв'язку між зносом та змінами впливових факторів; отримання залежностей до розрахунку нормативів витрат тощо. Виконання цієї вимоги необхідне для того, щоб зменшити ймовірність роботи з вибіркою даних, яка не задовольняє вимогу до нормальності розподілу випадкових величин.

Регресійний зв'язок відображає лише усереднену тенденцію зміни результуючої змінної, наприклад вартості, від зміни однієї або декількох факторних змінних, наприклад, розташування, кількості кімнат, площі, поверху і т.п. У цьому полягає відмінність регресійного зв'язку від функціонального, при якому значення результуючої змінної суворо визначено при заданому значенні факторних змінних.

Наявність регресійного зв'язку / між результуючою ута факторними змінними х р ..., х до(факторами) свідчить про те, що цей зв'язок визначається не тільки впливом відібраних факторних змінних, а й впливом змінних, одні з яких взагалі невідомі, інші не піддаються оцінці та обліку:

Вплив неврахованих змінних позначається другим складником даного рівняння ?, яке називають помилкою апроксимації.

Розрізняють такі типи регресійних залежностей:

  • ? парна регресія - зв'язок між двома змінними (результуючою та факторною);
  • ? множинна регресія - залежність однієї результуючої змінної та двох або більше факторних змінних, включених у дослідження.

Основне завдання регресійного аналізу - кількісне визначення тісноти зв'язку між змінними (при парній регресії) та безліччю змінних (при множинні регресії). Тіснота зв'язку кількісно виражається коефіцієнтом кореляції.

Застосування регресійного аналізу дозволяє встановити закономірність впливу основних факторів (гедоністичних характеристик) на показник, що вивчається як в їх сукупності, так і кожного з них окремо. За допомогою регресійного аналізу, як методу математичної статистики, вдається, по-перше, знайти та описати форму аналітичної залежності результуючої (шуканої) змінної від факторних та, по-друге, оцінити тісноту цієї залежності.

Завдяки розв'язанню першого завдання отримують математичну регресійну модель, за допомогою якої потім розраховують показник, що шукається, при заданих значеннях факторів. Розв'язання другого завдання дозволяє встановити надійність розрахованого результату.

Таким чином, регресійний аналіз можна визначити як сукупність формальних (математичних) процедур, призначених для вимірювання тісноти, напряму та аналітичного вираження форми зв'язку між результуючою та факторними змінними, тобто. на виході такого аналізу має бути структурно та кількісно визначена статистична модель виду:

де у -середнє значення результуючої змінної (пошукового показника, наприклад, вартості, оренди, ставки капіталізації) за пїї спостережень; х - значення факторної змінної (/-й фактор вартості); до -кількість факторних змінних.

Функція f(x l ,...,x lc),описує залежність результуючої змінної від факторних, називається рівнянням (функцією) регресії. Термін «регресія» (regression (лат.) - відступ, повернення до чогось) пов'язаний зі специфікою однієї з конкретних завдань, вирішених на стадії становлення методу, і в даний час не відображає всієї сутності методу, але продовжує застосовуватися.

Регресійний аналіз у загальному випадку включає такі етапи:

  • ? формування вибірки однорідних об'єктів та збір вихідної інформації про ці об'єкти;
  • ? відбір основних факторів, що впливають на результуючу змінну;
  • ? перевірка вибірки на нормальність із використанням х 2 або біномінального критерію;
  • ? прийняття гіпотези про форму зв'язку;
  • ? математичну обробку даних;
  • ? отримання регресійної моделі;
  • ? оцінку її статистичних показників;
  • ? перевірочні розрахунки за допомогою регресійної моделі;
  • ? аналіз результатів.

Зазначена послідовність операцій має місце при дослідженні як парного зв'язку між факторною змінною та однією результуючою, так і множинного зв'язку між результуючою змінною та декількома факторними.

Застосування регресійного аналізу пред'являє до вихідної інформації певні вимоги:

  • ? статистична вибірка об'єктів має бути однорідною у функціональному та конструктивно-технологічному відносинах;
  • ? досить численною;
  • ? досліджуваний вартісний показник - результуюча змінна (ціна, собівартість, витрати) - повинен бути приведений до умов його обчислення у всіх об'єктів у вибірці;
  • ? факторні змінні мають бути виміряні досить точно;
  • ? факторні змінні повинні бути незалежними або мінімально залежними.

Вимоги однорідності і повноти вибірки перебувають у протиріччі: що жорсткіше ведуть відбір об'єктів з їхньої однорідності, тим менше отримують вибірку, і, навпаки, для укрупнення вибірки доводиться включати до неї дуже схожі між собою об'єкти.

Після того, як зібрані дані по групі однорідних об'єктів, проводять їх аналіз для встановлення форми зв'язку між результуючою та факторними змінними у вигляді теоретичної лінії регресії. Процес знаходження теоретичної лінії регресії полягає в обґрунтованому виборі апроксимуючої кривої та розрахунку коефіцієнтів її рівняння. Лінія регресії являє собою плавну криву (в окремому випадку пряму), що описує за допомогою математичної функції загальну тенденцію досліджуваної залежності і згладжує незакономірні, випадкові викиди від впливу побічних факторів.

Для відображення парних регресійних залежностей у завданнях оцінки найчастіше використовують такі функції: лінійну - у - а 0 + арс + сстатечну - у - aj&i + споказову - у -лінійно-показову - у - а 0 + ар * + с.Тут - епомилка апроксимації, обумовлена ​​дією неврахованих випадкових факторів.

У цих функціях у - результуюча змінна; х – факторна змінна (фактор); а 0 , а р а 2 -параметри регресійної моделі; коефіцієнти регресії.

Лінійно-показова модель відноситься до класу так званих гібридних моделей виду:

де

де х (i = 1, /) – значення факторів;

b t (i = 0, /) – коефіцієнти регресійного рівняння.

У цьому рівнянні складові А, Ві Zвідповідають вартості окремих складових оцінюваного активу, наприклад, вартості земельної ділянки та вартості поліпшень, а параметр Qє загальним. Він призначений для коригування вартості всіх складових активу, що оцінюється на загальний фактор впливу, наприклад, місцезнаходження.

Значення факторів, що перебувають у ступені відповідних коефіцієнтів, є бінарними змінними (0 або 1). Чинники, що у основі ступеня, - дискретні чи безперервні змінні.

Чинники, пов'язані з коефіцієнтами знаком множення, також є безперервними чи дискретними.

Специфікація здійснюється, як правило, з використанням емпіричного підходу та включає два етапи:

  • ? нанесення на графік точок регресійного поля;
  • ? графічний (візуальний) аналіз виду можливої ​​апроксимуючої кривої.

Тип кривої регресії який завжди можна вибрати відразу. Для визначення спочатку наносять на графік точки регресійного поля за вихідними даними. Потім візуально проводять лінію за положенням точок, прагнучи з'ясувати якісну закономірність зв'язку: рівномірне зростання або рівномірне зниження, зростання (зниження) зі зростанням (зменшенням) темпу динаміки, плавне наближення до деякого рівня.

Цей емпіричний підхід доповнюють логічним аналізом, відштовхуючись від вже відомих уявлень про економічну та фізичну природу досліджуваних факторів та їх взаємовплив.

Наприклад, відомо, що залежності результуючих змінних - економічних показників (ціни, оренди) від ряду факторних змінних - ціноутворюючих факторів (відстань від центру поселення, площі та ін) мають нелінійний характер, і досить суворо їх можна описати статечною, експоненційною або квадратичною функціями . Але при невеликих діапазонах зміни факторів прийнятні результати можна отримати за допомогою лінійної функції.

Якщо все ж таки неможливо відразу зробити впевнений вибір якоїсь однієї функції, то відбирають дві-три функції, розраховують їх параметри і далі, використовуючи відповідні критерії тісноти зв'язку, остаточно вибирають функцію.

Теоретично регресійний процес знаходження форми кривої називається специфікацієюмоделі, а її коефіцієнтів - калібруванняммоделі.

Якщо виявлено, що результуюча змінна залежить від декількох факторних змінних (факторів) х ( , х 2 , ..., х до,то вдаються до побудови множинної регресійної моделі. Зазвичай при цьому використовують три форми множинного зв'язку: лінійну - у - а 0 + а х х х + а х 2 + ... + а до х до,показову - у - а 0 a*i а х т-а х ь,статечну - у - а 0 х ix 2 a 2. .х^або їх комбінації.

Показова і статечна функції більш універсальні, тому що апроксимують нелінійні зв'язки, якими є більшість досліджуваних в оцінці залежностей. Крім того, вони можуть бути застосовані при оцінці об'єктів і методі статистичного моделювання при масовій оцінці, і в методі прямого порівняння в індивідуальній оцінці при встановленні корегувальних коефіцієнтів.

На етапі калібрування параметри регресійної моделі розраховують методом найменших квадратів, суть якого полягає в тому, що сума квадратів відхилень обчислених значень результуючої змінної у., тобто. розрахованих за обраним рівнянням зв'язку, від фактичних значень має бути мінімальною:

Значення j) (. і у.відомі, тому Qє функцією лише коефіцієнтів рівняння. Для пошуку мінімуму Sпотрібно взяти приватні похідні Qза коефіцієнтами рівняння та прирівняти їх до нуля:

В результаті одержуємо систему нормальних рівнянь, число яких дорівнює кількості визначених коефіцієнтів шуканого рівняння регресії.

Припустимо, потрібно знайти коефіцієнти лінійного рівняння у - а 0+арс.Сума квадратів відхилень має вигляд:

/=1

Диференціюють функцію Qза невідомими коефіцієнтами а 0та і прирівнюють приватні похідні до нуля:

Після перетворень одержують:

де п -кількість вихідних фактичних значень уїх (кількість аналогів).

Наведений порядок розрахунку коефіцієнтів регресійного рівняння застосуємо й у нелінійних залежностей, якщо ці залежності можна лінеаризувати, тобто. призвести до лінійної форми за допомогою заміни змінних. Ступінна та показова функції після логарифмування та відповідної заміни змінних набувають лінійної форми. Наприклад, статечна функція після логарифмування набуває вигляду: In у = 1пя 0 +а х 1пх. Після заміни змінних Y- In у, Л 0 - In а № X- In х отримуємо лінійну функцію

Y=A 0 + cijX,коефіцієнти якої знаходять описаним вище способом.

Метод найменших квадратів застосовують і розрахунку коефіцієнтів множинної регресійної моделі. Так, система нормальних рівнянь для розрахунку лінійної функції із двома змінними Xjі х 2після ряду перетворень має такий вигляд:

Зазвичай цю систему рівнянь вирішують, використовуючи методи лінійної алгебри. Множинну статечну функцію приводять до лінійної форми шляхом логарифмування та заміни змінних таким же чином, як і парну статечну функцію.

При використанні гібридних моделей коефіцієнти множинної регресії знаходяться з використанням чисельних процедур методу послідовних наближень.

Щоб зробити остаточний вибір із кількох регресійних рівнянь, необхідно перевірити кожне рівняння на тісноту зв'язку, яка вимірюється коефіцієнтом кореляції, дисперсією та коефіцієнтом варіації. Для оцінки можна використовувати також критерії Стьюдента та Фішера. Чим більшу тісноту зв'язку виявляє крива, тим вона краща за інших рівних умов.

Якщо вирішується завдання такого класу, коли треба встановити залежність вартісного показника від факторів вартості, то зрозуміло прагнення врахувати якнайбільше факторів, що впливають, і побудувати тим самим більш точну множинну регресійну модель. Однак розширенню числа факторів перешкоджають два об'єктивні обмеження. По-перше, для побудови множинної регресійної моделі потрібна значно об'ємніша вибірка об'єктів, ніж для побудови парної моделі. Вважають, що кількість об'єктів у вибірці має перевищувати кількість пфакторів принаймні в 5-10 разів. Звідси випливає, що для побудови моделі з трьома факторами, що впливають, треба зібрати вибірку приблизно з 20 об'єктів з різним набором значень факторів. По-друге, фактори, що відбираються для моделі, у своєму впливі на вартісний показник повинні бути досить незалежні один від одного. Це забезпечити непросто, оскільки вибірка зазвичай об'єднує об'єкти, які стосуються одному сімейству, які мають місце закономірне зміна багатьох чинників від об'єкта до об'єкта.

Якість регресійних моделей, Як правило, перевіряють з використанням наступних статистичних показників.

Стандартне відхилення помилки рівняння регресії (помилка оцінки):

де п -обсяг вибірки (кількість аналогів);

до -кількість факторів (чинників вартості);

Помилка, яка не пояснюється регресійним рівнянням (рис. 3.2);

у. -фактичне значення результуючої змінної (наприклад, вартості); y t -розрахункове значення результуючої змінної.

Цей показник також називають стандартною помилкою оцінки (СКО помилки). На малюнку точками позначені конкретні значення вибірки, символом позначено лінію середнього значень вибірки, похилу штрихпунктирну лінію - це лінія регресії.


Рис. 3.2.

Стандартне відхилення помилки оцінки вимірює величину відхилення фактичних значень від відповідних розрахункових значень у( , Отримані за допомогою регресійної моделі. Якщо вибірка, на якій побудована модель, підпорядкована нормальному закону розподілу, то можна стверджувати, що 68% реальних значень узнаходяться в діапазоні у ± & евід лінії регресії, а 95% - у діапазоні у ± 2d e. Цей показник зручний тим, що одиниці виміру сг?збігаються з одиницями виміру у,. У цьому його можна використовуватиме вказівки точності одержуваного у процесі оцінки результату. Наприклад, у сертифікаті вартості можна вказати, що отримане з використанням регресійної моделі значення ринкової вартості Vз ймовірністю 95% знаходиться в діапазоні від (V -2d,.)до + 2d s).

Коефіцієнт варіації результуючої змінної:

де у -середнє значення результуючої змінної (рис. 3.2).

У регресійному аналізі коефіцієнт варіації var є стандартним відхиленням результату, виражене у вигляді відсоткового відношення до середнього значення результуючої змінної. Коефіцієнт варіації може бути критерієм прогнозних якостей отриманої регресійної моделі: що менше величина var, тим паче високими є прогнозні якості моделі. Використання коефіцієнта варіації краще показника & е, так як він є відносним показником. При практичному використанні цього показника можна порекомендувати не застосовувати модель, коефіцієнт варіації якої перевищує 33%, тому що в цьому випадку не можна говорити про те, що ці вибірки підпорядковані нормальному закону розподілу.

Коефіцієнт детермінації (квадрат коефіцієнта множинної кореляції):

Цей показник використовується для аналізу загальної якості отриманої регресійної моделі. Він показує, який відсоток варіації результуючої змінної пояснюється впливом всіх включених у модель факторних змінних. p align="justify"> Коефіцієнт детермінації завжди лежить в інтервалі від нуля до одиниці. Чим ближче значення коефіцієнта детермінації до одиниці, краще модель описує вихідний ряд даних. Коефіцієнт детермінації можна уявити інакше:

Тут-помилка, що пояснюється регресійною моделлю,

а - помилка, незрозуміла

регресійною моделлю. З економічної погляду даний критерій дозволяє будувати висновки про тому, який відсоток варіації цін пояснюється регресійним рівнянням.

Точну межу прийнятності показника R 2всім випадків вказати неможливо. Потрібно брати до уваги і обсяг вибірки, і змістовну інтерпретацію рівняння. Як правило, при дослідженні даних про однотипні об'єкти, отримані приблизно в той самий момент часу величина R 2не перевищує рівня 06-07. Якщо помилки прогнозування рівні нулю, тобто. коли зв'язок між результуючою та факторними змінними є функціональним, то R 2 =1.

Коригований коефіцієнт детермінації:

Необхідність запровадження скоригованого коефіцієнта детермінації пояснюється тим, що зі збільшенням числа факторів дозвичайний коефіцієнт детермінації практично завжди збільшується, але зменшується кількість ступенів свободи (п - до- 1). Введене коригування завжди зменшує значення R 2 ,оскільки (п - 1) > (п-до - 1). В результаті величина R 2 CKOf)навіть може стати негативною. Це означає, що величина R 2була близька до нуля до коригування та пояснюється за допомогою рівняння регресії частка дисперсії змінної удуже мала.

З двох варіантів регресійних моделей, які відрізняються величиною скоригованого коефіцієнта детермінації, але мають однаково хороші інші критерії якості, кращий варіант з більшим значенням скоригованого коефіцієнта детермінації. Коригування коефіцієнта детермінації не проводиться, якщо (п - до): до> 20.

Коефіцієнт Фішера:

Цей критерій використовується з метою оцінки значущості коефіцієнта детермінації. Залишкова сума квадратів є показником помилки передбачення за допомогою регресії відомих значень вартості у..Її порівняння з регресійною сумою квадратів показує, у скільки разів регресійна залежність передбачає результат краще, ніж середнє у. Існує таблиця критичних значень F Rкоефіцієнта Фішера, які залежать від числа ступенів свободи чисельника - до, знаменника v 2 = п - до- 1 рівня значимості а. Якщо обчислене значення критерію Фішера F Rбільше табличного значення, то гіпотеза про незначущість коефіцієнта детермінації, тобто. про невідповідність закладених у рівнянні регресії зв'язків реально існуючим, з ймовірністю р = 1 – а відкидається.

Середня помилка апроксимації(Середнє відсоткове відхилення) обчислюється як середня відносна різниця, виражена у відсотках, між фактичними і розрахунковими значеннями результуючої змінної:

Чим менше значенняданого показника, тим краще прогнозні якості моделі. При значенні цього показника не вище 7% говорять про високу точність моделі. Якщо 8 > 15%, говорять про незадовільну точність моделі.

Стандартна помилка коефіцієнта регресії:

де (/I) -1.- діагональний елемент матриці (Х Г Х) ~ 1 до -кількість факторів;

X -матриця значень факторних змінних:

X 7 -транспонована матриця значень факторних змінних;

(ЖЛ) _| - матриця, обернена до матриці.

Чим менші ці показники кожного коефіцієнта регресії, тим надійніше оцінка відповідного коефіцієнта регресії.

Критерій Стьюдента (t-статистика):

Цей критерій дозволяє виміряти ступінь надійності (суттєвості) зв'язку, зумовленого цим коефіцієнтом регресії. Якщо обчислене значення t. більше табличного значення

t av , де v - п - до - 1 - число ступенів свободи, гіпотеза про те, що даний коефіцієнт є статистично незначним, відкидається з ймовірністю (100 - а)%. Існують спеціальні таблиці /-розподілу, що дозволяють за заданим рівнем значущості а та числу ступенів свободи v визначати критичне значення критерію. Найчастіше вживане значення дорівнює 5%.

Мультиколлінеарність, тобто. ефект взаємних зв'язків між факторними змінними призводить до необхідності задовольнятися обмеженим їх числом. Якщо це не врахувати, то можна отримати нелогічну регресійну модель. Щоб уникнути негативного ефекту мультиколлінеарності, до побудови множинної регресійної моделі розраховуються коефіцієнти парної кореляції r xjxjміж відібраними змінними х.і х

Тут XjX; -середнє значення добутку двох факторних змінних;

XjXj -добуток середніх значень двох факторних змінних;

Оцінка дисперсії факторної змінної х.

Вважається, що дві змінні регресійно пов'язані між собою (тобто колінеарні), якщо коефіцієнт їхньої парної кореляції за абсолютною величиною строго більше 0,8. У цьому випадку якусь із цих змінних треба виключити з розгляду.

З метою розширення можливостей економічного аналізу отримуваних регресійних моделей використовуються середні коефіцієнти еластичності,обумовлені за такою формулою:

де Xj -середнє значення відповідної факторної змінної;

у -середнє значення результуючої змінної; a i -коефіцієнт регресії за відповідної факторної змінної.

Коефіцієнт еластичності показує, наскільки відсотків у середньому зміниться значення результуючої змінної за зміни факторної змінної на 1 %, тобто. як реагує результуюча змінна зміну факторної змінної. Наприклад, як реагує вартість кв. м площі квартири на відстані від центру міста.

Корисною з точки зору аналізу значущості того чи іншого коефіцієнта регресії є оцінка приватного коефіцієнта детермінації:

Тут – оцінка дисперсії результуючої

змінної. Даний коефіцієнт показує, на скільки відсотків варіація результуючої змінної пояснюється варіацією /-й факторної змінної, що входить до рівняння регресії.

  • Під гедоністичними характеристиками розуміються характеристики об'єкта, що відбивають його корисні (цінні) з погляду покупців та продавців якості.