Регресійний аналіз для чайників. Основи аналізу даних. Розбір результатів аналізу

Основна мета регресійного аналізуполягає у визначенні аналітичної форми зв'язку, в якій зміна результативної ознаки обумовлено впливом однієї або декількох факторних ознак, а безліч інших факторів, що також впливають на результативну ознаку, приймається за постійні та середні значення.
Завдання регресійного аналізу:
а) Встановлення форми залежності. Щодо характеру та форми залежності між явищами, розрізняють позитивну лінійну та нелінійну та негативну лінійну та нелінійну регресію.
б) Визначення функції регресії як математичного рівняння тієї чи іншої типу та встановлення впливу пояснюючих змінних на залежну змінну.
в) Оцінка невідомих значень залежною змінною. За допомогою функції регресії можна відтворити значення залежної змінної всередині інтервалу заданих значень пояснюючих змінних (тобто вирішити задачу інтерполяції) або оцінити перебіг процесу поза заданим інтервалом (тобто вирішити задачу екстраполяції). Результат є оцінкою значення залежної змінної.

Парна регресія - рівняння зв'язку двох змінних ух: y=f(x), де y - залежна змінна (результативний ознака); x - незалежна, що пояснює змінна (ознака-фактор).

Розрізняють лінійні та нелінійні регресії.
Лінійна регресія: y = a + bx + ε
Нелінійні регресії діляться на два класи: регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, і регресії, нелінійні за оцінюваними параметрами.
Регресії, нелінійні за такими, що пояснюють змінним:

Регресії, нелінійні за параметрами, що оцінюються:

  • статечна y=a·x b ·ε
  • показова y=a·b x ·ε
  • експонентна y=e a+b·x ·ε
Побудова рівняння регресії зводиться оцінки її параметрів. Для оцінки параметрів регресій, лінійних за параметрами, використовують метод найменших квадратів (МНК). МНК дозволяє одержати такі оцінки параметрів, у яких сума квадратів відхилень фактичних значень результативної ознаки у теоретичних y x мінімальна, тобто.
.
Для лінійних та нелінійних рівнянь, що наводяться до лінійних, вирішується наступна система щодо a та b:

Можна скористатися готовими формулами, що випливають із цієї системи:

Тісноту зв'язку явищ, що вивчаються, оцінює лінійний коефіцієнт парної кореляції r xy для лінійної регресії (-1≤r xy ≤1):

та індекс кореляції p xy - для нелінійної регресії (0≤p xy ≤1):

Оцінку якості побудованої моделі дасть коефіцієнт (індекс) детермінації, а також середня помилка апроксимації.
Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:
.
Допустима межа значень A - не більше 8-10%.
Середній коефіцієнт еластичності Е показує, на скільки відсотків в середньому за сукупністю зміниться результат від своєї середньої величини при зміні фактора x на 1% від свого середнього значення:
.

Завдання дисперсійного аналізу полягає в аналізі дисперсії залежною змінною:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
де ∑(y-y )² - Загальна сумаквадратів відхилень;
∑(y x -y )² - сума квадратів відхилень, обумовлена ​​регресією («пояснена» або «факторна»);
∑(y-y x)² - залишкова сума квадратів відхилень.
Частку дисперсії, що пояснюється регресією, у загальній дисперсії результативної ознаки характеризує коефіцієнт (індекс) детермінації R 2:

Коефіцієнт детермінації – квадрат коефіцієнта чи індексу кореляції.

F-тест - оцінювання якості рівняння регресії - полягає у перевірці гіпотези Але про статистичну незначущість рівняння регресії та показника тісноти зв'язку. Для цього виконується порівняння фактичного F факт та критичного (табличного) F табл значень F-критерію Фішера. F факт визначається із співвідношення значень факторної та залишкової дисперсій, розрахованих на один ступінь свободи:
,
де n – число одиниць сукупності; m – число параметрів при змінних х.
F табл – це максимально можливе значення критерію під впливом випадкових факторів при даних ступенях свободи та рівні значущості a. Рівень значущості a - можливість відкинути правильну гіпотезу за умови, що вона вірна. Зазвичай приймається a дорівнює 0,05 або 0,01.
Якщо F табл< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F факт, то гіпотеза Н не відхиляється і визнається статистична незначимість, ненадійність рівняння регресії.
Для оцінки статистичної значущості коефіцієнтів регресії та кореляції розраховуються t-критерій Стьюдента та довірчі інтервали кожного з показників. Висувається гіпотеза про випадкову природу показників, тобто. про незначне їх відмінність від нуля. Оцінка значущості коефіцієнтів регресії та кореляції за допомогою t-критерію Стьюдента проводиться шляхом зіставлення їх значень із величиною випадкової помилки:
; ; .
Випадкові помилки параметрів лінійної регресії та коефіцієнта кореляції визначаються за формулами:



Порівнюючи фактичне та критичне (табличне) значення t-статистики – t табл та t факт – приймаємо або відкидаємо гіпотезу Н о.
Зв'язок між F-критерієм Фішера та t-статистикою Стьюдента виражається рівністю

Якщо t табл< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t факт то гіпотеза Н не відхиляється і визнається випадкова природа формування а, b або r xy .
Для розрахунку довірчого інтервалу визначаємо граничну помилку D для кожного показника:
Δ a = t табл · m a , Δ b = t табл · m b .
Формули для розрахунку довірчих інтервалів мають такий вигляд:
γ a =aΔ a; γ a =a-Δ a; γ a =a+Δ a
b = b b ; b = b-Δ b ; γ b = b + Δ b
Якщо межі довірчого інтервалу потрапляє нуль, тобто. нижня межа негативна, а верхня позитивна, то оцінюваний параметр приймається нульовим, оскільки він може одночасно приймати і позитивне, і негативне значення.
Прогнозне значення y p визначається шляхом підстановки рівняння регресії y x = a + b x відповідного (прогнозного) значення x p . Обчислюється середня стандартна помилка прогнозу m y x:
,
де
та будується довірчий інтервал прогнозу:
γ y x = y p Δ y p; γ y x min = y p -Δ y p; γ y x max=y p +Δ y p
де Δ y x = t табл · m y x .

Приклад рішення

Завдання №1. За сімома територіями Уральського району За 199Х р. відомі значення двох ознак.
Таблиця 1.

Потрібно: 1. Для характеристики залежності у від х розрахувати параметри наступних функцій:
а) лінійною;
б) статечної (попередньо потрібно провести процедуру лінеаризації змінних, шляхом логарифмування обох частин);
в) показовою;
г) рівносторонньої гіперболи (так само потрібно придумати як заздалегідь лінеаризувати цю модель).
2. Оцінити кожну модель через середню помилку апроксимації A та F-критерій Фішера.

Рішення (Варіант №1)

Для розрахунку параметрів a та b лінійної регресії y = a + b · x (розрахунок можна проводити за допомогою калькулятора).
вирішуємо систему нормальних рівнянь щодо аі b:
За вихідними даними розраховуємо ∑y, ∑x, ∑y·x, ∑x², ∑y²:
y x yx x 2 y 2 y xy-y xA і
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Разом405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Порівн. знач. (Разом/n)57,89
y
54,90
x
3166,05
x·y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s 232,92 34,34 XXXXXX


a = y -b · x = 57.89 +0.35 · 54.9 ≈ 76.88

Рівняння регресії: у = 76,88 - 0,35х.Зі збільшенням середньоденної зарплати на 1 крб. частка витрат на купівлю продовольчих товарів знижується в середньому на 0,35% пункту.
Розрахуємо лінійний коефіцієнт парної кореляції:

Зв'язок помірний, зворотний.
Визначимо коефіцієнт детермінації: r² xy = (-0.35) = 0.127
Варіація результату на 12,7% пояснюється варіацією фактора x. Підставляючи в рівняння регресії фактичні значення х, Визначимо теоретичні (розрахункові) значення y x . Знайдемо величину середньої помилки апроксимації A :

У середньому, розрахункові значення відхиляються від фактичних на 8,1%.
Розрахуємо F-критерій:

Отримане значення вказує на необхідність прийняти гіпотезу Н 0 про випадкову природу виявленої залежності та статистичної незначущості параметрів рівняння та показника тісноти зв'язку.
1б.Побудови статечної моделі y = a x b передує процедура лінеаризації змінних. У прикладі лінеаризація проводиться шляхом логарифмування обох частин рівняння:
lg y = lg a + b lg x
Y=C+b·Y
де Y=lg(y), X=lg(x), C=lg(a).

Для розрахунків використовуємо дані табл. 1.3.
Таблиця 1.3

YX YX Y 2 X 2 y xy-y x(y-y x)²A і
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Разом12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Середнє значення1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ 20,0018 0,0023 XXXXXXX

Розрахуємо С і b:

C = Y -b · X = 1.7605 +0.298 · 1.7370 = 2.278126
Отримаємо лінійне рівняння: Y = 2.278-0.298 · X
Виконавши його потенціювання, отримаємо: y = 10 2.278 x -0.298
Підставляючи на це рівняння фактичні значення х,одержуємо теоретичні значення результату. За ними розрахуємо показники: тісноти зв'язку - індекс кореляції p xy та середню помилку апроксимації A .

Характеристики статечної моделі вказують, що вона дещо краща лінійної функціївизначає взаємозв'язок.

. Побудові рівняння показовою кривою y=a·b x передує процедура лінеаризації змінних при логарифмуванні обох частин рівняння:
lg y = lg a + x lg b
Y=C+B·x
Для розрахунків використовуємо дані таблиці.

Yx Yx Y 2 x 2y xy-y x(y-y x)²A і
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Разом12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Порівн. зн.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ 20,0018 34,339 XXXXXXX

Значення параметрів регресії A та Усклали:

A = Y -B · x = 1.7605 +0.0023 · 54.9 = 1.887
Отримано лінійне рівняння Y=1.887-0.0023x. Зробимо потенціювання отриманого рівняння та запишемо його у звичайній формі:
y x = 10 1.887 · 10 -0.0023x = 77.1 · 0.9947 x
Тісноту зв'язку оцінимо через індекс кореляції p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Разом405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Середнє значення57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ 232,9476 0,000005 XX

Регресійний аналіз- Метод моделювання вимірюваних даних та дослідження їх властивостей. Дані складаються з пар значень залежною змінною(змінної відгуку) та незалежної змінної(Пояснення змінної). Регресійна модель є функція незалежної змінної та параметрів з доданою випадковою змінною. Параметри моделі налаштовуються таким чином, що модель найкращим чиномнаближає дані. Критерієм якості наближення (цільовою функцією) зазвичай є середньоквадратична помилка: сума квадратів різниці значень моделі та залежної змінної для всіх значень незалежної змінної як аргумент. Регресійний аналіз - розділ математичної статистики та машинного навчання. Передбачається, що залежна змінна є сумою значень деякої моделі і випадкової величини . Щодо характеру розподілу цієї величини робляться припущення, які називають гіпотезою породження даних. Для підтвердження чи спростування цієї гіпотези виконуються статистичні тести, які називають аналізом залишків. При цьому передбачається, що незалежна змінна не містить помилок. Регресійний аналіз використовується для прогнозу, аналізу часових рядів, тестування гіпотез та виявлення прихованих взаємозв'язків у даних.

Визначення регресійного аналізу

Вибірка може бути не функцією, а ставленням. Наприклад, дані побудови регресії може бути такими: . У такій вибірці одного значення змінної відповідає кілька значень змінної .

Лінійна регресія

Лінійна регресія передбачає, що функція залежить від параметрів лінійно. При цьому лінійна залежність від вільної змінної необов'язкова,

У разі коли функція лінійна регресія має вигляд

тут - компоненти вектора.

Значення параметрів у разі лінійної регресії знаходять за допомогою методу найменших квадратів. Використання цього методу обґрунтоване припущенням про гауссівський розподіл випадкової змінної.

Різниці між фактичними значеннями залежної змінної та відновленими називаються регресійними залишками(Residuals). У літературі використовуються також синоніми: нев'язкиі помилки. Однією з важливих оцінок критерію якості отриманої залежності є сума квадратів залишків:

Тут - Sum of Squared Errors.

Дисперсія залишків обчислюється за формулою

Тут - Mean Square Error, середньоквадратична помилка.

На графіках представлені вибірки, позначені синіми точками, та регресійні залежності, позначені суцільними лініями. По осі абсцис відкладено вільну змінну, а по осі ординат — залежну. Усі три залежності лінійні щодо параметрів.

Нелінійна регресія

Нелінійні регресійні моделі - моделі виду

які не можуть бути представлені у вигляді скалярного твору

де - Параметри регресійної моделі, - вільна змінна з простору, - Залежна змінна, - Випадкова величина і - функція з деякої заданої множини.

Значення параметрів у разі нелінійної регресії знаходять за допомогою одного з методів спуску градієнта, наприклад алгоритму Левенберга-Марквардта .

Про терміни

Термін " регресія " запроваджено Френсісом Гальтоном наприкінці 19-го століття. Гальтон виявив, що діти батьків із високим чи низьким зростанням зазвичай не успадковують видатне зростання і назвав цей феномен "регресія до посередності". Спочатку цей термін використовувався виключно у біологічному сенсі. Після робіт Карла Пірсона цей термін почали використовувати у статистиці.

У статистичній літературі розрізняють регресію за участю однієї вільної змінної та з кількома вільними змінними. одновимірнуі багатовимірнурегресію. Передбачається, що ми використовуємо кілька вільних змінних, тобто вільна змінна — вектор . У окремих випадках, коли вільна змінна є скаляром, вона позначатиметься . Розрізняють лінійнуі нелінійнурегресію. Якщо регресійну модель не є лінійною комбінацією функцій від параметрів, то говорять про нелінійну регресію. При цьому модель може бути довільною суперпозицією функцій деякого набору. Нелінійними моделями є експоненційні, тригонометричні та інші (наприклад, радіальні базисні функції або персептрон Розенблатта), що вважають залежність між параметрами і залежною змінною нелінійною.

Розрізняють параметричнуі непараметричнурегресію. Суворий кордон між цими двома типами регресій провести складно. Зараз немає загальноприйнятого критерію відхилення одного типу моделей від іншого. Наприклад, вважається, що лінійні моделі є параметричними, а моделі, що включають усереднення залежної змінної простору вільної змінної -непараметричними. Приклад параметричної регресійної моделі: лінійний предиктор, багатошаровий персептрон. Приклади змішаної регресійної моделі: функція радіального базису. Непараметрична модель - ковзне усереднення у вікні деякої ширини. В цілому, непараметрична регресія відрізняється від параметричної тим, що залежна змінна залежить не від одного значення вільної змінної, а від певної заданої околиці цього значення.

Є різницю між термінами: " наближення функцій " , " апроксимація " , " інтерполяція " , і " регресія " . Воно полягає у наступному.

Наближення функції.Дана функція дискретного чи безперервного аргументу. Потрібно знайти функцію з деякого параметричного сімейства, наприклад, серед алгебраїчних поліномів заданого ступеня. Параметри функції повинні доставляти мінімум деякому функціоналу, наприклад,

Термін апроксимація- Синонім терміна "наближення функцій". Найчастіше використовується тоді, коли йдеться про заданої функціїяк про функцію дискретного аргументу. Тут також потрібно знайти таку функцію, яка проходить найближче до всіх точок заданої функції. При цьому запроваджується поняття нев'язки- Відстань між точками безперервної функції та відповідними точками функції дискретного аргументу.

Інтерполяціяфункцій - окремий випадок завдання наближення, коли потрібно, щоб у певних точках, званих вузлами інтерполяціїзбігалися значення функції і функції, що наближає її. У загальному випадку накладаються обмеження значення деяких похідних похідних. Тобто дана функція дискретного аргументу. Потрібно знайти таку функцію, яка проходить через усі точки. При цьому метрика зазвичай не використовується, проте часто вводиться поняття "гладкості" функції, що шукається.

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика
Регресійна статистика
Множинний R 0,998364
R-квадрат 0,99673
Нормований R-квадрат 0,996321
Стандартна помилка 0,42405
Спостереження 10

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) та залежної змінної (Y).

Множинний R дорівнює квадратного кореняз коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії
Коефіцієнти Стандартна помилка t-статистика
Y-перетин 2,694545455 0,33176878 8,121757129
Змінна X 1 2,305454545 0,04668634 49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану у таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки
Спостереження Передбачене Y Залишки Стандартні залишки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

Регресійний та кореляційний аналіз – статистичні методи дослідження. Це найпоширеніші способи показати залежність будь-якого параметра від однієї чи кількох незалежних змінних.

Нижче на конкретних практичні прикладирозглянемо ці два дуже популярні серед економістів аналізу. А також наведемо приклад отримання результатів при їх об'єднанні.

Регресійний аналіз у Excel

Показує вплив одних значень (самостійних, незалежних) на залежну змінну. Наприклад, як залежить кількість економічно активного населення кількості підприємств, величини зарплати та інших. властивостей. Або як впливають іноземні інвестиції, ціни на енергоресурси та ін на рівень ВВП.

Результат аналізу дає змогу виділяти пріоритети. І ґрунтуючись на головних чинниках, прогнозувати, планувати розвиток пріоритетних напрямів, приймати управлінські рішення.

Регресія буває:

  • лінійної (у = а + bx);
  • параболічній (y = a + bx + cx 2);
  • експоненційною (y = a * exp (bx));
  • статечної (y = a * x ^ b);
  • гіперболічної (y = b/x + a);
  • логарифмічної (y = b * 1n(x) + a);
  • показовою (y = a * b^x).

Розглянемо з прикладу побудова регресійної моделі в Excel і інтерпретацію результатів. Візьмемо лінійний типрегресії.

Завдання. На 6 підприємствах була проаналізована середньомісячна заробітна плата і кількість співробітників, що звільнилися. Необхідно визначити залежність кількості співробітників, що звільнилися, від середньої зарплати.

Модель лінійної регресії має такий вигляд:

У = а 0 + а 1 х 1 + ... + а до х к.

Де а – коефіцієнти регресії, х – що впливають змінні, до – число чинників.

У нашому прикладі як У виступає показник працівників, що звільнилися. фактор, що впливає - заробітна плата (х).

У Excel існують інтегровані функції, з допомогою яких можна розрахувати параметри моделі лінійної регресії. Але найшвидше це зробить надбудова «Пакет аналізу».

Активуємо потужний аналітичний інструмент:

Після активації надбудова буде доступна на вкладці "Дані".

Тепер візьмемося безпосередньо регресійним аналізом.



Насамперед звертаємо увагу на R-квадрат та коефіцієнти.

R-квадрат – коефіцієнт детермінації. У прикладі – 0,755, чи 75,5%. Це означає, що розрахункові параметри моделі на 75,5% пояснюють залежність між параметрами, що вивчаються. Чим вищий коефіцієнт детермінації, тим якісніша модель. Добре – понад 0,8. Погано – менше 0,5 (такий аналіз навряд можна вважати резонним). У нашому прикладі - "непогано".

Коефіцієнт 64,1428 показує, яким буде Y, якщо всі змінні в моделі будуть дорівнювати 0. Тобто на значення аналізованого параметра впливають і інші фактори, не описані в моделі.

p align="justify"> Коефіцієнт -0,16285 показує вагомість змінної Х на Y. Тобто середньомісячна заробітна плата в межах даної моделі впливає на кількість звільнених з вагою -0,16285 (це невеликий ступінь впливу). Знак «-» вказує на негативний вплив: що більше зарплата, то менше звільнених. Що слушно.



Кореляційний аналіз у Excel

Кореляційний аналіз допомагає встановити, чи між показниками в одній або двох вибірках є зв'язок. Наприклад, між часом роботи верстата та вартістю ремонту, ціною техніки та тривалістю експлуатації, зростанням та вагою дітей тощо.

Якщо зв'язок є, то чи тягне збільшення одного параметра підвищення (позитивна кореляція) чи зменшення (негативна) іншого. Кореляційний аналіз допомагає аналітику визначитися, чи можна за величиною одного показника передбачити можливе значення іншого.

Коефіцієнт кореляції позначається r. Варіюється в межах від +1 до -1. Класифікація кореляційних зв'язків для різних сфербуде відрізнятись. При значенні коефіцієнта 0 лінійної залежності між вибірками немає.

Розглянемо, як з допомогою засобів Excel визначити коефіцієнт кореляції.

Для знаходження парних коефіцієнтів застосовується функція Корел.

Завдання: Визначити, чи є взаємозв'язок між часом роботи токарного верстата та вартістю його обслуговування.

Ставимо курсор у будь-яку комірку і натискаємо кнопку fx.

  1. У категорії «Статистичні» вибираємо функцію КОРРЕЛ.
  2. Аргумент "Масив 1" - перший діапазон значень - час роботи верстата: А2: А14.
  3. Аргумент "Масив 2" - другий діапазон значень - вартість ремонту: В2: В14. Тиснемо ОК.

Щоб визначити тип зв'язку, потрібно подивитися абсолютну кількість коефіцієнта (для кожної сфери діяльності є своя шкала).

Для кореляційного аналізукількох параметрів (більше 2) зручніше застосовувати «Аналіз даних» (надбудова «Пакет аналізу»). У списку потрібно вибрати кореляцію та позначити масив. Всі.

Отримані коефіцієнти відобразяться у кореляційній матриці. На кшталт такий:

Кореляційно-регресійний аналіз

Насправді ці дві методики часто застосовуються разом.

Приклад:


Тепер стали помітні й дані регресійного аналізу.

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний метод включає безліч інших методів для моделювання та аналізу декількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною і однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний методдослідження широко використовується для прогнозування, де його використання має істотну перевагу, але іноді це може призводити до ілюзії або хибних відносин, тому рекомендується акуратно його використовувати у зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велике числометодів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз на практиці залежить від форми процесу генерації даних та від того, як він ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Найраніша форма регресії – це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 і Гауссом в 1809. Лежандр і Гаусс застосували метод до завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвитоктеорії найменших квадратів у 1821 році, включаючи варіант теореми Гауса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у XIX столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типивідсутніх даних; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних галузях науки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функції X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкращим чином відповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему в β.

У разі регресійний аналіз надає інструменти для:

  • Пошуку рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним та передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Краще, що можна зробити, оцінити середнє значення і стандартне відхилення залежної змінної Y. Аналогічно вимірюючи два різних значеннях X, можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися за трьох різних значеннях незалежної змінної вектора X, то регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься у вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиноюіз середнім значенням нуля, що є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умови для оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівнянь з параметрами, які вирішуються з отриманням оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалів та перевірки гіпотез про її параметри.

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, результати регресійного аналізу під час використання нелінійного методу часом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що потрібно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які модель може підтримувати, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Відсоткова регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається більш доцільним.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, що вимагає великої кількості спостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакети програмного забезпечення виконуються за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресія та множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; Різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпеченнябуло розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.