Характеристики статистичних даних. Числові характеристики статистичного ряду. ІІ. Перевірка домашнього завдання

Звіт з лабораторних робіт

по предмету «Методи та засоби статистичної обробки даних»

Виконала: Галімова О.Р., гр. 4195

Перевірив: Мокшин В.В.

Казань, 2013

1. Індивідуальне завдання. 3

2. Планування експериментів. 4

2.1. Стратегічне планування. 4

2.1.1. D - оптимальні плани.

3. Основні статистичні характеристикиІСД. 8

4. Оцінка нормальності ІСД. 9

5. Тимчасове прогнозування. 13

6. Кореляційний аналіз. 15

7. Кластерний аналіз. 16

8. Факторний аналіз. 22

9. Регресійний аналіз. 27

10. Дисперсійний аналіз. 35

11. Оптимізація значень факторів та результативних показників ефективності. 35

Висновки.. 36

Додаток. 37

Індивідуальне завдання

BUF1 – на 3 місця;

BUF2 – необмежену кількість місць;

GOT – експоненційний закон, середнє 20000 одиниць часу;

VOSSТ -спец. ерл.закон, середнє в одній фазі 25 од. вр., кільк. фаз 3;

GT - рівномірний закон, 225 ± 25 одиниць часу;

РК1 - експоненційний закон, середнє Х1 = 100 од. часу;

РК2 - нормальний закон, середнє Х2 = 90, ст. вимкнути. 8 од. вр.;

KAN1-KANМ - рівномірний закон, 75±15 одиниць часу;

Х3=М – кількість каналів.

Вибір KANала для передачі за найменшою кількістю завдань, за якими передано інформацію. Режим недоступності накладається і знімається по KANала незалежно один від одного.

Завершити моделювання після виведення із системи 300 завдань (вирішених плюс відмови).

p align="justify"> Оптимізовані фактори: Х1 - середній час рішення на ПК1, Х2 - середній час рішення на ПК2, Х3 - кількість каналів. Х1 та Х2 змінювати на ±20% від зазначених середніх значень; Х3 від 2 до 6

Побудуємо модель у системі Arena

Рис.1 – Імітаційна модель, побудована у системі моделювання Arena

Планування експериментів

Мета планування – отримати результати із заданою достовірністю за найменших витрат. Розрізняють стратегічне та тактичне планування.

Стратегічне планування

Для стратегічного планування будемо використовувати концепцію «чорної скриньки», суть якої – абстрагування від фізичної сутності процесів, що відбуваються в системі, що моделюється, та видачі висновків про її функціонування тільки на підставі вхідних та вихідних змінних. Вхідні, незалежні змінні називають факторами. Вихідні - відгуками, їх величина залежить від значень факторів та параметрів ОІ.

Фактори в нашому випадку – це показники (параметри), які ми оптимізуватимемо; відгуки – це результативні показники ефективності функціонування системи, що моделюється. Структурна схема чорного ящика представлена ​​на малюнку 1.

Структурна схема концепції чорної скриньки

Плани другого порядку дозволяють сформувати функцію відгуку у вигляді повного квадратичного полінома, який містить більше членів, ніж неповний квадратичний поліном, сформований за планами першого порядку, і тому вимагає більшої кількості дослідів, що виконуються. Повний квадратичний поліном при m=3 має вигляд:

D – оптимальні плани

У D-оптимальні плани значення факторів не виходять за встановлені межі діапазонів їх зміни. Крім того, вони мають ще одну істотну гідність, забезпечуючи мінімальну помилку у всьому прийнятому діапазоні зміни факторів. Насправді найчастіше застосовуються плани Коно і плани Кіфера.

Рис. 2 Геометрична інтерпретація трифакторного плану Кіфера на кубі

Стратегічний планвизначає кількість варіантів системи, які потрібно промоделювати, та значення факторів у кожному варіанті. Для 3-х факторів, що оптимізуються, пропонується D-оптимальний план за алгоритмом Кіфера, який складається з 26 варіантів і представлений в Таблиці 1.

Таблиця 1 - План Кіфера для 3-х факторного експерименту

x 1 x 2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x 4 x 5 x 6
-1 -1 -1 -1 -1
-1 -1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1

Тут: ; ;

Обчислюємо значення X 1 X 2 X 3 за індивідуальним завданням. За умовою індивідуального завдання фактори, що оптимізуються: Х1 – середній час рішення на ПК1, Х2 – середній час рішення на ПК2, Х3 – кількість каналів. Х1 та Х2 змінювати на ±20% від зазначених середніх значень; Х3 від 2 до 6

На PK1 умова експоненційного закону, середня 100 од.часу, отже значення 0 - 100, 1-120, -1 -80 (оскільки змінюємо на ±20% від зазначеного середнього значення).

РК2 підпорядковується за умовою завдання нормальному закону та середнє значення 90 од. часу та модифікатором ±20 од.часу, отже 0-90, 1 - 108, -1-72. Усі дані заносимо Таблицю 2.

Таблиця 1 - Дані для факторів X1, X2, X3

-1
х1
х2
х3

Y 1 –Коефіцієнт використання ПК1 (0÷1)*100%;

Y 2 - Коефіцієнт використання ПК2 (0÷1)*100%;

Y 3 –Середній загальний час виконання завдань.

D-оптимальний план за алгоритмом Кіфера для індивідуального завдання та Відгуки Y 1 ,Y 2 ,Y 3 за факторами індивідуального завдання, представлені в Таблиці 3.

Таблиця 2 - D-оптимальний план за алгоритмом Кіфера (для індивід.зад.)

x 1 x 2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x 4 x 5 x 6

Таблиця 4 - Відгуки Y 1 Y 2 Y 3

Y 1 Y 2 Y 3
32,24 30,41 309,16
36,41 28,81 322,98
43,54 26,95 322,92
32,23 38,00 326,79
36,42 36,00 339,98
43,54 33,75 338,75
32,22 45,6 344,71
36,44 43,18 357,16
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,82 310,97
43,54 26,95 322,91
32,23 38,00 326,79
36,42 36,01 327,97
32,22 45,59 344,70
36,44 43,19 345,15
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,77 314,34
43,54 26,95 322,91
32,23 38,00 326,79
36,42 35,96 331,34
43,54 33,75 338,75
32,22 45,59 344,70
36,44 43,14 348,51
43,54 40,56 354,91

Основні статистичні характеристики ІСД.

Основними статистичними характеристиками є:

1. Valid N – обсяг вибірки;

2. Mean-середнє арифметичне. Середнє значення випадкової величини є найбільш типовим, найбільш ймовірним її значенням, своєрідним центром, навколо якого розкидані всі значення ознаки.

3. Median-медіана. Медіаною є таке значення випадкової величини, яке поділяє всі випадки вибірки на дві рівні кількості частини.

4. StandardDeviation-стандартне відхилення. Стандартне відхилення (чи середнє квадратичне відхилення) є мірою мінливості (варіації) ознаки. Воно свідчить про яку величину середньому відхиляються випадки від середнього значення ознаки.

5. Variance-дисперсія. Дисперсія є мірою мінливості, варіації ознаки і є середній квадрат відхилень випадків від середнього значення ознаки. На відміну від інших показників варіації дисперсія може бути розкладена на складові, що дозволяє тим самим оцінити вплив різних факторівна варіацію ознаки.

6. Standard error of mean -стандартна помилка середнього. Стандартна помилка середнього - це величина, яку відрізняється середнє значення вибірки від середнього значення генеральної сукупності за умови, що розподіл близько до нормального.

7. 95% confidencelimitsofmean- 95%-ий довірчий інтервал для середнього. Інтервал, куди з ймовірністю 0,95 потрапляє середнє значення ознаки генеральної сукупності.

8. Minimum, maximum- мінімальне та максимальне значення.

9. Skewness-асиметрія. Асиметрія характеризує ступінь зміщення варіаційного ряду щодо середнього значення за величиною та напрямом.

10. Standard error of Skewness - стандартна помилка асиметрії.

11. Kurtosis - ексцес. Ексцес характеризує ступінь концентрації випадків навколо середнього значення і є своєрідною мірою кривої крутості.

12. Standard error of Kurtosis -стандартна помилка ексцесу.

Таблиця 5 - Результати описової статистики


Оцінка нормальності ІСД.

Нормальний закон є найбільш уживаним. Він застосовується для представлення різних випадкових процесів, таких, як тривалість життя людей, зміни економічних і технічних показників.

Висловимо гіпотезу, що вихідні статистичні дані підпорядковані нормальному закону, і як параметри нормального закону приймемо оцінки математичного очікуваннята середнього квадратичного відхилення, обчислені за формулами.

Функція щільності нормального закону має вигляд:

; .

Якщо коефіцієнт довіри P до припущення нормальності емпіричного розподілу, який можна знайти за статистичними таблицями, не менше 0,20, то припущення нормальності не відкидається. Якщо Р до<0,20, то предположение о нормальности рекомендуется отвергнуть.

Відповідність емпіричного та гіпотетичного розподілів можна візуально простежити за графіками. При використанні критерію згоди Колмогорова краще використовувати функції розподілу. Такі графіки будуються і видаються в спеціальних програмних процедурах ППП Statistica 6.0 і Excel 2007, на які проводиться орієнтація обчислень з математичного апарату, що викладається. Уявімо розподіл змінних на гістограмах (рис.3.-рис.8.).

На гістограмах накладена щільність нормального розподілу для перевірки близькості розподілу до нормального вигляду за допомогою критерію Колмогорова-Смирнова.


Подібна інформація.


Тема 2.1.Основи статистичної обробки дослідних даних у агрономічних дослідженнях. Статистичні характеристики кількісної та якісної мінливості

План.

  1. Основи статистики
  2. Статистичні характеристики кількісної мінливості
  3. Типи статистичного розподілу
  4. Методи перевірки статистичних гіпотез

1. Основи статистики

Навколишній світ насичений інформацією - різноманітні потоки даних оточують нас, захоплюючи у полі своєї дії, позбавляючи правильного сприйняття дійсності. Не буде перебільшенням сказати, що інформація стає частиною дійсності та нашої свідомості.

Без адекватних технологій аналізу даних людина виявляється безпорадною в жорстокому інформаційному середовищі і швидше нагадує броунівську частинку, яка зазнає жорстких ударів з боку і не має раціональної раціональної ухвали рішення.

Статистика дозволяє компактно описати дані, зрозуміти їхню структуру, провести класифікацію, побачити закономірності в хаосі випадкових явищ. Навіть найпростіші методи візуального та розвідувального аналізу даних дозволяють суттєво прояснити складну ситуацію, що спочатку вражає нагромадженням цифр.

Статистичне опис сукупності об'єктів займає проміжне положення між індивідуальним описом кожного з об'єктів сукупності, з одного боку, і описом сукупності за її загальними властивостями, зовсім не вимагають її розчленування на окремі об'єкти, - з іншого. Порівняно з першим способом статистичні дані завжди більшою чи меншою мірою знеособлені і мають лише обмежену цінність у випадках, коли суттєві саме індивідуальні дані (наприклад, вчитель, знайомлячись із класом, отримає лише вельми попереднє орієнтування про стан справи з однієї статистики числа виставлених його). попередником відмінних, хороших, задовільних та незадовільних оцінок). З іншого боку, порівняно з даними про сумарні властивості сукупності, що спостерігаються ззовні, статистичні дані дозволяють глибше проникнути в істоту справи. Наприклад, дані гранулометричного аналізу породи (тобто дані про розподіл утворюють породу частинок за розмірами) дають цінну додаткову інформацію порівняно з випробуванням нерозчленованих зразків породи, дозволяючи певною мірою пояснити властивості породи, умови її утворення та інше.

Метод дослідження, що спирається на розгляд статистичних даних про ті чи інші сукупності об'єктів, називається статистичним. Статистичний метод застосовується в різних галузях знання. Проте риси статистичного методу щодо об'єктів різної природи настільки своєрідні, що було б безглуздо поєднувати, наприклад, соціально-економічну статистику, фізичну статистику.

Загальні риси статистичного методу в різних галузях знання зводяться до підрахунку кількості об'єктів, що входять до тих чи інших груп, розгляду розподілу кількостей, ознак, застосування вибіркового методу (у випадках, коли детальне дослідження всіх об'єктів великої сукупності скрутне), використання теорії ймовірностей при оцінці достатності числа спостережень для тих чи інших висновків тощо. Ця формальна математична сторона статистичних методів дослідження, байдужа до специфічної природи об'єктів, що вивчаються, і становить предмет математична статистика

Зв'язок математичної статистики з теорією ймовірностей має у різних випадках різний характер. Теорія ймовірностей вивчає не будь-які явища, а явища випадкові і саме «ймовірно випадкові», тобто такі, для яких має сенс говорити про відповідні розподіли ймовірностей. Тим не менш, теорія ймовірностей відіграє певну роль і при статистичному вивченні масових явищ будь-якої природи, які можуть не належати до категорії ймовірно випадкових. Це здійснюється через засновані на теорії ймовірностей теорію вибіркового методу та теорію помилок вимірів. У цих випадках імовірнісним закономірностям підпорядковані не самі явища, що вивчаються, а прийоми їх дослідження.

Найважливішу роль грає теорія ймовірностей під час статистичного дослідження імовірнісних явищ. Тут повною мірою знаходять застосування такі засновані на теорії ймовірностей розділи математичної статистики, як теорія статистичної перевірки ймовірнісних гіпотез, теорія статистичної оцінки розподілу ймовірностей і параметрів, що входять в них і так далі. Область застосування цих глибших статистичних методів значно вже, оскільки тут потрібно, щоб самі вивчені явища були підпорядковані досить певним ймовірнісним закономірностям.

Імовірнісні закономірності набувають статистичного виразу (ймовірності здійснюються приблизно у вигляді частот, а математичні очікування - у вигляді середніх) в силу великих чиселзакону.

Щоб виявити та оцінити найкращі агротехнічні прийоми та сорти, що вивчаються у польовому досвіді, застосовують статистичну обробку даних досвіду, представлених у вигляді розділових числових показників урожайності та інших властивостей та якостей піддослідних рослин. Ці показники характеризують явище, що вивчається, і відображають результат дії досліджуваних факторів, що виявилися в конкретному місці за певний період часу, з усіма спотвореннями, відступами від істинних даних внаслідок різних причин, що спостерігалися під час проведення досвіду.

Статистикау широкому розумінні може бути визначена як наука про кількісний аналіз масових явищ природи та суспільства, що служить для виявлення їх якісних своєрідностей.

Статистикою називається галузь знань, що поєднує принципи та методи з числовими даними, що характеризують масові явища. У цьому сенсі статистика включає кілька самостійних дисциплін: загальну теорію статистики як вступний курс, теорію ймовірностей і математичну статистику як науки про основні категорії і математичні властивості генеральної сукупності та їх вибіркових оцінках.

Слово «статистика» походить від латинського слова status – стан, стан речей. Спочатку воно використовується у значенні «політичний стан». Звідси італійське слово stato – держава та statista – знавець держави. У науковий побут слово «статистика» увійшло 18 столітті і спочатку вживалося як «державництво».

В даний час статистика може бути визначена як збирання масових даних, їх узагальнення, подання, аналіз та інтерпретація. Це особливий метод, який використовується у різних сферах діяльності, у вирішенні різноманітних завдань.

Статистика дозволяє виявити та виміряти закономірності розвитку соціально-економічних явищ та процесів, взаємозв'язку між ними. Пізнання закономірностей можливе лише тому випадку, якщо вивчаються не окремі явища, а сукупності явищ, оскільки закономірності виявляються повною мірою, лише у масі явищ. У кожному окремому явище необхідне – те, що притаманне всім явищам цього виду, проявляється у єдності з випадковим, індивідуальним, властивим лише цьому конкретному явищу.

Закономірності, у яких необхідність нерозривно пов'язана у кожному окремому явище з випадковістю і лише у багатьох явищ виявляє себе закон, називаються статистичними.

Відповідно предметом статистичного вивчення завжди виступають сукупності тих чи інших явищ, що включають усі безліч проявів досліджуваної закономірності. У великій сукупності індивідуальні різноманітності взаємно погашаються, і першому плані виходять закономірні властивості. Оскільки статистика покликана виявляти закономірне, вона, спираючись на дані про кожен окремий прояв закономірності, що вивчається, узагальнює їх і таким чином отримує кількісне вираження цієї закономірності.

Кожен крок дослідження завершується інтерпретацією отриманих результатів: який висновок можна зробити, виходячи з проведеного аналізу, що кажуть цифри – чи підтверджують вони вихідні припущення, чи відкривають щось нове? Інтерпретація даних обмежена вихідним матеріалом. Якщо висновки ґрунтуються на даних вибірки, то вона має бути репрезентативною, щоб висновки були віднесені до сукупності загалом. Статистика дозволяє з'ясувати все те корисне, що міститься у вихідних даних та визначити, що і як можна використовувати у прийнятті рішень.

Термін варіаційна статистикабув введений в 1899 Дункером для позначення методів математичної статистики, що застосовуються при вивченні деяких біологічних явищ. Дещо раніше, в 1889 році, Ф. Гальтоном був введений інший термін - біометрія(Від грецьких слів «біос» - життя і «метрейн» - вимірювати), що позначав застосування деяких методів математичної статистики щодо спадковості, мінливості та інших біологічних явищ. Грунтуючись на теорії ймовірностей, варіаційна статистика дозволяє правильно підійти до аналізу кількісного вираження явищ, що вивчаються, дати критичну оцінку достовірності отриманих кількісних показників, встановити характер зв'язку між явищами, що вивчаються, а, отже, зрозуміти їх якісну своєрідність.

Важливо пам'ятати, що кожен біологічний об'єкт має мінливість. Тобто. кожний із ознак (висота рослин, число зерен у колосі, вміст елементів живлення) у різних особин може мати різний ступінь виразності, що свідчить про коливання або варіювання ознаки.

При статистичному методі дослідження увагу зосереджено не так на окремому об'єкті, але в групі однорідних об'єктів, тобто. на деякій їхній сукупності, об'єднаних для спільного вивчення. Деяка кількість однорідних одиниць, розташованих за якоюсь однією або декількома ознаками, що змінюються, називається статистичною сукупністю.

Статистичні сукупності поділяються на:

  1. генеральні
  2. вибіркові

Генеральна сукупністьпоєднує всі можливі однорідні одиниці, що вивчаються, наприклад, рослини на полі, популяції шкідників на полі, збудники хвороб рослин. Вибіркова сукупністьє деякою частиною одиниць, взятих із загальної сукупності і потрапили на перевірку. При вивченні, наприклад, урожайності яблунь певного сорту, генеральну сукупність представляють усі дерева даного сорту, віку, які ростуть у певних однорідних умовах. Вибіркова сукупність складається з деякої кількості дерев яблуні, взятих на пробних майданчиках у насадженнях, що вивчаються.

Цілком очевидно, що при статистичних дослідженнях доводиться мати справу виключно з вибірковими сукупностями. Правильність суджень про властивості генеральної сукупності виходячи з аналізу вибіркової сукупності, передусім, залежить від її типовості. Таким чином, щоб вибірка дійсно відображала характерні властивості генеральної сукупності, вибіркова сукупність повинна об'єднувати достатню кількість однорідних одиниць, які мають властивість. репрезентативності. Репрезентативність досягається випадковим відбором варіант із генеральної сукупності, що забезпечує рівну можливість всім членів генеральної сукупності потрапити до складу вибірки.

Статистичне вивчення тих чи інших явищ у основі має аналіз мінливості показників чи величин, які входять до складу статистичних сукупностей. Статистичні величини можуть набувати різних значень, виявляючи при цьому у своїй мінливості деяку закономірність. У зв'язку з цим статистичні величини можна визначити як величини, що набувають різних значень з певними ймовірностями.

У процесі спостережень або проведення дослідів ми стикаємося з різними змінами. Одні з них мають яскраво виражений кількіснийхарактер і легко піддаються вимірам, інші не можуть бути виражені звичайним кількісним шляхом і носять типовий якіснийхарактер.

У зв'язку з цим розрізняють два типи мінливості або варіювання:

  1. кількісна
  2. якісна

2. Статистичні характеристики кількісної мінливості

Як приклад кількісної мінливості слід віднести: мінливість кількості колосків у колосі пшениці, мінливість розмірів та ваги насіння, вміст у них жирів, білків тощо. Прикладом якісного варіювання є: зміна забарвлення або опушеності різних органів рослини, гладкий і зморшкуватий горох, що володіє зеленим або жовтим забарвленням, різний ступінь ураженості рослин хворобами та шкідниками.

Кількісне варіювання у свою чергу може бути поділено на два роди: варіювання безперервне та уривчасте.

Безперервневаріювання поєднує випадки, коли досліджувані сукупності складаються зі статистичних одиниць, що визначаються вимірами або обчисленням на основі цих вимірів. Прикладом безперервного варіювання можна виразити: вага та розміри насіння, довжина міжвузлів, врожайність сільськогосподарських культур. У всіх цих випадках кількісні показники, що вивчаються, теоретично можуть приймати всі можливі значення, як цілі, так і дробові між крайніми своїми межами. Перехід від крайнього мінімального значення до максимального є теоретично поступовим і може бути представлений суцільною лінією.

При уривчастимваріюванні окремі статистичні величини є сукупність окремих елементів, що виражається не вимірюванням і обчисленням, а рахунком. Прикладом такого варіювання можуть бути зміна числа насіння в плодах, числа пелюсток в квітці, числа дерев на одиниці площі, числа кукурудзи на одній рослині. Такого типу переривчасті варіювання називаються також іноді цілими, оскільки окремі статистичні величини набувають цілком певні цілі значення, тоді як із безперервному варіюванні ці величини можуть виражатися і цілими, і дробовими значеннями.

Основними статистичними характеристиками кількісної мінливості є:

1.Середня арифметична;

Показники мінливості ознаки:

2. дисперсія;

3. стандартне відхилення;

4. коефіцієнт варіації;

5. Стандартна помилка середньої арифметичної;

6. Відносна помилка.

Середнє арифметичне. При вивченні кількісних показників, що варіюють, основною зведеною величиною є їх середнє арифметичне значення. Середнє арифметичне служить як для судження про окремі сукупності, так і для порівняння відповідних сукупностей один з одним. Отримані середні значення є основою побудови висновків й у вирішення тих чи інших практичних питань.

Для обчислення середнього арифметичного використовують таку формулу: якщо суму всіх варіант (x 1 + x 2 + … + x n) позначити через Σ x i число варіантів - через n, то середня арифметична визначається:

x порівн. =Σ x i / n)

Середнє арифметичне дає першу загальну кількісну характеристику статистичної сукупності, що вивчається. При вирішенні низки теоретичних і практичних питань, поруч із знанням середнього значення аналізованого показника, виникає у додатковому встановленні характеру розподілу варіант у цього середнього.

Об'єктам сільськогосподарських та біологічних досліджень властива мінливість ознак та властивостей у часі та у просторі. Причинами її є як внутрішні, спадкові особливості організмів, так і різна норма їхньої реакції на умови довкілля.

Виявлення характеру розсіювання – одне з основних завдань статистичного аналізу досвідчених даних, що дозволяє не лише оцінити ступінь розкиду спостережень, а й використовувати оцінку для аналізу та інтерпретації результатів дослідження.

Характер угруповання Випадок їх середнього значення, званий також розсіюванням, може бути показником ступеня мінливості досліджуваного матеріалу. Показники мінливості. Ліміти (розмах варіювання)- Це мінімальне та максимальне значення ознаки в сукупності. Чим більша різниця між ними, тим мінливіша ознака.

Дисперсія S 2 та стандартне відхилення S. Ці статистичні характеристики є основними заходами варіації (розсіювання) ознаки, що вивчається. Дисперсія (середній квадрат) – це окреме від поділу суми квадратів відхилень Σ (x –x) 2 на число всіх вимірів без одиниці:

Σ (x - x) 2 / n -1

Стандартне, або середнє квадратичне відхилення отримують шляхом вилучення квадратного кореня з дисперсії:

S = √ S 2

Стандартне відхиленняхарактеризує собою ступінь мінливості матеріалу, що вивчається, міру ступеня впливу на ознаку різних другорядних причин його варіювання, виражених в абсолютних заходах, тобто. у тих самих одиницях виміру, як і окремі значення варіант. У зв'язку з цим стандартне відхилення може бути використане лише при порівнянні мінливості статистичних сукупностей, варіанти яких виражені в однакових одиницях виміру.

У статистиці прийнято вважати, що діапазон мінливості в сукупності досить великого обсягу, які знаходяться під постійним впливом безлічі різноманітних та різноспрямованих факторів (біологічні явища), не виходять за межі 3S від середнього арифметичного значення. Про такі сукупності говорять, що вони підпорядковуються нормальному розподілу варіантів.

Зважаючи на те, що діапазон мінливості для кожної досліджуваної біологічної сукупності знаходиться в межах 3S від середнього арифметичного, чим більша величина стандартного відхилення, тим більша мінливість ознаки в досліджуваних сукупностях. Стандартне відхилення використовується як самостійний показник, так і як основа для обчислення інших показників.

При порівнянні мінливості різнорідних сукупностей необхідно користуватися мірою варіювання, що є абстрактним числом. Для цієї мети в статистиці введено коефіцієнт варіації, Під яким розуміють стандартне відхилення, виражене у відсотках до середньої арифметичної цієї сукупності:

V = S / x × 100%.

Коефіцієнт варіації дозволяє дати об'єктивну оцінку ступеня варіювання у порівнянні будь-яких сукупностей. При вивченні кількісних ознак він дозволяє виділити їх найбільш стійкі. Мінливість вважають незначною, якщо коефіцієнт варіації вбирається у 10%, середньої – якщо він від 10% до 20%, і значної – якщо він понад 20%.

На підставі розглянутих показників приходимо до судження про якісну своєрідність усієї генеральної сукупності. Очевидно, що ступінь надійності наших суджень про генеральну сукупність залежатиме насамперед від того, наскільки в тій чи іншій частині вибіркової сукупності її індивідуальні, а також випадкові особливості не заважають прояву загальних закономірностей та властивостей явища, що вивчається.

У зв'язку з тим, що при проведенні дослідних робіт та наукових досліджень у більшості випадків ми не можемо оперувати з дуже великими за чисельним складом вибірками, виникає необхідність визначення можливих помилок у наших характеристиках досліджуваного матеріалу на основі цих вибірок. Необхідно зазначити, що під помилками в даному випадку слід розуміти не похибки у обчисленнях тих чи інших статистичних показників, а межі можливих коливань їх значень щодо всієї сукупності.

Зіставлення окремих знайдених значень статистичних показників з можливими межами їх відхилень і служить, зрештою, критерієм оцінки надійності отриманих вибіркових характеристик. Дозвіл цього важливого як і теоретичному, і у практичному відносинах питання дає теорія статистичних помилок.

Подібно до того, як розподіляються варіанти варіаційного ряду біля свого середнього, так само розподілятимуться і приватні значення середніх, отриманих з окремих вибірок. Тобто, чим сильніше варіюватимуть об'єкти, тим сильніше варіюватимуть і приватні значення. Разом з тим, чим на більшій кількості варіанта будуть отримані приватні значення середніх, тим ближче вони будуть до справжнього значення середнього арифметичного всієї статистичної сукупності. На підставі вищевикладеного помилка вибіркової середньої (стандартна помилка)є мірою відхилення вибіркової середньої від середньої генеральної сукупності. Помилки вибірки виникають у результаті неповної репрезентативності вибіркової сукупності, а також при перенесенні даних, отриманих щодо вибірки, на всю генеральну сукупність. Величина помилки залежить від ступеня мінливості ознаки, що вивчається, і обсягу вибірки.

Стандартна помилка прямо пропорційна вибірковому стандартному відхилення і обернено пропорційна кореню квадратному з числа вимірювань:

S X = S / √ n

Помилки вибірки виражають у тих самих одиницях виміру, як і варіюючий ознака і показує ті межі, у яких може полягати справжнє значення середнього арифметичного вивчається генеральної сукупності. Абсолютна помилка вибіркової середньої використовується для встановлення довірчих кордонів у генеральній сукупності, достовірності вибіркових показників та різниці, а також для встановлення обсягу вибірки у науково-дослідній роботі.

Помилка середнього може бути використана для отримання показника точності дослідження. відносної помилки вибіркової середньої.Це помилка вибірки, виражена у відсотках відповідної середньої:

S X , % = S x / x ср × 100

Результати вважаються задовільними, якщо величина відносної помилки не перевищує 3-5% і відповідає задовільному рівню, при 1-2% - дуже висока точність, 2-3% - висока точність.

3. Типи статистичного розподілу

Частота прояву певних значень ознаки в сукупності називається розподілом. Розрізняють емпіричні та теоретичні розподіли частот сукупності результатів спостережень. Емпіричний розподіл – це розподіл результатів вимірів, отриманих щодо вибірки. Теоретичний розподіл передбачає розподіл вимірів виходячи з теорії ймовірностей. До них належать: нормальний (Гауссово) розподіл, розподіл Стьюдента (t – розподіл), F – розподіл, розподіл Пуассона, біномінальний.

Найбільше значення в біологічних дослідженнях має нормальний або Гауссовий розподіл - це сукупність вимірювань, в якому варіанти групуються навколо центру розподілу та їх частоти рівномірно зменшуються вправо та вліво від центру розподілу (x). Окремі варіанти відхиляються від середньої арифметичної симетрично і розмах варіації в обидві сторони не перевищує 3 σ . Нормальний розподіл характерно для сукупностей, на членів яких сумарно впливає нескінченно велика кількість різноманітних та різноспрямованих факторів. Кожен фактор вносить певну частину загальну мінливість ознаки. Нескінченні коливання чинників зумовлюють мінливість окремих членів сукупностей.

Цей критерій був розроблений Вільямом Госсеттом для оцінки якості пива в компанії Гіннес. У зв'язку з зобов'язаннями перед компанією щодо нерозголошення комерційної таємниці (а керівництво Гіннесса вважало таке використання статистичного апарату у своїй роботі), стаття Держсетта вийшла в журналі «Біометрика» під псевдонімом «Student» (Студент).

Для цього критерію необхідно, щоб вихідні дані мали нормальний розподіл. У разі застосування двовибіркового критерію для незалежних вибірок також потрібне дотримання умови рівності дисперсій. Існують, однак, альтернативи критерію Стьюдента для ситуації з нерівними дисперсіями.

У реальних дослідженнях некоректне використання критерію Стьюдента ускладнюється також і тим, що переважна більшість дослідників не тільки не перевіряють гіпотезу про рівність генеральних дисперсій, але не виконують перевірку і першого обмеження: нормальності в обох групах, що порівнюються. У результаті автори таких публікацій вводять в оману щодо справжніх результатів перевірки рівності середніх як себе, і своїх читачів. Додамо до цього ще й ігнорування проблеми множинних порівнянь, коли автори проводять попарні порівняння для трьох і більшої кількості порівнюваних груп. Зазначимо, що подібною статистичною неохайністю страждають не тільки аспіранти-початківці і претенденти, а й фахівці зодягнені різними академічними і керівними регаліями: академіки, ректори університетів, доктори і кандидати наук, і багато інших вчених.

Результатом ігнорування обмежень для t-критерію Стьюдента є помилка авторів статей та дисертацій, а далі і читачів цих публікацій щодо справжнього співвідношення генеральних середніх порівнюваних груп. Так в одному випадку приймається висновок про значну відмінність середніх, коли вони насправді не різняться, в іншому – навпаки, приймається висновок про відсутність значної різниці середніх, коли така різниця є.

Чому важливий Нормальний розподіл?Нормальний розподіл важливий з багатьох причин. Розподіл багатьох статистик є нормальним або може бути отриманий з нормальних за допомогою деяких перетворень. Розмірковуючи філософськи, можна сказати, що нормальний розподіл є однією з емпірично перевірених істин щодо загальної природи дійсності і її становище може розглядатися як один із фундаментальних законів природи. Точна форма нормального розподілу (характерна «дзвоноподібна крива») визначається лише двома параметрами: середнім та стандартним відхиленням.

Характерна властивість нормального розподілу у тому, що 68% всіх його спостережень лежать у діапазоні ± 1 стандартне відхилення від середнього, а діапазон; ± 2 стандартні відхилення містить 95% значень. Іншими словами, при нормальному розподілі, стандартизовані спостереження, менші -2 або більші +2 мають відносну частоту менше 5% (Стандартизоване спостереження означає, що з вихідного значення віднімається середнє і результат поділений на стандартне відхилення (корінь з дисперсії)). Якщо у вас є доступ до пакету STATISTICA, Ви можете обчислити точні значення ймовірностей, пов'язаних з різними значеннями нормального розподілу за допомогою Імовірнісного калькулятора; наприклад, якщо задати z-значення (тобто значення випадкової величини, що має стандартний нормальний розподіл) рівним 4, відповідний ймовірнісний рівень, обчислений STATISTICA буде меньше.0001, оскільки при нормальному розподілі практично всі спостереження (тобто більше 99, 99%) потраплять у діапазон ± 4 стандартні відхилення.

Графічний вираз цього розподілу називається Гаусової кривою, або кривою нормального розподілу. Досвідченим шляхом встановлено, що така крива часто повторює форму гістограм, що виходять при великому числіспостережень.

Форма кривої нормального розподілу та її положення визначаються двома величинами: генеральною середньою та стандартним відхиленням.

У практичних дослідженнях безпосередньо формулою не користуються, а вдаються до допомоги таблиць.

Максимум, або центр, нормального розподілу лежить у точці x = μ, точка перегину кривої знаходиться при x1 = μ - σ і x2 = μ + σ , при n = ± ∞ крива досягає нульового значення. Розмах коливань від μ вправо і вліво залежить від величини і укладається в межах трьох стандартних відхилень:

1. В області меж μ + σ знаходиться 68,26% всіх спостережень;

2. Усередині меж μ + 2 σ знаходиться 95,46% всіх значень випадкової величини;

3. В інтервалі μ + 3? знаходиться 99,73%, практично всі значення ознаки.

Чи всі статистики критеріїв нормально розподілені?Не всі, але більшість з них або мають нормальний розподіл, або мають розподіл, пов'язаний з нормальним і обчислюється на основі нормального, таке як t, F або хі-квадрат. Зазвичай ці критеріальні статистики вимагають, щоб аналізовані змінні були нормально розподілені в сукупності. Багато змінні змінні дійсно нормально розподілені, що є ще одним аргументом на користь того, що нормальний розподіл представляє "фундаментальний закон". Проблема може виникнути, коли намагаються застосувати тести, засновані на припущенні нормальності, до даних, які не є нормальними. У цих випадках ви можете вибрати один із двох. По-перше, ви можете використовувати альтернативні "непараметричні" тести (так звані "вільно розподілені критерії", див. розділ Непараметрична статистика та розподіли). Однак це часто незручно, тому що зазвичай ці критерії мають меншу потужність і мають меншу гнучкість. Як альтернативу, у багатьох випадках ви можете все ж таки використовувати тести, засновані на припущенні нормальності, якщо впевнені, що обсяг вибірки досить великий. Остання можливість заснована на надзвичайно важливому принципі, що дозволяє зрозуміти популярність тестів на основі нормальності. А саме, при зростанні обсягу вибірки, форма вибіркового розподілу (тобто розподіл вибіркової статистики критерію, цей термін був уперше використаний у роботі Фішера, Fisher 1928a) наближається до нормальної, навіть якщо розподіл досліджуваних змінних не є нормальним. Цей принцип ілюструється наступним анімаційним роликом, що показує послідовність вибіркових розподілів (отриманих для послідовності вибірок зростаючого розміру: 2, 5, 10, 15 і 30), відповідних змінним з явно вираженим відхиленням від нормальності, тобто. мають помітну асиметричність розподілу.

Однак у міру збільшення розміру вибірки, яка використовується для отримання розподілу вибіркового середнього, цей розподіл наближається до нормального. Зазначимо, що при розмірі вибірки n=30, вибірковий розподіл "майже" нормально (див. на близькість лінії підгонки).

Статистична надійність, або рівень ймовірності - це площа під кривою, обмежена від середнього на t стандартних відхилень, виражена у відсотках від усієї площі. Іншими словами, це ймовірність появи значення ознаки, що лежить в ділянці μ + t σ. Рівень значущості – це ймовірність того, що значення ознаки, що змінюється, знаходиться поза межами μ + t σ, тобто, рівень значимості вказує ймовірність відхилення випадкової величини від встановлених меж варіювання. Чим більший рівень ймовірності, тим менший рівень значущості.

У практиці агрономічних досліджень вважається за можливе користуватися ймовірностями 0,95 – 95% та 0,99 – 99%, яким називають довірчими, тобто такі, яким можна довіряти та впевнено користуватися. Так, при ймовірності 0,95 - 95% можливість зробити помилку 0,05 - 5%, або 1 на 20; за ймовірності 0,99 – 99% - відповідно 0,01 – 1%, чи 1 на 100.

Аналогічний підхід застосовний і до розподілу вибіркових середніх, оскільки всяке дослідження зводиться до порівняння середніх величин, що підпорядковуються закону нормального розподілу. Середня μ, дисперсія σ 2 та стандартне відхилення σ – параметри генеральної сукупності при n > ∞. Вибіркові спостереження дозволяють одержати оцінки цих параметрів. Для великих вибірок (n>20-30, n>100) закономірності нормального розподілу об'єктивні їх оцінок, тобто у області x ± S перебуває 68,26%, x ± 2S - 95,46%, x ± 3S – 99, 73% всіх спостережень. Середня арифметична та стандартне відхилення зараховують до основних характеристик, за допомогою яких задається емпіричний розподіл вимірів.

4. Методи перевірки статистичних гіпотез

Висновки з будь-якого сільськогосподарського чи біологічного експерименту потрібно оцінити з урахуванням їхньої значущості, або суттєвості. Таку оцінку проводять шляхом порівняння варіантів досвіду один з одним або з контролем (стандартом) або з теоретично очікуваним розподілом.

Статистична гіпотеза- наукове припущення про ті чи інші статистичні закони розподілу випадкових величин, що розглядаються, яке може бути перевірене на основі вибірки. Порівнюють сукупності шляхом перевірки нульової гіпотези – про відсутність реальної різниці між фактичними та теоретичними спостереженнями, користуючись найбільш відповідним статистичним критерієм. Якщо в результаті перевірки різницю між фактичними та теоретичними показниками близькі до нуля або знаходяться в області допустимих значень, то нульова гіпотеза не спростовується. Якщо ж відмінності виявляються в критичній для даного статистичного критерію області, неможливі за нашої гіпотези і тому несумісні з нею, нульова гіпотеза спростовується.

Ухвалення нульової гіпотези означає, що дані не суперечать припущенню про відсутність відмінностей між фактичними та теоретичними показниками. Спростування гіпотези означає, що емпіричні дані несумісні з нульовою гіпотезою і вірна інша, альтернативна гіпотеза. Справедливість нульової гіпотези перевіряється обчисленням статистичних критеріїв перевірки певного рівня значимості.

Рівень значимості характеризує, як ми ризикуємо помилитися, відкидаючи нульову гіпотезу, тобто. яка ймовірність відхилення від встановлених меж варіювання випадкової величини. Тому, що більший рівень ймовірності, то менше рівень значущості.

Поняття про ймовірність нерозривно пов'язане з поняттям про випадковій події. У сільськогосподарських та біологічних дослідженнях внаслідок властивої живим організмам мінливості під впливом зовнішніх умовпоява події може бути випадковим чи невипадковим. Невипадковими будуть такі події, які виходять за межі можливих випадкових вагань вибіркових спостережень. Ця обставина дозволяє визначити ймовірність появи як випадкових, і невипадкових подій.

Таким чином, ймовірність– міра об'єктивної можливості події, відношення числа сприятливих випадків до загального числа випадків. Рівень значущості показує ймовірність, з якою гіпотеза, що перевіряється, може дати помилковий результат. У практиці сільськогосподарських досліджень вважається за можливе користуватися ймовірностями 0,95 (95%) і 0.99 (99%), яким відповідають такі рівні значимості 0,05 – 5% та 0,01 – 1%. Ці можливості отримали назву довірчих ймовірностей, тобто. таких, яким можна довіряти.

Статистичні критерії, що використовуються для оцінки розбіжності між статистичними сукупностями, бувають двох видів:

1) параметричні (з метою оцінки сукупностей, мають нормальний розподіл);

2) непараметричні (застосовують до розподілів будь-якої форми).

У практиці сільськогосподарських та біологічних досліджень зустрічаються два типи дослідів.

У деяких дослідах варіанти пов'язані один з одним одним або декількома умовами, контрольованими дослідником. Внаслідок цього досвідчені дані варіюють не незалежно, а пов'язано, Оскільки вплив умов, що пов'язують варіанти, проявляється, як правило, однозначно. До такого типу дослідів відносяться, наприклад, польове випробування з повторностями, кожна з яких розташовується на ділянці порівняно однакової родючості. У цьому досвіді зіставляти варіанти друг з одним можна лише межах повторення. Інший приклад пов'язаних спостережень – вивчення фотосинтезу; тут об'єднуючою умовою є особливості кожної піддослідної рослини.

Поруч із часто порівнюють сукупності, варіанти яких змінюються незалежно друг від друга. Несопряженными, незалежними є варіювання ознак рослин, вирощених різних умовах; у вегетаційних дослідах повторностями служать судини однойменних варіантів, і будь-який посуд одного варіанта можна порівнювати з будь-якою судиною іншого.

Статистична гіпотеза- Деяке припущення про закон розподілу випадкової величини або про параметри цього закону в рамках даної вибірки.

Приклад статистичної гіпотези: "генеральна сукупність розподілена за нормальним законом", "відмінність між дисперсіями двох вибірок незначна" і т.д.

При аналітичних розрахунках часто необхідно висувати та перевіряти гіпотези. Перевірка статистичної гіпотези здійснюється за допомогою статистичного критерію відповідно до наступного алгоритму:

Гіпотеза формулюється у термінах розходження величин. Наприклад, є випадкова величина x та константа a. Вони не рівні (арифметично), але потрібно встановити, чи значуща статистично між ними відмінність?

Існує два типи критеріїв:

Слід зазначити, що знаки ≥, ≤, = тут використовуються над арифметичному, а «статистичному» сенсі. Їх необхідно читати «значно більше», «значно менше», «відмінність незначна».

Метод за критерієм t-Ст'юдента

При порівнянні середніх двох незалежних вибірок застосовують метод за t – критерієм Стьюдента, Запропонований англійським вченим Ф. Госсет. За допомогою цього методу оцінюється суттєвість різниці середніх (d = x 1 – x 2). Він заснований на розрахунку фактичних та табличних значень та їх порівнянні.

У теорії статистики помилка різниці або суми середніх арифметичних незалежних вибірок при однаковій кількості спостережень (n 1 + n 2) визначається за такою формулою:

S d = √ S X1 2 + S X2 2 ,

де S d – помилка різниці або суми;

S X1 2 і S X2 2 - помилки порівнюваних середніх арифметичних.

Гарантією надійності висновку про суттєвість чи несуттєвість відмінностей між середніми арифметичними є відношення різниці до її помилки. Це ставлення отримало назву критерію суттєвості різниці:

t = x 1 - x 2 / "√ S X1 2 + S X2 2 = d / S d .

Теоретичне значення критерію t знаходять за таблицею, знаючи число ступенів свободи Y = n 1 + n 2 – 2 та прийнятий рівень значущості.

Якщо t факт ≥ t теор, нульова гіпотеза про відсутність суттєвості відмінностей між середніми спростовується, а якщо відмінності знаходяться в межах випадкових коливань прийнятого рівня значущості – не спростовується.

Метод інтервальної оцінки

Інтервальна оцінкахарактеризується двома числами - кінцями інтервалу, що покриває оцінюваний параметр. І тому слід визначити довірчі інтервали для можливих значень середньої генеральної сукупності. При цьому x є точковою оцінкою генеральної середньої, тоді точкову оцінку генеральної середньої можна записати так: x ± t 0,5 *S X , де t 0,5 *S X гранична помилка вибіркової середньої при даному числі ступенів свободи і прийнятому рівні значущості.

Довірчий інтервал– це такий інтервал, який із заданою ймовірністю покриває параметр, що оцінюється. Центр інтервалу – вибіркова оцінка точки. Межі, або довірчі межі, визначаються середньою помилкою оцінки та рівнем ймовірності - x - t 0,5 * S X і x + t 0,5 * S X . Значення критерію Стьюдента для різних рівнів значущості та числа ступенів свободи наводяться у таблиці.

Оцінка різниці середніх сполучених рядів

Оцінку різниці середніх для об'єднаних вибірок обчислюють розносним методом. Сутність у тому, що оцінюється суттєвість середньої різниці шляхом попарного порівняння варіантів досвіду. Для знаходження S d різницевим методом обчислюють різницю між парами спостережень d, визначають значення середньої різниці (d = Σ d / n) і помилку середньої різниці за формулою:

S d = √ Σ (d - d) 2 / n (n - 1)

Критерій суттєвості обчислюють за формулою: t = d/S d. Число ступенів свободи знаходять за рівністю Y= n-1, де n-1 – число пар.

Контрольні питання

  1. Що таке варіаційна статистика (математична, біологічна статистика, біометрія)?
  2. Що називається сукупністю? Види сукупностей.
  3. Що називається мінливістю, варіацією? Види мінливості.
  4. Дайте визначення варіаційного ряду.
  5. Назвіть статистичні показники кількісної мінливості.
  6. Розкажіть про показники мінливості ознаки.
  7. Як обчислюється дисперсія, її властивості?
  8. Які ви знаєте теоретичні розподіли?
  9. Що таке середнє квадратичне відхилення, його властивості?
  10. Які знаєте закономірності нормального розподілу?
  11. Назвіть показники якісної мінливості та формули їх обчислення.
  12. Що таке довірчий інтервал та статистична надійність?
  13. Що таке абсолютна та відносна помилка вибіркової середньої, як їх обчислити?
  14. Коефіцієнт варіації та її обчислення при кількісній та якісній мінливості.
  15. Назвіть статистичні методиперевірки гіпотез.
  16. Дайте визначення статистичної гіпотези.
  17. Що таке нульова та альтернативна гіпотеза?
  18. Що таке довірчий інтервал?
  19. Що таке пов'язані та незалежні вибірки?
  20. Як визначається інтервальна оцінка параметрів генеральної сукупності?

Лабораторна робота №9

Статистичний аналіз даних

Мета роботи: навчитися опрацьовувати статистичні дані в електронних таблицях за допомогою вбудованих функцій; вивчити можливості Пакету аналізу в MS Excel 2010 та його деякі інструменти: Генерація випадкових чисел, Гістограма, Описова статистика.

Теоретична частина

Дуже часто для обробки даних, отриманих в результаті обстеження великої кількості об'єктів чи явищ ( статистичних даних), використовуються методи математичної статистики.

Сучасна математична статистика поділяється на дві великі області: описовуі аналітичну статистику. Описова статистика охоплює методи опису статистичних даних, представлення їх у формі таблиць, розподілів та ін.

Аналітична статистика називається також теорією статистичних висновків. Її предметом є обробка даних, отриманих в ході експерименту, і формулювання висновків, що мають прикладне значення для різних галузей людської діяльності.

Отриманий у результаті обстеження набір чисел називається статистичною сукупністю.

Вибірковою сукупністю(або вибіркою) називається сукупність випадково відібраних об'єктів. Генеральною сукупністюназивається сукупність об'єктів, з якої проводиться вибірка. Об'ємомсукупності (генеральної чи вибіркової) називається число об'єктів цієї сукупності.

Для статистичної обробки результати дослідження об'єктів представляють у вигляді чисел x 1 ,x 2 ,…, x k. Якщо значення x 1 спостерігалося n 1 раз, значення x 2 спостерігалося n 2 разів, і т.д., то спостерігаються значення x iназиваються варіантами, а числа їх повторень n iназиваються частотами. Процедура підрахунку частот називається групуванням даних.

Обсяг вибірки n дорівнює сумівсіх частот n i:

Відносною частотоюзначення x iназивається відношення частоти цього значення n iдо обсягу вибірки n:

Статистичним розподілом частот(або просто розподілом частот) називається перелік варіантів і відповідних їм частот, записаних у вигляді таблиці:



Розподілом відносних частотназивається перелік варіантів і відповідних їм відносних частот.


Основні статистичні показники.

Сучасні електронні таблиці мають величезний набір коштів на аналізу статистичних даних. Статистичні функції, що найчастіше використовуються, вбудовуються в основне ядро ​​програми, тобто ці функції доступні з моменту запуску програми. Інші спеціалізовані функції входять додаткові підпрограми. Зокрема, в Excel така підпрограма називається Пакетом аналізу. Команди та функції пакету аналізу називають інструментами аналізу. Ми обмежимося вивченням кількох основних вбудованих статистичних функцій та найкорисніших інструментів аналізу з пакета аналізу в електронній таблиці Excel.

Середнє значення.

Функція СРЗНАЧ обчислює вибіркове (чи генеральне) середнє, тобто середнє арифметичне значення ознаки вибіркової (чи генеральної) сукупності. Аргументом функції СРЗНАЧ є набір чисел, як правило, що задається у вигляді інтервалу осередків, наприклад =СРЗНАЧ (А3:А201).

ЛЕКЦІЯ 2

Основні поняття математичної статистики.Вибірковий метод. Числові характеристикистатистичних рядів Точкові статистичні оцінки та вимоги до них. Метод довірчих інтервалів. Перевірка статистичних гіпотез.

Розділ 3.
БАЗОВІ ПОНЯТТЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ

Вибірковий метод

У цьому розділі наводиться короткий оглядосновних понять та результатів математичної статистики, що використовуються в курсі економетрики.

Однією з центральних завдань математичної статистики є виявлення закономірностей у статистичних даних, основі яких можна будувати відповідні моделі і приймати обдумані рішення. Перше завданняматематичної статистики полягає у розробці методів збору та угруповання статистичних відомостей, отриманих у результаті спостережень або в результаті спеціально поставлених дослідів. Друге завданняматематичної статистики полягає у розробці методів обробки та аналізу статистичних даних в залежності від цілей дослідження. Елементами такого аналізу, зокрема, є оцінка параметрів відомої функції розподілу, перевірка статистичних гіпотез про вид розподілу тощо.

Між математичною статистикою та теорією ймовірностей є тісний взаємозв'язок. Теорія ймовірностей широко застосовується при статистичному вивченні масових явищ, які можуть і не належать до категорії випадкових. Це здійснюється через теорію вибіркового методу. Тут імовірнісних закономірностей підпорядковуються не самі явища, що вивчаються, а методи їх дослідження. Крім того, теорія ймовірностей відіграє важливу роль під час статистичного дослідження ймовірнісних явищ. У цих випадках явища, що вивчаються, підкоряються цілком певним імовірнісним закономірностям.

Основним завданням математичної статистики є розробка методів отримання науково обґрунтованих висновків про масові явища та процеси з даних спостережень чи експериментів. Наприклад, потрібно провести контроль якості виготовленої партії деталей чи дослідити якість технологічного процесу. Можна, звісно, ​​провести суцільне обстеження, тобто. обстежити кожну деталь партії. Однак якщо деталей занадто багато, то провести суцільне обстеження фізично неможливо, а якщо обстеження об'єкта пов'язане з його знищенням або потребує великих витрат, проводити суцільне обстеження не має сенсу. Тому доводиться зі всієї сукупності об'єктів обстеження відбирати лише частина, тобто. проводити вибіркове обстеження. Таким чином, на практиці часто доводиться давати оцінку параметрів великої сукупності по невеликій кількості обраних випадковим чином елементів.



Вся сукупність об'єктів, що підлягає вивченню, називається генеральною сукупністю. Та частина об'єктів, яка була відібрана з генеральної сукупності, називається вибірковою сукупністюабо коротше – вибіркою. Домовимося, позначати обсяг вибірки буквою n, а обсяг генеральної сукупності буквою N.

Вибірка, у випадку, утворюється з метою оцінки будь-яких показників генеральної сукупності. Однак не будь-яка вибірка може давати реальне уявлення про генеральну сукупність. Наприклад, деталі, як правило, виготовляються робітниками різної кваліфікації. Якщо на контроль потраплять лише деталі, виготовлені робітниками нижчої кваліфікації, то уявлення про якість усієї продукції буде «заниженим», якщо тільки деталі, виготовлені робітниками більш високої кваліфікації, то ця вистава буде завищеною.

Для того щоб за даними вибірки можна було впевнено судити про цікаву для нас ознаку генеральної сукупності необхідно, щоб об'єкти вибірки правильно її представляли. Іншими словами, вибірка має правильно представляти пропорції генеральної сукупності. Цю вимогу коротко формулюють так: вибірка має бути репрезентативної(або представницької) .

Репрезентативність вибірки забезпечується випадковістю відбору. При випадковому доборі всі об'єкти генеральної сукупності мають однакову можливість потрапити у вибірку. У цьому випадку, в силу закону великих чисел, можна стверджувати, що вибірка буде репрезентативною. Наприклад, про якість зерна судять по невеликій її пробі. Хоча число навмання відібраних зерен мало в порівнянні з усією масою зерна, але саме по собі воно досить велике. Отже, характеристики вибіркової сукупності ймовірно мало чим відрізнятимуться від характеристик генеральної сукупності.

Розрізняють повторніі безповторні вибірки. У першому випадку відібраний об'єкт перед відбором наступного повертається генеральну сукупність. У другому – відібраний у вибірку об'єкт не повертається у генеральну сукупність. Якщо обсяг вибірки значно менший за обсяг генеральної сукупності, то обидві вибірки будуть практично еквівалентні.

У багатьох випадках для аналізу тих чи інших економічних процесівважливим є порядок отримання статистичних даних. Але при розгляді про просторових даних порядок їх отримання не відіграє істотної ролі. Крім того, результати вибіркових значень x 1 , x 2 , …, x nкількісної ознаки XГенеральної сукупності, записані в порядку їх реєстрації, зазвичай важкооглядні та незручні для подальшого аналізу. Завданням опису статистичних даних є отримання такого їхнього уявлення, яке дозволить наочно виявити імовірнісні характеристики. Для цього застосовуються різні формивпорядкування та угруповання даних.

Статистичний матеріал, що у результаті спостережень (вимірювань) можна записати як таблиці, що з двох рядків. У першому рядку зазначається номер виміру, у другому – отриманого значення. Така таблиця називається простим статистичним рядом:

i n
x 1 x 2 x i x n

Однак за великої кількості вимірів статистичний ряд важко аналізувати. Тому результати спостережень необхідно якимось чином упорядкувати. Для цього спостерігаються значення мають у порядку їх зростання:

де. Такий статистичний ряд називається ранжованим.

Оскільки деякі значення статистичного ряду можуть мати однакові значення, їх можна об'єднати. Тоді кожному значенню x iбуде поставлено у відповідність число n i, що дорівнює частоті появи даного значення:

x 1 x 2 x k
n 1 n 2 n k

Такий ряд називається згрупованим.

Ранжований та згрупований ряд називається варіаційним. Значення, що спостерігаються x iназиваються варіантами, а кількість всіх спостережень варіанти n iчастотою. Число всіх спостережень nназивається обсягомваріаційного ряду. Відношення частоти n iдо обсягу ряду nназивається відносною частотою:

Крім дискретних варіаційних рядів, застосовуються і інтервальніваріаційні ряди. Для побудови такого ряду необхідно визначити величину інтервалів і відповідно до них групувати результати спостережень:

[x 1 ,x 2 ] (x 2 ,x 3 ] (x 3 ,x 4 ] (x k-1, x k ]
n 1 n 2 n 3 n k

Інтервальний варіаційний ряд будують зазвичай у тих випадках, коли кількість варіантів, що спостерігалися, дуже велика. Зазвичай така ситуація виникає під час спостереження за безперервною величиною(наприклад, вимір будь-якої фізичної величини). Між інтервальними та дискретними варіаційними рядами існує певний взаємозв'язок: будь-який дискретний ряд можна записати у вигляді інтервального та навпаки.

Для графічного опису дискретного варіаційного ряду використовую полігон. Для побудови полігону в прямокутної системикоординат наносять крапки з координатами ( x i,n i) або ( x i,w i). Потім ці точки з'єднують відрізками. Отримана ламана лінія називається полігоном (див. рис. 3.1а).

Для графічного опису інтервального варіаційного ряду використовують гістограму. Для її побудови осі абсцис відкладають відрізки, що зображують інтервали варіювання, і на цих відрізках, як на підставі, будують прямокутники з висотами, рівними частотам або відносним частотам відповідного інтервалу. В результаті виходить фігура, що складається з прямокутників, яка називається гістограмою (див., наприклад, рис. 3.1б).

а б
Рис. 3.1

Числові характеристики статистичного ряду

Побудова варіаційного низки – лише перший крок до осмислення низки спостережень. Цього недостатньо для повного дослідженнярозподілу досліджуваного явища. Найбільш зручним та повним методомє аналітичний спосібдослідження ряду, що полягає у обчисленні числових показників. Числові характеристики, що застосовуються для дослідження варіаційних рядів, аналогічні до тих, що застосовуються в теорії ймовірностей.

Найбільш природною характеристикою варіаційного ряду є поняття середньої величини. У статистиці використовують кілька видів середніх величин: середнє арифметичне, середнє геометричне, середнє гармонійне та ін. Найпоширенішим є поняття середньої арифметичної величини:

Якщо за даними спостережень збудовано варіаційний ряд, то використовується поняття середньої зваженої арифметичної величини:

. (3.3)

Середня арифметична величина має ті самі властивості, що й математичне очікування.

Як міру розсіювання значень спостерігається величини навколо свого середнього значення приймають величину

, (3.4)

яка, як і в теорії ймовірностей, називається дисперсією. Величина

називається середнім квадратичним відхиленням(або стандартним відхиленням). Статистична дисперсія має ті самі властивості, що і ймовірнісна дисперсія, і для її обчислення можна використовувати альтернативну формулу

. (3.6)

Приклад 3.1.Територіями регіону наводяться дані за 199X р. (таб. 3.1).

Таблиця 3.1

Знайти середнє арифметичне та стандартне відхилення. Побудуйте гістограму частот.

Рішення.Для розрахунку середньої арифметичної та дисперсії будуємо розрахункову таблицю (табл. 3.4):

Таблиця 3.4

x i n i n i x i n i x i 2
Сума

Тут замість x iвзято середини відповідних інтервалів. За даними таблиці знаходимо:

, ,

Побудуємо гістограму частот за вихідними даними (рис. 3.3). â

Розглядаючи основні статистичні характеристики ряду, оцінюють центральну тенденцію вибірки та коливання, або варіацію . Центральну тенденцію вибіркидозволяють оцінити такі статистичні характеристики, як середнє арифметичне значення, мода, медіана. Середня величина характеризує групові властивості, є центром розподілу, займає центральне становищеу загальній масі значень ознаки, що варіюють.

Середнє арифметичне значеннядля невпорядкованого ряду вимірів обчислюють шляхом підсумовування всіх вимірів та поділу суми на число вимірів за формулою: = ,

де – сума всіх значень x i, n - загальне числовимірів.

Модою(Мо) називають результат вибірки або сукупності, що найчастіше зустрічається у цій вибірці. Для інтервального варіаційного ряду модальний інтервал вибирається найбільшою частотою. Наприклад, у ряді з цифр: 2, 3, 4, 4, 4, 5, 6, 6, 7 модою є 4, тому що зустрічається частіше за інші числа.

У разі коли всі значення в групі зустрічаються однаково часто, прийнято вважати, що група не має моди. Коли два сусідніх значення мають однакову частоту і вони більші за частоту будь-якого іншого значення, мода є середнє цих двох значень. Наприклад, серед цифр: 2, 3, 4, 4, 5, 5, 6, 7 модою є 4,5. Якщо два несуміжні значення групи мають рівні частоти і вони більше частот будь-якого значення, то є дві моди. Наприклад, у ряді цифр: 2, 3, 3, 4, 5, 5, 6, 7 модами є 3 і 5.

Медіана(Ме) – результат виміру, що у середині ранжированного ряду. Медіана ділить впорядковане безліч навпіл отже половина значень виявляється більше медіани, іншу – менше. Якщо ряд чисел містить непарну кількість значень, то медіаною є середнє значення. Наприклад, у ряді чисел: 6, 9, 11 , 19, 31 медіана число 11

Якщо дані містять парну кількість вимірювань, то медіаною є число, що становить середнє між двома центральними значеннями. Наприклад, у ряді чисел: 6, 9, 11, 19, 31, 48 медіана дорівнює (11+19): 2 = 15.

Моду та медіану використовують для оцінки середнього при вимірі в шкалах порядку (а моду також і в номінальних шкалах).

До характеристик варіації, чи коливання, результатів вимірів відносять розмах, середнє квадратичне відхилення, коефіцієнт варіації та інших.

Усі середні характеристики дають загальну характеристикунизки результатів вимірів. Насправді нас часто цікавить, як кожен результат відхиляється від середнього значення. Однак легко можна уявити, що дві групи результатів вимірів мають однакові середні, але різні значення вимірів. Наприклад, для ряду 3, 6, 3 – середнє значення = 4, для ряду 5, 2, 5 також середнє значення = 4, незважаючи на суттєву різницю цих рядів.



Тому середні характеристики завжди необхідно доповнювати показниками варіації чи коливання. Найпростішою характеристикою варіації є розмах варіювання, який визначається як різницю між найбільшим і найменшим результатами вимірювань. Однак він уловлює лише крайні відхилення, але не відбиває відхилень усіх результатів.

Щоб дати узагальнювальну характеристику, можна визначити відхилення від середнього результату. Середнє квадратичне відхиленняобчислюється за такою формулою:

де Х – максимальний показник; X – найменший показник; К – табличний коефіцієнт (додаток 4).

Середнє квадратичне відхилення (воно називається також стандартним відхиленням) має самі одиниці виміру, як і результати виміру. Однак для порівняння коливання двох і більше сукупностей, що мають різні одиниці виміру, ця характеристика не придатна. І тому використовується коефіцієнт варіації.

Коефіцієнт варіаціївизначається як відношення середнього квадратичного відхилення до середнього арифметичного, виражене у відсотках. Обчислюється він за такою формулою: V = . 100%

Коливання результатів вимірювань в залежності від величини коефіцієнта варіації вважають невеликою (0-10%), середньою (11-20%) і великою (>20%).

Коефіцієнт варіації має важливе значення, оскільки, будучи величиною відносною (вимірюється у відсотках), дозволяє порівнювати між собою коливання результатів вимірювань, що мають різні одиниці виміру. p align="justify"> Коефіцієнт варіації можна використовувати лише в тому випадку, якщо вимірювання виконані в шкалі відносин.



Ще один показник розсіювання – стандартна (середня квадратична) помилка середньої арифметичної. Цей показник (зазвичай він позначається символами m чи S) характеризує коливання середньої.

Стандартна помилка середньої арифметичної обчислюється за такою формулою:

де σ – стандартне відхилення результатів виміру, n – обсяг вибірки.