Характеристики на статистическите данни. Числени характеристики на статистическите редове. II. Проверка на домашните

Лабораторен доклад

по темата "Методи и средства за статистическа обработка на данни"

Изпълнено от: Галимова А.Р., гр. 4195

Проверен от: Мокшин В.В.

Казан, 2013 г

1. Индивидуална задача. 3

2. Планиране на експерименти. четири

2.1. Стратегическо планиране. четири

2.1.1. D - оптимални планове.. 5

3. Основен статистически характеристики ISD. осем

4. Оценка на нормалността на ISD. 9

5. Времево прогнозиране. 13

6. Корелационен анализ. 15

7. Клъстерен анализ. 16

8. Факторен анализ. 22

9. Регресионен анализ. 27

10. Дисперсионен анализ. 35

11. Оптимизиране на стойностите на факторите и показателите за ефективност. 35

Изводи.. 36

Приложение. 37

Индивидуална задача

BUF1 - за 3 места;

BUF2 - неограничен брой места;

GOT - експоненциален закон, средно 20000 единици време;

VOSST - спец. earl.law, средно в една фаза 25 единици. време, число фаза 3;

GT − единен закон, 225±25 времеви единици;

RK1 - експоненциален закон, средно Х1=100 единици. време;

RK2 − нормален закон, средно Х2=90, чл. изключено 8 единици вр.;

KAN1-KANМ – единен закон, 75±15 времеви единици;

Х3=М – брой канали.

Избор на KANal за предаване чрез най-малък брой задачи, за които се предава информация. Режимът на недостъпност се наслагва и премахва чрез канали, независимо един от друг.

Прекратете симулацията, след като излезете от 300 задачи (решени плюс грешки).

Оптимизирани фактори: Х1 – средно време за решаване на PC1, Х2 – средно време за решаване на PC2, Х3 – брой канали. Х1 и Х2 се променят с ± 20% от посочените средни стойности; X3 от 2 до 6.

Нека изградим модел в системата Arena

Фиг.1 - Симулационен модел, изграден в симулационната система Arena

Проектиране на експерименти

Целта на планирането е да се получат резултати с определена надеждност при най-ниски разходи. Правете разлика между стратегическо и тактическо планиране.

Стратегическо планиране

За стратегическо планиране ще използваме концепцията за „черна кутия“, чиято същност е абстрахиране от физическата същност на процесите, протичащи в симулираната система, и издаване на заключения за нейното функциониране само въз основа на входни и изходни променливи. Входните независими променливи се наричат ​​фактори. Изход - отговори, тяхната стойност зависи от стойностите на факторите и параметрите на OI.

Факторите в нашия случай са показатели (параметри), които ще оптимизираме; отговорите са ефективни индикатори за ефективността на функционирането на симулираната система. Блоковата схема на черната кутия е показана на фигура 1.

Фиг.1 Блокова схема на концепцията за черната кутия

Плановете от втори ред ви позволяват да формирате функция на отговор под формата на пълен квадратичен полином, който съдържа повече членове, отколкото непълен квадратен полином, образуван от планове от първи ред, и следователно изисква по-голям брой експерименти да бъдат извършени. Пълният квадратен полином за m=3 има формата:

D - оптимални планове

AT д- в оптималните планове стойностите на факторите не излизат извън установените граници на диапазоните на тяхното изменение. Освен това те имат още едно съществено предимство, осигурявайки минимална грешка в целия приет диапазон на изменение на факторите. В практиката най-често се използват плановете на Коно и плановете на Кийфър.

Ориз. 2 Геометрична интерпретация на трифакторния план на Кийфър върху куб

стратегически планопределя броя на вариантите на моделираната система и стойностите на факторите във всеки вариант. За 3 оптимизирани фактора е предложен D-оптимален план съгласно алгоритъма на Kiefer, който се състои от 26 опции и е представен в таблица 1.

Таблица 1 - Планът на Кийфър за 3-факторен експеримент

х 1 x2 х 3 х 1 х 2 х 1 х 3 х 2 х 3 x 1 x 2 x 3 x4 x5 x6
-1 -1 -1 -1 -1
-1 -1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1

Тук: ; ;

Изчисляваме стойностите на X 1 , X 2 , X 3 по индивидуална задача. Според условието на индивидуалната задача факторите, които се оптимизират са: Х1 – средно време за решаване на PC1, Х2 – средно време за решаване на PC2, Х3 – брой канали. Х1 и Х2 се променят с ± 20% от посочените средни стойности; X3 от 2 до 6.

При PK1, условието на експоненциалния закон, средната стойност е 100 единици време, следователно стойността е 0 - 100, 1-120, -1 -80 (като променяме с ± 20% от определената средна стойност.

RK2 се подчинява на нормалния закон според условието за задание и средната стойност е 90 единици. време и модификатор ±20 времеви единици, следователно 0-90, 1 – 108, -1-72. Всички данни се въвеждат в таблица 2.

Таблица 1 - Данни за фактори X 1 , X 2 , X 3

-1
x1
x2
x3

Y 1 – PC1 коефициент на използване (0÷1)*100%;

Y 2 - коефициент на използване на PK2 (0÷1)*100%;

Y 3 – Средно общо време за изпълнение на задачите.

D-оптималният план по алгоритъма на Кийфър за индивидуална задача и отговорите Y 1 ,Y 2 ,Y 3 върху факторите на индивидуалната задача са представени в таблица 3.

Таблица 2 - D-оптимален план според алгоритъма на Kiefer (за индивидуални задачи)

х 1 x2 х 3 х 1 х 2 х 1 х 3 х 2 х 3 x 1 x 2 x 3 x4 x5 x6

Таблица 4 - Отговори Y 1, Y 2, Y 3

Y 1 Y2 Y 3
32,24 30,41 309,16
36,41 28,81 322,98
43,54 26,95 322,92
32,23 38,00 326,79
36,42 36,00 339,98
43,54 33,75 338,75
32,22 45,6 344,71
36,44 43,18 357,16
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,82 310,97
43,54 26,95 322,91
32,23 38,00 326,79
36,42 36,01 327,97
32,22 45,59 344,70
36,44 43,19 345,15
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,77 314,34
43,54 26,95 322,91
32,23 38,00 326,79
36,42 35,96 331,34
43,54 33,75 338,75
32,22 45,59 344,70
36,44 43,14 348,51
43,54 40,56 354,91

Основни статистически характеристики на ИСД.

Основните статистически характеристики са:

1. Valid N - размер на извадката;

2. Mean - средно аритметично. Средната стойност на случайна променлива е нейната най-типична, най-вероятна стойност, един вид център, около който са разпръснати всички стойности на атрибута.

3. Медиана - медиана. Медианата е стойността на случайна променлива, която разделя всички случаи в извадката на две равни части.

4. StandardDeviation - стандартно отклонение. Стандартното отклонение (или стандартното отклонение) е мярка за променливостта (вариацията) на даден признак. Той показва колко случаи се отклоняват средно от средната стойност на атрибута.

5. Дисперсия - дисперсия. Дисперсията е мярка за променливост, вариация на признак и е средният квадрат на отклоненията на случаите от средната стойност на признака. За разлика от други показатели за вариация, дисперсията може да бъде разложена на съставните си части, което дава възможност да се оцени влиянието на различни факториза вариация на чертите.

6. Стандартна грешка на средната стойност Стандартната грешка на средната стойност е количеството, с което средната стойност на извадката се различава от средната стойност на популацията, при условие че разпределението е близко до нормалното.

7. 95% доверителни граници на средната стойност - 95% доверителен интервал за средната стойност. Интервалът, в който средната стойност на характеристиката на генералната съвкупност попада с вероятност 0,95.

8. Минимум, максимум - минимални и максимални стойности.

9. Изкривяване-асиметрия. Асиметрията характеризира степента на изместване на вариационния ред спрямо средната стойност по величина и посока.

10. Standard error of Skewness – стандартна грешка на асиметрия.

11. Ексцес - излишък. Ексцесът характеризира степента на концентрация на случаите около средната стойност и е вид мярка за стръмността на кривата.

12. Стандартна грешка на ексцеса

Таблица 5 - Резултати от описателна статистика


Оценка на нормалността на ISD.

Нормалният закон е най-често използваният. Използва се за представяне на голямо разнообразие от случайни процеси, като продължителността на живота на хората, промените в икономическите и техническите показатели.

Нека изразим хипотезата, че първоначалните статистически данни се подчиняват на нормалния закон, а като параметри на нормалния закон ще приемем оценките математическо очакванеи стандартно отклонение, изчислено по формулите.

Функцията на плътността на нормалния закон има формата:

; .

Ако коефициентът на доверие P в предположението за нормалност на емпиричното разпределение, което може да се намери от статистическите таблици, е не по-малко от 0,20, тогава предположението за нормалност не се отхвърля. Ако P до<0,20, то предположение о нормальности рекомендуется отвергнуть.

Съответствието между емпиричното и хипотетичното разпределение може да се проследи визуално от графиките. Когато се използва критерият за съответствие на Колмогоров, за предпочитане е да се използват функции на разпределение. Такива графики се изграждат и издават в специални софтуерни процедури на софтуерната програма Statistica 6.0 и Excel 2007, върху които се ориентират изчисленията според посочения математически апарат. Нека си представим разпределението на променливите върху хистограми (фиг.3.-фиг.8.).

Плътността на нормалното разпределение се наслагва върху хистограмите, за да се провери близостта на разпределението до нормалната форма, като се използва критерият на Колмогоров-Смирнов.


Подобна информация.


Тема 2.1.Основи на статистическата обработка на експериментални данни в агрономическите изследвания. Статистически характеристики на количествената и качествена променливост

Планирайте.

  1. Основи на статистиката
  2. Статистически характеристики на количествената променливост
  3. Видове статистическо разпределение
  4. Методи за проверка на статистически хипотези

1. Основи на статистиката

Светът около нас е наситен с информация - различни потоци от данни ни заобикалят, улавят ни в полето на своето действие, лишавайки ни от правилното възприемане на реалността. Няма да е преувеличено, ако кажем, че информацията става част от реалността и нашето съзнание.

Без адекватни технологии за анализ на данни, човек се оказва безпомощен в жестока информационна среда и по-скоро прилича на браунова частица, изпитваща силни удари отвън и неспособна да вземе рационално решение.

Статистиката ви позволява компактно да опишете данните, да разберете тяхната структура, да ги класифицирате и да видите модели в хаоса от случайни явления. Дори най-простите методи за визуален и проучвателен анализ на данни могат значително да изяснят сложна ситуация, която първоначално поразява с купчина числа.

Статистическото описание на множество обекти заема междинно положение между индивидуалното описание на всеки от обектите на множеството, от една страна, и описанието на множеството според неговите общи свойства, което не налага разделянето му на отделни обекти изобщо, от друга. В сравнение с първия метод, статистическите данни винаги са повече или по-малко безлични и имат само ограничена стойност в случаите, когато индивидуалните данни са значими (например, учител, запознавайки се с клас, ще получи само много предварителна ориентация за състоянието на нещата от една статистика за броя на изобличения му предшественик с отлични, добри, задоволителни и незадоволителни оценки). От друга страна, в сравнение с данните за външно наблюдаваните общи свойства на популацията, статистическите данни позволяват по-дълбоко вникване в същността на въпроса. Например, данните от гранулометричния анализ на скалата (т.е. данните за разпределението на частиците, образуващи скалата по размер) предоставят ценна допълнителна информация в сравнение с тестването на неразделени скални проби, което позволява до известна степен да се обяснят свойствата на скалата, условията за нейното образуване и др.

Методът на изследване, основан на разглеждането на статистически данни за определени набори от обекти, се нарича статистически. Статистическият метод намира приложение в различни области на знанието. Но особеностите на статистическия метод, когато се прилага към обекти от различно естество, са толкова специфични, че би било безсмислено да се комбинират например социално-икономическа статистика с физическа статистика.

Общите характеристики на статистическия метод в различни области на знанието се свеждат до преброяване на броя на обектите, включени в определени групи, като се има предвид разпределението на количествата, характеристиките, прилагането на метода на извадката (в случаите, когато подробно изследване на всички обекти на огромна популацията е трудна), използвайки теорията на вероятностите при оценката на достатъчността броя на наблюденията за определени заключения и т.н. Тази формална математическа страна на статистическите методи на изследване, безразлична към специфичния характер на изследваните обекти, е предметът математическа статистика

Връзката между математическата статистика и теорията на вероятностите има различен характер в различните случаи. Теорията на вероятностите не изучава никакви явления, а случайни явления и точно „вероятностно случайни“, тоест тези, за които има смисъл да се говори за съответните им разпределения на вероятностите. Въпреки това теорията на вероятностите играе определена роля в статистическото изследване на масови явления от всякакво естество, които не могат да бъдат класифицирани като вероятностно случайни. Това се постига чрез теорията на вземането на проби и теорията на грешките при измерване, базирана на теорията на вероятностите. В тези случаи вероятностните закономерности се подчиняват не на самите изследвани явления, а на методите за тяхното изследване.

По-важна роля играе теорията на вероятностите в статистическото изследване на вероятностните явления. Тук намират пълно приложение такива раздели на математическата статистика, основани на теорията на вероятностите, като теорията за статистическото тестване на вероятностните хипотези, теорията за статистическата оценка на вероятностните разпределения и техните параметри и т.н. Областта на приложение на тези по-дълбоки статистически методи е много по-тясна, тъй като тук се изисква самите изследвани явления да бъдат подчинени на достатъчно определени вероятностни закони.

Вероятностните модели получават статистически израз (вероятностите се извършват приблизително под формата на честоти, а математическите очаквания - под формата на средни стойности) поради големи числазакон.

За идентифициране и оценка на най-добрите земеделски практики и сортове, изследвани в полевия опит, се използва статистическа обработка на опитните данни, представени под формата на графики с числени показатели за добивите и други свойства и качества на опитните растения. Тези показатели характеризират изследваното явление и отразяват резултата от действието на изследваните фактори, които се проявяват на определено място за определен период от време, с всички изкривявания, отклонения от истинските данни поради различни причини, наблюдавани по време на експеримента.

Статистикав широк смисъл може да се определи като наука за количествен анализ на масови явления на природата и обществото, който служи за идентифициране на техните качествени характеристики.

Статистиката е клон на знанието, който съчетава принципи и методи с числени данни, характеризиращи масови явления. В този смисъл статистиката включва няколко независими дисциплини: общата теория на статистиката като въвеждащ курс, теорията на вероятностите и математическата статистика като наука за основните категории и математически свойства на генералната съвкупност и техните селективни оценки.

Думата "статистика" произлиза от латинската дума status - състояние, състояние на нещата. Първоначално се използва в смисъла на "политическо състояние". Оттук и италианската дума stato – състояние и statista – познавач на държавата. Думата „статистика“ влиза в научна употреба през 18 век и първоначално се използва като „държавна наука“.

Понастоящем статистиката може да се определи като събиране на масови данни, тяхното обобщаване, представяне, анализ и интерпретация. Това е специален метод, който се използва в различни области на дейност, при решаване на различни проблеми.

Статистиката позволява да се идентифицират и измерват моделите на развитие на социално-икономическите явления и процеси, връзката между тях. Познаването на закономерностите е възможно само ако се изучават не отделни явления, а съвкупности от явления, тъй като закономерностите се проявяват изцяло, само в масата от явления. Във всяко отделно явление необходимото - това, което е присъщо на всички явления от даден тип, се проявява в единство със случайното, индивидуалното, присъщо само на това конкретно явление.

Моделите, при които необходимостта е неразривно свързана във всяко отделно явление със случайността и само в множество явления законът се проявява, се наричат ​​статистически.

Съответно обект на статистическо изследване винаги е съвкупността от определени явления, включително цялата съвкупност от прояви на изследваната закономерност. В голяма съвкупност отделните разновидности взаимно се компенсират и редовните свойства излизат на преден план. Тъй като статистиката е предназначена да идентифицира закономерността, тя, разчитайки на данни за всяко отделно проявление на изследваната закономерност, ги обобщава и по този начин получава количествен израз на тази закономерност.

Всяка стъпка от изследването завършва с интерпретация на резултатите: какво заключение може да се направи от анализа, какво казват числата – потвърждават ли първоначалните предположения или разкриват нещо ново? Тълкуването на данните е ограничено от изходния материал. Ако заключенията се основават на извадкови данни, тогава извадката трябва да е представителна, за да могат заключенията да се приложат към популацията като цяло. Статистиката ви позволява да разберете всичко полезно, което се съдържа в изходните данни и да определите какво и как може да се използва при вземането на решения.

Срок вариационна статистикае въведен през 1899 г. от Дънкер, за да обозначи методите на математическата статистика, използвани при изследването на определени биологични явления. Малко по-рано, през 1889 г., Ф. Галтън въвежда друг термин - биометрия(от гръцките думи "биос" - живот и "метър" - измерване), обозначаващи използването на определени методи на математическата статистика при изследване на наследствеността, променливостта и други биологични явления. Въз основа на теорията на вероятностите вариационната статистика позволява правилно да се подходи към анализа на количественото изразяване на изследваните явления, да се даде критична оценка на надеждността на получените количествени показатели, да се установи естеството на връзката между изследваните явления , и, следователно, да се разбере тяхната качествена оригиналност.

Важно е да запомните, че всеки биологичен обект има променливост. Тези. всеки от признаците (височина на растението, брой зърна на клас, съдържание на хранителни вещества) при различните индивиди може да има различна степен на изразеност, което показва изменчивостта или вариативността на признака.

При статистическия метод на изследване вниманието се фокусира не върху отделен обект, а върху група еднородни обекти, т.е. върху част от тяхната съвкупност, обединени за съвместно изучаване. Определен брой хомогенни единици, разположени според една или повече променящи се характеристики, се нарича статистическа съвкупност.

Статистическите агрегати се разделят на:

  1. общ
  2. селективен

Населениеобединява всички възможни хомогенни изследвани единици, например растения в поле, популации на вредители в поле, растителни патогени. Извадкова популацияпредставлява част от единиците, взети от общата съвкупност и трябва да се проверят. Когато се изследва, например, добива на ябълкови дървета от определен сорт, генералната съвкупност е представена от всички дървета от даден сорт, възраст, растящи в определени хомогенни условия. Наборът от проби се състои от определен брой ябълкови дървета, взети от опитни площи в изследваните насаждения.

Съвсем очевидно е, че при статистическите изследвания трябва да се работи изключително с извадкови съвкупности. Правилността на преценките за свойствата на генералната съвкупност въз основа на анализа на извадката от съвкупността зависи преди всичко от нейната типичност. По този начин, за да може извадката наистина да отразява характерните свойства на генералната съвкупност, извадката трябва да включва достатъчен брой хомогенни единици, които имат свойството представителност. Представителността се постига чрез случаен подбор на вариант от генералната съвкупност, което осигурява равна възможност на всички членове на генералната съвкупност да попаднат в извадката.

Статистическото изследване на определени явления се основава на анализа на променливостта на показатели или величини, които съставляват статистическите съвкупности. Статистическите стойности могат да приемат различни стойности, като същевременно разкриват определена закономерност в тяхната променливост. В тази връзка статистическите величини могат да бъдат определени като величини, които приемат различни стойности с определени вероятности.

В процеса на наблюдения или експерименти се сблъскваме с различни видове променливи показатели. Някои от тях носят подчертан количественприрода и са лесно измерими, докато други не могат да бъдат изразени по обичайния количествен начин и са типични качественхарактер.

В тази връзка се разграничават два вида променливост или вариация:

  1. количествен
  2. качество

2. Статистически характеристики на количествената променливост

Като пример за количествена променливост трябва да се включат: променливостта на броя на класчетата в класа на пшеницата, променливостта на размера и теглото на семената, съдържанието им на мазнини, протеини и др. Пример за качествена вариация е: промяна в цвета или опушването на различни растителни органи, гладък и набръчкан грах, който има зелен или жълт цвят и различна степен на увреждане на растенията от болести и неприятели.

Количествената вариация от своя страна може да се раздели на два вида: вариация непрекъснато и периодично.

непрекъснатовариация включва случаи, когато изследваните популации се състоят от статистически единици, определени чрез измервания или изчисления, базирани на тези измервания. Пример за непрекъсната промяна може да бъде изразен: теглото и размера на семената, дължината на междувъзлията, добивите. Във всички тези случаи изследваните количествени показатели теоретично могат да приемат всички възможни стойности, както цели, така и дробни между техните крайни граници. Преходът от крайната минимална стойност към максималната е теоретично постепенен и може да бъде представен с плътна линия.

При прекъсващвариация, индивидуалните статистически величини са колекция от отделни елементи, изразени вече не чрез измерване и не чрез изчисление, а чрез преброяване. Пример за такава вариация е промяната в броя на семената в плодовете, броя на венчелистчетата в цвета, броя на дърветата на единица площ, броя на царевичните кочани на растение. Прекъснатите вариации от този тип понякога се наричат ​​и цели числа, тъй като отделните статистически величини придобиват съвсем определени цели числа, докато при непрекъсната вариация тези величини могат да бъдат изразени както като цели, така и като дробни стойности.

Основните статистически характеристики на количествената променливост са следните:

1. Средно аритметично;

Индикатори за изменчивост на признака:

2. дисперсия;

3. стандартно отклонение;

4. коефициент на вариация;

5. Стандартна грешка на средноаритметичното;

6. Относителна грешка.

Средноаритметично. При изследване на различни количествени показатели основната сумарна стойност е тяхното средно аритметично. Средноаритметичната стойност служи както за преценка на отделните изследвани популации, така и за сравняване на съответните популации една с друга. Получените средни стойности са основа за извеждане на изводи и за решаване на определени практически въпроси.

За изчисляване на средната аритметична стойност се използва следната формула: ако сумата от всички опции (x 1 + x 2 + ... + x n) се обозначава с Σ x i, броят на опциите - с n, тогава средната аритметична стойност е определен:

x вж. =Σ x i / n)

Средноаритметичното дава първата обща количествена характеристика на изследваната статистическа съвкупност. При решаването на редица теоретични и практически въпроси, наред с познаването на средната стойност на анализирания показател, става необходимо допълнително да се установи естеството на разпределението на варианта около тази средна стойност.

Обектите на селскостопанските и биологичните изследвания се характеризират с променливост на признаци и свойства във времето и пространството. Причините за това са както вътрешните, наследствени особености на организмите, така и различната норма на тяхната реакция към условията на околната среда.

Разкриването на природата на разсейването е една от основните задачи на статистическия анализ на експерименталните данни, което позволява не само да се оцени степента на разсейване на наблюдението, но и да се използва тази оценка за анализ и интерпретация на резултатите от изследването.

Характерът на варианта на групиране в близост до тяхната средна стойност, наричан още разсейване, може да служи като индикатор за степента на променливост на изследвания материал. Индикатори за променливост. Граници (диапазон на вариация)са минималните и максималните стойности на характеристиката в съвкупността. Колкото по-голяма е разликата между тях, толкова по-променлив е знакът.

Дисперсия S 2 и стандартно отклонение S. Тези статистически характеристики са основните мерки за вариация (разсейване) на изследвания признак. Дисперсията (среден квадрат) е частното от сумата на квадратите на отклоненията Σ (x – x) 2, разделено на броя на всички измервания без единица:

Σ (x - x) 2 / n -1

Стандартът или стандартното отклонение се получава, като се вземе корен квадратен от дисперсията:

S = √ S 2

Стандартно отклонениехарактеризира степента на променливост на изследвания материал, мярката за степента на влияние върху чертата на различни вторични причини за нейната вариация, изразена в абсолютно изражение, т.е. в същите единици като отделните стойности на варианта. В тази връзка стандартното отклонение може да се използва само когато се сравнява променливостта на статистически съвкупности, чиито варианти са изразени в едни и същи мерни единици.

В статистиката е общоприето, че диапазонът на променливост в агрегати с достатъчно голям обем, които са под постоянното влияние на много различни и многопосочни фактори (биологични явления), не надхвърля 3S от средното аритметично. Твърди се, че такива популации следват нормално разпределение на вариантите.

Поради факта, че диапазонът на вариабилност за всяка изследвана биологична популация е в рамките на 3S от средноаритметичната стойност, колкото по-голямо е стандартното отклонение, толкова по-голяма е вариабилността на признака в изследваните популации. Стандартното отклонение се използва като независим индикатор и като основа за изчисляване на други показатели.

Когато се сравнява променливостта на хетерогенни популации, е необходимо да се използва мярка за вариация, която е абстрактно число. За тази цел въведената статистика коефициентът на вариация, което се разбира като стандартно отклонение, изразено като процент от средната аритметична стойност на тази популация:

V = S / x × 100%.

Коефициентът на вариация ви позволява да дадете обективна оценка на степента на вариация при сравняване на всякакви популации. Когато изучавате количествени характеристики, ви позволява да изберете най-стабилните от тях. Променливостта се счита за незначителна, ако коефициентът на вариация не надвишава 10%, средна - ако е от 10% до 20%, и значителна - ако е повече от 20%.

Въз основа на разгледаните показатели стигаме до преценка за качественото своеобразие на цялата генерална съвкупност. Очевидно степента на надеждност на нашите преценки за генералната съвкупност ще зависи преди всичко от степента, в която в една или друга част от извадката нейните индивидуални, както и случайни признаци, не пречат на проява на общи закономерности и свойства на изследваното явление.

Поради факта, че в повечето случаи при провеждане на експериментална работа и научни изследвания не можем да оперираме с много големи проби, става необходимо да се определят възможните грешки в нашите характеристики на изследвания материал въз основа на тези проби. Трябва да се отбележи, че в този случай грешките трябва да се разбират не като грешки в изчисленията на определени статистически показатели, а граници на възможните колебания на техните стойности по отношение на цялата популация.

Сравнението на индивидуално установените стойности на статистическите показатели с възможните граници на техните отклонения в крайна сметка служи като критерий за оценка на надеждността на получените характеристики на извадката. Решението на този важен въпрос, както теоретично, така и практически, се предоставя от теорията на статистическите грешки.

Точно както вариантите на вариационните серии са разпределени около тяхната средна стойност, частичните стойности на средните стойности, получени от отделни проби, ще бъдат разпределени по същия начин. Тоест, колкото повече изследваните обекти варират, толкова повече частните стойности ще варират. В същото време, колкото по-частни стойности на средните стойности се получават при по-голям брой варианти, толкова по-близо ще бъдат те до истинската стойност на средноаритметичната стойност на цялата статистическа популация. Въз основа на гореизложеното средна грешка на извадката (стандартна грешка)е мярка за отклонението на средната стойност на извадката от средната стойност на генералната съвкупност. Грешките в извадката възникват в резултат на непълната представителност на извадката, както и при прехвърляне на данните, получени от изследването на извадката, към цялата популация. Стойността на грешката зависи от степента на променливост на изследваната характеристика и размера на извадката.

Стандартната грешка е право пропорционална на стандартното отклонение на извадката и обратно пропорционална на корен квадратен от броя на измерванията:

S X = S / √ n

Извадковите грешки се изразяват в същите мерни единици като знака на променливата и показват границите, в които може да се намира истинската стойност на средноаритметичната стойност на изследваната популация. Абсолютната грешка на средната извадка се използва за установяване на доверителни граници в генералната съвкупност, надеждността на извадковите показатели и разликата, както и за установяване на размера на извадката в изследователската работа.

Грешката на средната стойност може да се използва за получаване на индикатор за точността на изследването - относителна грешка на средната стойност на извадката.Това е извадковата грешка, изразена като процент от съответната средна стойност:

S X , % = S x / x cf × 100

Резултатите се считат за доста задоволителни, ако относителната грешка не надвишава 3-5% и съответства на задоволително ниво, с 1-2% - много висока точност, 2-3% - висока точност.

3. Видове статистическо разпределение

Честотата на проявление на определени стойности на характеристика в съвкупността се нарича разпределение. Разграничете емпиричните и теоретичните честотни разпределения на съвкупността от резултатите от наблюденията. Емпиричното разпределение е разпределението на резултатите от измерванията, получени от изследването на извадката. Теоретичното разпределение предполага разпределението на измерванията въз основа на теорията на вероятностите. Те включват: нормално (гаусово) разпределение, разпределение на Стюдънт (t - разпределение), F - разпределение, разпределение на Поасон, бином.

Най-важното в биологичните изследвания е нормалното или Гаусово разпределение - това е набор от измервания, в които вариантите са групирани около центъра на разпределение и техните честоти намаляват равномерно вдясно и вляво от центъра на разпределение (x). Индивидуалните варианти се отклоняват симетрично от средноаритметичната стойност, като диапазонът на вариация в двете посоки не надвишава 3 σ. Нормалното разпределение е характерно за популации, чиито членове са колективно повлияни от безкраен брой разнообразни и многопосочни фактори. Всеки фактор допринася с определена част за общата променливост на признака. Безкрайните колебания на факторите причиняват променливостта на отделните членове на съвкупностите.

Този критерий е разработен от Уилям Госет за оценка на качеството на бирата в Гинес. Във връзка със задълженията към компанията да не разкрива търговски тайни (а ръководството на Гинес смяташе използването на статистическия апарат в работата си за такова), статията на Госет беше публикувана в списание Biometrics под псевдонима "Студент" (Student).

За да се приложи този критерий, е необходимо оригиналните данни да имат нормално разпределение. В случай на прилагане на двупробен тест за независими проби също е необходимо да се спазва условието за равенство на дисперсиите. Съществуват обаче алтернативи на t-теста на Student за ситуации с неравни дисперсии.

В реални проучвания неправилното използване на t-теста на Стюдънт също се усложнява от факта, че по-голямата част от изследователите не само не тестват хипотезата за равенство на общите дисперсии, но също така не тестват първото ограничение: нормалността в двете сравнени групи. В резултат на това авторите на подобни публикации заблуждават както себе си, така и своите читатели относно истинските резултати от проверката на средствата. Нека добавим към това факта, че проблемът с множеството сравнения се игнорира, когато авторите правят сравнения по двойки за три или повече сравнявани групи. Трябва да се отбележи, че от такава статистическа небрежност страдат не само начинаещи студенти и кандидати, но и специалисти, облечени с различни академични и управленски регалии: академици, ректори на университети, доктори и кандидати на науките и много други учени.

Резултатът от пренебрегването на ограниченията за t-теста на Стюдънт е объркването на авторите на статии и дисертации, а след това и на читателите на тези публикации, по отношение на истинското съотношение на общите средни стойности на сравняваните групи. Така в единия случай се прави извод за съществена разлика в средствата, когато те всъщност не се различават, а в другия, напротив, се прави извод за липса на съществена разлика в средствата, когато такава разлика съществува.

Защо нормалното разпределение е важно?Нормалното разпределение е важно по много причини. Разпределението на много статистики е нормално или може да бъде получено от нормално с някои трансформации. Философски погледнато, можем да кажем, че нормалното разпределение е една от емпирично проверените истини за общата природа на реалността и нейното положение може да се счита за един от основните закони на природата. Точната форма на нормалното разпределение (характерната "камбанообразна крива") се определя само от два параметъра: средната стойност и стандартното отклонение.

Характерно свойство на нормалното разпределение е, че 68% от всички негови наблюдения се намират в рамките на ±1 стандартно отклонение от средната стойност и диапазона; ± 2 стандартни отклонения съдържа 95% от стойностите. С други думи, с нормално разпределение стандартизираните наблюдения по-малки от -2 или по-големи от +2 имат относителна честота по-малка от 5% (Стандартизираното наблюдение означава, че средната стойност се изважда от първоначалната стойност и резултатът се разделя на стандартната отклонение (корен на дисперсията)). Ако имате достъп до пакета STATISTICA, можете да изчислите точните вероятности, свързани с различни стойности на нормалното разпределение, като използвате Вероятностния калкулатор; например, ако зададете z-стойността (т.е. стойността на случайна променлива, която има стандартно нормално разпределение) на 4, съответното ниво на вероятност, изчислено от STATISTICA, ще бъде по-малко от .0001, защото с нормално разпределение почти всички наблюдения (т.е. повече от 99, 99%) ще попаднат в рамките на ±4 стандартни отклонения.

Графичният израз на това разпределение се нарича крива на Гаус или крива на нормалното разпределение. Експериментално е установено, че такава крива често повтаря формата на хистограмите, получени с големи числанаблюдения.

Формата на кривата на нормалното разпределение и нейното положение се определят от две стойности: обща средна стойност и стандартно отклонение.

В практическите изследвания те не използват директно формулата, а прибягват до помощта на таблици.

Максимумът или центърът на нормалното разпределение се намира в точката x = μ, инфлексната точка на кривата е при x1= ​​μ - σ и x2= μ + σ, при n = ± ∞ кривата достига нула. Диапазонът на колебанията от μ надясно и наляво зависи от стойността на σ и е в рамките на три стандартни отклонения:

1. 68,26% от всички наблюдения са в областта на границите μ + σ;

2. В рамките на μ + 2 σ има 95,46% от всички стойности на случайната променлива;

3. В интервала μ + 3σ е 99,73%, почти всички стойности на характеристиката.

Нормално разпределени ли са статистическите данни за всички критерии?Не всички, но повечето от тях или имат нормално разпределение, или имат разпределение, свързано с нормалното и изчислено от нормалното, като t, F или хи-квадрат. Обикновено тези критериални статистики изискват самите анализирани променливи да бъдат нормално разпределени в популацията. Много от наблюдаваните променливи наистина са нормално разпределени, което е още един аргумент, че нормалното разпределение представлява „фундаментален закон“. Проблем може да възникне, когато се опитвате да приложите тестове, базирани на предположението за нормалност към данни, които не са нормални. В тези случаи можете да изберете едно от двете. Първо, можете да използвате алтернативни „непараметрични“ тестове (така наречените „свободно разпространявани тестове“, вижте раздел Непараметрични статистики и разпределения). Това обаче често е неудобно, тъй като тези критерии обикновено са по-малко мощни и по-малко гъвкави. Като алтернатива в много случаи все още можете да използвате тестове, базирани на предположението за нормалност, ако сте сигурни, че размерът на извадката е достатъчно голям. Последната възможност се основава на изключително важен принцип за разбиране на популярността на тестовете, базирани на нормалност. А именно, когато размерът на извадката се увеличава, формата на разпределението на извадката (т.е. разпределението на извадковата статистика на теста, терминът е използван за първи път от Fisher, Fisher 1928a) се доближава до нормалното, дори ако разпределението на изследваните променливи не е нормално. Този принцип е илюстриран от следната анимация, показваща поредица от разпределения на извадки (получени за поредица от извадки с нарастващ размер: 2, 5, 10, 15 и 30), съответстващи на променливи с ясно изразено отклонение от нормалността, т.е. с подчертано изкривено разпределение.

Въпреки това, тъй като размерът на извадката, използван за извличане на разпределението на средната стойност на извадката, се увеличава, това разпределение се доближава до нормалното. Имайте предвид, че при размер на извадката от n=30, разпределението на извадката е „почти“ нормално (вижте плътно прилягащата линия).

Статистическата надеждност или нивото на вероятност е площта под кривата, ограничена от средната стойност с t стандартни отклонения, изразена като процент от общата площ. С други думи, това е вероятността за поява на стойност на характеристика, лежаща в областта μ + t σ. Нивото на значимост е вероятността стойността на променящия се атрибут да е извън границите μ + t σ, т.е. нивото на значимост показва вероятността случайна променлива да се отклони от установените граници на вариация. Колкото по-високо е нивото на вероятност, толкова по-ниско е нивото на значимост.

В практиката на агрономическите изследвания се счита за възможно да се използват вероятности от 0,95 - 95% и 0,99 - 99%, които се наричат ​​увереност, тоест тези, на които може да се вярва и да се използват уверено. Така че, с вероятност от 0,95 - 95%, възможността за грешка от 0,05 - 5%, или 1 на 20; с вероятност 0,99 - 99% - съответно 0,01 - 1%, или 1 на 100.

Подобен подход е приложим за разпределението на извадковите средни, тъй като всяко изследване се свежда до сравнение на средни, които се подчиняват на нормалния закон за разпределение. Средното μ, дисперсията σ 2 и стандартното отклонение σ са параметрите на генералната съвкупност при n > ∞. Примерните наблюдения позволяват да се получат оценки на тези параметри. За големи проби (n>20-30, n>100), нормалните модели на разпределение са обективни за техните оценки, т.е. 68,26% са в областта x ± S, 95,46% са в областта x ± 2S, 99,46% са в областта x ± 3S, 73% от всички наблюдения. Средноаритметичното и стандартното отклонение са сред основните характеристики, чрез които се задава емпиричното разпределение на измерванията.

4. Методи за проверка на статистически хипотези

Заключенията от всеки земеделски или биологичен експеримент трябва да се преценяват въз основа на тяхната значимост или същественост. Такава оценка се извършва чрез сравняване на вариантите на опита един с друг, или с контрола (стандарт), или с теоретично очакваното разпределение.

Статистическа хипотеза- научно предположение за определени статистически закони на разпределение на разглежданите случайни променливи, което може да бъде проверено на базата на извадка. Сравнете популациите, като тествате нулевата хипотеза, че няма реална разлика между действителните и теоретичните наблюдения, като използвате най-подходящия статистически тест. Ако в резултат на тестването разликите между действителните и теоретичните показатели са близки до нула или са в диапазона на допустимите стойности, тогава нулевата хипотеза не се опровергава. Ако разликите се окажат в областта, критична за дадения статистически критерий, невъзможна според нашата хипотеза и следователно несъвместима с нея, нулевата хипотеза се опровергава.

Приемането на нулевата хипотеза означава, че данните не противоречат на предположението, че няма разлика между действителното и теоретичното представяне. Опровергаването на хипотезата означава, че емпиричните доказателства не са в съответствие с нулевата хипотеза и друга, алтернативна хипотеза е вярна. Валидността на нулевата хипотеза се тества чрез изчисляване на критериите за статистически тест за определено ниво на значимост.

Нивото на значимост характеризира степента, в която рискуваме да направим грешка, като отхвърлим нулевата хипотеза, т.е. каква е вероятността за отклонение от установените граници на вариация на случайна променлива. Следователно, колкото по-високо е нивото на вероятност, толкова по-ниско е нивото на значимост.

Понятието вероятност е неразривно свързано с понятието за случайно събитие. В селскостопански и биологични изследвания, поради променливостта, присъща на живите организми под въздействието външни условиянастъпването на дадено събитие може да бъде случайно или неслучайно. Неслучайни събития ще бъдат тези, които надхвърлят границите на възможните случайни флуктуации на примерни наблюдения. Това обстоятелство ни позволява да определим вероятността за възникване както на случайни, така и на неслучайни събития.

По този начин, вероятност- мярка за обективната възможност за събитие, съотношението на броя на благоприятните случаи към общия брой случаи. Нивото на значимост показва вероятността, с която тестваната хипотеза може да даде грешен резултат. В практиката на селскостопанските изследвания се счита за възможно да се използват вероятности от 0,95 (95%) и 0,99 (99%), които съответстват на следните нива на значимост от 0,05 - 5% и 0,01 - 1%. Тези вероятности се наричат ​​доверителни вероятности, т.е. тези, на които може да се вярва.

Статистическите критерии, използвани за оценка на несъответствието между статистическите популации, са два вида:

1) параметрични (за оценка на популации, които имат нормално разпределение);

2) непараметрични (приложени към разпределения от всякаква форма).

В практиката на селскостопанските и биологичните изследвания има два вида опити.

В някои експерименти вариантите са свързани помежду си чрез едно или повече условия, контролирани от изследователя. В резултат на това експерименталните данни не варират независимо, а конюгат, тъй като влиянието на условията, свързващи вариантите, се проявява, като правило, недвусмислено. Този тип експерименти включват например полеви опити с повторения, всяко от които е разположено на място с относително еднаква плодовитост. В такъв експеримент е възможно да се сравняват варианти един с друг само в границите на повторение. Друг пример за свързани наблюдения е изследването на фотосинтезата; тук обединяващото условие са характеристиките на всяко опитно растение.

Заедно с това често се сравняват популации, чиито варианти се променят независимо един от друг. Неконюгирани, независими са вариациите на характеристиките на растенията, отглеждани при различни условия; в експериментите с растителност съдовете от едни и същи варианти служат като повторения и всеки съд от един вариант може да се сравни с всеки съд от друг.

Статистическа хипотеза- някакво предположение за закона за разпределение на случайна променлива или за параметрите на този закон в рамките на дадената извадка.

Пример за статистическа хипотеза: "генералната съвкупност е разпределена по нормалния закон", "разликата между дисперсиите на двете извадки е незначителна" и др.

При аналитичните изчисления често е необходимо да се представят и тестват хипотези. Статистическата хипотеза се тества с помощта на статистически критерий в съответствие със следния алгоритъм:

Хипотезата е формулирана от гледна точка на разликата в стойностите. Например, има произволна стойност x и константа a. Те не са равни (аритметично), но трябва да установим дали разликата между тях е статистически значима?

Има два вида критерии:

Трябва да се отбележи, че знаците ≥, ≤, = тук се използват не в аритметичен, а в „статистически“ смисъл. Те трябва да се четат „значително повече“, „значително по-малко“, „разликата е незначителна“.

Метод t-тест на Стюдънт

Когато сравняваме средните стойности на две независими проби, използваме метод по t - критерий на Стюдънтпредложен от английския учен Ф. Госет. С помощта на този метод се оценява значимостта на разликата в средните стойности (d \u003d x 1 - x 2). Тя се основава на изчисляване на действителни и таблични стойности и тяхното сравнение.

В теорията на статистиката грешката на разликата или сумата от средните аритметични независими проби с еднакъв брой наблюдения (n ​​1 + n 2) се определя по формулата:

S d = √ S X1 2 + S X2 2,

където S d е грешката на разликата или сумата;

S X1 2 и S X2 2 - грешки на сравнените средни аритметични стойности.

Съотношението на разликата към нейната грешка служи като гаранция за надеждността на заключението за значимостта или незначителността на разликите между средните аритметични стойности. Това съотношение се нарича критерий за значимост на разликата:

t \u003d x 1 - x 2 / "√ S X1 2 + S X2 2 \u003d d / S d.

Теоретичната стойност на критерия t се намира от таблицата, като се знае броят на степените на свобода Y = n 1 + n 2 - 2 и приетото ниво на значимост.

Ако t fact ≥ t theor, нулевата хипотеза за липсата на значими разлики между средните стойности се опровергава и ако разликите са в рамките на случайни колебания за приетото ниво на значимост, тя не се опровергава.

метод за интервална оценка

Интервална оценкахарактеризира се с две числа - краищата на интервала, покриващ оценявания параметър. За да направите това, е необходимо да се определят доверителните интервали за възможните стойности на средната обща съвкупност. В същото време x е точкова оценка на общата средна стойност, тогава точковата оценка на общата средна стойност може да бъде записана по следния начин: x ± t 0,5 *S X , където t 0,5 *S X е пределната грешка на средната извадка за даден брой степени на свобода и приетото ниво на значимост.

Доверителен интервале интервалът, който покрива оценения параметър с дадена вероятност. Центърът на интервала е примерна точкова оценка. Границите или доверителните граници се определят от средната грешка в оценката и нивото на вероятност - x - t 0,5 *S X и x + t 0,5 *S X . Стойността на теста на Стюдънт за различните нива на значимост и броя на степените на свобода са дадени в таблицата.

Оценка на разликата на средната свързана серия

Оценката на разликата между средните стойности за конюгирани проби се изчислява по метода на разликата. Същността се състои в това, че значимостта на средната разлика се оценява чрез двойно сравнение на вариантите на експеримента. За да се намери S d чрез метода на разликата, се изчислява разликата между конюгираните двойки наблюдения d, стойността на средната разлика (d = Σ d / n) и грешката на средната разлика се определят по формулата:

S d \u003d √ Σ (d - d) 2 / n (n - 1)

Критерият за същественост се изчислява по формулата: t = d / S d . Броят на степените на свобода се намира от равенството Y= n-1, където n-1 е броят на спрегнатите двойки.

тестови въпроси

  1. Какво е вариационна статистика (математическа, биологична статистика, биометрия)?
  2. Какво се нарича колекция? Видове агрегати.
  3. Какво се нарича променливост, вариация? Видове променливост.
  4. Дефинирайте вариационна серия.
  5. Какви са статистическите показатели за количествена променливост.
  6. Разкажете ни за показателите за изменчивост на черта.
  7. Как се изчислява дисперсията, нейните свойства?
  8. Какви теоретични разпределения познавате?
  9. Какво е стандартното отклонение, неговите свойства?
  10. Какво знаете за нормалното разпределение?
  11. Назовете показателите за качествена променливост и формулите за тяхното изчисляване.
  12. Какво е доверителен интервал и статистическа надеждност?
  13. Каква е абсолютната и относителната грешка на средната стойност на извадката, как да ги изчислим?
  14. Коефициент на вариация и неговото изчисляване за количествена и качествена променливост.
  15. име статистически методитестване на хипотези.
  16. Дефинирайте статистическа хипотеза.
  17. Какво представляват нулевите и алтернативните хипотези?
  18. Какво е доверителен интервал?
  19. Какво представляват конюгираните и независимите проби?
  20. Как се изчислява интервалната оценка на параметрите на генералната съвкупност?

Лаборатория №9

Анализ на статистически данни

Обективен: научете как да обработвате статистически данни в електронни таблици с помощта на вградени функции; проучете възможностите на пакета за анализ в MS Excel 2010 и някои от неговите инструменти: генериране на случайни числа, хистограма, описателна статистика.

Теоретична част

Много често за обработка на данни, получени в резултат на изследване на голям брой обекти или явления ( статистически данни), се използват методите на математическата статистика.

Съвременната математическа статистика е разделена на две големи области: описателени аналитична статистика. Описателната статистика обхваща методи за описание на статистически данни, представянето им под формата на таблици, разпределения и др.

Аналитичната статистика се нарича още теория на статистическото заключение. Предметът му е обработката на данните, получени по време на експеримента, и формулирането на изводи, които имат приложно значение за различни области на човешката дейност.

Наборът от числа, получени в резултат на проучването, се нарича статистическа съвкупност.

комплект за вземане на проби(или вземане на проби) е набор от произволно избрани обекти. Общо населениее съвкупността от обекти, от които се прави извадката. Сила на звуканабор (общ или примерен) е броят на обектите в този набор.

За статистическа обработка резултатите от изследването на обектите се представят под формата на числа х 1 ,х 2 ,…, x k. Ако стойността х 1 наблюдавано н 1 път, стойност х 2 наблюдавани н 2 пъти и т.н., след това наблюдаваните стойности x iНаречен настроикии броя на техните повторения n iНаречен честоти. Процедурата за преброяване на честотите се нарича групиране на данни.

Размер на извадката н е равно на суматавсички честоти n i:

Относителна честотастойности x iсе нарича честотно отношение на тази стойност n iдо размера на извадката н:

Статистическо честотно разпределение(или просто честотно разпределение) се нарича списък от опции и съответните им честоти, записан под формата на таблица:



Относително честотно разпределениенаречен списък с опции и съответните им относителни честоти.


Основни статистически характеристики.

Съвременните електронни таблици имат огромен набор от инструменти за анализ на статистически данни. Най-често използваните статистически функции са вградени в основното ядро ​​на програмата, тоест тези функции са достъпни от момента на стартиране на програмата. Други по-специализирани функции са включени в допълнителни рутинни процедури. По-конкретно, в Excel такава рутина се нарича Analysis ToolPak. Командите и функциите на пакета за анализ се наричат ​​Инструменти за анализ. Ще се ограничим до няколко основни вградени статистически функции и най-полезните инструменти за анализ от пакета за анализ в електронна таблица на Excel.

Означава.

Функцията AVERAGE изчислява средната стойност на извадката (или общата), т.е. средната аритметична стойност на характеристиката на съвкупността от извадката (или общата). Аргументът на функцията AVERAGE е набор от числа, обикновено посочени като диапазон от клетки, например =AVERAGE(A3:A201).

ЛЕКЦИЯ 2

Основни понятия на математическата статистика.Селективен метод. Числени характеристикистатистически серии Точкови статистически оценки и изисквания към тях. Метод на доверителните интервали. Тестване на статистически хипотези.

Глава 3
ОСНОВНИ ПОНЯТИЯ НА МАТЕМАТИЧЕСКАТА СТАТИСТИКА

Метод на вземане на проби

Тази глава предоставя кратък прегледосновни понятия и резултати от математическата статистика, които се използват в курса на иконометрията.

Една от централните задачи на математическата статистика е да идентифицира модели в статистическите данни, въз основа на които можете да изградите подходящи модели и да вземете информирани решения. Първа задачаматематическата статистика е да разработи методи за събиране и групиране на статистическа информация, получена в резултат на наблюдения или в резултат на специално проектирани експерименти. Втора задачаматематическата статистика е да разработи методи за обработка и анализ на статистически данни, в зависимост от целите на изследването. Елементите на такъв анализ по-специално са: оценка на параметрите на известна функция на разпределение, проверка на статистически хипотези за вида на разпределението и др.

Съществува тясна връзка между математическата статистика и теорията на вероятностите. Теорията на вероятностите се използва широко в статистическото изследване на масови явления, които могат или не могат да бъдат класифицирани като случайни. Това става чрез теорията на метода на вземане на проби. Тук вероятностните закони се подчиняват не на изследваните явления, а на методите за тяхното изследване. Освен това теорията на вероятностите играе важна роля в статистическото изследване на вероятностните явления. В тези случаи самите изследвани явления се подчиняват на добре дефинирани вероятностни закони.

Основната задача на математическата статистика е разработването на методи за получаване на научнообосновани заключения за масови явления и процеси от данни от наблюдения или експерименти. Например, трябва да извършите контрол на качеството на произведена партида части или да проверите качеството на технологичния процес. Можете, разбира се, да проведете пълно проучване, т.е. прегледайте всеки детайл от партито. Ако обаче има твърде много детайли, тогава е физически невъзможно да се извърши цялостно проучване, а ако изследването на даден обект е свързано с неговото унищожаване или е скъпо, тогава няма смисъл да се провежда непрекъснато изследване. Следователно е необходимо да се избере само част от целия набор от обекти за изследване, т.е. провеждане на извадково проучване. Така на практика често е необходимо да се оценят параметрите на голяма популация от малък брой произволно избрани елементи.



Цялата съвкупност от обекти, които трябва да се изследват, се нарича общо население. Частта от обектите, която е избрана от генералната съвкупност, се нарича извадкова популацияили накратко - вземане на проби. Съгласни сме да обозначим размера на извадката с буквата н, а обемът на генералната съвкупност по буква н.

Извадката в общия случай се формира за оценка на всякакви характеристики на генералната съвкупност. Въпреки това, не всяка извадка може да даде реална представа за общата съвкупност. Например, частите обикновено се изработват от работници с различни нива на квалификация. Ако в контрола са включени само части, произведени от работници с по-ниска квалификация, тогава представата за качеството на всички продукти ще бъде "подценена", освен ако частите, произведени от работници над високо квалифициран, тогава това представяне ще бъде надценено.

За да използваме извадковите данни, за да можем уверено да преценим характеристиката на генералната съвкупност, която ни интересува, е необходимо извадковите обекти да я представят правилно. С други думи, извадката трябва правилно да представя пропорциите на популацията. Това изискване е обобщено, както следва: пробата трябва да бъде Представител(или Представител) .

Представителността на извадката се осигурява чрез случаен подбор. Чрез произволен избор Всички елементи в популацията имат еднакъв шанс да бъдат включени в извадката.. В този случай, в силата на закона за големите числа, може да се твърди, че извадката ще бъде представителна. Например за качеството на зърното се съди по малката му проба. Въпреки че броят на произволно избраните зърна е малък в сравнение с цялата маса на зърното, но сам по себе си той е доста голям. Следователно, характеристиките на извадката от съвкупността, по отношение на вероятността, ще се различават малко от характеристиките на генералната съвкупност.

Разграничете повтаря сеи неповтарящи се проби. В първия случай избраният обект се връща към общата съвкупност, преди да бъде избран следващият. Във втория случай избраният в извадката обект не се връща в генералната съвкупност. Ако размерът на извадката е значително по-малък от размера на генералната съвкупност, тогава и двете извадки ще бъдат практически еквивалентни.

В много случаи за анализ на определени икономически процесиважен е редът, в който се получават статистиките. Но когато се разглеждат така наречените пространствени данни, редът, в който са получени, не играе съществена роля. Освен това резултатите от пробните стойности х 1 , х 2 , …, x nколичествен признак хот общата съвкупност, записани по реда на тяхната регистрация, обикновено са трудни за разглеждане и неудобни за по-нататъшен анализ. Задачата на описването на статистически данни е да се получи такова представяне, което ще ви позволи визуално да идентифицирате вероятностните характеристики. За това кандидатствайте различни формиподреждане и групиране на данни.

Статистическият материал, получен в резултат на наблюдения (измервания), може да бъде записан под формата на таблица, състояща се от два реда. Първият ред съдържа числото на измерването, вторият - получената стойност. Такава таблица се нарича прости статистически серии:

аз н
х 1 х 2 x i x n

Въпреки това, с голям брой измервания, статистическата серия е трудна за анализ. Следователно резултатите от наблюденията са необходими по някакъв начин рационализирам. За да направите това, наблюдаваните стойности са подредени във възходящ ред:

където . Такава статистика се нарича класиран.

Тъй като някои стойности на статистическите серии могат да имат еднакви стойности, те могат да бъдат комбинирани. След това всяка стойност x iномерът ще бъде съпоставен n i, равна на честотата на срещане на дадената стойност:

х 1 х 2 x k
н 1 н 2 нк

Такава поредица се нарича групирани.

Извиква се класираната и групирана серия вариационен. Наблюдавани стойности x iНаречен настроикии броя на всички опции за наблюдения n iчестота. Брой на всички наблюдения нНаречен сила на звукавариационна серия. Честотно съотношение n iкъм обема на поредицата нНаречен относителна честота:

В допълнение към дискретните вариационни серии, прилагайте и интервалвариационни линии. За да се изгради такава серия, е необходимо да се определи размерът на интервалите и в съответствие с тях да се групират резултатите от наблюденията:

[х 1 ,х 2 ] (х 2 ,х 3 ] (х 3 ,х 4 ] (хк-1, хк]
н 1 н 2 н 3 нк

Интервална вариационна серия обикновено се изгражда в случаите, когато броят на наблюдаваните варианти е много голям. Тази ситуация обикновено възниква при наблюдение непрекъсната стойност(например измерване на някои физическо количество). Съществува определена връзка между интервални и дискретни вариационни серии: всяка дискретна серия може да бъде записана като интервална серия и обратно.

За графично описание на дискретна вариационна серия използвам многоъгълник. За изграждане на многоъгълник в правоъгълна системакоординати начертайте точки с координати ( x i,n i) или ( x i,w i). След това тези точки са свързани с сегменти. Получената прекъсната линия се нарича многоъгълник (вижте например фиг. 3.1а).

За графично описание на серията интервални вариации използвайте хистограма. За да се построи, по абсцисната ос се нанасят сегменти, представляващи интервалите на вариация, като върху тези сегменти, като върху основата, се изграждат правоъгълници с височини, равни на честотите или относителните честоти на съответния интервал. Резултатът е фигура, състояща се от правоъгълници, която се нарича хистограма (вижте например фиг. 3.1b).

а b
Ориз. 3.1

Числени характеристики на статистическите редове

Изграждането на вариационна серия е само първата стъпка към разбирането на серия от наблюдения. Това не е достатъчно за пълно проучванеразпространението на изследваното явление. най-удобен и пълен методе аналитичен начинизследователски серии, състоящи се в изчисляване на числени характеристики. Числените характеристики, използвани за изследване на вариационни серии, са подобни на тези, използвани в теорията на вероятностите.

Най-естествената характеристика на вариационната серия е концепцията среден размер. В статистиката се използват няколко вида средни стойности: средна аритметична, средна геометрична, средна хармонична и др. Най-разпространено е понятието средноаритметично:

Ако вариационна серия е конструирана въз основа на данни от наблюдения, тогава се използва концепцията среднопретеглена стойност:

. (3.3)

Средно аритметичното има същите свойства като математическото очакване.

Количеството

, (3.4)

което, както в теорията на вероятностите, се нарича дисперсия. Стойност

Наречен стандартно отклонение(или стандартно отклонение). Статистическата дисперсия има същите свойства като дисперсията на вероятността и може да се използва алтернативна формула за изчисляването й

. (3.6)

Пример 3.1.За териториите на областта са дадени данни за 199Х (Таблица 3.1).

Таблица 3.1

Намерете средната аритметична стойност и стандартното отклонение. Начертайте хистограма на честотите.

Решение.За да изчислим средната аритметична стойност и дисперсията, изграждаме изчислителна таблица (Таблица 3.4):

Таблица 3.4

x i n i n i x i n i x i 2
Сума

Тук вместо x iвземат се средните точки на съответните интервали. Според таблицата намираме:

, ,

Нека изградим хистограма на честотите според първоначалните данни (фиг. 3.3). а

Като се имат предвид основните статистически характеристики на серията, оценете централната тенденция на извадката и дисперсията или вариацията . Централната тенденция на извадкатави позволяват да оцените такива статистически характеристики като средно аритметично, режим, медиана. Средната стойност характеризира свойствата на групата, е центърът на разпространение, заема централна позицияв общата маса от различни стойности на атрибута.

Средноаритметичноза неподредена поредица от измервания се изчислява чрез сумиране на всички измервания и разделяне на сумата на броя на измерванията по формулата: = ,

където е сумата от всички стойности x i, н общ бройизмервания.

Мода(Mo) се отнася до резултата от проба или популация, която се среща най-често в тази проба. За серия от интервални вариации, модалният интервал се избира според най-високата честота. Например в поредица от числа: 2, 3, 4, 4, 4, 5, 6, 6, 7 режимът е 4, защото се среща по-често от други числа.

В случай, че всички стойности в групата се срещат еднакво често, се приема, че групата няма режим. Когато две съседни стойности имат еднаква честота и са по-големи от честотата на всяка друга стойност, режимът е средната стойност на двете стойности. Например в поредица от числа: 2, 3, 4, 4, 5, 5, 6, 7 режимът е 4,5. Ако две несъседни стойности в група имат равни честоти и са по-големи от честотите на всяка стойност, тогава има два режима. Например в поредица от числа: 2, 3, 3, 4, 5, 5, 6, 7 режимите са 3 и 5.

Медиана(Me) - резултатът от измерването, който е в средата на класираната серия. Медианата разделя подредения набор наполовина, така че едната половина от стойностите да е по-голяма от медианата, а другата половина да е по-малка. Ако поредица от числа съдържа нечетен брой стойности, тогава медианата е средната стойност. Например в поредица от числа: 6, 9, 11 , 19, 31 средно число 11.

Ако данните съдържат четен брой измерения, тогава медианата е числото, което е средната стойност на двете централни стойности. Например в редицата от числа: 6, 9, 11, 19, 31, 48 медианата е (11+19): 2 = 15.

Режимът и медианата се използват за оценка на средната стойност, когато се измерват по редови скали (и модата също по номинални скали).

Характеристиките на вариацията или флуктуацията на резултатите от измерването включват обхват, стандартно отклонение, коефициент на вариация и др.

Всички средни характеристики дават основни характеристикиредица резултати от измерване. На практика често се интересуваме доколко всеки резултат се отклонява от средната стойност. Лесно е обаче да си представим, че две групи резултати от измерване имат еднакви средни, но различни стойности на измерване. Например за серии 3, 6, 3 - средната стойност = 4, за сериите 5, 2, 5 също средната стойност = 4, въпреки значителната разлика между тези серии.



Следователно средните характеристики трябва винаги да се допълват с индикатори за вариация или променливост. Най-простата характеристика на вариацията е диапазонът на вариация, определен като разликата между най-големите и най-малките измервания. Той обаче улавя само екстремни отклонения, но не отразява отклоненията на всички резултати.

За да дадете обобщена характеристика, можете да изчислите отклоненията от средния резултат. Стандартно отклонениеизчислено по формулата:

където X е най-високият показател; X - най-малкият индикатор; K - табличен коефициент (Приложение 4).

Стандартното отклонение (наричано още стандартно отклонение) има същите единици като резултатите от измерването. Тази характеристика обаче не е подходяща за сравняване на флуктуацията на две или повече популации с различни мерни единици. За това се използва коефициентът на вариация.

Коефициентът на вариациясе определя като съотношението на стандартното отклонение към средната аритметична стойност, изразено като процент. Изчислява се по формулата: V = . 100%

Флуктуацията на резултатите от измерването в зависимост от стойността на коефициента на вариация се счита за малка (0–10%), средна (11–20%) и голяма (>20%).

Коефициентът на вариация е важен, тъй като като относителна стойност (измерена като процент), той позволява да се сравни променливостта на резултатите от измерването с различни мерни единици. Коефициентът на вариация може да се използва само ако измерванията се извършват по съотношителна скала.



Друг показател за дисперсия е стандартна (средноквадратична) грешка на средната аритметична стойност. Този показател (обикновено се обозначава със символите m или S) характеризира колебанието на средната стойност.

Стандартната грешка на средноаритметичната стойност се изчислява по формулата:

където σ е стандартното отклонение на резултатите от измерването, n е размерът на извадката.