Caracteristicile datelor statistice. Caracteristicile numerice ale seriei statistice. II. Verificarea temelor

Raport de laborator

la subiectul „Metode și mijloace de prelucrare a datelor statistice”

Completat de: Galimova A.R., gr. 4195

Verificat de: Mokshin V.V.

Kazan, 2013

1. Sarcina individuală. 3

2. Planificarea experimentelor. patru

2.1. Planificare strategica. patru

2.1.1. D - planuri optime.. 5

3. De bază caracteristici statistice ISD. opt

4. Evaluarea normalității DSI. 9

5. Prognoza temporală. 13

6. Analiza corelației. 15

7. Analiza clusterelor. 16

8. Analiza factorială. 22

9. Analiza de regresie. 27

10. Analiza dispersiei. 35

11. Optimizarea valorilor factorilor și a indicatorilor de performanță. 35

Concluzii.. 36

Aplicație. 37

Sarcina individuală

BUF1 - pentru 3 locuri;

BUF2 - locuri nelimitate;

GOT - legea exponentiala, medie 20000 unitati de timp;

VOSST - spec. earl.law, medie într-o fază 25 de unităţi. timp, număr faza 3;

GT − lege uniformă, 225±25 unități de timp;

RK1 - legea exponențială, medie Х1=100 unități. timp;

RK2 − legea normală, medie Х2=90, art. oprit 8 unitati vr.;

KAN1-KANМ – lege uniformă, 75±15 unități de timp;

Х3=М – numărul de canale.

Selectarea unui KANAL pentru transmitere după cel mai mic număr de sarcini pentru care sunt transmise informații. Modul de inaccesibilitate este suprapus și eliminat prin canale independent unul de celălalt.

Încheiați simularea după deconectarea a 300 de sarcini (rezolvate plus eșecuri).

Factori optimizați: Х1 – timpul mediu de soluție pe PC1, Х2 – timpul mediu de soluție pe PC2, Х3 – numărul de canale. X1 și X2 se modifică cu ± 20% din valorile medii indicate; X3 de la 2 la 6.

Să construim un model în sistemul Arena

Fig.1 - Model de simulare construit în sistemul de simulare Arena

Proiectarea experimentelor

Scopul planificării este de a obține rezultate cu o fiabilitate dată la cel mai mic cost. Distingeți între planificarea strategică și cea tactică.

Planificare strategica

Pentru planificarea strategică, vom folosi conceptul „cutie neagră”, a cărui esență este abstracția din esența fizică a proceselor care au loc în sistemul simulat și emiterea de concluzii despre funcționarea acestuia doar pe baza variabilelor de intrare și de ieșire. De intrare, variabilele independente se numesc factori. Ieșire - răspunsuri, valoarea lor depinde de valorile factorilor și parametrilor OI.

Factorii în cazul nostru sunt indicatori (parametri) pe care îi vom optimiza; răspunsurile sunt indicatori eficienți ai eficienței funcționării sistemului simulat. Diagrama bloc a cutiei negre este prezentată în Figura 1.

Fig.1 Diagrama bloc a conceptului de cutie neagră

Planurile de ordinul doi vă permit să formați o funcție de răspuns sub forma unui polinom pătratic complet, care conține mai mulți termeni decât un polinom pătratic incomplet format din planuri de ordinul întâi și, prin urmare, necesită un număr mai mare de experimente pentru a fi efectuate. Polinomul pătratic complet pentru m=3 are forma:

D - planuri optime

LA D-în planuri optime, valorile factorilor nu depășesc limitele stabilite ale intervalelor de modificare a acestora. În plus, au un alt avantaj semnificativ, oferind o eroare minimă în întreaga gamă acceptată de modificări ale factorilor. În practică, cel mai des sunt folosite planurile lui Kono și planurile lui Kiefer.

Orez. 2 Interpretarea geometrică a planului cu trei factori al lui Kiefer pe un cub

plan strategic determină numărul de variante ale sistemului de modelat și valorile factorilor din fiecare variantă. Pentru 3 factori optimizați, se propune un plan D-optimal conform algoritmului Kiefer, care constă din 26 de opțiuni și este prezentat în Tabelul 1.

Tabelul 1 - Planul lui Kiefer pentru un experiment cu 3 factori

x 1 x2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x4 x5 x6
-1 -1 -1 -1 -1
-1 -1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1

Aici: ; ;

Calculăm valorile X 1 , X 2 , X 3 conform unei sarcini individuale. În funcție de starea sarcinii individuale, factorii care trebuie optimizați sunt: ​​Х1 – timpul mediu de rezolvare pe PC1, Х2 – timpul mediu de rezolvare pe PC2, Х3 – numărul de canale. X1 și X2 se modifică cu ± 20% din valorile medii indicate; X3 de la 2 la 6.

Pe PK1, condiția legii exponențiale, media este de 100 de unități de timp, prin urmare valoarea este 0 - 100, 1-120, -1 -80 (deoarece modificăm cu ± 20% din valoarea medie specificată.

RK2 respectă legea normală conform condiției de atribuire și valoarea medie este de 90 de unități. timp și modificator ±20 unități de timp, deci 0-90, 1 – 108, -1-72. Toate datele sunt introduse în tabelul 2.

Tabelul 1 - Date pentru factorii X 1 , X 2 , X 3

-1
x1
x2
x3

Y 1 – factor de utilizare PC1 (0÷1)*100%;

Y 2 - factor de utilizare PK2 (0÷1)*100%;

Y 3 - Timp total mediu pentru finalizarea sarcinilor.

Planul D-optimal conform algoritmului Kiefer pentru o sarcină individuală și răspunsurile Y 1 ,Y 2 ,Y 3 asupra factorilor unei sarcini individuale sunt prezentate în Tabelul 3.

Tabelul 2 - Planul D-optimal conform algoritmului Kiefer (pentru sarcini individuale)

x 1 x2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x4 x5 x6

Tabelul 4 - Răspunsuri Y 1 , Y 2 ,Y 3

Y 1 Y2 Y 3
32,24 30,41 309,16
36,41 28,81 322,98
43,54 26,95 322,92
32,23 38,00 326,79
36,42 36,00 339,98
43,54 33,75 338,75
32,22 45,6 344,71
36,44 43,18 357,16
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,82 310,97
43,54 26,95 322,91
32,23 38,00 326,79
36,42 36,01 327,97
32,22 45,59 344,70
36,44 43,19 345,15
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,77 314,34
43,54 26,95 322,91
32,23 38,00 326,79
36,42 35,96 331,34
43,54 33,75 338,75
32,22 45,59 344,70
36,44 43,14 348,51
43,54 40,56 354,91

Caracteristicile statistice de bază ale ISD.

Principalele caracteristici statistice sunt:

1. N valid - dimensiunea eșantionului;

2. Media - medie aritmetică. Valoarea medie a unei variabile aleatoare este cea mai tipică, cea mai probabilă valoare a acesteia, un fel de centru în jurul căruia sunt împrăștiate toate valorile atributului.

3. Mediană - mediană. Mediana este valoarea unei variabile aleatoare care împarte toate cazurile din eșantion în două părți egale.

4. StandardDeviation - abatere standard. Abaterea standard (sau abaterea standard) este o măsură a variabilității (variației) unei trăsături. Arată cât de mult se abate în medie cazurile de la valoarea medie a atributului.

5. Varianta - dispersie. Dispersia este o măsură a variabilității, a variației unei trăsături și este pătratul mediu al abaterilor cazurilor de la valoarea medie a unei trăsături. Spre deosebire de alți indicatori de variație, varianța poate fi descompusă în părțile sale componente, ceea ce face posibilă evaluarea influenței diverși factori pentru variația de trăsătură.

6. Eroarea standard a mediei Eroarea standard a mediei este valoarea cu care media eșantionului diferă de media populației, cu condiția ca distribuția să fie aproape de normal.

7. 95% confidencelimitsofmean - 95% interval de încredere pentru medie. Intervalul în care valoarea medie a caracteristicii populației generale scade cu o probabilitate de 0,95.

8. Minim, maxim - valori minime și maxime.

9. Asimetrie-asimetrie. Asimetria caracterizează gradul de deplasare a seriei variaționale în raport cu valoarea medie în mărime și direcție.

10. Eroare standard de asimetrie – eroare standard de asimetrie.

11. Kurtosis - exces. Kurtosis caracterizează gradul de concentrare a cazurilor în jurul valorii medii și este un fel de măsură a abruptului curbei.

12. Eroarea standard a Kurtosis

Tabelul 5 - Rezultatele statisticii descriptive


Evaluarea normalității ISD.

Legea normală este cea mai des folosită. Este folosit pentru a reprezenta o mare varietate de procese aleatorii, cum ar fi speranța de viață a oamenilor, modificările indicatorilor economici și tehnici.

Să formulăm ipoteza că datele statistice inițiale sunt supuse legii normale, iar ca parametri ai legii normale vom lua estimările așteptări matematiceși abaterea standard calculată prin formule.

Funcția de densitate a legii normale are forma:

; .

Dacă coeficientul de încredere P în ipoteza normalității distribuției empirice, care poate fi găsit din tabelele statistice, nu este mai mic de 0,20, atunci ipoteza normalității nu este respinsă. Dacă P să<0,20, то предположение о нормальности рекомендуется отвергнуть.

Corespondența dintre distribuțiile empirice și ipotetice poate fi urmărită vizual din grafice. Când se utilizează criteriul de potrivire Kolmogorov, este de preferat să se utilizeze funcții de distribuție. Astfel de grafice sunt construite și emise în proceduri software speciale ale programului software Statistica 6.0 și Excel 2007, pe care calculele sunt orientate conform aparatului matematic enunțat. Să ne imaginăm distribuția variabilelor pe histograme (Fig.3.-Fig.8.).

Densitatea distribuției normale este suprapusă histogramelor pentru a verifica apropierea distribuției de forma normală folosind criteriul Kolmogorov-Smirnov.


Informații similare.


Subiectul 2.1. Fundamentele prelucrării statistice a datelor experimentale în cercetarea agronomică. Caracteristici statistice ale variabilitatii cantitative si calitative

Plan.

  1. Fundamentele statisticii
  2. Caracteristicile statistice ale variabilitatii cantitative
  3. Tipuri de distribuție statistică
  4. Metode de testare a ipotezelor statistice

1. Fundamentele statisticii

Lumea din jurul nostru este saturată de informații – diverse fluxuri de date ne înconjoară, captându-ne în câmpul acțiunii lor, lipsindu-ne de percepția corectă a realității. Nu ar fi exagerat să spunem că informația devine parte a realității și a conștiinței noastre.

Fără tehnologii adecvate de analiză a datelor, o persoană se dovedește a fi neputincioasă într-un mediu informațional crud și seamănă mai degrabă cu o particulă browniană, experimentând lovituri dure din exterior și incapabil să ia o decizie în mod rațional.

Statisticile vă permit să descrieți datele în mod compact, să le înțelegeți structura, să le clasificați și să vedeți modele în haosul fenomenelor aleatorii. Chiar și cele mai simple metode de analiză vizuală și exploratorie a datelor pot clarifica semnificativ o situație complexă care lovește inițial cu o grămadă de numere.

Descrierea statistică a unui set de obiecte ocupă o poziție intermediară între descrierea individuală a fiecăruia dintre obiectele mulțimii, pe de o parte, și descrierea mulțimii în funcție de proprietățile sale generale, care nu necesită împărțirea sa în separat. obiecte, pe de altă parte. În comparație cu prima metodă, datele statistice sunt întotdeauna mai mult sau mai puțin impersonale și au o valoare limitată în cazurile în care datele individuale sunt semnificative (de exemplu, un profesor, care se familiarizează cu o clasă, va primi doar o orientare foarte preliminară despre starea lucrurilor dintr-o statistică a numărului predecesorului său expus de note excelente, bune, satisfăcătoare și nesatisfăcătoare). Pe de altă parte, în comparație cu datele privind proprietățile totale ale populației observate din exterior, datele statistice permit o perspectivă mai profundă a esenței problemei. De exemplu, datele analizei granulometrice a rocii (adică datele privind distribuția particulelor care formează roca în funcție de dimensiune) oferă informații suplimentare valoroase în comparație cu testarea probelor de rocă nedivizată, permițând într-o oarecare măsură explicarea proprietăților. a stâncii, condițiile de formare a acesteia etc.

Metoda de cercetare, bazată pe luarea în considerare a datelor statistice asupra anumitor seturi de obiecte, se numește statistică. Metoda statistică este utilizată în diverse domenii ale cunoașterii. Cu toate acestea, caracteristicile metodei statistice atunci când sunt aplicate la obiecte de natură diferită sunt atât de specifice încât ar fi inutil să combinați, de exemplu, statistica socio-economică, statistica fizică.

Caracteristicile generale ale metodei statistice în diverse domenii de cunoaștere se reduc la numărarea numărului de obiecte incluse în anumite grupe, luând în considerare distribuția cantităților, caracteristicile, aplicarea metodei de eșantionare (în cazurile în care un studiu detaliat al tuturor obiectelor dintr-o vastă populația este dificilă), folosind teoria probabilității în aprecierea suficienței numărului de observații pentru anumite concluzii etc. Această latură matematică formală a metodelor de cercetare statistică, indiferentă față de natura specifică a obiectelor studiate, este subiectul statistici matematice

Legătura dintre statistica matematică și teoria probabilității are un caracter diferit în cazuri diferite. Teoria probabilității nu studiază niciun fenomen, ci fenomene aleatoare și tocmai „aleatoare probabilistice”, adică acelea pentru care are sens să se vorbească despre distribuțiile de probabilitate corespunzătoare acestora. Cu toate acestea, teoria probabilității joacă un anumit rol în studiul statistic al fenomenelor de masă de orice natură, care nu pot fi clasificate ca aleatoare probabilistic. Aceasta se realizează prin teoria eșantionării bazată pe teoria probabilității și teoria erorilor de măsurare. În aceste cazuri, regularitățile probabilistice sunt supuse nu fenomenelor studiate în sine, ci metodelor studiului lor.

Un rol mai important îl joacă teoria probabilității în studiul statistic al fenomenelor probabilistice. Aici, astfel de secțiuni de statistică matematică bazate pe teoria probabilității, cum ar fi teoria testării statistice a ipotezelor probabilistice, teoria estimării statistice a distribuțiilor de probabilitate și a parametrilor acestora și așa mai departe, își găsesc aplicarea completă. Domeniul de aplicare a acestor metode statistice mai profunde este mult mai restrâns, deoarece aici se cere ca fenomenele studiate în sine să fie supuse unor legi probabilistice suficient de definite.

Tiparele probabilistice primesc o expresie statistică (probabilitățile sunt efectuate aproximativ sub formă de frecvențe, iar așteptările matematice - sub formă de medii) datorită numere mari lege.

Pentru identificarea și evaluarea celor mai bune practici și soiuri agricole studiate în cadrul experimentului în teren se utilizează prelucrarea statistică a datelor experimentale, prezentate sub formă de grafici grafici ai indicatorilor numerici ai randamentului și a altor proprietăți și calități ale plantelor experimentale. Acești indicatori caracterizează fenomenul studiat și reflectă rezultatul acțiunii factorilor studiați care s-au manifestat într-un anumit loc într-o anumită perioadă de timp, cu toate distorsiunile, abaterile de la datele adevărate din diverse motive observate în timpul experimentului.

Statisticiîn sens larg, poate fi definită ca știința analizei cantitative a fenomenelor de masă ale naturii și societății, care servește la identificarea trăsăturilor lor calitative.

Statistica este o ramură a cunoașterii care combină principii și metode cu date numerice care caracterizează fenomenele de masă. În acest sens, statistica cuprinde mai multe discipline independente: teoria generală a statisticii ca curs introductiv, teoria probabilității și statistica matematică ca știință a principalelor categorii și proprietăți matematice ale populației generale și estimările selective ale acestora.

Cuvântul „statistică” provine din cuvântul latin status – stat, stare de lucruri. Inițial, este folosit în sensul de „condiție politică”. De aici și cuvântul italian stato - stat și statista - cunoscător al statului. Cuvântul „statistică” a intrat în uz științific în secolul al XVIII-lea și a fost folosit inițial ca „știință de stat”.

În prezent, statistica poate fi definită ca colectarea de date în masă, generalizarea, prezentarea, analiza și interpretarea acestora. Aceasta este o metodă specială care este utilizată în diverse domenii de activitate, în rezolvarea diverselor probleme.

Statistica face posibilă identificarea și măsurarea tiparelor de dezvoltare a fenomenelor și proceselor socio-economice, a relației dintre ele. Cunoașterea regularităților este posibilă numai dacă nu se studiază fenomenele individuale, ci seturile de fenomene, întrucât regularitățile se manifestă în totalitate, doar în masa fenomenelor. În fiecare fenomen individual, necesarul - ceea ce este inerent tuturor fenomenelor de un anumit tip, se manifestă în unitate cu aleatoriu, individual, inerent numai acestui fenomen particular.

Tiparele în care necesitatea este indisolubil legată în fiecare fenomen individual de întâmplare și numai într-o multitudine de fenomene se manifestă legea, sunt numite statistice.

În consecință, subiectul studiului statistic este întotdeauna totalitatea anumitor fenomene, inclusiv întregul ansamblu de manifestări ale regularității studiate. Într-un agregat mare, soiurile individuale se anulează reciproc, iar proprietățile obișnuite ies în prim-plan. Deoarece statistica este concepută pentru a identifica regularitatea, ea, bazându-se pe date privind fiecare manifestare individuală a regularității studiate, le generalizează și primește astfel o expresie cantitativă a acestei regularități.

Fiecare pas al studiului se încheie cu interpretarea rezultatelor: ce concluzie se poate trage din analiză, ce spun cifrele - confirmă ipotezele inițiale sau dezvăluie ceva nou? Interpretarea datelor este limitată de materialul sursă. Dacă concluziile se bazează pe date din eșantion, atunci eșantionul trebuie să fie reprezentativ pentru ca concluziile să fie aplicate populației în ansamblu. Statisticile vă permit să aflați tot ceea ce este util conținut în datele sursă și să determinați ce și cum poate fi folosit în luarea deciziilor.

Termen statistici de variație a fost introdus în 1899 de Dunker pentru a desemna metodele de statistică matematică utilizate în studiul anumitor fenomene biologice. Ceva mai devreme, în 1889, F. Galton a introdus un alt termen - biometrie(din cuvintele grecești „bios” - viață și „metru" - a măsura), denotă utilizarea anumitor metode de statistică matematică în studiul eredității, variabilității și a altor fenomene biologice. Pe baza teoriei probabilității, statistica variațională permite abordarea corectă a analizei exprimării cantitative a fenomenelor studiate, pentru a da o evaluare critică a fiabilității indicatorilor cantitativi obținuți, pentru a stabili natura relației dintre fenomenele studiate. , și, în consecință, să înțelegem originalitatea lor calitativă.

Este important să ne amintim că fiecare obiect biologic are variabilitate. Acestea. fiecare dintre trăsăturile (înălțimea plantei, numărul de boabe pe spiț, conținutul de nutrienți) la diferiți indivizi poate avea un grad diferit de severitate, ceea ce indică variabilitatea sau variația trăsăturii.

Cu metoda statistică de cercetare, atenția se concentrează nu asupra unui singur obiect, ci asupra unui grup de obiecte omogene, adică. pe o parte din totalitatea lor, unite pentru studiu comun. Un anumit număr de unități omogene situate în funcție de una sau mai multe caracteristici în schimbare se numește populație statistică.

Agregatele statistice sunt împărțite în:

  1. general
  2. selectiv

Populația reunește toate unitățile omogene posibile aflate în studiu, de exemplu, plantele dintr-un câmp, populațiile de dăunători dintr-un câmp, agenții patogeni ai plantelor. Eșantion de populație reprezintă o parte din unitățile luate din populația totală și care trebuie verificate. Când se studiază, de exemplu, producția de meri dintr-un anumit soi, populația generală este reprezentată de toți arborii dintr-un anumit soi, vârstă, crescând în anumite condiții omogene. Setul de eșantion este format dintr-un anumit număr de meri prelevați pe loturi de probă din plantațiile studiate.

Este destul de evident că în cercetarea statistică trebuie să se ocupe exclusiv de populații eșantionate. Corectitudinea judecăților despre proprietățile populației generale bazate pe analiza populației eșantionului, în primul rând, depinde de tipicitatea acesteia. Astfel, pentru ca eșantionul să reflecte cu adevărat proprietățile caracteristice ale populației generale, populația eșantionului trebuie să includă un număr suficient de unități omogene care au proprietatea reprezentativitate. Reprezentativitatea se realizează prin selectarea aleatorie a unei variante din populația generală, ceea ce oferă o șansă egală pentru toți membrii populației generale de a intra în eșantion.

Studiul statistic al anumitor fenomene se bazează pe analiza variabilităţii indicatorilor sau cantităţilor care alcătuiesc agregatele statistice. Valorile statistice pot lua valori diferite, dezvăluind în același timp o anumită regularitate în variabilitatea lor. În acest sens, mărimile statistice pot fi definite ca mărimi care iau valori diferite cu anumite probabilități.

În procesul de observații sau experimente, ne confruntăm cu diverse tipuri de indicatori variabili. Unii dintre ei poartă un pronunțat cantitativ natura și sunt ușor de măsurat, în timp ce altele nu pot fi exprimate în modul cantitativ obișnuit și sunt tipice calitativ caracter.

În acest sens, se disting două tipuri de variabilitate sau variație:

  1. cantitativ
  2. calitate

2. Caracteristici statistice ale variabilitatii cantitative

Ca exemplu de variabilitate cantitativă, ar trebui să se includă: variabilitatea numărului de spiculete dintr-un spic de grâu, variabilitatea mărimii și greutății semințelor, conținutul lor de grăsimi, proteine ​​etc. Un exemplu de variație calitativă este: o modificare a culorii sau pubescenței diferitelor organe ale plantelor, mazărea netedă și încrețită care are o culoare verde sau galbenă și diferite grade de deteriorare a plantelor de către boli și dăunători.

Variația cantitativă, la rândul ei, poate fi împărțită în două tipuri: variație continuu si intermitent.

continuu variația include cazurile în care populațiile studiate constau din unități statistice determinate prin măsurători sau calcule bazate pe aceste măsurători. Un exemplu de variație continuă poate fi exprimat: greutatea și dimensiunea semințelor, lungimea internodurilor, randamentul culturilor. În toate aceste cazuri, indicatorii cantitativi studiați pot lua teoretic toate valorile posibile, atât întregi cât și fracționari între limitele lor extreme. Trecerea de la valoarea minimă extremă la cea maximă este teoretic graduală și poate fi reprezentată printr-o linie continuă.

La intermitent variație, mărimile statistice individuale sunt o colecție de elemente individuale, exprimate nu prin măsurare și nu prin calcul, ci prin numărare. Un exemplu de astfel de variație este modificarea numărului de semințe din fructe, a numărului de petale dintr-o floare, a numărului de pomi pe unitate de suprafață, a numărului de știuleți de porumb pe plantă. Variațiile discontinue de acest tip sunt uneori numite și numere întregi, deoarece mărimile statistice individuale dobândesc valori întregi destul de definite, în timp ce cu variație continuă aceste mărimi pot fi exprimate atât ca valori întregi, cât și ca valori fracționale.

Principalele caracteristici statistice ale variabilității cantitative sunt următoarele:

1. Media aritmetică;

Indicatori ai variabilității trăsăturilor:

2. dispersie;

3. abaterea standard;

4. coeficient de variație;

5. Eroarea standard a mediei aritmetice;

6. Eroare relativă.

Media aritmetică. Când se studiază diverși indicatori cantitativi, principala valoare rezumativă este media lor aritmetică. Media aritmetică servește atât pentru a judeca populațiile individuale studiate, cât și pentru a compara populațiile corespunzătoare între ele. Valorile medii obținute stau la baza tragerii concluziilor și pentru rezolvarea anumitor probleme practice.

Pentru a calcula media aritmetică, se folosește următoarea formulă: dacă suma tuturor opțiunilor (x 1 + x 2 + ... + x n) se notează cu Σ x i, numărul de opțiuni - cu n, atunci media aritmetică este determinat:

x cf. =Σ x i / n)

Media aritmetică oferă prima caracteristică cantitativă generală a populației statistice studiate. La rezolvarea unui număr de probleme teoretice și practice, alături de cunoașterea valorii medii a indicatorului analizat, devine necesară stabilirea suplimentară a naturii distribuției variantei în jurul acestei medii.

Obiectele cercetării agricole și biologice se caracterizează prin variabilitatea semnelor și proprietăților în timp și spațiu. Motivele pentru aceasta sunt atât caracteristicile interne, ereditare ale organismelor, cât și norma diferită a reacției lor la condițiile de mediu.

Dezvăluirea naturii împrăștierii este una dintre sarcinile principale ale analizei statistice a datelor experimentale, care permite nu numai estimarea gradului de împrăștiere a observațiilor, ci și utilizarea acestei estimări pentru a analiza și interpreta rezultatele studiului.

Natura variantei de grupare în apropierea valorii lor medii, numită și împrăștiere, poate servi ca indicator al gradului de variabilitate a materialului studiat. Indicatori de variabilitate. Limite (gamă de variație) acestea sunt valorile minime și maxime ale atributului în agregat. Cu cât diferența dintre ele este mai mare, cu atât semnul este mai variabil.

Varianta S 2 și abaterea standard S. Aceste caracteristici statistice sunt principalele măsuri de variație (împrăștiere) a trăsăturii studiate. Varianța (pătratul mediu) este câtul dintre suma abaterilor pătrate Σ (x – x) 2 împărțit la numărul tuturor măsurătorilor fără unitate:

Σ (x - x) 2 / n -1

Standardul, sau abaterea standard, se obține luând rădăcina pătrată a varianței:

S = √ S 2

Deviație standard caracterizează gradul de variabilitate a materialului studiat, măsura gradului de influență asupra trăsăturii diverselor motive secundare ale variației acestuia, exprimate în termeni absoluti, i.e. în aceleaşi unităţi cu valorile variantelor individuale. În acest sens, abaterea standard poate fi utilizată numai la compararea variabilității populațiilor statistice, ale căror variante sunt exprimate în aceleași unități de măsură.

În statistică, este în general acceptat că intervalul de variabilitate a agregatelor cu un volum suficient de mare, care se află sub influența constantă a multor factori diverși și multidirecționali (fenomene biologice), nu depășește 3S a mediei aritmetice. Se spune că astfel de populații urmează o distribuție variantă normală.

Datorită faptului că intervalul de variabilitate pentru fiecare populație biologică studiată este în 3S față de media aritmetică, cu cât deviația standard este mai mare, cu atât variabilitatea trăsăturii în populațiile studiate este mai mare. Abaterea standard este utilizată ca indicator independent și ca bază pentru calcularea altor indicatori.

Când se compară variabilitatea populațiilor eterogene, este necesar să se utilizeze o măsură a variației, care este un număr abstract. În acest scop, statisticile introduse coeficientul de variație, care se înțelege ca abatere standard, exprimată ca procent din media aritmetică a acestei populații:

V = S / x × 100%.

Coeficientul de variație vă permite să oferiți o evaluare obiectivă a gradului de variație atunci când comparați orice populație. Când studiați trăsăturile cantitative, vă permite să selectați cele mai stabile dintre ele. Variabilitatea este considerată nesemnificativă dacă coeficientul de variație nu depășește 10%, medie - dacă este de la 10% la 20% și semnificativă - dacă este mai mare de 20%.

Pe baza indicatorilor luați în considerare, ajungem la o judecată cu privire la originalitatea calitativă a întregii populații generale. Evident, gradul de fiabilitate al judecăților noastre cu privire la populația generală va depinde, în primul rând, de măsura în care, într-una sau alta parte a populației eșantionului, caracteristicile sale individuale, precum și aleatorii, nu interferează cu manifestarea tiparelor generale și proprietăților fenomenului studiat.

Datorită faptului că, în majoritatea cazurilor, atunci când se efectuează lucrări experimentale și cercetări științifice, nu putem opera cu mostre foarte mari, devine necesar să se determine posibile erori în caracteristicile noastre ale materialului studiat pe baza acestor probe. Trebuie remarcat faptul că, în acest caz, erorile trebuie înțelese nu ca erori în calculele anumitor indicatori statistici, ci limitele posibilelor fluctuații ale valorilor acestora în raport cu întreaga populație.

Compararea valorilor individuale găsite ale indicatorilor statistici cu posibilele limite ale abaterilor acestora servește, în cele din urmă, drept criteriu de evaluare a fiabilității caracteristicilor eșantionului obținut. Soluția acestei importante întrebări, atât teoretic cât și practic, este oferită de teoria erorilor statistice.

Așa cum variantele seriei variaționale sunt distribuite în jurul mediei lor, valorile parțiale ale mediilor obținute din probe individuale vor fi distribuite în același mod. Adică, cu cât obiectele studiate variază mai mult, cu atât mai mult vor varia valorile private. În același timp, cu cât se obțin valori mai private ale mediilor pe un număr mai mare de variante, cu atât se vor apropia mai mult de valoarea adevărată a mediei aritmetice a întregii populații statistice. Pe baza celor de mai sus eroare medie eșantion (eroare standard) este o măsură a abaterii mediei eșantionului de la media populației generale. Erorile de eșantionare apar ca urmare a reprezentativității incomplete a populației eșantionului, precum și la transferul datelor obținute din studiul eșantionului către întreaga populație. Valoarea erorii depinde de gradul de variabilitate a trăsăturii studiate și de mărimea eșantionului.

Eroarea standard este direct proporțională cu abaterea standard a eșantionului și invers proporțională cu rădăcina pătrată a numărului de măsurători:

S X = S / √ n

Erorile de eșantionare sunt exprimate în aceleași unități de măsură ca și semnul variabil și arată limitele în care se poate afla adevărata valoare a mediei aritmetice a populației studiate. Eroarea absolută a mediei eșantionului este utilizată pentru a stabili limitele de încredere în populația generală, a fiabilității indicatorilor și diferenței eșantionului, precum și pentru a stabili dimensiunea eșantionului în munca de cercetare.

Eroarea mediei poate fi utilizată pentru a obține un indicator al acurateței studiului - eroarea relativă a mediei eșantionului. Aceasta este eroarea de eșantionare exprimată ca procent din media corespunzătoare:

S X , % = S x / x cf × 100

Rezultatele sunt considerate destul de satisfăcătoare dacă eroarea relativă nu depășește 3-5% și corespunde unui nivel satisfăcător, cu 1-2% - precizie foarte mare, 2-3% - precizie mare.

3. Tipuri de distribuție statistică

Frecvența de manifestare a anumitor valori ale unei caracteristici în agregat se numește distribuție. Distingeți între distribuțiile de frecvență empirice și teoretice ale totalității rezultatelor observațiilor. Distribuția empirică este distribuția rezultatelor măsurătorilor obținute din studiul eșantionului. Distribuția teoretică presupune distribuția măsurătorilor bazată pe teoria probabilității. Acestea includ: distribuția normală (Gauss), distribuția Student (distribuția t), distribuția F, distribuția Poisson, binom.

Cea mai importantă în cercetarea biologică este distribuția normală sau Gaussiană - acesta este un set de măsurători în care variantele sunt grupate în jurul centrului de distribuție și frecvențele lor scad uniform la dreapta și la stânga centrului de distribuție (x). Variantele individuale se abate simetric de la media aritmetică, iar intervalul de variație în ambele direcții nu depășește 3 σ. Distribuția normală este caracteristică populațiilor ai căror membri sunt afectați colectiv de un număr infinit de factori diverși și multidirecționali. Fiecare factor contribuie cu o anumită parte la variabilitatea generală a trăsăturii. Fluctuațiile infinite ale factorilor determină variabilitatea membrilor individuali ai agregatelor.

Acest criteriu a fost dezvoltat de William Gossett pentru a evalua calitatea berii la Guinness. În legătură cu obligațiile față de companie de a nu dezvălui secrete comerciale (și conducerea Guinness a considerat ca atare utilizarea aparatului statistic în activitatea lor), articolul lui Gossett a fost publicat în revista Biometrics sub pseudonimul „Student” (Student).

Pentru a aplica acest criteriu, este necesar ca datele originale să aibă o distribuție normală. În cazul aplicării unui test cu două eșantioane pentru probe independente, este, de asemenea, necesar să se respecte condiția de egalitate a variațiilor. Există, totuși, alternative la testul t al lui Student pentru situații cu varianțe inegale.

În studiile reale, utilizarea incorectă a testului t al lui Student este complicată și de faptul că marea majoritate a cercetătorilor nu numai că nu testează ipoteza egalității varianțelor generale, dar nici nu testează prima constrângere: normalitatea în ambele comparații. grupuri. Drept urmare, autorii unor astfel de publicații se induc în eroare atât pe ei înșiși, cât și pe cititorii lor cu privire la adevăratele rezultate ale verificării egalității mijloacelor. Să adăugăm la aceasta faptul că problema comparațiilor multiple este ignorată, atunci când autorii fac comparații în perechi pentru trei sau mai multe grupuri comparate. De remarcat că nu numai studenții absolvenți începători și solicitanții suferă de o astfel de neglijență statistică, ci și specialiști investiți cu diverse regalii academice și manageriale: academicieni, rectori universitari, doctori și candidați la științe și mulți alți oameni de știință.

Rezultatul ignorării limitărilor pentru testul t al Studentului este confuzia autorilor de articole și disertații, și apoi a cititorilor acestor publicații, cu privire la raportul adevărat al mediilor generale ale grupurilor comparate. Deci, într-un caz, se face o concluzie despre o diferență semnificativă a mijloacelor, atunci când acestea de fapt nu diferă, în celălalt, dimpotrivă, se face o concluzie despre absența unei diferențe semnificative în mijloace, atunci când o astfel de diferenta exista.

De ce este importantă distribuția normală? Distribuția normală este importantă din mai multe motive. Distribuția multor statistici este normală sau poate fi obținută din normal cu unele transformări. Din punct de vedere filozofic, putem spune că distribuția normală este unul dintre adevărurile verificate empiric despre natura generală a realității și poziția ei poate fi considerată una dintre legile fundamentale ale naturii. Forma exactă a unei distribuții normale („curba clopotului”) este determinată de doar doi parametri: media și abaterea standard.

O proprietate caracteristică a unei distribuții normale este aceea că 68% din toate observațiile sale se află în ±1 deviație standard a mediei și a intervalului; ± 2 abateri standard conțin 95% din valori. Cu alte cuvinte, cu o distribuție normală, observațiile standardizate mai mici de -2 sau mai mari de +2 au o frecvență relativă mai mică de 5% (Observația standardizată înseamnă că media este scăzută din valoarea inițială și rezultatul este împărțit la standard abatere (rădăcina varianței)). Dacă aveți acces la pachetul STATISTICA, puteți calcula probabilitățile exacte asociate cu diferite valori ale distribuției normale folosind Calculatorul de probabilități; de exemplu, dacă setați valoarea z (adică valoarea unei variabile aleatoare care are o distribuție normală standard) la 4, nivelul de probabilitate corespunzător calculat de STATISTICA va fi mai mic de .0001, deoarece cu o distribuție normală, aproape toate observațiile (adică mai mult de 99, 99%) se vor încadra în ±4 abateri standard.

Expresia grafică a acestei distribuții se numește curba Gaussiană sau curba distribuției normale. S-a stabilit experimental că o astfel de curbă repetă adesea forma histogramelor obținute cu numere mari observatii.

Forma curbei de distribuție normală și poziția acesteia sunt determinate de două valori: media generală și abaterea standard.

În cercetarea practică, ei nu folosesc direct formula, ci recurg la ajutorul tabelelor.

Maximul sau centrul distribuției normale se află în punctul x = μ, punctul de inflexiune al curbei este la x1= ​​μ - σ și x2= μ + σ, la n = ± ∞ curba ajunge la zero. Intervalul de oscilații de la μ la dreapta și la stânga depinde de valoarea lui σ și se află în trei abateri standard:

1. 68,26% din toate observațiile sunt în zona limitelor μ + σ;

2. În limitele μ + 2 σ există 95,46% din toate valorile variabilei aleatoare;

3. În intervalul μ + 3σ este de 99,73%, aproape toate valorile caracteristicii.

Toate statisticile criteriilor sunt distribuite în mod normal? Nu toate, dar cele mai multe dintre ele fie au o distribuție normală, fie au o distribuție legată de normal și calculată din normal, cum ar fi t, F sau chi-pătrat. De obicei, aceste statistici criteriale necesită ca variabilele analizate în sine să fie distribuite în mod normal în populație. Multe dintre variabilele observate sunt într-adevăr distribuite normal, ceea ce este un alt argument că distribuția normală reprezintă o „lege fundamentală”. O problemă poate apărea atunci când încercați să aplicați teste bazate pe ipoteza normalității unor date care nu sunt normale. În aceste cazuri, puteți alege unul dintre cele două. În primul rând, puteți utiliza teste alternative „neparametrice” (așa-numitele „teste distribuite liber”, vezi secțiunea Statistici și distribuții neparametrice). Cu toate acestea, acest lucru este adesea incomod, deoarece aceste criterii sunt de obicei mai puțin puternice și mai puțin flexibile. Ca alternativă, în multe cazuri puteți utiliza în continuare teste bazate pe ipoteza normalității dacă sunteți sigur că dimensiunea eșantionului este suficient de mare. Ultima posibilitate se bazează pe un principiu extrem de important pentru a înțelege popularitatea testelor bazate pe normalitate. Și anume, pe măsură ce dimensiunea eșantionului crește, forma distribuției eșantionului (adică, distribuția statisticii eșantionului a testului, termenul a fost folosit pentru prima dată de Fisher, Fisher 1928a) se apropie de normal, chiar dacă distribuția variabilelor studiate nu este normal. Acest principiu este ilustrat de următoarea animație, care arată o secvență de distribuții de eșantioane (obținute pentru o secvență de eșantioane de mărime crescătoare: 2, 5, 10, 15 și 30) corespunzătoare variabilelor cu o abatere pronunțată de la normalitate, i.e. cu o distribuţie marcant deformată.

Cu toate acestea, pe măsură ce dimensiunea eșantionului utilizată pentru a determina distribuția mediei eșantionului crește, această distribuție se apropie de normal. Rețineți că, cu o dimensiune a eșantionului de n=30, distribuția eșantionului este „aproape” normală (vezi linia potrivită).

Fiabilitatea statistică, sau nivelul de probabilitate, este aria de sub curbă, limitată de medie prin t abateri standard, exprimată ca procent din suprafața totală. Cu alte cuvinte, aceasta este probabilitatea de apariție a unei valori caracteristice situată în regiunea μ + t σ. Nivelul de semnificație este probabilitatea ca valoarea atributului în schimbare să fie în afara limitelor μ + t σ, adică nivelul de semnificație indică probabilitatea ca o variabilă aleatorie să se abate de la limitele de variație stabilite. Cu cât nivelul de probabilitate este mai mare, cu atât nivelul de semnificație este mai scăzut.

În practica cercetării agronomice, se consideră posibilă utilizarea probabilităților de 0,95 - 95% și 0,99 - 99%, care se numesc încredere, adică cele care pot fi de încredere și utilizate cu încredere. Deci, cu o probabilitate de 0,95 - 95%, posibilitatea de a face o eroare de 0,05 - 5%, sau 1 din 20; cu o probabilitate de 0,99 - 99% - respectiv 0,01 - 1%, sau 1 din 100.

O abordare similară este aplicabilă distribuției mediilor eșantionului, deoarece orice studiu se reduce la o comparație a mediilor care respectă legea distribuției normale. Media μ, varianța σ 2 și abaterea standard σ sunt parametrii populației generale la n > ∞. Observațiile eșantionului fac posibilă obținerea estimărilor acestor parametri. Pentru eșantioanele mari (n>20-30, n>100), modelele normale de distribuție sunt obiective pentru estimările lor, adică 68,26% sunt în regiunea x ± S, 95,46% sunt în regiunea x ± 2S, 99,46% sunt în regiunea x ± 3S, 73% din toate observațiile. Media aritmetică și abaterea standard sunt printre principalele caracteristici prin care se stabilește distribuția empirică a măsurătorilor.

4. Metode de testare a ipotezelor statistice

Concluziile oricărui experiment agricol sau biologic trebuie judecate pe baza semnificației sau materialității lor. O astfel de evaluare se realizează prin compararea variantelor experienței între ele, sau cu controlul (standard), sau cu distribuția așteptată teoretic.

Ipoteza statistica o presupunere științifică despre anumite legi statistice de distribuție a variabilelor aleatoare considerate, care poate fi verificată pe baza unui eșantion. Comparați populațiile testând ipoteza nulă că nu există o diferență reală între observațiile reale și teoretice, folosind cel mai potrivit test statistic. Dacă, în urma testării, diferențele dintre indicatorii actuali și teoretici sunt aproape de zero sau sunt în intervalul valorilor acceptabile, atunci ipoteza nulă nu este infirmată. Dacă diferențele se dovedesc a fi în regiunea critică pentru criteriul statistic dat, imposibilă sub ipoteza noastră și deci incompatibilă cu acesta, ipoteza nulă este infirmată.

Acceptarea ipotezei nule înseamnă că datele nu contrazic ipoteza că nu există nicio diferență între performanța reală și cea teoretică. Infirmarea ipotezei înseamnă că dovezile empirice sunt incompatibile cu ipoteza nulă și o altă ipoteză alternativă este adevărată. Valabilitatea ipotezei nule este testată prin calcularea criteriilor de testare statistică pentru un anumit nivel de semnificație.

Nivelul de semnificație caracterizează măsura în care riscăm să facem o greșeală respingând ipoteza nulă, i.e. care este probabilitatea abaterii de la limitele stabilite de variație a unei variabile aleatoare. Prin urmare, cu cât nivelul de probabilitate este mai mare, cu atât nivelul de semnificație este mai scăzut.

Conceptul de probabilitate este indisolubil legat de conceptul de eveniment aleatoriu. În cercetarea agricolă și biologică, datorită variabilității inerente organismelor vii aflate sub influență conditii externe apariția unui eveniment poate fi aleatorie sau non-aleatorie. Evenimentele non-aleatoare vor fi cele care depășesc limitele posibilelor fluctuații aleatorii ale observațiilor din eșantion. Această împrejurare ne permite să determinăm probabilitatea de apariție atât a evenimentelor aleatoare, cât și a celor nealeatoare.

În acest fel, probabilitate- o măsură a posibilității obiective a unui eveniment, raportul dintre numărul de cazuri favorabile și numărul total de cazuri. Nivelul de semnificație indică probabilitatea cu care ipoteza testată poate da un rezultat eronat. În practica cercetării agricole, se consideră posibilă utilizarea probabilităților de 0,95 (95%) și 0,99 (99%), care corespund următoarelor niveluri de semnificație de 0,05 - 5% și 0,01 - 1%. Aceste probabilități se numesc probabilități de încredere, adică. cei în care se poate avea încredere.

Criteriile statistice utilizate pentru a evalua discrepanța dintre populațiile statistice sunt de două tipuri:

1) parametrice (pentru evaluarea populațiilor care au o distribuție normală);

2) neparametric (aplicat la distribuțiile de orice formă).

În practica cercetării agricole și biologice, există două tipuri de experimente.

În unele experimente, variantele sunt legate între ele de una sau mai multe condiții controlate de cercetător. Ca urmare, datele experimentale nu variază independent, dar conjuga, întrucât influența condițiilor care leagă variantele se manifestă, de regulă, fără ambiguitate. Acest tip de experiment include, de exemplu, o încercare pe teren cu repetări, fiecare dintre ele fiind situată pe un loc de fertilitate relativ egală. Într-un astfel de experiment, este posibil să se compare variantele între ele numai în limitele repetății. Un alt exemplu de observații înrudite este studiul fotosintezei; aici condiția unificatoare este caracteristicile fiecărei plante experimentale.

Odată cu aceasta, sunt adesea comparate populațiile, ale căror variante se schimbă independent una de cealaltă. Neconjugate, independente sunt variația caracteristicilor plantelor crescute în diferite condiții; în experimentele de vegetație, vasele din aceleași variante servesc drept repetiții, iar orice vas dintr-o variantă poate fi comparat cu orice vas al altuia.

Ipoteza statistica- oarecare presupunere despre legea distribuţiei unei variabile aleatoare sau despre parametrii acestei legi în cadrul eşantionului dat.

Un exemplu de ipoteză statistică: „populația generală este distribuită conform legii normale”, „diferența dintre variațiile celor două eșantioane este nesemnificativă” etc.

În calculele analitice, este adesea necesar să se prezinte și să se testeze ipoteze. Ipoteza statistică este testată folosind un criteriu statistic în conformitate cu următorul algoritm:

Ipoteza este formulată în termeni de diferență de valori. De exemplu, există valoare aleatorie x și constanta a. Ele nu sunt egale (aritmetic), dar trebuie să stabilim dacă diferența dintre ele este semnificativă statistic?

Există două tipuri de criterii:

Trebuie remarcat faptul că semnele ≥, ≤, = sunt folosite aici nu în sens aritmetic, ci în sens „statistic”. Ele trebuie citite „semnificativ mai mult”, „semnificativ mai puțin”, „diferența este nesemnificativă”.

Metoda testului t a studentului

Când comparăm mediile a două eșantioane independente, folosim metoda prin t - Criteriul Studentului propusă de savantul englez F. Gosset. Folosind această metodă, se estimează semnificația diferenței în medii (d \u003d x 1 - x 2). Se bazează pe calculul valorilor reale și din tabel și pe compararea acestora.

În teoria statisticii, eroarea diferenței sau suma mediilor aritmetice ale eșantioanelor independente cu același număr de observații (n ​​1 + n 2) este determinată de formula:

S d = √ S X1 2 + S X2 2 ,

unde S d este eroarea diferenței sau a sumei;

S X1 2 și S X2 2 - erori ale mediilor aritmetice comparate.

Raportul dintre diferență și eroarea sa servește ca garanție a fiabilității concluziei despre semnificația sau nesemnificația diferențelor dintre mediile aritmetice. Acest raport se numește criteriul de semnificație a diferenței:

t \u003d x 1 - x 2 / "√ S X1 2 + S X2 2 \u003d d / S d.

Valoarea teoretică a criteriului t se află din tabel, cunoscând numărul de grade de libertate Y = n 1 + n 2 - 2 și nivelul de semnificație acceptat.

Dacă t fapt ≥ t teor, ipoteza nulă despre absența diferențelor semnificative între medii este infirmată, iar dacă diferențele sunt în cadrul fluctuațiilor aleatorii pentru nivelul de semnificație acceptat, nu este infirmată.

metoda de estimare a intervalului

Estimarea intervalului caracterizat prin două numere capetele intervalului care acoperă parametrul estimat. Pentru a face acest lucru, este necesar să se determine intervalele de încredere pentru valorile posibile ale populației generale medii. În același timp, x este o estimare punctuală a mediei generale, atunci estimarea punctuală a mediei generale poate fi scrisă după cum urmează: x ± t 0,5 *S X , unde t 0,5 *S X este eroarea marginală a mediei eșantionului pentru un număr dat de grade de libertate și nivelul de semnificație acceptat.

Interval de încredere este un interval care acoperă parametrul estimat cu o probabilitate dată. Centrul intervalului este o estimare punctuală de eșantion. Limitele, sau limitele de încredere, sunt determinate de eroarea medie de estimare și de nivelul de probabilitate - x - t 0,5 *S X și x + t 0,5 *S X . Valoarea testului Student pentru diferite niveluri de semnificație și numărul de grade de libertate sunt date în tabel.

Estimarea diferenței serii medii adiacente

Estimarea diferenței dintre medii pentru probele conjugate se calculează prin metoda diferenței. Esența constă în faptul că semnificația diferenței medii este estimată prin compararea în perechi a variantelor experimentului. Pentru a găsi S d prin metoda diferenței, se calculează diferența dintre perechile conjugate de observații d, valoarea diferenței medii (d = Σ d / n) și eroarea diferenței medii sunt determinate de formula:

S d \u003d √ Σ (d - d) 2 / n (n - 1)

Criteriul de materialitate se calculează prin formula: t = d / S d . Numărul de grade de libertate se găsește prin egalitatea Y= n-1, unde n-1 este numărul de perechi conjugate.

întrebări de testare

  1. Ce este statistica variațională (matematică, statistică biologică, biometrie)?
  2. Ce se numește o colecție? Tipuri de agregate.
  3. Ce se numește variabilitate, variație? Tipuri de variabilitate.
  4. Definiți o serie variațională.
  5. Care sunt indicatorii statistici ai variabilitatii cantitative.
  6. Spuneți-ne despre indicatorii de variabilitate a unei trăsături.
  7. Cum se calculează varianța, proprietățile ei?
  8. Ce distribuții teoretice cunoașteți?
  9. Care este abaterea standard, proprietățile ei?
  10. Ce știi despre distribuția normală?
  11. Numiți indicatorii variabilității calitative și formulele de calcul a acestora.
  12. Ce este intervalul de încredere și fiabilitatea statistică?
  13. Care este eroarea absolută și relativă a eșantionului, cum să le calculăm?
  14. Coeficientul de variație și calculul acestuia pentru variabilitatea cantitativă și calitativă.
  15. Nume metode statistice testarea ipotezelor.
  16. Definiți o ipoteză statistică.
  17. Ce sunt ipotezele nule și alternative?
  18. Ce este un interval de încredere?
  19. Ce sunt probele conjugate și independente?
  20. Cum se calculează intervalul estimat al parametrilor populației generale?

Laboratorul #9

Analiza datelor statistice

Obiectiv: învață cum să procesezi datele statistice în foi de calcul folosind funcții încorporate; explorați posibilitățile Pachetului de analiză în MS Excel 2010 și unele dintre instrumentele acestuia: Generarea numerelor aleatorii, Histograma, Statistica descriptivă.

Partea teoretică

Foarte des, pentru prelucrarea datelor obținute ca urmare a examinării unui număr mare de obiecte sau fenomene ( date statistice), se folosesc metode de statistică matematică.

Statistica matematică modernă este împărțită în două domenii mari: descriptivși statistici analitice. Statistica descriptivă acoperă metode de descriere a datelor statistice, de prezentare a acestora sub formă de tabele, distribuții etc.

Statistica analitică este numită și teoria inferenței statistice. Subiectul său este prelucrarea datelor obținute în timpul experimentului și formularea unor concluzii care sunt de importanță aplicată pentru diverse domenii ale activității umane.

Se numește setul de numere obținute în urma sondajului agregat statistic.

set de prelevare(sau prelevarea de probe) este un set de obiecte selectate aleatoriu. Populația generală este ansamblul de obiecte din care este realizată proba. Volum set (general sau eșantion) este numărul de obiecte din acest set.

Pentru prelucrarea statistică, rezultatele studiului obiectelor sunt prezentate sub formă de numere X 1 ,X 2 ,…, x k. Dacă valoarea X 1 observat n 1 dată, valoare X 2 observat n de 2 ori etc., apoi valorile observate x i numit Opțiuni, și numărul de repetări ale acestora n i numit frecvente. Procedura de numărare a frecvențelor se numește grupare de date.

Marime de mostra n este egală cu suma toate frecventele n i:

Frecventa relativa valorile x i se numește raportul de frecvență al acestei valori n i la dimensiunea eșantionului n:

Distribuția statistică a frecvenței(sau pur și simplu distribuția de frecvență) se numește o listă de opțiuni și frecvențele corespunzătoare acestora, scrise sub forma unui tabel:



Distribuția relativă a frecvenței numită o listă de opțiuni și frecvențele relative respective ale acestora.


Caracteristici statistice de bază.

Foile de calcul moderne au un set imens de instrumente pentru analiza datelor statistice. Cele mai frecvent utilizate funcții statistice sunt încorporate în nucleul principal al programului, adică aceste funcții sunt disponibile din momentul lansării programului. Alte funcții mai specializate sunt incluse în rutine suplimentare. Mai exact, în Excel, o astfel de rutină se numește un pachet de instrumente de analiză. Comenzile și funcțiile pachetului de analiză se numesc Instrumente de analiză. Ne vom limita la câteva funcții statistice de bază încorporate și la cele mai utile instrumente de analiză din suita de analiză într-o foaie de calcul Excel.

Rău.

Funcția AVERAGE calculează media eșantionului (sau generală), adică media aritmetică a caracteristicii populației eșantionului (sau generală). Argumentul funcției AVERAGE este un set de numere, de obicei specificat ca un interval de celule, de exemplu, =AVERAGE(A3:A201).

PRELEZA 2

Concepte de bază ale statisticii matematice. Metoda selectiva. Caracteristici numerice serie statistică Estimări statistice punctuale și cerințe pentru acestea. Metoda intervalelor de încredere. Testarea ipotezelor statistice.

capitolul 3
CONCEPTE DE BAZĂ ALE STATISTICII MATEMATICE

Metoda de eșantionare

Acest capitol prevede scurtă recenzie concepte de bază și rezultate ale statisticii matematice care sunt utilizate în cursul econometriei.

Una dintre sarcinile centrale ale statisticii matematice este identificarea tiparelor în datele statistice, pe baza cărora puteți construi modele adecvate și puteți lua decizii informate. Prima sarcină statistica matematică este de a dezvolta metode de culegere și grupare a informațiilor statistice obținute ca urmare a observațiilor sau ca urmare a experimentelor special concepute. A doua sarcină statistica matematică este de a dezvolta metode de prelucrare și analiză a datelor statistice, în funcție de obiectivele studiului. Elementele unei astfel de analize, în special, sunt: ​​estimarea parametrilor unei funcții de distribuție cunoscute, testarea ipotezelor statistice despre tipul de distribuție etc.

Există o relație strânsă între statistica matematică și teoria probabilității. Teoria probabilității este utilizată pe scară largă în studiul statistic al fenomenelor de masă, care pot fi sau nu clasificate ca aleatoare. Acest lucru se realizează prin teoria metodei de eșantionare. Aici, legile probabilistice sunt supuse nu fenomenelor studiate, ci metodelor studiului lor. În plus, teoria probabilității joacă un rol important în studiul statistic al fenomenelor probabilistice. În aceste cazuri, fenomenele studiate în sine se supun unor legi probabilistice bine definite.

Sarcina principală a statisticii matematice este dezvoltarea metodelor de obținere a concluziilor bazate științific despre fenomenele și procesele de masă din date observaționale sau experimentale. De exemplu, trebuie să efectuați controlul calității unui lot fabricat de piese sau să examinați calitatea procesului tehnologic. Puteți, desigur, să efectuați un sondaj complet, de ex. inspectează fiecare detaliu al petrecerii. Cu toate acestea, dacă există prea multe detalii, atunci este imposibil din punct de vedere fizic să se efectueze un sondaj complet și, dacă examinarea unui obiect este asociată cu distrugerea acestuia sau este costisitoare, atunci nu are sens să se efectueze un sondaj continuu. Prin urmare, este necesar să selectați doar o parte din întregul set de obiecte pentru examinare, de exemplu. efectuarea unei anchete prin sondaj. Astfel, în practică, este adesea necesar să se estimeze parametrii unei populații mari dintr-un număr mic de elemente alese aleatoriu.



Se numește întregul set de obiecte de studiat populația generală. Se numește partea obiectelor care a fost selectată din populația generală populația eșantionului sau mai pe scurt - prelevarea de probe. Suntem de acord să notăm dimensiunea eșantionului prin literă n, și volumul populației generale după literă N.

Eșantionul, în cazul general, este format pentru a evalua orice caracteristici ale populației generale. Cu toate acestea, nu fiecare eșantion poate oferi o idee reală a populației generale. De exemplu, piesele sunt fabricate de obicei de muncitori cu diferite niveluri de calificare. Dacă în control sunt incluse doar piese fabricate de muncitori cu calificări inferioare, atunci ideea calității tuturor produselor va fi „subestimată”, cu excepția cazului în care piesele realizate de muncitori mai mult de înalt calificat, atunci această reprezentare va fi supraestimată.

Pentru a utiliza datele eșantionului pentru a putea judeca cu încredere caracteristica populației generale care ne interesează, este necesar ca obiectele eșantionului să o reprezinte corect. Cu alte cuvinte, eşantionul trebuie să reprezinte corect proporţiile populaţiei. Această cerință este rezumată după cum urmează: proba ar trebui să fie reprezentant(sau reprezentant) .

Reprezentativitatea probei este asigurată prin selecție aleatorie. Prin selecție aleatorie Toate elementele din populație au aceeași șansă de a fi incluse în eșantion.. În acest caz, în forța legii numerelor mari, se poate susține că eșantionul va fi reprezentativ. De exemplu, calitatea cerealelor este judecată după eșantionul mic. Deși numărul de boabe alese aleatoriu este mic în comparație cu întreaga masă a boabelor, dar în sine este destul de mare. În consecință, caracteristicile populației eșantionului vor diferi, din punct de vedere al probabilității, puțin de caracteristicile populației generale.

Distinge repetateși probe care nu se repetă. În primul caz, obiectul selectat este returnat populației generale înainte ca următorul să fie selectat. În al doilea caz, obiectul selectat în eșantion nu este returnat populației generale. Dacă dimensiunea eșantionului este semnificativ mai mică decât dimensiunea populației generale, atunci ambele eșantioane vor fi practic echivalente.

În multe cazuri, pentru analiza anumitor procesele economice ordinea în care sunt obţinute statisticile este importantă. Dar când se iau în considerare așa-numitele date spațiale, ordinea în care sunt obținute nu joacă un rol semnificativ. În plus, rezultatele valorilor eșantionate X 1 , X 2 , …, x n trăsătură cantitativă X a populației generale, înregistrate în ordinea înregistrării lor, sunt de obicei greu de văzut și incomod pentru analize ulterioare. Sarcina descrierii datelor statistice este de a obține o astfel de prezentare care vă va permite să identificați vizual caracteristicile probabilistice. Pentru aceasta, aplicați diferite forme ordonarea și gruparea datelor.

Materialul statistic obţinut în urma observaţiilor (măsurătorilor) poate fi scris sub forma unui tabel format din două rânduri. Prima linie conține numărul de măsurare, a doua - valoarea obținută. O astfel de masă se numește serii statistice simple:

i n
X 1 X 2 x i x n

Cu toate acestea, cu un număr mare de măsurători, seria statistică este dificil de analizat. Prin urmare, rezultatele observațiilor sunt necesare într-un fel eficientiza. Pentru a face acest lucru, valorile observate sunt aranjate în ordine crescătoare:

Unde . O astfel de statistică se numește clasat.

Deoarece unele valori ale seriei statistice pot avea aceleași valori, acestea pot fi combinate. Apoi fiecare valoare x i numărul va fi potrivit n i, egală cu frecvența de apariție a valorii date:

X 1 X 2 x k
n 1 n 2 nk

O astfel de serie se numește grupate.

Se numește seria clasată și grupată variațională. Valori observate x i numit Opțiuni, și numărul tuturor opțiunilor de observații n ifrecvență. Numărul tuturor observațiilor n numit volum serie de variații. Raportul de frecvență n i la volumul seriei n numit frecventa relativa:

Pe lângă seriile variaționale discrete, aplicați și interval linii de variație. Pentru a construi o astfel de serie, este necesar să se determine dimensiunea intervalelor și, în conformitate cu acestea, să grupeze rezultatele observațiilor:

[X 1 ,X 2 ] (X 2 ,X 3 ] (X 3 ,X 4 ] (X k-1, X k]
n 1 n 2 n 3 nk

O serie variațională de interval este de obicei construită în cazurile în care numărul de variante observate este foarte mare. Această situație apare de obicei la observare valoare continuă(de exemplu, măsurarea unora cantitate fizica). Există o anumită relație între seria de interval și variația discretă: orice serie discretă poate fi scrisă ca o serie de interval și invers.

Pentru o descriere grafică a unei serii variaționale discrete, folosesc poligon. Pentru a construi un poligon în sistem dreptunghiular coordonează punctele grafice cu coordonatele ( x i,n i) sau ( x i,w i). Apoi aceste puncte sunt conectate prin segmente. Linia întreruptă rezultată se numește poligon (vezi, de exemplu, Fig. 3.1a).

Pentru o descriere grafică a seriei de variații de interval, utilizați histogramă. Pentru a-l construi, de-a lungul axei absciselor, se trasează segmente reprezentând intervalele de variație, iar pe aceste segmente, ca și pe bază, se construiesc dreptunghiuri cu înălțimi egale cu frecvențele sau frecvențele relative ale intervalului corespunzător. Rezultatul este o figură formată din dreptunghiuri, care se numește histogramă (vezi, de exemplu, Fig. 3.1b).

A b
Orez. 3.1

Caracteristicile numerice ale seriei statistice

Construirea unei serii variaționale este doar primul pas către înțelegerea unei serii de observații. Acest lucru nu este suficient pentru studiu complet distribuţia fenomenului studiat. cel mai convenabil și metoda completă este mod analitic serii de cercetare, constând în calculul caracteristicilor numerice. Caracteristicile numerice utilizate pentru studiul seriilor variaționale sunt similare cu cele utilizate în teoria probabilității.

Cea mai naturală caracteristică a unei serii variaționale este conceptul mărime medie. În statistică se folosesc mai multe tipuri de medii: medie aritmetică, medie geometrică, medie armonică etc. Cel mai comun este conceptul medie aritmetică:

Dacă o serie variațională este construită pe baza datelor observaționale, atunci conceptul este utilizat valoarea medie ponderată:

. (3.3)

Media aritmetică are aceleași proprietăți ca și așteptarea matematică.

Ca măsură a dispersiei valorilor cantității observate în jurul valorii sale medii, luați

, (3.4)

care, ca și în teoria probabilității, se numește dispersie. Valoare

numit deviație standard(sau deviație standard). Varianta statistică are aceleași proprietăți ca și varianța probabilității și o formulă alternativă poate fi utilizată pentru a o calcula

. (3.6)

Exemplul 3.1. Datele pentru 199X sunt date pentru teritoriile regiunii (Tabelul 3.1).

Tabelul 3.1

Aflați media aritmetică și abaterea standard. Trasează o histogramă de frecvențe.

Soluţie. Pentru a calcula media aritmetică și dispersia, construim un tabel de calcul (Tabelul 3.4):

Tabelul 3.4

x i n i n i x i n i x i 2
Sumă

Aici în loc de x i se iau punctele medii ale intervalelor corespunzătoare. Conform tabelului găsim:

, ,

Să construim o histogramă de frecvențe conform datelor inițiale (Fig. 3.3). A

Luând în considerare principalele caracteristici statistice ale seriei, evaluați tendința centrală a eșantionului și varianța sau variația . Tendința centrală a eșantionului vă permit să evaluați caracteristici statistice precum media aritmetică, modul, mediana. Valoarea medie caracterizează proprietățile grupului, este centrul de distribuție, ocupă poziție centralăîn masa totală a valorilor variabile ale atributului.

Media aritmetică pentru o serie neordonată de măsurători se calculează prin însumarea tuturor măsurătorilor și împărțirea sumei la numărul de măsurători conform formulei: = ,

unde este suma tuturor valorilor x i, n numărul total măsurători.

Modă(Mo) se referă la rezultatul unui eșantion sau al unei populații care apare cel mai frecvent în acel eșantion. Pentru o serie de variații de interval, intervalul modal este selectat în funcție de cea mai mare frecvență. De exemplu, într-o serie de numere: 2, 3, 4, 4, 4, 5, 6, 6, 7, modul este 4, deoarece apare mai des decât alte numere.

În cazul în care toate valorile din grup apar la fel de des, se presupune că grupul nu are nici un mod. Când două valori adiacente au aceeași frecvență și sunt mai mari decât frecvența oricărei alte valori, modul este media celor două valori. De exemplu, într-o serie de numere: 2, 3, 4, 4, 5, 5, 6, 7, modul este 4,5. Dacă două valori neadiacente dintr-un grup au frecvențe egale și sunt mai mari decât frecvențele oricărei valori, atunci există două moduri. De exemplu, într-o serie de numere: 2, 3, 3, 4, 5, 5, 6, 7, modurile sunt 3 și 5.

Median(Eu) - rezultatul măsurării, care se află la mijlocul seriei clasate. Mediana împarte setul ordonat în jumătate, astfel încât o jumătate din valori să fie mai mare decât mediana, iar cealaltă jumătate să fie mai mică. Dacă o serie de numere conține un număr impar de valori, atunci mediana este media. De exemplu, într-o serie de numere: 6, 9, 11 , 19, 31 numărul median 11.

Dacă datele conțin un număr par de dimensiuni, atunci mediana este numărul care este media celor două valori centrale. De exemplu, în seria de numere: 6, 9, 11, 19, 31, 48, mediana este (11+19): 2 = 15.

Modul și mediana sunt utilizate pentru a estima media atunci când este măsurată pe scale de ordine (și modul, de asemenea, pe scale nominale).

Caracteristicile variației sau fluctuației rezultatelor măsurătorilor includ intervalul, abaterea standard, coeficientul de variație etc.

Toate caracteristicile medii dau caracteristici generale o serie de rezultate ale măsurătorilor. În practică, suntem adesea interesați de cât de departe fiecare rezultat se abate de la medie. Cu toate acestea, este ușor de imaginat că două grupuri de rezultate de măsurare au aceeași medie, dar valori de măsurare diferite. De exemplu, pentru seria 3, 6, 3 - valoarea medie = 4, pentru seria 5, 2, 5 și valoarea medie = 4, în ciuda diferenței semnificative dintre aceste serii.



Prin urmare, caracteristicile medii trebuie întotdeauna completate cu indicatori de variație, sau volatilitate. Cea mai simplă caracteristică a variației este intervalul de variație, definit ca diferența dintre măsurătorile cele mai mari și cele mai mici. Cu toate acestea, surprinde doar abateri extreme, dar nu reflectă abaterile tuturor rezultatelor.

Pentru a da o caracteristică generalizată, puteți calcula abaterile de la rezultatul mediu. Deviație standard calculat prin formula:

unde X este cel mai mare indicator; X - cel mai mic indicator; K - coeficient tabular (Anexa 4).

Abaterea standard (numită și abaterea standard) are aceleași unități ca și rezultatele măsurătorii. Cu toate acestea, această caracteristică nu este potrivită pentru a compara fluctuația a două sau mai multe populații cu unități de măsură diferite. Pentru aceasta se folosește coeficientul de variație.

Coeficientul de variație este definit ca raportul dintre abaterea standard și media aritmetică, exprimat ca procent. Se calculează prin formula: V = . 100%

Fluctuația rezultatelor măsurătorilor în funcție de valoarea coeficientului de variație este considerată mică (0–10%), medie (11–20%) și mare (>20%).

Coeficientul de variație este important deoarece, fiind o valoare relativă (măsurată ca procent), permite compararea variabilității rezultatelor măsurătorilor cu diferite unități de măsură. Coeficientul de variație poate fi utilizat numai dacă măsurătorile sunt efectuate pe o scară de raport.



Un alt indicator al dispersiei este eroare standard (rădăcină medie pătrată) a mediei aritmetice. Acest indicator (de obicei este notat cu simbolurile m sau S) caracterizează fluctuația mediei.

Eroarea standard a mediei aritmetice se calculează prin formula:

unde σ este abaterea standard a rezultatelor măsurătorii, n este dimensiunea eșantionului.