Charakteristika štatistických údajov. Číselné charakteristiky štatistického radu. II. Kontrola domácich úloh

Laboratórna správa

na tému "Metódy a prostriedky štatistického spracovania údajov"

Vyplnil: Galimova A.R., gr. 4195

Skontroloval: Mokshin V.V.

Kazaň, 2013

1. Individuálna úloha. 3

2. Plánovanie experimentov. štyri

2.1. Strategické plánovanie. štyri

2.1.1. D - optimálne plány.. 5

3. Základné štatistické charakteristiky ISD. osem

4. Posúdenie normality ISD. 9

5. Časové predpovede. 13

6. Korelačná analýza. 15

7. Zhluková analýza. 16

8. Faktorová analýza. 22

9. Regresná analýza. 27

10. Disperzná analýza. 35

11. Optimalizácia hodnôt faktorov a ukazovateľov výkonnosti. 35

Závery.. 36

Aplikácia. 37

Individuálna úloha

BUF1 - pre 3 miesta;

BUF2 - neobmedzený počet miest;

GOT - exponenciálny zákon, priemer 20000 jednotiek času;

VOSST - špec. grófstvo, priemer v jednej fáze 25 jednotiek. čas, číslo fáza 3;

GT − jednotný zákon, 225±25 časových jednotiek;

RK1 - exponenciálny zákon, priemer Х1=100 jednotiek. čas;

RK2 − normálny zákon, priemer Х2=90, čl. vypnuté 8 jednotiek vr.;

KAN1-KANМ – jednotný zákon, 75±15 časových jednotiek;

Х3=М – počet kanálov.

Výber KANal na prenos podľa najmenšieho počtu úloh, pre ktoré sa prenášajú informácie. Režim neprístupnosti sa prekrýva a odstraňuje prostredníctvom kanálov nezávisle na sebe.

Ukončite simuláciu po odhlásení 300 úloh (vyriešených plus zlyhania).

Optimalizované faktory: Х1 – priemerný čas riešenia na PC1, Х2 – priemerný čas riešenia na PC2, Х3 – počet kanálov. X1 a X2 sa menia o ± 20 % uvedených priemerných hodnôt; X3 od 2 do 6.

Postavme si model v systéme Arena

Obr.1 - Simulačný model vytvorený v simulačnom systéme Arena

Dizajn experimentov

Účelom plánovania je získať výsledky s danou spoľahlivosťou pri najnižších nákladoch. Rozlišujte medzi strategickým a taktickým plánovaním.

Strategické plánovanie

Pre strategické plánovanie budeme využívať koncept „čiernej skrinky“, ktorého podstatou je abstrakcia od fyzikálnej podstaty procesov prebiehajúcich v simulovanom systéme a vydávanie záverov o jeho fungovaní len na základe vstupných a výstupných premenných. Vstupné, nezávislé premenné sa nazývajú faktory. Výstup - odozvy, ich hodnota závisí od hodnôt faktorov a parametrov OI.

Faktory sú v našom prípade ukazovatele (parametre), ktoré budeme optimalizovať; reakcie sú efektívnymi indikátormi efektívnosti fungovania simulovaného systému. Bloková schéma čiernej skrinky je znázornená na obrázku 1.

Obr.1 Bloková schéma konceptu čiernej skrinky

Plány druhého rádu umožňujú, aby bola funkcia odozvy vytvorená ako úplný kvadratický polynóm, ktorý obsahuje viac členov ako neúplný kvadratický polynóm vytvorený z plánov prvého rádu, a preto si vyžaduje vykonanie väčšieho počtu experimentov. Úplný kvadratický polynóm pre m=3 má tvar:

D - optimálne plány

AT D-v optimálnych plánoch hodnoty faktorov neprekračujú stanovené hranice rozsahov ich zmeny. Okrem toho majú ďalšiu významnú výhodu, poskytujúcu minimálnu chybu v celom akceptovanom rozsahu zmien faktorov. V praxi sa najčastejšie využívajú Konove plány a Kieferove plány.

Ryža. 2 Geometrická interpretácia Kieferovho trojfaktorového plánu na kocke

strategický plán určuje počet variantov systému, ktorý sa má modelovať, a hodnoty faktorov v každom variante. Pre 3 optimalizované faktory sa navrhuje D-optimálny plán podľa Kieferovho algoritmu, ktorý pozostáva z 26 možností a je uvedený v tabuľke 1.

Tabuľka 1 - Kieferov plán pre 3-faktorový experiment

x 1 x 2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x4 x5 x6
-1 -1 -1 -1 -1
-1 -1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1

Tu: ; ;

Hodnoty X 1 , X 2 , X 3 vypočítame podľa individuálnej úlohy. Podľa stavu jednotlivej úlohy sa optimalizujú faktory: Х1 – priemerný čas riešenia na PC1, Х2 – priemerný čas riešenia na PC2, Х3 – počet kanálov. X1 a X2 sa menia o ± 20 % uvedených priemerných hodnôt; X3 od 2 do 6.

Na PK1, podmienka exponenciálneho zákona, je priemer 100 jednotiek času, preto je hodnota 0 - 100, 1-120, -1 -80 (keďže sa zmeníme o ± 20 % zadanej priemernej hodnoty.

RK2 dodržiava normálny zákon podľa podmienky priradenia a priemerná hodnota je 90 jednotiek. čas a modifikátor ±20 jednotiek času, teda 0-90, 1 – 108, -1-72. Všetky údaje sú uvedené v tabuľke 2.

Tabuľka 1 - Údaje pre faktory X 1 , X 2 , X 3

-1
x1
x2
x3

Y 1 – faktor využitia PC1 (0÷1)*100 %;

Y 2 - faktor využitia PK2 (0÷1)*100 %;

Y 3 – Priemerný celkový čas na dokončenie úloh.

D-optimálny plán podľa Kieferovho algoritmu pre individuálnu úlohu a odozvy Y 1 , Y 2 , Y 3 na faktory individuálnej úlohy sú uvedené v tabuľke 3.

Tabuľka 2 - D-optimálny plán podľa Kieferovho algoritmu (pre jednotlivé úlohy)

x 1 x 2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x4 x5 x6

Tabuľka 4 - Odpovede Y 1 , Y 2 , Y 3

Y 1 Y 2 Y 3
32,24 30,41 309,16
36,41 28,81 322,98
43,54 26,95 322,92
32,23 38,00 326,79
36,42 36,00 339,98
43,54 33,75 338,75
32,22 45,6 344,71
36,44 43,18 357,16
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,82 310,97
43,54 26,95 322,91
32,23 38,00 326,79
36,42 36,01 327,97
32,22 45,59 344,70
36,44 43,19 345,15
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,77 314,34
43,54 26,95 322,91
32,23 38,00 326,79
36,42 35,96 331,34
43,54 33,75 338,75
32,22 45,59 344,70
36,44 43,14 348,51
43,54 40,56 354,91

Základné štatistické charakteristiky ISD.

Hlavné štatistické charakteristiky sú:

1. Platné N - veľkosť vzorky;

2. Priemer - aritmetický priemer. Priemerná hodnota náhodnej premennej je jej najtypickejšia, najpravdepodobnejšia hodnota, akýsi stred, okolo ktorého sú rozptýlené všetky hodnoty atribútu.

3. Medián - medián. Medián je hodnota náhodnej premennej, ktorá rozdeľuje všetky prípady vo vzorke na dve rovnaké časti.

4. StandardDeviation - štandardná odchýlka. Smerodajná odchýlka (alebo smerodajná odchýlka) je mierou variability (variácie) znaku. Ukazuje, o koľko sa prípady v priemere odchyľujú od priemernej hodnoty atribútu.

5. Rozptyl - disperzia. Rozptyl je mierou variability, variácie znaku a je priemerným štvorcom odchýlok prípadov od strednej hodnoty znaku. Na rozdiel od iných ukazovateľov variácie je možné rozptyl rozložiť na jednotlivé časti, čo umožňuje vyhodnotiť vplyv rôznych faktorov pre variáciu vlastností.

6. Štandardná chyba priemeru Smerodajná chyba priemeru je množstvo, o ktoré sa výberový priemer líši od priemeru populácie za predpokladu, že rozdelenie je blízke normálnemu.

7. 95% interval spoľahlivosti priemeru - 95% interval spoľahlivosti pre priemer. Interval, do ktorého spadá stredná hodnota znaku bežnej populácie s pravdepodobnosťou 0,95.

8. Minimálne, maximálne - minimálne a maximálne hodnoty.

9. Šikmosť – asymetria. Asymetria charakterizuje stupeň posunu variačného radu vzhľadom na priemernú hodnotu v rozsahu a smere.

10. Štandardná chyba Skewness – štandardná chyba asymetrie.

11. Kurtóza - prebytok. Kurtóza charakterizuje stupeň koncentrácie prípadov okolo strednej hodnoty a je akýmsi meradlom strmosti krivky.

12. Štandardná chyba Kurtosis

Tabuľka 5 - Výsledky deskriptívnej štatistiky


Hodnotenie normality ISD.

Bežný zákon sa používa najčastejšie. Používa sa na reprezentáciu širokej škály náhodných procesov, ako je priemerná dĺžka života ľudí, zmeny ekonomických a technických ukazovateľov.

Vyslovme hypotézu, že počiatočné štatistické údaje podliehajú normálnemu zákonu a ako parametre normálneho zákona budeme brať odhady matematické očakávanie a štandardná odchýlka vypočítaná podľa vzorcov.

Funkcia hustoty normálneho zákona má tvar:

; .

Ak koeficient spoľahlivosti P v predpoklade normality empirického rozdelenia, ktorý možno zistiť zo štatistických tabuliek, nie je menší ako 0,20, potom sa predpoklad normality nezamieta. Ak P to<0,20, то предположение о нормальности рекомендуется отвергнуть.

Korešpondenciu medzi empirickým a hypotetickým rozdelením možno vizuálne vysledovať z grafov. Pri použití Kolmogorovho kritéria zhody je vhodnejšie použiť distribučné funkcie. Takéto grafy sa zostavujú a vydávajú v špeciálnych softvérových postupoch softvérového programu Statistica 6.0 a Excel 2007, na ktorých sú výpočty orientované podľa uvedeného matematického aparátu. Predstavme si rozloženie premenných na histogramoch (obr.3.-obr.8.).

Hustota normálneho rozdelenia sa superponuje na histogramy, aby sa skontrolovala blízkosť rozdelenia k normálnej forme pomocou Kolmogorov-Smirnovho kritéria.


Podobné informácie.


Téma 2.1. Základy štatistického spracovania experimentálnych údajov v agronomickom výskume. Štatistické charakteristiky kvantitatívnej a kvalitatívnej variability

Plán.

  1. Základy štatistiky
  2. Štatistické charakteristiky kvantitatívnej variability
  3. Typy štatistického rozdelenia
  4. Metódy testovania štatistických hypotéz

1. Základy štatistiky

Svet okolo nás je presýtený informáciami – obklopujú nás rôzne dátové toky, ktoré nás zachytávajú v poli svojho pôsobenia, zbavujú nás správneho vnímania reality. Nebolo by prehnané povedať, že informácie sa stávajú súčasťou reality a nášho vedomia.

Bez adekvátnych technológií na analýzu dát sa človek v krutom informačnom prostredí ukazuje ako bezmocný a pripomína skôr Brownovu časticu, zažíva tvrdé údery zvonku a nedokáže sa racionálne rozhodnúť.

Štatistika vám umožňuje kompaktne opísať údaje, pochopiť ich štruktúru, klasifikovať ich a vidieť vzory v chaose náhodných javov. Dokonca aj tie najjednoduchšie metódy vizuálnej a prieskumnej analýzy údajov môžu výrazne objasniť zložitú situáciu, ktorá spočiatku naráža na hromadu čísel.

Štatistický popis súboru objektov zaujíma medzipolohu medzi individuálnym popisom každého z objektov súboru na jednej strane a popisom súboru podľa jeho všeobecných vlastností, čo si vôbec nevyžaduje jeho členenie. do samostatných objektov, na druhej strane. V porovnaní s prvou metódou sú štatistické údaje vždy viac-menej neosobné a majú len obmedzenú hodnotu v prípadoch, keď ide o individuálne údaje, ktoré sú významné (napr. učiteľ pri oboznámení sa s triedou získa len veľmi predbežnú orientáciu o stav veci z jednej štatistiky počtu jeho exponovaného predchodcu známku výborný, dobrý, uspokojivý a neuspokojivý). Na druhej strane v porovnaní s údajmi o externe pozorovaných celkových vlastnostiach populácie štatistické údaje umožňujú hlbšie nahliadnuť do podstaty veci. Napríklad údaje z granulometrickej analýzy horniny (t. j. údaje o distribúcii častíc tvoriacich horninu podľa veľkosti) poskytujú cenné dodatočné informácie v porovnaní s testovaním nerozdelených vzoriek horniny, čo umožňuje do určitej miery vysvetliť vlastnosti. horniny, podmienky jej vzniku a pod.

Metóda výskumu, založená na zohľadnení štatistických údajov o určitých súboroch objektov, sa nazýva štatistická. Štatistická metóda sa používa v rôznych oblastiach poznania. Znaky štatistickej metódy pri aplikácii na objekty rôzneho charakteru sú však také zvláštne, že by bolo zbytočné spájať napríklad sociálno-ekonomickú štatistiku, fyzikálnu štatistiku.

Všeobecné črty štatistickej metódy v rôznych oblastiach poznania sa redukujú na počítanie počtu objektov zahrnutých do určitých skupín, pričom sa berie do úvahy distribúcia množstiev, čŕt, uplatňovanie metódy vzorkovania (v prípadoch, keď sa podrobne skúmajú všetky objekty obrovského rozsahu). populácia je obtiažna), využívajúc teóriu pravdepodobnosti pri hodnotení dostatočnosti počtu pozorovaní pre určité závery a pod. matematická štatistika

Prepojenie matematickej štatistiky s teóriou pravdepodobnosti má v rôznych prípadoch rôzny charakter. Teória pravdepodobnosti neštuduje žiadne javy, ale náhodné javy a to práve „pravdepodobnostne náhodné“, teda také, pri ktorých má zmysel hovoriť o im zodpovedajúcich rozdeleniach pravdepodobnosti. Napriek tomu teória pravdepodobnosti zohráva určitú úlohu v štatistickom štúdiu hromadných javov akejkoľvek povahy, ktoré nemožno klasifikovať ako pravdepodobnostne náhodné. To sa deje prostredníctvom teórie vzorkovania a teórie chýb merania založenej na teórii pravdepodobnosti. V týchto prípadoch pravdepodobnostné zákonitosti nepodliehajú samotným študovaným javom, ale metódam ich skúmania.

Dôležitejšiu úlohu zohráva teória pravdepodobnosti pri štatistickom štúdiu pravdepodobnostných javov. Tu nachádzajú plné uplatnenie také úseky matematickej štatistiky založené na teórii pravdepodobnosti ako teória štatistického testovania pravdepodobnostných hypotéz, teória štatistického odhadu rozdelenia pravdepodobnosti a ich parametrov a pod. Oblasť použitia týchto hlbších štatistických metód je oveľa užšia, pretože tu sa vyžaduje, aby samotné skúmané javy podliehali dostatočne určitým pravdepodobnostným zákonom.

Pravdepodobnostné vzory dostávajú štatistické vyjadrenie (pravdepodobnosti sa vykonávajú približne vo forme frekvencií a matematické očakávania - vo forme priemerov) v dôsledku veľké čísla zákona.

Na identifikáciu a vyhodnotenie najlepších poľnohospodárskych postupov a odrôd študovaných v poľnom pokuse sa využíva štatistické spracovanie experimentálnych údajov prezentovaných vo forme grafových číselných ukazovateľov úrody a iných vlastností a kvalít pokusných rastlín. Tieto ukazovatele charakterizujú skúmaný jav a odrážajú výsledok pôsobenia skúmaných faktorov, ktoré sa prejavili na konkrétnom mieste v určitom časovom období, so všetkými skresleniami, odchýlkami od skutočných údajov z rôznych dôvodov pozorovaných počas experimentu.

Štatistiky v širšom zmysle ju možno definovať ako vedu o kvantitatívnej analýze hromadných javov prírody a spoločnosti, ktorá slúži na identifikáciu ich kvalitatívnych znakov.

Štatistika je oblasť vedomostí, ktorá spája princípy a metódy s číselnými údajmi charakterizujúcimi hromadné javy. V tomto zmysle štatistika zahŕňa niekoľko samostatných disciplín: všeobecnú teóriu štatistiky ako úvodný kurz, teóriu pravdepodobnosti a matematickú štatistiku ako vedu o hlavných kategóriách a matematických vlastnostiach všeobecnej populácie a ich selektívnych odhadoch.

Slovo „štatistika“ pochádza z latinského slova status – stav, stav vecí. Spočiatku sa používa vo význame „politický stav“. Odtiaľ pochádza talianske slovo stato – štát a statista – znalec štátu. Slovo „štatistika“ sa začalo vo vedeckej praxi používať v 18. storočí a pôvodne sa používalo ako „štátna veda“.

V súčasnosti možno štatistiku definovať ako zber hromadných údajov, ich zovšeobecňovanie, prezentáciu, analýzu a interpretáciu. Ide o špeciálnu metódu, ktorá sa používa v rôznych oblastiach činnosti, pri riešení rôznych problémov.

Štatistika umožňuje identifikovať a merať zákonitosti vývoja sociálno-ekonomických javov a procesov, vzťah medzi nimi. Poznanie zákonitostí je možné len vtedy, ak sa neštudujú jednotlivé javy, ale súbory javov, keďže zákonitosti sa prejavujú v plnom rozsahu, iba v množstve javov. V každom jednotlivom jave sa nevyhnutné - to, čo je vlastné všetkým javom daného typu, prejavuje v jednote s náhodným, individuálnym, vlastným len tomuto konkrétnemu javu.

Zákonitosti, v ktorých nevyhnutnosť je v každom jednotlivom jave nerozlučne spojená s náhodou a len v množstve javov sa prejavuje zákonitosť, sa nazývajú štatistické.

V súlade s tým je predmetom štatistického skúmania vždy súhrn určitých javov, vrátane celého súboru prejavov skúmanej zákonitosti. Vo veľkom agregáte sa jednotlivé odrody navzájom rušia a do popredia sa dostávajú pravidelné vlastnosti. Keďže štatistika je navrhnutá tak, aby identifikovala pravidelnosť, opierajúc sa o údaje o každom jednotlivom prejave študovanej pravidelnosti ich zovšeobecňuje a dostáva tak kvantitatívne vyjadrenie tejto pravidelnosti.

Každý krok štúdie končí interpretáciou výsledkov: aký záver možno vyvodiť z analýzy, čo hovoria čísla – potvrdzujú počiatočné predpoklady alebo odhaľujú niečo nové? Interpretácia údajov je obmedzená zdrojovým materiálom. Ak sú závery založené na údajoch zo vzorky, vzorka musí byť reprezentatívna, aby sa závery dali použiť na populáciu ako celok. Štatistika vám umožňuje zistiť všetko užitočné, čo je obsiahnuté v zdrojových údajoch a určiť, čo a ako možno použiť pri rozhodovaní.

Termín štatistiky variácií bol zavedený v roku 1899 Dunkerom na označenie metód matematickej štatistiky používaných pri štúdiu určitých biologických javov. O niečo skôr, v roku 1889, F. Galton zaviedol ďalší termín - biometrie(z gréckych slov "bios" - život a "meter" - merať), označujúce použitie určitých metód matematickej štatistiky pri štúdiu dedičnosti, variability a iných biologických javov. Na základe teórie pravdepodobnosti vám variačná štatistika umožňuje správne pristupovať k analýze kvantitatívneho vyjadrenia skúmaných javov, kriticky posúdiť spoľahlivosť získaných kvantitatívnych ukazovateľov, určiť povahu vzťahu medzi javmi. a následne pochopiť ich kvalitatívnu originalitu.

Je dôležité si uvedomiť, že každý biologický objekt má variabilitu. Tie. každý zo znakov (výška rastliny, počet zŕn na klas, obsah živín) u rôznych jedincov môže mať rôzny stupeň závažnosti, čo poukazuje na variabilitu alebo variáciu znaku.

Pri štatistickej metóde výskumu sa pozornosť sústreďuje nie na jeden objekt, ale na skupinu homogénnych objektov, t.j. na niektorých z ich celku, zjednotené na spoločné štúdium. Určitý počet homogénnych jednotiek umiestnených podľa jednej alebo viacerých meniacich sa charakteristík sa nazýva štatistická populácia.

Štatistické agregáty sa delia na:

  1. všeobecný
  2. selektívne

Populácia zjednocuje všetky možné skúmané homogénne jednotky, napríklad rastliny na poli, populácie škodcov na poli, patogény rastlín. Vzorová populácia predstavuje určitú časť jednotiek prevzatých z celkovej populácie a dostali sa na kontrolu. Pri štúdiu napríklad úrody jabloní určitej odrody predstavujú všeobecnú populáciu všetky stromy danej odrody, veku, rastúce v určitých homogénnych podmienkach. Súbor vzoriek pozostáva z určitého počtu jabloní odobratých na skúšobných pozemkoch v skúmaných plantážach.

Je celkom zrejmé, že pri štatistickom výskume sa musíme zaoberať výlučne vzorovými populáciami. Správnosť úsudkov o vlastnostiach všeobecnej populácie na základe analýzy vzorky populácie závisí predovšetkým od jej typickosti. Preto, aby vzorka skutočne odrážala charakteristické vlastnosti všeobecnej populácie, vzorková populácia musí obsahovať dostatočný počet homogénnych jednotiek, ktoré majú vlastnosť reprezentatívnosť. Reprezentatívnosť sa dosahuje náhodným výberom variantu zo všeobecnej populácie, ktorý poskytuje rovnakú možnosť všetkým členom všeobecnej populácie dostať sa do vzorky.

Štatistické štúdium určitých javov je založené na analýze variability ukazovateľov alebo veličín, ktoré tvoria štatistické agregáty. Štatistické hodnoty môžu nadobúdať rôzne hodnoty, pričom odhaľujú určitú pravidelnosť ich variability. V tomto ohľade možno štatistické veličiny definovať ako veličiny, ktoré s určitou pravdepodobnosťou nadobúdajú rôzne hodnoty.

V procese pozorovania alebo experimentovania sa stretávame s premenlivými ukazovateľmi rôzneho druhu. Niektoré z nich nosia výrazné kvantitatívne povahy a sú ľahko merateľné, zatiaľ čo iné nemožno vyjadriť obvyklým kvantitatívnym spôsobom a sú typické kvalitatívne charakter.

V tomto ohľade sa rozlišujú dva typy variability alebo variácie:

  1. kvantitatívne
  2. kvalitu

2. Štatistické charakteristiky kvantitatívnej variability

Ako príklad kvantitatívnej variability treba uviesť: variabilitu v počte kláskov v klase pšenice, variabilitu veľkosti a hmotnosti semien, ich obsahu tukov, bielkovín atď. Príkladom kvalitatívnej variácie je: zmena farby alebo dospievania rôznych orgánov rastliny, hladký a zvrásnený hrášok, ktorý má zelenú alebo žltú farbu, a rôzne stupne poškodenia rastlín chorobami a škodcami.

Kvantitatívnu variáciu možno rozdeliť na dva typy: variáciu kontinuálne a prerušované.

nepretržitý variácia zahŕňa prípady, keď študované populácie pozostávajú zo štatistických jednotiek určených meraniami alebo výpočtami založenými na týchto meraniach. Príklad kontinuálnej variácie môže byť vyjadrený: hmotnosť a veľkosť semien, dĺžka internódií, výnosy plodín. Vo všetkých týchto prípadoch môžu skúmané kvantitatívne ukazovatele teoreticky nadobudnúť všetky možné hodnoty, celočíselné aj zlomkové medzi ich krajnými hranicami. Prechod z extrémnej minimálnej hodnoty na maximum je teoreticky pozvoľný a môže byť znázornený plnou čiarou.

O prerušovaný variácie, jednotlivé štatistické veličiny sú súborom jednotlivých prvkov, vyjadrených už nie meraním a nie výpočtom, ale počítaním. Príkladom takejto variácie je zmena počtu semien v plodoch, počtu okvetných lístkov v kvete, počtu stromov na jednotku plochy, počtu kukuričných klasov na rastlinu. Nespojité variácie tohto typu sa niekedy nazývajú aj celé čísla, pretože jednotlivé štatistické veličiny nadobúdajú celkom určité celočíselné hodnoty, zatiaľ čo pri spojitej variácii môžu byť tieto veličiny vyjadrené ako celočíselné aj zlomkové hodnoty.

Hlavné štatistické charakteristiky kvantitatívnej variability sú nasledovné:

1. aritmetický priemer;

Ukazovatele variability znakov:

2. disperzia;

3. smerodajná odchýlka;

4. variačný koeficient;

5. štandardná chyba aritmetického priemeru;

6. Relatívna chyba.

Aritmetický priemer. Pri štúdiu rôznych kvantitatívnych ukazovateľov je hlavnou sumárnou hodnotou ich aritmetický priemer. Aritmetický priemer slúži jednak na posúdenie jednotlivých študovaných populácií, ako aj na vzájomné porovnanie zodpovedajúcich populácií. Získané priemerné hodnoty sú základom pre vyvodenie záverov a pre vyriešenie určitých praktických problémov.

Na výpočet aritmetického priemeru sa používa nasledujúci vzorec: ak je súčet všetkých možností (x 1 + x 2 + ... + x n) označený Σ x i, počet možností - n, potom aritmetický priemer je určil:

x porov. =Σ x i / n)

Aritmetický priemer udáva prvú všeobecnú kvantitatívnu charakteristiku študovanej štatistickej populácie. Pri riešení množstva teoretických a praktických otázok je popri poznaní priemernej hodnoty analyzovaného ukazovateľa potrebné dodatočne zistiť charakter rozloženia variantu okolo tohto priemeru.

Objekty poľnohospodárskeho a biologického výskumu sa vyznačujú variabilitou znakov a vlastností v čase a priestore. Dôvodom sú vnútorné, dedičné vlastnosti organizmov a rozdielna rýchlosť ich reakcie na podmienky prostredia.

Odhalenie povahy rozptylu je jednou z hlavných úloh štatistickej analýzy experimentálnych údajov, ktorá umožňuje nielen odhadnúť mieru rozptylu pozorovaní, ale aj použiť tento odhad na analýzu a interpretáciu výsledkov štúdie.

Povaha variantu zoskupenia v blízkosti ich strednej hodnoty, nazývaná aj rozptyl, môže slúžiť ako indikátor miery variability študovaného materiálu. Ukazovatele variability. Limity (rozsah variácií) toto sú minimálne a maximálne hodnoty atribútu v súhrne. Čím väčší je medzi nimi rozdiel, tým je znamienko variabilnejšie.

Rozptyl S2 a štandardná odchýlka S. Tieto štatistické charakteristiky sú hlavnými mierami variácie (rozptyl) sledovaného znaku. Rozptyl (stredná štvorec) je podiel súčtu štvorcových odchýlok Σ (x – x) 2 vydelený počtom všetkých meraní bez jednotky:

Σ (x - x) 2 / n -1

Štandard alebo štandardná odchýlka sa získa odmocninou z rozptylu:

S = √ S 2

Smerodajná odchýlka charakterizuje mieru variability študovaného materiálu, mieru miery ovplyvnenia znaku rôznych sekundárnych príčin jeho variácie, vyjadrenú v absolútnom vyjadrení, t.j. v rovnakých jednotkách ako hodnoty jednotlivých variantov. Smerodajnú odchýlku možno v tomto smere použiť len pri porovnávaní variability štatistických populácií, ktorých varianty sú vyjadrené v rovnakých jednotkách merania.

V štatistike sa všeobecne uznáva, že rozsah variability v agregátoch dostatočne veľkého objemu, ktoré sú pod neustálym vplyvom mnohých rôznorodých a viacsmerných faktorov (biologických javov), nepresahuje 3S aritmetického priemeru. O takýchto populáciách sa hovorí, že sledujú normálne variantné rozdelenie.

Vzhľadom na skutočnosť, že rozsah variability pre každú študovanú biologickú populáciu je v rámci 3S od aritmetického priemeru, čím väčšia je štandardná odchýlka, tým väčšia je variabilita znaku v študovaných populáciách. Smerodajná odchýlka sa používa ako nezávislý ukazovateľ a ako základ pre výpočet iných ukazovateľov.

Pri porovnávaní variability heterogénnych populácií je potrebné použiť mieru variácie, čo je abstraktné číslo. Na tento účel sa zaviedla štatistika variačný koeficient, ktorá sa chápe ako štandardná odchýlka vyjadrená ako percento aritmetického priemeru tejto populácie:

V = S/x x 100 %.

Variačný koeficient vám umožňuje objektívne posúdiť mieru variácie pri porovnávaní akýchkoľvek populácií. Pri štúdiu kvantitatívnych znakov vám umožňuje vybrať najstabilnejšie z nich. Variabilita sa považuje za nevýznamnú, ak variačný koeficient nepresahuje 10 %, za strednú – ak je od 10 % do 20 % a za významnú – ak je viac ako 20 %.

Na základe uvažovaných ukazovateľov dospejeme k úsudku o kvalitatívnej originalite celej všeobecnej populácie. Je zrejmé, že miera spoľahlivosti našich úsudkov o všeobecnej populácii bude závisieť predovšetkým od toho, do akej miery v tej či onej časti vzorky populácie jej jednotlivec, ako aj náhodné znaky nezasahujú do prejavu všeobecných vzorcov a vlastnosti skúmaného javu.

Vzhľadom na to, že pri vykonávaní experimentálnych prác a vedeckého výskumu vo väčšine prípadov nemôžeme pracovať s veľmi veľkými vzorkami, je potrebné na základe týchto vzoriek určiť možné chyby v našich charakteristikách študovaného materiálu. Treba poznamenať, že v tomto prípade by sa chyby nemali chápať ako chyby vo výpočtoch určitých štatistických ukazovateľov, ale hranice možného kolísania ich hodnôt vo vzťahu k celej populácii.

Porovnanie jednotlivých zistených hodnôt štatistických ukazovateľov s možnými hranicami ich odchýlok slúži v konečnom dôsledku ako kritérium pre posúdenie spoľahlivosti získaných výberových charakteristík. Riešenie tejto dôležitej otázky, teoreticky aj prakticky, poskytuje teória štatistických chýb.

Tak ako sú varianty variačných radov rozložené okolo ich priemeru, rovnako budú rozdelené aj čiastkové hodnoty priemerov získaných z jednotlivých vzoriek. To znamená, že čím viac sa budú skúmané objekty líšiť, tým viac sa budú líšiť súkromné ​​hodnoty. Zároveň platí, že čím viac súkromných hodnôt priemerov sa získa na väčšom počte variantov, tým bližšie budú k skutočnej hodnote aritmetického priemeru celej štatistickej populácie. Na základe vyššie uvedeného vzorová stredná chyba (štandardná chyba) je miera odchýlky priemeru vzorky od priemeru bežnej populácie. Výberové chyby vznikajú v dôsledku neúplnej reprezentatívnosti výberového súboru, ako aj pri prenose údajov získaných zo štúdia výberového súboru na celú populáciu. Chybová hodnota závisí od stupňa variability študovaného znaku a veľkosti vzorky.

Štandardná chyba je priamo úmerná štandardnej odchýlke vzorky a nepriamo úmerná druhej odmocnine počtu meraní:

S X = S / √ n

Výberové chyby sú vyjadrené v rovnakých jednotkách merania ako premenné znamienko a ukazujú hranice, v ktorých môže ležať skutočná hodnota aritmetického priemeru študovanej populácie. Absolútna chyba priemeru vzorky sa používa na stanovenie hraníc spoľahlivosti vo všeobecnej populácii, spoľahlivosti ukazovateľov vzorky a rozdielu, ako aj na stanovenie veľkosti vzorky vo výskumnej práci.

Chyba priemeru sa môže použiť na získanie ukazovateľa presnosti štúdie - relatívna chyba priemeru vzorky. Toto je výberová chyba vyjadrená ako percento zodpovedajúceho priemeru:

SX, % = S x / x cf x 100

Výsledky sa považujú za celkom uspokojivé, ak relatívna chyba nepresahuje 3-5% a zodpovedá uspokojivej úrovni, s 1-2% - veľmi vysoká presnosť, 2-3% - vysoká presnosť.

3. Typy štatistického rozdelenia

Frekvencia prejavu určitých hodnôt prvku v súhrne sa nazýva distribúcia. Rozlišujte medzi empirickými a teoretickými frekvenčnými rozdeleniami súhrnu výsledkov pozorovaní. Empirické rozdelenie je rozdelenie výsledkov meraní získaných zo štúdie vzorky. Teoretické rozdelenie predpokladá rozdelenie meraní na základe teórie pravdepodobnosti. Patria sem: normálne (Gaussovo) rozdelenie, Studentovo rozdelenie (t - rozdelenie), F - rozdelenie, Poissonovo rozdelenie, binomické.

Najdôležitejšie v biologickom výskume je normálne alebo Gaussovo rozdelenie – ide o súbor meraní, pri ktorých sú varianty zoskupené okolo distribučného centra a ich frekvencie rovnomerne klesajú vpravo a vľavo od distribučného centra (x). Jednotlivé varianty sa od aritmetického priemeru odchyľujú symetricky a variačný rozsah v oboch smeroch nepresahuje 3 σ. Normálne rozdelenie je charakteristické pre populácie, ktorých členovia sú kolektívne ovplyvnení nekonečne veľkým počtom rôznorodých a viacsmerných faktorov. Každý faktor prispieva určitým dielom k celkovej variabilite znaku. Nekonečné kolísanie faktorov spôsobuje variabilitu jednotlivých členov agregátov.

Toto kritérium vyvinul William Gossett na hodnotenie kvality piva v Guinness. V súvislosti so záväzkami voči spoločnosti k mlčanlivosti o obchodných tajomstvách (a vedenie Guinessovej banky za používanie štatistického aparátu pri svojej práci považovalo) bol Gossettov článok publikovaný v časopise Biometria pod pseudonymom „Student“ (Študent ).

Na uplatnenie tohto kritéria je potrebné, aby pôvodné údaje mali normálne rozdelenie. V prípade aplikácie dvojvýberového testu pre nezávislé výbery je potrebné dodržať aj podmienku rovnosti rozptylov. Existujú však alternatívy k Studentovmu t-testu pre situácie s nerovnakými rozptylmi.

V reálnych štúdiách je nesprávne použitie Studentovho t-testu komplikované aj tým, že veľká väčšina výskumníkov nielenže netestuje hypotézu rovnosti všeobecných rozptylov, ale netestuje ani prvé obmedzenie: normalitu v oboch porovnávaných skupiny. V dôsledku toho autori takýchto publikácií zavádzajú seba aj svojich čitateľov o skutočných výsledkoch kontroly rovnosti prostriedkov. Pridajme k tomu fakt, že je ignorovaný problém viacnásobného porovnávania, kedy autori robia párové porovnávanie pre tri a viac porovnávaných skupín. Treba poznamenať, že takouto štatistickou zanedbanosťou trpia nielen začínajúci postgraduálni študenti a uchádzači, ale aj odborníci, ktorí investovali do rôznych akademických a manažérskych pokladov: akademici, rektori univerzít, lekári a kandidáti vied a mnohí ďalší vedci.

Výsledkom ignorovania obmedzení pre Studentov t-test je zmätok autorov článkov a dizertačných prác a následne čitateľov týchto publikácií, pokiaľ ide o skutočný pomer všeobecných priemerov porovnávaných skupín. V jednom prípade sa teda robí záver o významnom rozdiele v prostriedkoch, keď sa v skutočnosti nelíšia, v druhom naopak o absencii podstatného rozdielu v prostriedkoch, keď napr. existuje rozdiel.

Prečo je normálne rozdelenie dôležité? Normálne rozdelenie je dôležité z mnohých dôvodov. Rozdelenie mnohých štatistík je normálne alebo sa dá získať z normálu pomocou niektorých transformácií. Filozoficky vzaté môžeme povedať, že normálne rozdelenie je jednou z empiricky overených právd o všeobecnej povahe reality a jeho postavenie možno považovať za jeden zo základných prírodných zákonov. Presný tvar normálneho rozdelenia (charakteristická "zvonová krivka") je určený iba dvoma parametrami: priemerom a štandardnou odchýlkou.

Charakteristickou vlastnosťou normálneho rozdelenia je, že 68 % všetkých jeho pozorovaní leží v rozmedzí ±1 štandardnej odchýlky od priemeru a rozsahu; ± 2 štandardné odchýlky obsahuje 95 % hodnôt. Inými slovami, pri normálnom rozdelení majú štandardizované pozorovania menšie ako -2 alebo väčšie ako +2 relatívnu frekvenciu menšiu ako 5 % (štandardizované pozorovanie znamená, že priemer sa odpočíta od pôvodnej hodnoty a výsledok sa vydelí štandardom odchýlka (koreň rozptylu)). Ak máte prístup k balíku STATISTICA, môžete pomocou kalkulačky pravdepodobnosti vypočítať presné pravdepodobnosti spojené s rôznymi hodnotami normálneho rozdelenia; ak napríklad nastavíte hodnotu z (t. j. hodnotu náhodnej premennej, ktorá má štandardné normálne rozdelenie) na 4, zodpovedajúca úroveň pravdepodobnosti vypočítaná systémom STATISTICA bude menšia ako 0,0001, pretože pri normálnom rozdelení takmer všetky pozorovania (t.j. viac ako 99, 99 %) budú spadať do ±4 štandardných odchýlok.

Grafické vyjadrenie tohto rozdelenia sa nazýva Gaussova krivka, alebo krivka normálneho rozdelenia. Experimentálne sa zistilo, že takáto krivka často opakuje tvar histogramov získaných pomocou veľké čísla pozorovania.

Tvar krivky normálneho rozdelenia a jej poloha sú určené dvoma hodnotami: všeobecným priemerom a štandardnou odchýlkou.

V praktickom výskume nepoužívajú priamo vzorec, ale uchyľujú sa k pomoci tabuliek.

Maximum, čiže stred normálneho rozdelenia leží v bode x = μ, inflexný bod krivky je v x1 = μ - σ a x2 = μ + σ, v n = ± ∞ krivka dosahuje nulu. Rozsah oscilácií od μ doprava a doľava závisí od hodnoty σ a je v rámci troch štandardných odchýlok:

1. 68,26 % všetkých pozorovaní je v oblasti limitov μ + σ;

2. V medziach μ + 2 σ je 95,46 % všetkých hodnôt náhodnej premennej;

3. V intervale μ + 3σ je 99,73%, takmer všetky hodnoty funkcie.

Sú všetky štatistiky kritérií normálne rozdelené? Nie všetky, ale väčšina z nich má buď normálne rozdelenie, alebo má rozdelenie súvisiace s normálom a vypočítané z normálneho, ako napríklad t, F alebo chí-kvadrát. Tieto štatistiky kritérií zvyčajne vyžadujú, aby samotné analyzované premenné boli normálne rozdelené v populácii. Mnohé z pozorovaných premenných sú skutočne normálne rozdelené, čo je ďalší argument, že normálne rozdelenie predstavuje „základný zákon“. Problém môže nastať pri pokuse aplikovať testy založené na predpoklade normality na údaje, ktoré nie sú normálne. V týchto prípadoch si môžete vybrať jednu z týchto dvoch možností. Najprv môžete použiť alternatívne „neparametrické“ testy (tzv. „voľne distribuované testy“, pozri časť Neparametrické štatistiky a rozdelenia). To je však často nepohodlné, pretože tieto kritériá sú zvyčajne menej účinné a menej flexibilné. Ako alternatívu môžete v mnohých prípadoch stále použiť testy založené na predpoklade normality, ak ste si istí, že veľkosť vzorky je dostatočne veľká. Posledná možnosť je založená na mimoriadne dôležitom princípe pochopiť popularitu testov založených na normalite. Totiž, keď sa veľkosť vzorky zväčšuje, tvar distribúcie vzorky (t. j. distribúcia štatistických údajov vzorky testu, termín prvýkrát použil Fisher, Fisher 1928a) sa približuje normálne, aj keď distribúcia skúmaných premenných nie je normálne. Tento princíp ilustruje nasledujúca animácia, ktorá zobrazuje postupnosť rozdelenia vzoriek (získaných pre sekvenciu vzoriek s narastajúcou veľkosťou: 2, 5, 10, 15 a 30) zodpovedajúcich premenným s výraznou odchýlkou ​​od normálnosti, t.j. s výrazne zošikmeným rozložením.

Keď sa však veľkosť vzorky použitá na odvodenie distribúcie priemernej vzorky zvyšuje, táto distribúcia sa blíži k normálu. Všimnite si, že pri veľkosti vzorky n=30 je distribúcia vzorky "takmer" normálna (pozri tesnú čiaru).

Štatistická spoľahlivosť alebo úroveň pravdepodobnosti je plocha pod krivkou, ktorá je od priemeru obmedzená t štandardnými odchýlkami, vyjadrená ako percento celkovej plochy. Inými slovami, toto je pravdepodobnosť výskytu hodnoty vlastnosti ležiacej v oblasti μ + t σ. Hladina významnosti je pravdepodobnosť, že hodnota meniaceho sa atribútu je mimo hraníc μ + t σ, to znamená, že hladina významnosti udáva pravdepodobnosť odchýlky náhodnej premennej od stanovených hraníc variácie. Čím vyššia je úroveň pravdepodobnosti, tým nižšia je úroveň významnosti.

V praxi agronomického výskumu sa považuje za možné použiť pravdepodobnosti 0,95 - 95% a 0,99 - 99%, ktoré sa nazývajú dôvera, teda tie, ktorým možno dôverovať a s istotou ich používať. Takže s pravdepodobnosťou 0,95 - 95% možnosť chyby 0,05 - 5% alebo 1 z 20; s pravdepodobnosťou 0,99 – 99 % – respektíve 0,01 – 1 %, alebo 1 zo 100.

Podobný prístup je aplikovateľný na distribúciu priemerov vzoriek, pretože každá štúdia je redukovaná na porovnanie prostriedkov, ktoré sa riadia zákonom normálneho rozdelenia. Priemer μ, rozptyl σ 2 a smerodajná odchýlka σ sú parametre všeobecnej populácie pri n > ∞. Vzorové pozorovania umožňujú získať odhady týchto parametrov. Pre veľké vzorky (n>20-30, n>100) sú vzorce normálneho rozdelenia objektívne pre ich odhady, to znamená, že 68,26 % je v oblasti x ± S, 95,46 % je v oblasti x ± 2S, 99,46 % sú v oblasti x ± 3S, 73 % všetkých pozorovaní. Aritmetický priemer a smerodajná odchýlka patria medzi hlavné charakteristiky, ktorými sa určuje empirická distribúcia meraní.

4. Metódy testovania štatistických hypotéz

Závery z akéhokoľvek poľnohospodárskeho alebo biologického experimentu sa musia posudzovať na základe ich významu alebo závažnosti. Takéto hodnotenie sa uskutočňuje porovnaním variantov zážitku medzi sebou, prípadne s kontrolou (štandard), prípadne s teoreticky očakávaným rozdelením.

Štatistická hypotéza vedecký predpoklad o určitých štatistických zákonitostiach rozloženia uvažovaných náhodných premenných, ktorý možno overiť na základe vzorky. Porovnajte populácie testovaním nulovej hypotézy, že neexistuje žiadny skutočný rozdiel medzi skutočnými a teoretickými pozorovaniami, pomocou najvhodnejšieho štatistického testu. Ak sú v dôsledku testovania rozdiely medzi skutočnými a teoretickými ukazovateľmi blízke nule alebo sú v rozsahu prijateľných hodnôt, potom nulová hypotéza nie je vyvrátená. Ak sa ukáže, že rozdiely sú v oblasti kritickej pre dané štatistické kritérium, sú podľa našej hypotézy nemožné, a preto sú s ňou nekompatibilné, nulová hypotéza je vyvrátená.

Prijatie nulovej hypotézy znamená, že údaje nie sú v rozpore s predpokladom, že neexistuje rozdiel medzi skutočným a teoretickým výkonom. Vyvrátenie hypotézy znamená, že empirický dôkaz je v rozpore s nulovou hypotézou a iná, alternatívna hypotéza je pravdivá. Platnosť nulovej hypotézy sa testuje výpočtom štatistických testovacích kritérií pre určitú hladinu významnosti.

Hladina významnosti charakterizuje, do akej miery riskujeme, že sa pomýlime odmietnutím nulovej hypotézy, t.j. aká je pravdepodobnosť odchýlky od stanovených hraníc variácie náhodnej veličiny. Preto čím vyššia je hladina pravdepodobnosti, tým nižšia je hladina významnosti.

Pojem pravdepodobnosti je neoddeliteľne spojený s pojmom o náhodná udalosť. V poľnohospodárskom a biologickom výskume kvôli variabilite, ktorá je vlastná živým organizmom pod vplyvom vonkajších podmienok výskyt udalosti môže byť náhodný alebo nenáhodný. Nenáhodné udalosti budú tie, ktoré presahujú hranice možných náhodných fluktuácií pozorovaní vzorky. Táto okolnosť nám umožňuje určiť pravdepodobnosť výskytu náhodných aj nenáhodných udalostí.

Touto cestou, pravdepodobnosť- miera objektívnej možnosti udalosti, pomer počtu priaznivých prípadov k celkovému počtu prípadov. Hladina významnosti udáva pravdepodobnosť, s ktorou môže testovaná hypotéza poskytnúť chybný výsledok. V praxi poľnohospodárskeho výskumu sa považuje za možné použiť pravdepodobnosti 0,95 (95 %) a 0,99 (99 %), ktoré zodpovedajú nasledujúcim hladinám významnosti 0,05 - 5 % a 0,01 - 1 %. Tieto pravdepodobnosti sa nazývajú pravdepodobnosti spoľahlivosti, t.j. tých, ktorým sa dá veriť.

Štatistické kritériá používané na posúdenie rozdielov medzi štatistickými súbormi sú dvoch typov:

1) parametrické (na hodnotenie populácií, ktoré majú normálne rozdelenie);

2) neparametrické (aplikované na distribúcie akejkoľvek formy).

V praxi poľnohospodárskeho a biologického výskumu existujú dva typy experimentov.

V niektorých experimentoch sú varianty navzájom spojené jednou alebo viacerými podmienkami kontrolovanými výskumníkom. V dôsledku toho sa experimentálne údaje nelíšia nezávisle, ale konjugovať, keďže vplyv podmienok spájajúcich varianty sa prejavuje spravidla jednoznačne. Tento typ experimentu zahŕňa napríklad poľný pokus s opakovaniami, z ktorých každé sa nachádza na mieste s relatívne rovnakou úrodnosťou. V takomto experimente je možné porovnávať varianty medzi sebou len v medziach opakovania. Ďalším príkladom súvisiacich pozorovaní je štúdium fotosyntézy; tu sú zjednocujúcou podmienkou vlastnosti každej experimentálnej rastliny.

Spolu s tým sa často porovnávajú populácie, ktorých varianty sa menia nezávisle od seba. Nekonjugované, nezávislé sú variácie znakov rastlín pestovaných v rôznych podmienkach; pri vegetačných pokusoch slúžia ako opakovania nádoby rovnakých variantov a ktorúkoľvek nádobu jedného variantu možno porovnávať s akoukoľvek nádobou iného variantu.

Štatistická hypotéza- nejaký predpoklad o zákone rozdelenia náhodnej veličiny alebo o parametroch tohto zákona v rámci danej vzorky.

Príklad štatistickej hypotézy: „všeobecná populácia je rozdelená podľa normálneho zákona“, „rozdiel medzi rozptylmi dvoch vzoriek je nevýznamný“ atď.

Pri analytických výpočtoch je často potrebné predkladať a testovať hypotézy. Štatistická hypotéza sa testuje pomocou štatistického kritéria v súlade s nasledujúcim algoritmom:

Hypotéza je formulovaná z hľadiska rozdielu hodnôt. Napríklad existuje náhodná hodnota x a konštanta a. Nie sú rovnaké (aritmeticky), ale musíme zistiť, či je rozdiel medzi nimi štatisticky významný?

Existujú dva typy kritérií:

Treba poznamenať, že znamienka ≥, ≤, = sa tu nepoužívajú v aritmetickom, ale v „štatistickom“ zmysle. Treba ich čítať „výrazne viac“, „výrazne menej“, „rozdiel je zanedbateľný“.

Študentova metóda t-testu

Pri porovnávaní priemerov dvoch nezávislých vzoriek používame metóda podľa t - Študentovo kritérium navrhol anglický vedec F. Gosset. Pomocou tejto metódy sa odhaduje významnosť rozdielu v priemeroch (d \u003d x 1 - x 2). Je založená na výpočte skutočných a tabuľkových hodnôt a ich porovnaní.

V teórii štatistiky je chyba rozdielu alebo súčtu aritmetických priemerov nezávislých vzoriek s rovnakým počtom pozorovaní (n ​​1 + n 2) určená vzorcom:

Sd = √ S X1 2 + S X2 2,

kde Sd je chyba rozdielu alebo súčtu;

S X1 2 a S X2 2 - chyby porovnávaných aritmetických priemerov.

Pomer rozdielu k jeho chybe slúži ako záruka spoľahlivosti záveru o významnosti alebo nevýznamnosti rozdielov medzi aritmetickými priemermi. Tento pomer sa nazýva kritérium významnosti rozdielu:

t \u003d x 1 - x 2 / "√ S X1 2 + S X2 2 \u003d d / S d.

Teoretická hodnota kritéria t sa zistí z tabuľky, ak poznáme počet stupňov voľnosti Y = n 1 + n 2 - 2 a akceptovanú hladinu významnosti.

Ak je t fact ≥ t teória, nulová hypotéza o absencii významných rozdielov medzi priemermi je vyvrátená, a ak sú rozdiely v rámci náhodných fluktuácií pre akceptovanú hladinu významnosti, nie je vyvrátená.

metóda intervalového odhadu

Odhad intervalu charakterizované dvoma číslami, konce intervalu pokrývajúceho odhadovaný parameter. Na tento účel je potrebné určiť intervaly spoľahlivosti pre možné hodnoty priemernej všeobecnej populácie. V tomto prípade je x bodový odhad všeobecného priemeru, potom bodový odhad všeobecného priemeru možno zapísať takto: x ± t 0,5 *S X , kde t 0,5 *S X je hraničná chyba výberového priemeru pre a daný počet stupňov voľnosti a akceptovaná úroveň významnosti.

Interval spoľahlivosti je interval, ktorý pokrýva odhadovaný parameter s danou pravdepodobnosťou. Stred intervalu je bodový odhad vzorky. Hranice alebo hranice spoľahlivosti sú určené priemernou chybou odhadu a úrovňou pravdepodobnosti - x - t 0,5 *S X a x + t 0,5 * S X . Hodnota Študentovho testu pre rôzne hladiny významnosti a počet stupňov voľnosti sú uvedené v tabuľke.

Odhad rozdielu priemerného vedľajšieho radu

Odhad rozdielu medzi priemermi pre konjugované vzorky sa vypočíta diferenčnou metódou. Podstata spočíva v tom, že významnosť priemerného rozdielu sa odhaduje párovým porovnaním variantov experimentu. Na nájdenie S d rozdielovou metódou sa vypočíta rozdiel medzi konjugovanými pármi pozorovaní d, hodnota priemerného rozdielu (d = Σ d / n) a chyba priemerného rozdielu sa určí podľa vzorca:

S d \u003d √ Σ (d - d) 2 / n (n - 1)

Kritérium významnosti sa vypočíta podľa vzorca: t = d / S d . Počet stupňov voľnosti sa zistí pomocou rovnosti Y= n-1, kde n-1 je počet konjugovaných párov.

testovacie otázky

  1. Čo je variačná štatistika (matematická, biologická štatistika, biometria)?
  2. Čo sa nazýva zbierka? Druhy agregátov.
  3. Čo sa nazýva variabilita, variácia? Typy variability.
  4. Definujte variačný rad.
  5. Aké sú štatistické ukazovatele kvantitatívnej variability.
  6. Povedzte nám o ukazovateľoch variability vlastnosti.
  7. Ako sa počíta rozptyl, jeho vlastnosti?
  8. Aké teoretické distribúcie poznáte?
  9. Čo je to smerodajná odchýlka, jej vlastnosti?
  10. Čo viete o normálnom rozdelení?
  11. Vymenujte ukazovatele kvalitatívnej variability a vzorce na ich výpočet.
  12. Čo je interval spoľahlivosti a štatistická spoľahlivosť?
  13. Aká je absolútna a relatívna chyba vzorky, ako ich vypočítať?
  14. Variačný koeficient a jeho výpočet pre kvantitatívnu a kvalitatívnu variabilitu.
  15. názov štatistické metódy testovanie hypotéz.
  16. Definujte štatistickú hypotézu.
  17. Čo sú nulové a alternatívne hypotézy?
  18. Čo je interval spoľahlivosti?
  19. Čo sú konjugované a nezávislé vzorky?
  20. Ako sa vypočíta intervalový odhad parametrov bežnej populácie?

Laboratórium č. 9

Štatistická analýza údajov

Cieľ: naučiť sa spracovávať štatistické údaje v tabuľkových procesoroch pomocou vstavaných funkcií; preskúmať možnosti analytického balíka v MS Excel 2010 a niektorých jeho nástrojov: generovanie náhodných čísel, histogram, popisná štatistika.

Teoretická časť

Veľmi často na spracovanie údajov získaných v dôsledku skúmania veľkého počtu objektov alebo javov ( štatistické údaje), používajú sa metódy matematickej štatistiky.

Moderná matematická štatistika je rozdelená do dvoch širokých oblastí: popisný a analytická štatistika. Opisná štatistika zahŕňa metódy na opis štatistických údajov, ich prezentáciu vo forme tabuliek, rozdelení atď.

Analytická štatistika sa tiež nazýva teória štatistickej inferencie. Jeho predmetom je spracovanie údajov získaných počas experimentu a formulovanie záverov, ktoré majú aplikačný význam pre rôzne oblasti ľudskej činnosti.

Súbor čísel získaných ako výsledok prieskumu sa nazýva štatistický agregát.

vzorová súprava(alebo vzorkovanie) je súbor náhodne vybraných objektov. Všeobecná populácia je súbor predmetov, z ktorých je vzorka vyrobená. Objem množina (všeobecná alebo vzorová) je počet objektov v tejto množine.

Pre štatistické spracovanie sú výsledky štúdia objektov prezentované vo forme čísel X 1 ,X 2 ,…, x k. Ak je hodnota X 1 pozorovaný n 1 krát, hodnota X 2 pozorované n 2 krát atď., potom pozorované hodnoty x i volal možnosti a počet ich opakovaní n i volal frekvencie. Postup počítania frekvencií sa nazýva zoskupovanie údajov.

Veľkosť vzorky n sa rovná súčtu všetky frekvencie n i:

Relatívna frekvencia hodnoty x i sa nazýva frekvenčný pomer tejto hodnoty n i na veľkosť vzorky n:

Štatistické rozdelenie frekvencií(alebo jednoducho frekvenčné rozdelenie) sa nazýva zoznam možností a ich zodpovedajúcich frekvencií, napísaný vo forme tabuľky:



Relatívna frekvenčná distribúcia zoznam možností a ich príslušné relatívne frekvencie.


Základné štatistické charakteristiky.

Moderné tabuľky majú obrovskú sadu nástrojov na analýzu štatistických údajov. Najčastejšie používané štatistické funkcie sú zabudované do hlavného jadra programu, to znamená, že tieto funkcie sú dostupné od okamihu spustenia programu. Ďalšie špecializovanejšie funkcie sú zahrnuté v ďalších rutinách. Konkrétne v Exceli sa takáto rutina nazýva Analysis ToolPak. Príkazy a funkcie analytického balíka sa nazývajú analytické nástroje. Obmedzíme sa na niekoľko základných vstavaných štatistických funkcií a najužitočnejšie analytické nástroje z analytického balíka v tabuľkovom procesore Excel.

Priemerný.

Funkcia AVERAGE vypočíta výberový (alebo všeobecný) priemer, to znamená aritmetický priemer vlastnosti vzorovej (alebo všeobecnej) populácie. Argument funkcie AVERAGE je množina čísel, zvyčajne zadaných ako rozsah buniek, napríklad =AVERAGE(A3:A201).

PREDNÁŠKA 2

Základné pojmy matematickej štatistiky. Selektívna metóda. Číselné charakteristikyštatistický rad Bodové štatistické odhady a požiadavky na ne. Metóda intervalov spoľahlivosti. Testovanie štatistických hypotéz.

Kapitola 3
ZÁKLADNÉ POJMY MATEMATICKEJ ŠTATISTIKY

Metóda odberu vzoriek

Táto kapitola poskytuje krátka recenzia základné pojmy a výsledky matematickej štatistiky, ktoré sa využívajú v kurze ekonometrie.

Jednou z ústredných úloh matematickej štatistiky je identifikovať vzory v štatistických údajoch, na základe ktorých môžete zostaviť vhodné modely a robiť informované rozhodnutia. Prvá úloha matematická štatistika je vývoj metód na zhromažďovanie a zoskupovanie štatistických informácií získaných ako výsledok pozorovaní alebo ako výsledok špeciálne navrhnutých experimentov. Druhá úloha matematická štatistika je vyvinúť metódy na spracovanie a analýzu štatistických údajov v závislosti od cieľov štúdie. Prvky takejto analýzy sú najmä: odhad parametrov známej distribučnej funkcie, testovanie štatistických hypotéz o type rozdelenia atď.

Medzi matematickou štatistikou a teóriou pravdepodobnosti existuje úzky vzťah. Teória pravdepodobnosti je široko používaná pri štatistickom štúdiu hromadných javov, ktoré môžu alebo nemusia byť klasifikované ako náhodné. To sa deje pomocou teórie metódy odberu vzoriek. Pravdepodobnostné zákony tu nepodliehajú samotným študovaným javom, ale metódam ich štúdia. Okrem toho teória pravdepodobnosti zohráva dôležitú úlohu pri štatistickom štúdiu pravdepodobnostných javov. V týchto prípadoch sa samotné skúmané javy riadia dobre definovanými pravdepodobnostnými zákonmi.

Hlavnou úlohou matematickej štatistiky je vývoj metód na získanie vedecky podložených záverov o hromadných javoch a procesoch z pozorovacích alebo experimentálnych údajov. Napríklad musíte vykonať kontrolu kvality vyrobenej šarže dielov alebo preskúmať kvalitu technologického procesu. Môžete si samozrejme spraviť kompletný prieskum, t.j. skontrolujte každý detail strany. Ak je však príliš veľa detailov, potom je fyzicky nemožné vykonať úplný prieskum a ak je prieskum objektu spojený s jeho zničením alebo je nákladný, potom nemá zmysel vykonávať nepretržitý prieskum. Preto je potrebné z celého súboru predmetov vybrať na skúmanie len časť, t.j. vykonať výberový prieskum. V praxi je teda často potrebné odhadnúť parametre veľkej populácie z malého počtu náhodne vybraných prvkov.



Celá množina skúmaných predmetov sa nazýva tzv všeobecná populácia. Časť objektov, ktorá bola vybraná z bežnej populácie, sa nazýva vzorová populácia alebo kratšie - vzorkovanie. Súhlasíme s označením veľkosti vzorky písmenom n, a objem bežnej populácie podľa písm N.

Vzorka sa vo všeobecnom prípade vytvára na posúdenie akýchkoľvek charakteristík všeobecnej populácie. Nie každá vzorka však môže poskytnúť skutočnú predstavu o všeobecnej populácii. Napríklad diely zvyčajne vyrábajú pracovníci rôznych úrovní zručností. Ak sú do kontroly zahrnuté iba diely vyrobené pracovníkmi s nižšou kvalifikáciou, potom bude predstava o kvalite všetkých produktov „podhodnotená“, pokiaľ diely vyrobené pracovníkmi viac ako vysoko kvalifikovaný, potom bude toto zastúpenie nadhodnotené.

Aby sme mohli použiť vzorové údaje, aby sme mohli s istotou posúdiť črtu bežnej populácie, ktorá nás zaujíma, je potrebné, aby ju vzorové objekty správne reprezentovali. Inými slovami, vzorka musí správne reprezentovať proporcie populácie. Táto požiadavka je zhrnutá takto: vzorka by mala byť reprezentatívny(alebo reprezentatívny) .

Reprezentatívnosť vzorky je zabezpečená náhodným výberom. S náhodným výberom Všetky položky v populácii majú rovnakú šancu na zaradenie do vzorky.. V tomto prípade v sila zákona veľkých čísel, možno tvrdiť, že vzorka bude reprezentatívna. Napríklad kvalita zrna sa posudzuje podľa jeho malej vzorky. Počet náhodne vybraných zŕn je síce malý v porovnaní s celou hmotou zrna, ale sám o sebe je dosť veľký. V dôsledku toho sa charakteristiky vzorovej populácie budú z hľadiska pravdepodobnosti len málo líšiť od charakteristík všeobecnej populácie.

Rozlišovať opakované a neopakujúce sa vzorky. V prvom prípade je vybraný objekt vrátený všeobecnej populácii pred výberom ďalšieho. V druhom prípade sa objekt vybraný vo vzorke nevráti bežnej populácii. Ak je veľkosť vzorky výrazne menšia ako veľkosť bežnej populácie, potom budú obe vzorky prakticky ekvivalentné.

V mnohých prípadoch na analýzu určitých ekonomické procesy dôležité je poradie, v akom sa štatistiky získavajú. Ale pri zvažovaní takzvaných priestorových údajov nehrá významnú úlohu poradie, v ktorom sa získavajú. Okrem toho výsledky vzorkovaných hodnôt X 1 , X 2 , …, x n kvantitatívna vlastnosť X všeobecnej populácie, zaznamenané v poradí ich registrácie, sú zvyčajne ťažko viditeľné a nepohodlné pre ďalšiu analýzu. Úlohou opisu štatistických údajov je získať takú prezentáciu, ktorá umožní vizuálne identifikovať pravdepodobnostné charakteristiky. Na tento účel podajte žiadosť rôzne formy objednávanie a zoskupovanie údajov.

Štatistický materiál získaný ako výsledok pozorovaní (meraní) možno zapísať vo forme tabuľky pozostávajúcej z dvoch riadkov. Prvý riadok obsahuje číslo merania, druhý - získanú hodnotu. Takáto tabuľka je tzv jednoduchý štatistický rad:

i n
X 1 X 2 x i x n

Pri veľkom počte meraní sa však štatistické rady ťažko analyzujú. Preto sú výsledky pozorovaní nejakým spôsobom potrebné zefektívniť. Na tento účel sú pozorované hodnoty usporiadané vo vzostupnom poradí:

kde . Takáto štatistika je tzv zoradené.

Keďže niektoré hodnoty štatistického radu môžu mať rovnaké hodnoty, možno ich kombinovať. Potom každá hodnota x ičíslo sa zhoduje n i, rovná frekvencii výskytov danej hodnoty:

X 1 X 2 x k
n 1 n 2 nk

Takáto séria je tzv zoskupené.

Zoradené a zoskupené série sa nazývajú variačný. Pozorované hodnoty x i volal možnosti a počet všetkých možností pozorovaní n ifrekvencia. Počet všetkých pozorovaní n volal objem variačná séria. Frekvenčný pomer n i k objemu série n volal relatívna frekvencia:

Okrem diskrétnych variačných radov použite a interval variačné línie. Na zostavenie takejto série je potrebné určiť veľkosť intervalov a v súlade s nimi zoskupiť výsledky pozorovaní:

[X 1 ,X 2 ] (X 2 ,X 3 ] (X 3 ,X 4 ] (X k-1, X k]
n 1 n 2 n 3 nk

Intervalový variačný rad sa zvyčajne zostavuje v prípadoch, keď je počet pozorovaných variantov veľmi veľký. Táto situácia zvyčajne nastáva pri pozorovaní spojitá hodnota(napríklad meranie niektorých fyzikálne množstvo). Medzi intervalovým a diskrétnym variačným radom existuje určitý vzťah: každý diskrétny rad možno zapísať ako intervalový rad a naopak.

Pre grafický popis diskrétnej variačnej série používam mnohouholník. Ak chcete postaviť polygón pravouhlý systém koordinuje body vykreslenia so súradnicami ( x i,n i) alebo ( x i,w i). Potom sú tieto body spojené segmentmi. Výsledná prerušovaná čiara sa nazýva mnohouholník (pozri napr. obr. 3.1a).

Pre grafický popis série variácií intervalov použite histogram. Na jej zostavenie sa pozdĺž osi x vynesú segmenty predstavujúce intervaly variácií a na týchto segmentoch sa ako na základe zostavia obdĺžniky s výškami rovnými frekvenciám alebo relatívnym frekvenciám zodpovedajúceho intervalu. Výsledkom je obrazec pozostávajúci z obdĺžnikov, ktorý sa nazýva histogram (pozri napr. obr. 3.1b).

a b
Ryža. 3.1

Číselné charakteristiky štatistického radu

Konštrukcia variačného radu je len prvým krokom k pochopeniu radu pozorovaní. Toto nestačí úplné štúdium distribúcia skúmaného javu. najpohodlnejšie a úplná metóda je analytickým spôsobom výskumná séria, spočívajúca vo výpočte číselných charakteristík. Číselné charakteristiky používané na štúdium variačných radov sú podobné tým, ktoré sa používajú v teórii pravdepodobnosti.

Najprirodzenejšou vlastnosťou variačnej série je koncept stredná veľkosť. V štatistike sa používa niekoľko typov priemerov: aritmetický priemer, geometrický priemer, harmonický priemer atď. aritmetický priemer:

Ak sa variačný rad zostaví na základe pozorovacích údajov, použije sa tento koncept vážená priemerná hodnota:

. (3.3)

Aritmetický priemer má rovnaké vlastnosti ako matematické očakávanie.

Množstvo

, (3.4)

ktorý sa ako v teórii pravdepodobnosti nazýva disperzia. Hodnota

volal smerodajná odchýlka(alebo smerodajná odchýlka). Štatistický rozptyl má rovnaké vlastnosti ako rozptyl pravdepodobnosti a na jeho výpočet možno použiť alternatívny vzorec

. (3.6)

Príklad 3.1.Údaje za rok 199X sú uvedené za územia kraja (tabuľka 3.1).

Tabuľka 3.1

Nájdite aritmetický priemer a štandardnú odchýlku. Nakreslite histogram frekvencií.

Riešenie. Na výpočet aritmetického priemeru a rozptylu zostavíme výpočtovú tabuľku (tabuľka 3.4):

Tabuľka 3.4

x i n i n i x i n i x i 2
Sum

Tu namiesto toho x i zoberú sa stredy zodpovedajúcich intervalov. Podľa tabuľky zistíme:

, ,

Zostavme si histogram frekvencií podľa počiatočných údajov (obr. 3.3). a

Vzhľadom na hlavné štatistické charakteristiky série vyhodnoťte centrálny trend vzorky a rozptyl alebo variáciu . Ústredný trend vzorky umožňujú vyhodnocovať také štatistické charakteristiky ako aritmetický priemer, modus, medián. Priemerná hodnota charakterizuje vlastnosti skupiny, je centrom distribúcie, zaberá centrálna poloha v celkovej hmotnosti rôznych hodnôt atribútu.

Aritmetický priemer pre neusporiadanú sériu meraní sa vypočíta sčítaním všetkých meraní a vydelením súčtu počtom meraní podľa vzorca: = ,

kde je súčet všetkých hodnôt x i, n celkový počet merania.

Móda(Mo) označuje výsledok vzorky alebo populácie, ktorý sa v danej vzorke vyskytuje najčastejšie. Pre sériu intervalových variácií sa modálny interval vyberie podľa najvyššej frekvencie. Napríklad v sérii čísel: 2, 3, 4, 4, 4, 5, 6, 6, 7 je režim 4, pretože sa vyskytuje častejšie ako iné čísla.

V prípade, že sa všetky hodnoty v skupine vyskytujú rovnako často, predpokladá sa, že skupina nemá režim. Keď dve susedné hodnoty majú rovnakú frekvenciu a sú väčšie ako frekvencia akejkoľvek inej hodnoty, režim je priemerom týchto dvoch hodnôt. Napríklad v sérii čísel: 2, 3, 4, 4, 5, 5, 6, 7 je režim 4,5. Ak dve nesusediace hodnoty v skupine majú rovnaké frekvencie a sú väčšie ako frekvencie ktorejkoľvek hodnoty, potom existujú dva režimy. Napríklad v sérii čísel: 2, 3, 3, 4, 5, 5, 6, 7 sú režimy 3 a 5.

Medián(Ja) - výsledok merania, ktorý je v strede poradového radu. Medián rozdeľuje usporiadanú množinu na polovicu tak, že jedna polovica hodnôt je väčšia ako medián a druhá polovica je menšia. Ak séria čísel obsahuje nepárny počet hodnôt, potom je medián stredom. Napríklad v sérii čísel: 6, 9, 11 , 19, 31 medián čísla 11.

Ak údaje obsahujú párny počet dimenzií, potom medián je číslo, ktoré je priemerom dvoch stredných hodnôt. Napríklad v sérii čísel: 6, 9, 11, 19, 31, 48 je medián (11+19): 2 = 15.

Režim a medián sa používajú na odhad priemeru pri meraní na rádových škálach (a režim tiež na nominálnych škálach).

Charakteristiky variácie alebo fluktuácie výsledkov merania zahŕňajú rozsah, štandardnú odchýlku, koeficient variácie atď.

Všetky priemerné charakteristiky dávajú všeobecné charakteristiky množstvo výsledkov meraní. V praxi nás často zaujíma, ako ďaleko sa jednotlivé výsledky odchyľujú od priemeru. Je však ľahké si predstaviť, že dve skupiny výsledkov meraní majú rovnakú strednú hodnotu, ale rozdielne hodnoty merania. Napríklad pre sériu 3, 6, 3 - priemerná hodnota = 4, pre sériu 5, 2, 5 aj priemernú hodnotu = 4, napriek výraznému rozdielu medzi týmito sériami.



Preto treba priemerné charakteristiky vždy doplniť o ukazovatele variácie, prípadne volatility. Najjednoduchšou charakteristikou variácie je rozsah variácie, definovaný ako rozdiel medzi najväčším a najmenším meraním. Zachytáva však len extrémne odchýlky, ale neodráža odchýlky všetkých výsledkov.

Ak chcete poskytnúť všeobecnú charakteristiku, môžete vypočítať odchýlky od priemerného výsledku. Smerodajná odchýlka vypočítané podľa vzorca:

kde X je najvyšší indikátor; X - najmenší indikátor; K - tabuľkový koeficient (príloha 4).

Smerodajná odchýlka (nazývaná aj smerodajná odchýlka) má rovnaké jednotky ako výsledky merania. Táto charakteristika však nie je vhodná na porovnávanie fluktuácie dvoch alebo viacerých populácií s rôznymi jednotkami merania. Na tento účel sa používa variačný koeficient.

Variačný koeficient je definovaný ako pomer štandardnej odchýlky k aritmetickému priemeru vyjadrený v percentách. Vypočíta sa podľa vzorca: V = . 100%

Kolísanie výsledkov meraní v závislosti od hodnoty variačného koeficientu sa považuje za malé (0–10 %), stredné (11–20 %) a veľké (>20 %).

Variačný koeficient je dôležitý, pretože ako relatívna hodnota (meraná v percentách) umožňuje porovnávať variabilitu výsledkov merania s rôznymi jednotkami merania. Variačný koeficient možno použiť len vtedy, ak sa merania vykonávajú na pomerovej stupnici.



Ďalším ukazovateľom rozptylu je štandardná (mocná) chyba aritmetického priemeru. Tento ukazovateľ (zvyčajne sa označuje symbolmi m alebo S) charakterizuje kolísanie priemeru.

Štandardná chyba aritmetického priemeru sa vypočíta podľa vzorca:

kde σ je štandardná odchýlka výsledkov merania, n je veľkosť vzorky.