Na analýzu pomerovej stupnice sa používajú typy štatistík. Prednášky z matematickej štatistiky. Typy meracích stupníc pre premenné

Štatistické štúdie využívajú rôzne typy znakov, ktoré charakterizujú stav ekonomického objektu. Znaky môžu mať rôznu formu v závislosti od rozsahu merania, čo ďalej ovplyvňuje výber metód štatistickej analýzy.

V závislosti od rozsahu merania sa rozlišujú kvantitatívne (číselné) a kategorické (nečíselné, kvalitatívne) údaje (pozri obr. 3.1).

kvantitatívne (číselné) údaje sú ukazovatele, ktoré nadobúdajú číselné hodnoty, ktoré sa získajú nejakým meraním alebo výpočtom.

Z hľadiska mierok merania sa kvantitatívne údaje považujú za merané v intervalovej stupnici, ktorá slúži na zobrazenie veľkosti rozdielu medzi charakteristikami prvkov. Intervalová (kvantitatívna) stupnica ukazuje, o koľko je jedna hodnota väčšia ako iná v akceptovaných jednotkách merania (napríklad stupnica teplôt, čas, počet objektov). Intervalová stupnica môže mať ľubovoľný pôvod a mierku. Množina prípustných transformácií danej mierky pozostáva zo všetkých lineárnych transformácií. Hlavnou vlastnosťou stupnice je zachovanie pomeru dĺžok intervalov. Osobitnými prípadmi intervalovej stupnice sú pomerová stupnica (nulový referenčný bod) a rozdielová stupnica (ľubovoľný referenčný bod a jednotková stupnica), ako aj absolútna stupnica (nulový referenčný bod a jednotková stupnica). Kvantitatívne škály umožňujú všetky aritmetické operácie s výsledkami merania (napríklad mzdy, zostatky na bankových účtoch, počet zamestnancov vo firme).

Ak sú údaje získané meraním a môžu nadobudnúť absolútne akékoľvek hodnoty z určitého intervalu alebo celej číselnej osi, nazývajú sa nepretržitý. Ak údaje tvoria počítateľnú množinu a na číselnej osi nadobúdajú iba niektoré izolované hodnoty, medzi ktorými nemôžu byť žiadne hodnoty, potom sa takéto funkcie nazývajú diskrétne.

Príklady kvantitatívnych diskrétnych údajov

  • Počet volaní sanitiek, ktoré denne prijímajú nemocnice v Moskve.
  • Počet poisťovní v Ruskej federácii, ktoré majú licencie.
  • Počet poistných udalostí, ktoré sa vyskytli v portfóliu havarijných zmlúv poisťovne v priebehu roka.
  • Počet utečencov a vnútorne vysídlených osôb oficiálne zaregistrovaných Federálnou migračnou službou v roku 2011

Zdroj: URL: http://rating.rbc.ru/article.shtml92008/09/30/32143066.

Údaje sú prezentované v tabuľkovej forme vo forme čiarového grafu a stĺpcového grafu.

Dve premenné – „počet áut v meste“ a „počet obyvateľov mesta“ – sú diskrétne kvantitatívne. Pre prehľadnosť je v grafe uvedená premenná vypočítaná ako ich pomer – počet áut na tisíc obyvateľov.

Príklady kvantitatívnych spojitých údajov

  • Dynamika účtovných cien zlata v Rusku za posledných 20 rokov.
  • Výška, hmotnosť, krvný tlak a ďalšie merateľné ukazovatele človeka.
  • Produktivita poľnohospodárskych plodín na farmách Ruskej federácie.
  • Dojivosť v chovoch hospodárskych zvierat Centrálneho federálneho okruhu.
  • Dosah letu projektilu vystreleného z pištole.

Zdroj: URL: http://rating.rbc.ru/articles/201l/ll/09/33470757_tbl.shtml?2011/11/08/33470320.

Na prezentáciu údajov o kontinuálnej kvantitatívnej premennej Čisté aktíva bola použitá tabuľková forma a stĺpcový graf.

Ďalšia skupina, ktorá sa výrazne líši od kvantitatívnych údajov, je nenumerická - kategorický alebo kvalituúdajov. V tomto prípade môže objekt patriť len do jednej z mnohých kategórií (tried). Platí to najmä pri tvorbe a spracovaní dotazníkov, dotazníkov, hodnotení a pod. Aj keď sú tieto kategórie označené číslami (napríklad prekódované: 0 - žena, 1 - muž), takéto údaje stále nemožno považovať za číselné, ale iba za kategorické.

Podľa toho, či je možné tieto kategórie zoradiť, existujú znaky merané na nominálnej alebo ordinálnej stupnici. Podľa toho sa údaje delia na nominálny A radový.

Menná stupnica (nominálny alebo klasifikačná stupnica).Údaje na tejto škále sú definované z hľadiska kategórií, ktoré nie je možné zmysluplne zoradiť (povolanie; región krajiny; mesto; počet študentskej skupiny; banka, v ktorej je vklad). Nominálna stupnica používa sa na opis príslušnosti prvkov k určitým triedam. Všetkým prvkom rovnakej triedy je priradená rovnaká textová hodnota alebo číslo a prvkom rôznych tried sú priradené rôzne hodnoty alebo čísla. Akákoľvek náhrada čísel na označenie tried je prijateľná, pokiaľ ide o transformáciu jedna ku jednej a každá trieda dostane svoje vlastné číslo. Táto okolnosť určuje množinu prípustných transformácií nominálnej stupnice ako množinu všetkých funkcií jedna ku jednej. Nie je dôvod domnievať sa, že jedna kategória je lepšia (alebo horšia) ako iná, takže pri spracovaní takýchto údajov sa používajú iba porovnávacie operácie: „rovná sa“ a „nerovná sa“.

  • Mesto Ruskej federácie (Vladivostok, Surgut, Ťumeň atď.).
  • Ľudská krvná skupina (O, A, B, AB).
  • Rodinný stav (slobodný, ženatý, rozvedený, v občianskom manželstve).
  • Bank of Russia (Sberbank of Russia, VTB, Gazprombank atď.).
  • Federálne okresy Ruska (stredný, Ďaleký východ atď.).

Príklad 3.12


Údaje pre nominálnu kategorickú premennú „farba očí“ sú prezentované v tabuľkovej forme a ako koláčový graf. (piechart).

Ďalším typom kategorických premenných je radový (radový) - líšia sa tým, že údaje sa merajú v poradovej mierke. Radové stupnice sa používajú na usporiadanie prvkov podľa jedného alebo viacerých atribútov. Umožňujú vám zistiť, že jeden prvok je lepší, dôležitejší, vhodnejší ako iný alebo ekvivalentný s iným. Poradová stupnica odráža iba poradie prvkov a neumožňuje povedať, koľko alebo koľkokrát je jeden prvok výhodnejší ako druhý. Inými slovami, v tejto škále nie je možné určiť mieru miery preferencie. Na porovnanie takýchto údajov sú povolené nielen operácie „rovná sa“ a „nerovná sa“, ale aj „viac“ - „menej“ (bez určenia o koľko).

  • Odpovede na otázky dotazníka obsahujúceho tieto odpovede: áno; viac áno ako nie; nie viac ako áno; Nie
  • Známky získané študentmi na skúške (výborne, dobre, uspokojivo, nedostatočne).
  • Pozícia zamestnanca vo vedeckom laboratóriu (malý vedecký pracovník, výskumný pracovník, vedúci výskumník atď.);
  • Vojenské hodnosti v ruskej armáde (poručík, kapitán, major, plukovník atď.).

L (vysoké), IN(uspokojivé), B+(dostatočné), B++(prijateľné),

S(neuspokojivé), D(konkurz), E(zrušenie alebo likvidácia licencie))


Jedným z najbežnejších problémov pri návrhu prieskumu a návrhu prieskumu je, ako priradiť jedinú reprezentatívnu hodnotu alebo skóre nejakému komplexnému postoju alebo správaniu. Uvažujme napríklad, ako by sa dali merať predsudky obyvateľstva voči vysokoškolákom. Takýto predsudok sa môže prejavovať v najrôznejších podobách v závislosti od toho, na aké vlastnosti žiakov sa zameriava pozornosť konkrétneho jednotlivca (respondenta). Niektorí ľudia teda posudzujú študentov podľa oblečenia, iní podľa správania, iní podľa správania v každodennom živote, podľa socioekonomického postavenia a dokonca aj podľa úrovne osobnej hygieny. Pre iných by sa stereotypný názor mohol vytvoriť len na základe jedného alebo dvoch stretnutí (príjemných alebo nie) s niektorými konkrétnymi študentmi; a niektorí možno len ťažko dokážu rozlíšiť študenta od iných ľudí. Prvky úsudku sa môžu značne líšiť v obsahu, smerovaní, stupni hodnotenia, ale každý z nich je – aspoň potenciálne – súčasťou širšieho pojmu „predsudok“.

Ak je potrebné vziať do úvahy všetky tieto body, potom musíme zvoliť nástroj, ktorý bude schopný identifikovať a zmerať čo najviac týchto základných prvkov pojmov a zároveň bude dostatočne presný, aby umožnil zmysluplné spôsob, ako určiť stupeň prejavu všeobecného konceptu v jedinom pozorovaní. Inými slovami, potrebujeme taký nástroj, ktorý by zachytil a zobrazil koncept podobný konceptu „predsudok“ vo všetkých detailoch a navyše by nám ukázal, koľko (akú časť) tohto konceptu obsahuje konkrétny prípad. alebo odpoveď respondenta. Jeden takýto nástroj sa nazýva škálovanie.

Škálovanie je postup, ktorým sa skombinuje množstvo relatívne úzkych ukazovateľov (napríklad ide o položky prieskumu týkajúce sa individuálnych charakteristík študentov zaznamenaných respondentmi) do jednej celkovej miery, ktorá slúži na zobrazenie širšieho základného konceptu (v našom prípade predsudok), ktorého súčasťou je každý jednotlivý atribút. Napríklad by sa dal zmerať postoj respondenta k rôznym typom správania študentov (napríklad, koľko pijú alkoholické nápoje alebo aké hlučné sú ich večierky) alebo k správam študentov (akí sú nafúkaní, arogantní alebo bezohľadní). iní ľudia ), no ani jeden z týchto znakov by sme nemohli brať samostatne ako plnohodnotný odraz tak širokého pojmu, akým je predsudok. Skôr by sme mali všetky tieto opatrenia nejako spojiť, aby sme mohli vyvodiť závery o všeobecnejšom uhle pohľadu, ktorý každé z nich nejakým spôsobom dopĺňa a reflektuje. Okrem toho musíme tento problém vyriešiť tak, aby sme mohli porovnať mieru predsudkov (alebo akéhokoľvek iného nami meraného konceptu) obsiahnutých v odpovedi jedného respondenta s ich množstvom obsiahnutým v odpovedi iného respondenta a nakoniec posúďte, kto z respondentov má väčšie predsudky.

Zjednocujúce opatrenie, ktoré odráža určitý základný koncept, sa nazýva stupnica. Konkrétna hodnota stupňa prejavu v každom danom prípade základného konceptu sa nazýva hodnotenie stupnice. Škálovanie alebo budovanie mierky je postup, pomocou ktorého výskumník zostavuje škálu a priraďuje skóre jednotlivým inštanciám na tejto stupnici.

Škálovanie je metóda modelovania reálnych procesov pomocou mierok.

Škálovanie je metóda priraďovania číselných hodnôt konkrétnym atribútom systému.

Škálovanie vám umožňuje rozložiť popis zložitého procesu na popis parametrov na samostatných mierkach. Výsledkom je, že pri aplikácii na ekonomické problémy, napríklad, je možné získať predstavu o oblasti záujmu spotrebiteľa, preskúmať dôležitosť každej stupnice pre neho.

Stupnica (lat. scala - rebrík) - porovnanie výsledkov merania určitej hodnoty a bodov číselnej osy.

Škála je súbor označení, ktorých vzťahy odrážajú vzťahy medzi objektmi empirického systému. Škálu možno nazvať výsledky merania získané v štúdii, ako aj nástroj merania (t. j. systém otázok), dotazník, test.

1.2 Typy mierok a typy mierok

Váhy sú rozdelené podľa typu, podľa toho, aké vzťahy odrážajú. Okrem toho každá stupnica zodpovedá matematickým transformáciám povoleným pre túto stupnicu. Typy mierok sú hierarchicky usporiadané podľa zložitosti. V psychometrii, ekonometrii a aplikovanej štatistike sa používa nasledujúca klasifikácia stupníc, ktorú v roku 1946 navrhol Stanley Smith Stevens:

- stupnica mien (nominálna) - najjednoduchšia zo stupnic. Čísla sa používajú na rozlíšenie objektov. Zobrazuje tie vzťahy, pomocou ktorých sú objekty zoskupené do samostatných neprekrývajúcich sa tried. Číslo triedy neodráža jej kvantitatívny obsah. Príkladom takejto stupnice je triedenie subjektov na mužov a ženy, číslovanie hráčov v športových tímoch a pod.

– ordinálna stupnica – zobrazenie objednávkových vzťahov. Predmety v tejto škále sú zoradené. Pre túto škálu je prijateľná monotónna transformácia. Takáto škála je hrubá, pretože nezohľadňuje rozdiel medzi subjektmi škály. Príklad takejto stupnice: výkonnostné skóre (neuspokojivý, uspokojivý, dobrý, výborný), Mohsova stupnica;

– intervalová mierka – okrem pomerov určených pre mierky názvu a poradia zobrazuje pomer vzdialenosti (rozdielu) medzi objektmi. Rozdiely vo všetkých bodoch tejto stupnice sú rovnaké. Pre ňu je prípustná lineárna transformácia. To vám umožní dostať výsledky testov na bežné stupnice a tak porovnať ukazovatele. Príklad: Celziova stupnica.

- stupnica pomerov - na rozdiel od stupnice intervalov môže odrážať, o koľko je jeden ukazovateľ väčší ako druhý. Pomerová stupnica má nulový bod, ktorý charakterizuje absenciu merateľnej kvality. Táto škála umožňuje transformáciu podobnosti (násobenie konštantou). Určenie nulového bodu je náročná úloha pre psychologický výskum, čo obmedzuje používanie tejto škály. Pomocou takýchto mierok je možné merať hmotnosť, dĺžku, silu, cenu (cena). Príklad: Kelvinová stupnica (teploty merané od absolútnej nuly, pričom jednotka merania je zvolená po dohode odborníkov - stupne Celzia).

Diferenčná stupnica – referenčný bod je ľubovoľný, merná jednotka je nastavená. Platné transformácie sú posuny. Príklad: meranie času.

Absolútna stupnica - obsahuje dodatočnú vlastnosť - prirodzenú a jednoznačnú prítomnosť mernej jednotky. Táto stupnica má jeden nulový bod. Príklad: počet ľudí v publiku.

Problém primeranosti metód na matematické spracovanie výsledkov meraní priamo súvisí s otázkou typu stupnice. Vo všeobecnosti sú adekvátne štatistiky tie, ktoré sú invariantné vzhľadom na prípustné transformácie použitej meracej stupnice.


Ryža. 1. Klasifikácia metód škálovania

Metódy škálovania používané v sociologickom výskume možno podmienečne rozdeliť na komparatívne a nekomparatívne.

Porovnávacie škály znamenajú priame porovnanie uvažovaných objektov. Respondenti sa napríklad pýtajú, či uprednostňujú Juice alebo Pepsi. Údaje porovnávacích stupníc sa považujú za relatívne a majú vlastnosti iba ordinálnych a hodnostných hodnôt. Preto sa porovnávacie škálovanie nazýva aj nemetrické. Ako je znázornené na obr. 1, porovnávacie škály zahŕňajú párové porovnávanie, poradové poradie, škály s konštantným súčtom, Q-kopírovanie a ďalšie operácie.

Porovnávacie škály sú jednou z dvoch metód škálovania, ktorá spočíva v priamom porovnaní posudzovaných objektov.

Hlavnou výhodou porovnávacieho škálovania je schopnosť rozpoznať menšie rozdiely medzi uvažovanými objektmi. Pri porovnávaní dvoch objektov si respondenti musia medzi nimi vybrať. Okrem toho respondenti plnia úlohu na základe daných preferencií. Vďaka tomu sú porovnávacie škály ľahko vnímateľné a aplikovateľné. Ďalšou výhodou týchto stupníc je relatívne menší počet použitých teoretických predpokladov, ako aj eliminácia vplyvu halo efektu, prípadne efektu transferu, kedy je vzhľadom na silnú preferenciu jedného produktu porovnávacie hodnotenie iných. skreslený. Hlavnou nevýhodou porovnávacích stupníc je ich ordinálny charakter a obmedzenie analýzy na určitý počet sledovaných objektov. Napríklad by sa mala urobiť nová štúdia na porovnanie RC Coly s Juice a Pepsi. Tieto nedostatky sú do značnej miery eliminované použitím nekomparatívnych metód škálovania.

Pri použití nekomparatívnych škál (nekomparatívne škály), nazývaných aj monadické alebo metrické, sa každý objekt pôvodnej uvažovanej populácie hodnotí nezávisle od ostatných. Získané údaje sa považujú za merané na intervalovej alebo relatívnej stupnici.

Nekomparačné škály – jedna z dvoch metód škálovania, ktorá spočíva v sebahodnotení každého objektu.

Respondenti môžu byť napríklad požiadaní, aby ohodnotili Sokeho na škále preferencií od 1 do 6 (1 = absolútne nepáči, 6 = veľmi sa mi páči). Pepsi a RC Cola sú hodnotené rovnako. Z obr. 1 ukazuje, že neporovnateľné ratingové škály môžu byť spojité alebo podrobné. Podrobné hodnotiace škály sa zase delia na škály: Likert, Sémantický diferenciál a Stapel. V marketingovom výskume sa najčastejšie používa neporovnávacie škálovanie. Táto časť sa zaoberá technikami porovnávacieho škálovania.

1.3 Hlavné problémy pri konštrukcii váh

Z vyššie uvedeného sa môže škálovanie javiť ako pomerne jednoduchý, priamočiary postup, keď úlohou výskumníka je jednoducho identifikovať niekoľko komponentov hlavného konceptu, určiť, akým ukazovateľom možno každý z nich merať, a potom tieto ukazovatele spojiť do súhrnné hodnotenie „...vyslovením niekoľkých magických slov alebo štatistických kúziel a – jedno alebo dve! - Je to hotové". Žiaľ, táto zdanlivá jednoduchosť klame, pretože pri výbere a interpretácii komponentov škály sa môžeme stretnúť s množstvom úskalí, ktoré si vyžadujú osobitnú starostlivosť. Po prvé, ide o problémy spojené s pojmami validita (oprávnenosť) a spoľahlivosť.

Validita je vlastnosť určená odpoveďou na otázku: „Naozaj meriame presne to, čo merať chceme?“. V našom súčasnom kontexte možno túto otázku trochu transformovať takto: „Existuje nejaký dôvod domnievať sa, že každá z jednotlivých zložiek škály (každá z konkrétnych otázok) skutočne priamo súvisí s hlavným konceptom a že všetky zložky spolu plne pokrývajú tento koncept?“. Inými slovami, je potrebné položiť si otázku: „Má nejaký skutočný zmysel spájať medzi sebou množstvo konkrétnych ukazovateľov a – ak sme to už urobili – má zmysel pripájať označenie hlavného konceptu, ktorý sme zvolili tento počet ukazovateľov?“. Ak sa teda opäť odvoláme na príklad študentov, je potrebné po prvé zistiť, či názor človeka na správanie študentov priamo súvisí s jeho názorom na študentské oblečenie alebo študentské spôsoby, a po druhé, či všetky tieto názory spolu naozaj odrážať mieru predsudkov danej osoby voči študentom.

Čo sa týka spoľahlivosti, tá je určená odpoveďou na otázku: „Bez ohľadu na to, čo presne meriame, robíme to dôsledne?“. Pokiaľ ide o škálovanie, tento problém sa premieta do obáv, že rôzne ukazovatele, ktoré sú zložkami škály, sú navzájom prepojené konzistentným a zmysluplným spôsobom. V skutočnosti nás tu nezaujíma, či nám daný súbor otázok alebo ukazovateľov umožňuje rozlíšiť jablká od pomarančov, ale či nám tento súbor umožňuje postupne triediť jablká, ktoré sme už identifikovali podľa veľkosti, farby atď. na nejaký štandard. Ak áno, potom kombinácia rôznych opatrení povie o jablkách viac ako ktorékoľvek jedno opatrenie. Ale ak sú naše štandardy (farba, veľkosť atď.) nekonzistentné alebo nejednoznačné, potom sa pozorovania založené na nich môžu ukázať ako nepravdivé. 1

Možno ďalší príklad pomôže objasniť tieto ustanovenia. Zvážte škálu navrhnutú pre každého respondenta, aby vyjadril svoj súhlas alebo nesúhlas s nasledujúcimi tvrdeniami:

1. Kubánci sú zlí a nedá sa im veriť.

2. Francúzi sú zlí a nedá sa im veriť.

3. Japonci sú zlí a nedá sa im veriť.

4. Číňania sú zlí a nedá sa im veriť.

Predstavme si, že máme stupnicu na meranie xenofóbie, teda strachu a nedôvery voči cudzincom. Dá sa predpokladať, že čím viac výrokov respondent súhlasí, tým vyššiu mieru xenofóbie mu môžeme pripísať. Ale bude to tak? Ten, kto verí, že len Kubánci sú zlí a nedá sa im veriť, to tvrdí skôr z antikomunizmu ako z xenofóbie. Na druhej strane, človek, ktorý verí, že iba Japonci a Číňania sú zlí a nedá sa im veriť, to tvrdí skôr z rasizmu ako z xenofóbie. A aj ten respondent, ktorý verí, že všetky štyri skupiny sú zlé a nedá sa im dôverovať, ako sa ukazuje, netrpí xenofóbiou, ale skôr pocitom, že všetci ľudia, alebo všetky vlády (aj krajiny, kde žije) sú zlé. a nemalo by sa veriť. A preto, keďže nemôžeme s istotou povedať, že táto stupnica v podstate meria xenofóbiu, je táto stupnica neudržateľná. A môžeme jej vôbec veriť? Je premyslene navrhnutý aj na meranie úrovne xenofóbie? Strach a nedôvera k Číňanom môžu byť napríklad indikátorom minimálne dvoch veľmi odlišných charakteristík, z ktorých jedna je ideologická, druhá je založená na rasizme a dvaja respondenti môžu dať rovnakú odpoveď z úplne iných dôvodov. A bude pocit xenofóbie rovnaký pre antikomunistu a rasistu? S najväčšou pravdepodobnosťou nie. Mechanické spájanie týchto špecifických bodov za účelom ich merania bude teda prinajlepšom zbytočným cvičením a v najhoršom prípade zdrojom chybných záverov. 1

Problémy tohto druhu nie je vždy ľahké prekonať, a preto musíte pri škálovaní konať veľmi opatrne a vopred si všetko vypočítať. Schopnosť reprezentovať komplexný vzťah alebo správanie ako jediné číslo alebo skóre, čo je nepopierateľnou výhodou škálovania, je však podnetom na použitie tejto techniky v širokej škále prípadov.

2. ÚLOHA VÁH V ANALÝZE ÚDAJOV

Meracia stupnica je algoritmus na priradenie čísla objektu, ktorý odráža prítomnosť alebo stupeň vyjadrenia nejakej vlastnosti v ňom. Existujú štyri hlavné typy meracích stupníc: stupnica mien, stupnica poradia, stupnica intervalov a stupnica pomerov. Škály pomenovania a poradia umožňujú priradiť objekt jednej z niekoľkých neprekrývajúcich sa tried a nazývajú sa „kvalitatívne“. Škály intervalov a pomerov merajú „kvantitu“ alebo mieru vyjadrenia objektu určitej vlastnosti a nazývajú sa „kvantitatívne“. Pomenovacia škála (nominálna škála) umožňuje priradiť predmet k jednej z viacerých tried, medzi ktorými nie je ustanovený poradový vzťah, t.j. triedy, vo vzťahu ku ktorým sa neuplatňujú prirovnania ako „viac – menej“, „lepšie – horšie“ atď. Nominálne škály merajú také sociologické ukazovatele ako pohlavie, národnosť alebo rasa, farba očí, temperament atď. Pri vývoji nominálnej stupnice sa zostavuje úplný zoznam tried, ktorý je očíslovaný v náhodnom poradí. V tomto prípade čísla predstavujúce čísla tried zohrávajú úlohu symbolov alebo „štítkov“, nemožno na ne aplikovať žiadne aritmetické operácie. Inými slovami, na nominálnej škále je definovaný iba vzťah identity: objekty zaradené do rovnakej triedy sa považujú za identické, objekty zaradené do rôznych tried nie sú totožné. Špeciálnym prípadom nominálnej škály je dichotomická škála, ktorá fixuje prítomnosť alebo neprítomnosť určitej vlastnosti v objekte. Prítomnosť kvality je zvyčajne označená číslom "1", jej absencia - číslom "0". Stupnica poradia je navrhnutá tak, aby priradila objekt jednej z neprekrývajúcich sa tried zoradených podľa nejakého kritéria. Na stupnici poriadku sa okrem vzťahu identity definuje aj vzťah poriadku („viac – menej“). O objektoch zaradených do rôznych tried teda možno povedať, že jeden z nich má meranú vlastnosť vyjadrenú silnejšie ako iný, ale nedá sa určiť, o koľko silnejšie. Typickými príkladmi stupnice poriadku sú vzdelanie, typ sídla, sociálne postavenie, vojenské hodnosti a podobne. Pri konštrukcii poradovej stupnice sú triedy číslované vzostupne alebo zostupne podľa zodpovedajúceho atribútu. Aritmetické operácie s číslami tried sa nevykonávajú. Špeciálnym prípadom poradovej stupnice je poradová stupnica, ktorá sa používa v prípadoch, keď sa určitý atribút nedá zmerať, ale predmety sa dajú zoradiť podľa zodpovedajúceho kritéria, alebo keď je poradie predmetov dôležitejšie ako presný výsledok merania. , napríklad miesta obsadené v športových súťažiach. Hodnostné škály sa využívajú aj pri skúmaní preferencií, hodnotových orientácií, motívov, postojov a pod. V tomto prípade je respondent požiadaný, aby zoradil navrhovaný zoznam predmetov, konceptov alebo úsudkov podľa určitého kritéria. Ďalším špeciálnym prípadom škály poriadku je hodnotiaca škála, pomocou ktorej sa na základe určitého počtu bodov hodnotia vlastnosti predmetu alebo postoj respondenta k niečomu. Napríklad akademický výkon sa hodnotí na 5-bodovej škále. Hodnotiace škály sa často považujú za výnimku zo škál poradia, pretože sa predpokladá, že medzi bodmi na stupnici je približne rovnaká vzdialenosť. Napríklad sa predpokladá, že „A“ študent pozná predmet tak lepšie ako „Dobrý“ študent, pretože „Dobrý“ ho vie lepšie ako „C“ študent. Táto vlastnosť umožňuje v mnohých prípadoch považovať hodnotiace stupnice za kváziintervaly a vhodne ich použiť napríklad na výpočet priemernej známky na imatrikulácii alebo na určenie priemerného výkonu v triede. Stupnice intervalov a pomerov sú Sh.I. V prenesenom zmysle slova. Vyznačujú sa prítomnosťou meracej jednotky, ktorá umožňuje určiť, o koľko je jeden objekt väčší alebo menší ako iný, podľa skúmaného kritéria. Rozdiel medzi týmito dvoma typmi škál je v tom, že pomerová škála má „objektívnu“ nulu, nezávislú od svojvôle pozorovateľa, čo spravidla zodpovedá úplnej absencii merateľnej kvality v objekte. Na stupnici intervalov je nula nastavená ľubovoľne alebo v súlade s niektorými tradíciami a konvenciami. Vek sa teda meria na pomerovej stupnici a chronológia sa meria na stupnici intervalov, hoci obe stupnice používajú rovnakú jednotku merania – rok. Na stupnici intervalov je okrem vzťahov identity a poriadku definovaný aj rozdielový vzťah: pre každú dvojicu objektov je možné určiť, o koľko (merných jednotiek) je jeden objekt väčší alebo menší ako druhý. . Intervalové škály sú široko používané v psychologických testoch a psychometrii, metódach sémantického diferenciálu a iných metódach sekundárnych meraní. Pomerové stupnice merajú také ukazovatele, ako je výška, vek, príjem, dĺžka služby, počet vyfajčených cigariet atď. Pre takéto premenné sú definované nielen vzťahy identity, poriadku a rozdielu, ale aj vzťah vzťahov, ktorý umožňuje určiť, koľkokrát je jeden objekt väčší alebo menší ako druhý.

Meranie je mapovanie empirického systému do číselného systému, ktorý zachováva poradie vzťahov medzi objektmi. Klasický koncept merania rozlišuje dva spôsoby priraďovania premenných hodnôt k objektom. Prvý spôsob sa nazýva hodnotenie. Zobrazenie vlastnosti objektu na stupnici sa tu uskutočňuje v konvenčných jednotkách. Napríklad je možné s rôznym stupňom presnosti určiť miesto osoby na stupnici „konzervativizmu“. Výskumník nemá k dispozícii žiadnu jednotku konzervativizmu, gradácie sa môžu ľubovoľne meniť.

Samotné meranie si vyžaduje definíciu jednotky – etalónu stupnice. V tomto prípade možno merať len priestorové a časové znaky, ako aj abundanciu – aditívne veličiny. V sociálnych a behaviorálnych vedách sa však uznáva širší pohľad na meranie ako pripisovanie hodnôt objektom v súlade s daným systémom vzťahov na rôznych úrovniach.

Premenná nie je to isté ako skutočný atribút alebo vlastnosť. Ide o akési pravítko – súbor noriem a operácií, ktoré sú nevyhnutné a postačujúce na kvalifikáciu udalosti, vlastnosti, vzťahu, jedným slovom, všetkého, čo sa bežne chápe ako fakty. Pre pravítko nie je veľmi dôležité, či sú jeho delenia aplikované na drevenú, plastovú alebo kovovú platňu. Oveľa dôležitejšie je odstupňovanie stupnice, ako aj schopnosť užívateľa správne merať. Pri meraní správania je situácia podobná, len „vládca“ má v tomto prípade formu dotazníka (alebo pozorovacej formy) a „pripojenie“ k objektu nie je ničím iným ako operačnou definíciou.

Ako merací nástroj je premenná konštruovaná výskumníkom vytvorením kontinua hodnôt (gradácií). Minimálne minimum kontinua, ako už vieme, je dichotómia: „áno“ a „nie“, plus a mínus, afirmácia a negácia. V skutočnosti sa takmer vždy zaoberáme trichotómiami, pretože každá premenná obsahuje gradáciu „žiadna odpoveď“ (alebo „žiadne údaje“).

Premenná teda obsahuje tri zložky: 1) nejaký nie vždy jasne formulovaný koncept meranej charakteristiky, napríklad „volebné preferencie“, „stabilita rodiny“, „vzdelanie“ atď.; 2) mierka - súbor hodnôt, ktoré určujú kritériá klasifikácie objektov; 3) operačná definícia - súbor pokynov, ktoré upravujú proces identifikácie objektu podľa stanovenej stupnice hodnôt.

Základná úroveň merania je nominálna. Táto úroveň zodpovedá menovej stupnici, ktorá pozostáva z hodnôt funkcií, ktoré nie sú zoradené vzostupne ani zostupne. Typické príklady škály mien: národnosť, povolanie, politické presvedčenie. Hodnoty mennej stupnice sú konštruované podľa logických klasifikačných pravidiel. Prvým z nich je pravidlo neprotirečenia. Hovorí: "Objekt môže byť priradený k jednej a iba jednej triede, ktorú poskytuje hodnota premennej." Inými slovami, bádateľ je povinný nazývať veci pravými menami a vyhýbať sa dialektike, v ktorej sa objekt súčasne ukazuje ako oboje. Urobiť to nie je také jednoduché, ako sa zdá – nazvať vec pravým menom. Reakcionári niekedy vyzerajú ako liberáli, hlúpi ľudia ako inteligentní ľudia, ženy ako muži. Ale aj v najťažších situáciách je analytik povinný dať objektu jednoznačnú kvalifikáciu. Tu je dovolené veľa. Jediná vec, ktorá je zakázaná, je kvalifikovať objekt ako biely a čierny zároveň.

Dôsledkom tohto pravidla je 100% súčet frekvencií všetkých gradácií premennej. Ak súčet frekvencií presahuje známku 100 %, tak aspoň niektoré jednotky spadli do dvoch tried súčasne a počítali sa opakovane. Stáva sa to, keď sa dotazník pýta na sortiment, kde si môžete vybrať jednu, druhú a tretiu. Napríklad sa pýtate: „Čo sa vám najviac páči? s možnosťami odpovedí: maces, ražniči, liberálno-demokratické slobody... Tu môžete uprednostniť všetky výzvy dotazníka a na 100% nedostanete, ak aspoň jeden z opýtaných spadá do tried tých, ktorí milujú matzoh a zároveň liberálno-demokratické slobody. Dôvodom skreslenia je, že dané pozície netvoria premennú, naopak, každá z nich je „orezanou“ verziou premennej. Plná verzia predpokladá odpovede „Áno“, „Nie“ a „Nemôžem povedať“. Správne skonštruovaná premenná je jednorozmerné kontinuum. Na rozdiel od viacdielnych dimenzií nevyžaduje agregáciu. Odtiaľ pochádza druhé pravidlo – pravidlo jednotného základu klasifikácie. Nemôžete rozdeliť ľudí na inteligentných a ryšavých, pretože niekedy sa ryšavky ukážu ako múdre. V tej istej otázke nemôžete miešať dve rôzne premenné. Nie je možné nebrať do úvahy zmenu významu premennej, keď sa presunie do iného kontextu. Napríklad otázka o postoji k intelektuálom, položená v Moskve a Chicagu, sa ukáže ako dve odlišné otázky, pretože v ruskej tradícii je zvykom pripisovať intelektuálovi úlohu nositeľa mravného princípu, kým obyvateľ Chicaga hneď neuhádne, kto sa myslí pod pojmom „intelektuál“.

Tretím pravidlom je pravidlo úplnosti. V skúmanej populácii by nemal byť jediný objekt, ktorý by nebolo možné identifikovať podľa daných hodnôt. Inými slovami, objekt musí byť distribuovaný na kontinuu premennej a dostať svoje správne miesto v jednej z tried. Ak sa tak nestane, proces merania „visí“ - jednoducho nie je nič, čo by pravítko pripevnilo k ničomu a nikomu. Všimnite si, že pozícia „No data“ rieši problém úplnosti, keď stupnica nepokrýva celý rozsah hodnôt. Napríklad odmietnutie respondenta nahlásiť svoj vek neznamená, že veková stupnica je pre objekt irelevantná. Príklady mierok, ktoré nesúvisia s objektom, inými slovami, nie sú preň relevantné, sú početné. Sociológovia sa často pokúšajú merať názory, postoje a iné osobné vlastnosti, pričom predpokladajú, že každý má skúmanú vlastnosť. Napríklad otázka „Čo si myslíte o Burbulis?“, ktorú položili niektoré centrá pre výskum verejnej mienky v roku 1992, bola založená na presvedčení, že každý vo vzorke má vlastnosť „Postoj k Burbulis“. Samotná možnosť, že človek nemá ani pozitívny, ani negatívny vzťah k Burbulis, bola vylúčená. Pozícia „Nemôžem povedať“, zdá sa, zahŕňa aj takýto druh respondentov, no dostávajú sa sem nielen tí, ktorí nemajú názor, ale aj tí, ktorí nemajú samotný atribút.

V sociologických meraniach často vznikajú akési umelo vytvorené emergentné premenné – premenné generované samotným postupom. Ľudia, ktorí so skúmanou črtou pred rozhovorom nemali nič spoločné, si tento postoj budujú v procese interpersonálnej komunikácie s anketárom, pričom odpovedajú „pozitívne“, „negatívne“ alebo najčastejšie „neutrálne“. Príčiny emergentných premenných najviac súvisia s vplyvom anketára.

G. A. Pogosyan ukazuje typické okolnosti, v ktorých premenné neopisujú ani tak nezávislé rečové správanie respondenta, ako skôr situáciu pri zbere údajov. Najmä Poghosyan ukázal, že výzva na odpoveď výrazne mení rozdelenie frekvencií.

Z tabuľky je zrejmé, že „náznak“ výrazne zvyšuje počet tých, ktorí veria, že dobrí špecialisti majú najpriaznivejšie šance na povýšenie, a takmer rovnako znižuje počet tých, ktorí naznačili poslušnosť. Za predpokladu, že otvorené otázky poskytujú väčší priestor pre nezávislý názor, nabádanie vedie k artefaktu: 62 % si radšej zvolilo vhodnú verziu odpovede, než aby vyjadrilo svoj názor.

Navrhovaním premenných sa sociológ snaží zabezpečiť, aby zodpovedali skutočnému správaniu objektu. Zároveň je povinný usporiadať ich do logického vzťahu, pričom zanedbáva skutočnosť, že „život“ je často nelogický a nejednoznačný. Tu vzniká dilema: buď opísať život vo všetkých jeho nezrovnalostiach, alebo zostaviť schémy. V prvom prípade je pre sociológa lepšie zvoliť si kariéru spisovateľa, v druhom prípade je potrebné pokúsiť sa, aby logická schéma zodpovedala realite.

Požiadavky vzájomnej jednoznačnej zhody a jednotného základu obsahujú isté násilie voči „ľudskej“ realite. V živote sa „áno“ často mení na „nie“, „demokrati“ si hovoria komunisti a plus sa ukáže ako mínus. Najlepšie je pracovať s denomináciami, od ktorých sa očakáva, že najlepšie zodpovedajú jazyku sociálnej interakcie a správania. Nominálne merania v sociologických a sociálno-ekonomických štúdiách sa považujú za základ pre pochopenie samotnej podstaty sociálnej reality. S.V. Chesnokov zakladá tento záver na predpoklade, že nominálne premenné sú konečným výsledkom postupov empirického overovania teoretických konceptov vždy, keď sú ľudia, ich vedomie a správanie v tej či onej miere predmetom výskumu. "Je to kvôli skutočnosti," píše S.V. Chesnokov, že tak sociológ-výskumník, ako aj ľudia, ktorí prejavili dobrú vôľu kontaktovať sociológa ako respondenti, vyjadrujú svoje reakcie, formujú a popisujú sociálne v obrazoch a pojmoch, ktorých znakmi sú slová, nie čísla. Z toho vyplýva predpoklad o obmedzených možnostiach numerickej analýzy dát. Humanitárny rozmer S.V. Chesnokov nazýva akékoľvek pomenovanie a deterministická analýza - stanovenie nasledujúceho "ak a, potom b", kde a a b sú mená.

Nominálne premenné, ktoré fixujú konkrétne hodnoty, sú nepochybne základom sociologického slovníka. Táto ich črta však nie je zakorenená ani tak v „živom jazyku“ sociálnej komunikácie, ale v rovnocennosti hodnôt premenných s protokolmi, ktoré fixujú fakty. Takéto nominálne „protokoly“, bez ohľadu na ich obsah, sú základom akéhokoľvek vedeckého opisu. Skutočné škály (kontinuá) sú spôsoby usporiadania nominálnych hodnôt v idealizovaných metrikách, ale v každom prípade musí byť dodržaná požiadavka na zhodu medzi jednotkou a hodnotou premennej.

Požiadavky na nominálne miery (identifikácie) musia byť splnené aj pre váhy vyššej úrovne: radové, intervalové a metrické.

Usporiadaná stupnica sa líši od nominálnej tým, že jej gradácie sú usporiadané v určitom poradí vzhľadom na zvýšenie alebo zníženie intenzity vlastnosti.

Usporiadaná trieda zahŕňa hodnotiace stupnice, postoje a preferencie. V sociológii sa používajú dva typy usporiadaných stupníc: hodnosti (hodnotenia) a body. Hodnotenia sa stanovujú priraďovaním miest k objektu takým spôsobom, že počet miest sa presne rovná počtu objektov. Môžete napríklad rozdeliť študentov podľa úrovne odbornej prípravy a priradiť ich ku každému miestu, počnúc prvým a končiac posledným. Inými slovami, zoraďujeme ich s vedomím, že bez ohľadu na úroveň vedomostí v skupine by mala byť prvá a posledná. Podobný systém výrobných stimulov, založený na myšlienke odmeňovania prvých na úkor druhých, sa uplatňoval v 60. rokoch 20. storočia. V.M. Yakushev, ktorý experimentoval v jednej z dizajnérskych kancelárií, sa experiment stal známym pod názvom "Pulsar". Keďže v každom prípade bude niekto posledný, skupina je postavená do podmienok súťaženia a boja o prežitie.

Hodnotenie ako druh sociálneho hodnotenia je normou určitého typu kultúry, založenej na uprednostňovaní individuálneho záujmu pred záujmami kolektívnymi. Životný a profesionálny úspech sa tu chápe ako víťazstvo nad ostatnými. V tomto druhu hier sa považuje za hlúpe a dokonca nemorálne nechať spolužiaka podvádzať pri teste – koniec koncov to znamená prehrať s ním v súťaži. V konečnom dôsledku sú poháňané kone zastrelené, nie? To všetko sa deje nielen v štúdiu, ale aj v biznise, rodine, komunikácii, náboženstve. Teória racionálnej voľby je založená práve na myšlienke optimalizácie individuálneho správania s obmedzenými zdrojmi.

Bodové škály neoperujú s miestami, ale so školskými hodnotami. Tieto hodnoty sú na sebe nezávislé. V istom zmysle má bodová stupnica rovnostársky pôvod. Všetci študenti, vrátane prvého a posledného, ​​môžu dostať C a byť šťastní podľa teórie relatívnej deprivácie. Spoľahlivosť takýchto mierok je však veľmi otázna, najmä v prípadoch, keď sa na označenie známok používajú čísla. Vzdialenosť 4 až 5 nie je to isté ako vzdialenosť 2 až 3. Každý učiteľ má svoje vlastné preferencie pre úsek kontinua, kde rozdeľuje žiakov. Jeden dá 2 a 3, druhý 4 a 5. Ako ich porovnať? Nie sú tu žiadne veľké ťažkosti, pretože jednotlivé hodnoty je možné normalizovať vzhľadom na priemerné skóre alebo smerodajnú odchýlku skóre pre každého učiteľa.

Usporiadané ratingové škály naznačujú logické vyváženie pozícií vo vzťahu k neutrálnemu stredu. Táto požiadavka odzrkadľuje všeobecnejšie pravidlo pre zostavovanie mierok: každá kategória stupnice musí byť charakterizovaná rovnakou pravdepodobnosťou „zasiahnutia“ objektu, ktorý podlieha náhodnému rozdeleniu. Inými slovami, počet gradácií vpravo od stredu by sa mal rovnať počtu gradácií vľavo.Často sa ako „stred“ stupnice používa hodnota „Neviem povedať“. To vytvára zjavnú nejednoznačnosť pri interpretácii údajov. „Nemôžem povedať“ znamená, že respondent si nemôže vybrať žiadnu z navrhovaných položiek; ale ak je "Nemôžem povedať" v strede vyváženej stupnice, znamená to "Je pre mňa ťažké uprednostniť čokoľvek."

Keď hodnoty usporiadanej hodnotiacej škály nemajú dobre definované hranice, škála sa stane polousporiadanou. V sociologickom a psychologickom výskume sa totiž najčastejšie používajú polousporiadané škály.

Intervalové škály sú založené na postupoch, ktoré poskytujú rovnaké alebo približne rovnaké vzdialenosti medzi gradáciami premennej. V tomto prípade sa neporovnávajú hodnoty premenných, ale vzdialenosti medzi hodnotami. Inými slovami, akékoľvek dve merania daného empirického systému, uskutočnené na stupnici intervalov, sa navzájom prevedú pomocou lineárnej funkcie.

Ak je na nominálnej stupnici postupnosť objektov stanovená bez väčších ťažkostí, intervalová stupnica ponúka riešenie problému porovnávania vzdialeností medzi objektmi. Táto vlastnosť lineárnych transformácií, charakteristická pre intervalové stupnice, je demonštrovaná číselným príkladom: 5 - 2 / 2 - 1 \u003d 24 - 15 / 15 - 12 \u003d 3. Pomer rozdielov medzi hodnotami stupnice je v tomto prípade konštantná. Ak je niektorý z objektov intervalovej stupnice namapovaný na nulu, môžeme hovoriť o pomerovej stupnici – špeciálnom prípade intervalovej stupnice. V tomto prípade je pôvod pevný 12.

Intervalovú stupnicu môžete zostaviť pomocou párových porovnaní alebo pomocou súdnych postupov, ako to urobil L. Thurstone. Najprv sa vytvorí súbor relevantných úsudkov, ktoré popisujú meraný atribút, ako je postoj, postoj alebo hodnotenie. Potom sú experti požiadaní, aby zoradili úsudky do kategórií od najvyššej intenzity vlastnosti po najnižšiu. Predpokladá sa, že rozloženie známok sudcov okolo hodnôt stupnice podlieha bežnému zákonu. Vyberú sa tie rozsudky, ktoré dostanú a odsúhlasené hodnotenia sudcov. Toto je metóda konštrukcie „intervalov, ktoré sa zdajú byť rovnaké“. Najznámejšie metódy konštrukcie intervalových stupníc vyvinuli L. Thurstone, R. Likert, L. Guttman. V modernej sociológii sa však používajú zriedka.

Metrické, čiže absolútne váhy spĺňajú všetky požiadavky na váhy nižších tried, majú nielen nulovú referenčnú značku, ale aj jednotku času, vzdialenosti či počtu jednotiek. Tu sú povolené všetky prevody s číslami.

Pripisovanie hodnôt objektom sa uskutočňuje v troch formách: verbálna, grafická a numerická. Verbálna interpretácia premenných je najbežnejšia v hromadných prieskumoch. Prvky stupnice sú tu úsudky, ktoré svedčia o názoroch, hodnotách, stavoch. Do akej miery sú tieto dôkazy dostatočné, je osobitný problém. Jedna vec je jasná: samotné rozsudky nie sú ničím iným ako dôkazom reality, ktorá sa za nimi skrýva. Verbálny výklad stupnice preto zohráva úlohu akejsi sondy v jazyku každodenného života. Jeho zásadný rozdiel od bežnej reči spočíva v jasnej pojmovej štruktúre prispôsobenej rôznym rečovým situáciám a kontextom. Aj otvorená otázka, ktorá sa zdá byť maximálne zameraná na slovník respondenta, funguje len pod podmienkou jednoznačného pojmového kódovania.

Verbálne interpretované polohy škály sú vnímané dosť výrazne, ak je ich málo. Ale aj pri výbere z piatich stupňov začínajú ťažkosti. Napríklad kategórie „spokojný“ a „skôr spokojný ako nespokojný“ sa líšia so značným stupňom konvenčnosti. Na sedemstupňovej škále sú možnosti verbálnej interpretácie vyčerpané. Tu sa uprednostňuje grafické prevedenie stupnice, čím vzniká možnosť štandardného odčítania. Grafická interpretácia škály sa používa v takzvaných medzikultúrnych štúdiách, kde slovná zásoba nástroja vyžaduje preklad do jazyka respondenta. Predpokladá sa, že vizualizácia premennej na obrázku vytvára univerzálny „vzor“ škály. Podobne sa v medzinárodnej komunikácii používajú gestá. Jedným z príkladov grafického nástroja sú obrázky tematického apercepčného testu. Váhy sú často zobrazované ako pravítka a piktogramy. Harvey Cantril vyvinul „rebrík šťastia“: na výkrese rebríka by mal respondent označiť svoju aktuálnu pozíciu vo vzťahu k najlepšiemu (vrchol rebríka) a najhoršiemu (spodná časť rebríka) súboru okolností a potom uviesť smer ich zamýšľaného pohybu po „rebríku šťastia“. V jednej z raných verzií inštalačnej stupnice navrhol L. Thurstone jedenásťbodové kontinuum, vyrobené vo forme teplomera.

Číselný výklad sa niekedy mylne stotožňuje s verbálnym. Použitie čísel ako číselných názvov neznamená zavedenie metriky. Napríklad na účely kódovania môžu byť muži označené ako 1 a ženy ako 2. V tomto prípade sa používajú štítky, ale nie čísla. Čísla zahŕňajú vykonávanie aditívnych operácií, aritmetických operácií. Okruh číselných stupníc je ohraničený intervalovými a metrickými úrovňami merania, kde sú nastavené jednotky intenzity vlastnosti.

794. Orlov A.I. Teória merania ako súčasť metód analýzy údajov: úvahy o preklade článku P.F. Velleman a L. Wilkinson // Sociológia: metodológia, metódy, matematické modelovanie. 2012. Číslo 35. S. 155-174.
A.I. Orlov

(Moskva)
ÚLOHA TEÓRIE MERANIA V METÓDACH ANALÝZY ÚDAJOV 1


Podľa modernej paradigmy aplikovanej štatistiky je teória merania neoddeliteľnou súčasťou metód analýzy údajov. Podľa P.F. Velleman a L. Wilkinson, použitie teórie merania "pri výbere alebo odporúčaní určitých metód štatistickej analýzy je nevhodné a často vedie k chybám." Článok poskytuje stručné informácie o mierkach merania a aplikácii teórie merania pri výbere priemerných hodnôt v súlade so stupnicami merania údajov a potom dôkladne analyzuje argumenty P.F. Velleman a L. Wilkinson. Výsledok diskusie: "Teória merania je dôležitá pre interpretáciu štatistickej analýzy". Diskusia umožnila objasniť množstvo problémov pri aplikácii aplikovanej štatistiky (analýza údajov): bola identifikovaná úloha riešeného problému a dátový model použitý na stanovenie typov mier merania pre tieto údaje; oblasti použitia prieskumnej analýzy a štatistiky založenej na dôkazoch sú oddelené.
Kľúčové slová Kľúčové slová: teória meraní, analýza údajov, aplikovaná štatistika, stupnice merania, prípustné transformácie, nemennosť záverov.
Metódy analýzy dát (inými slovami aplikovaná štatistika, štatistické metódy) sú nevyhnutné pre sociológa na spracovanie výsledkov hromadných prieskumov, ako aj na zhrnutie výsledkov odborných prieskumov. Táto vedecká oblasť sa rýchlo rozvíja. Podľa novej paradigmy aplikovanej štatistiky je teória merania neoddeliteľnou súčasťou moderných metód analýzy údajov. Naše učebnice (a pod.) popisujú teóriu meraní a jej aplikáciu pri výbere adekvátnych metód analýzy dát.

Existujú aj iné názory na vhodnosť použitia teórie merania pri analýze sociologických údajov. Hlavnou myšlienkou článku P.F. Velleman a L. Wilkinson je vyjadrený v jeho názve. Podľa ich názoru je aplikácia teórie merania „pri výbere alebo odporúčaní určitých metód štatistickej analýzy nevhodná a často vedie k chybám“.

Pred analýzou argumentov P.F. Vellemana a L. Wilkinsona je vhodné stručne informovať o predmete diskusie, najmä definovať pojmy, ktoré používame a formulovať hlavné ustanovenia v štýle ruskej pravdepodobnostno-štatistickej školy, ktorej zakladateľom je A.N. Kolmogorov, ktorý premenil teóriu pravdepodobnosti a matematickej štatistiky na odvetvie matematiky. Zároveň spresňujeme prezentáciu a popisujeme aplikáciu teórie meraní v teórii priemerov, čo umožnilo vytvoriť súvislý a konečný systém priemerov.
Základy teórie meraní
Teória meraní vychádza zo skutočnosti, že aritmetické operácie s číslami používané v praktickej práci nie vždy dávajú zmysel. Prečo napríklad pridávať alebo násobiť telefónne čísla? Okrem toho nie sú vždy splnené obvyklé aritmetické vzťahy. Napríklad súčet vedomostí dvoch porazených sa nerovná vedomostiam „dobrého študenta“, t.j. pre hodnotenie vedomostí sa 2+2 nerovná 4. Vyššie uvedené príklady ukazujú, že prax používania čísel na opis výsledkov pozorovaní (merania, testy, analýzy, experimenty) si zaslúži metodickú analýzu.

Základné meracie stupnice. Najjednoduchší spôsob, ako použiť čísla, je použiť ich na rozlíšenie medzi objektmi. Napríklad telefónne čísla sú potrebné na rozlíšenie jedného účastníka od druhého. Pri tejto metóde merania sa používa iba jeden vzťah medzi číslami - rovnosť (dva objekty sú opísané buď rovnakými číslami alebo rôznymi číslami). Zodpovedajúca stupnica merania sa nazýva menovitá stupnica (ak sa používa termín založený na latinčine, nominálna stupnica; niekedy sa nazýva aj klasifikačná stupnica). Táto váha meria čiarové kódy tovaru, čísla pasov, DIČ (individuálne čísla daňových poplatníkov) a mnoho ďalších veličín vyjadrených číslami. Z aplikovaného hľadiska je mierka merania spôsob priraďovania čísel k predmetným objektom, zodpovedajúcich vzťahom medzi objektmi.

Všimnite si, že čísla môžu byť objektom priradené rôznymi spôsobmi. Prechod z jednej metódy na druhú sa pozoruje pri výmene pasov alebo telefónnych čísel. Aké sú vlastnosti prípustných transformácií? Pre stupnicu mien je prirodzené vyžadovať len vzájomnú jednoznačnosť. Inými slovami, aplikovaním transformácie jedna ku jednej na výsledky merania získame novú stupnicu, ktorá popisuje systém počiatočných objektov rovnako dobre ako predchádzajúca mierka.

Šesť hlavných typov meracích stupníc je popísaných v tabuľke 1.
Tabuľka 1. Hlavné meracie stupnice.


Typ mierky

Definícia mierky

Príklady

Skupina povolených transformácií

Stupnice kvalitatívnych znakov

Položky

Čísla sa používajú na rozlíšenie predmetov

Telefónne čísla, pasy, DIČ, čiarové kódy

Všetky transformácie typu one-to-one

radový

Čísla sa používajú na usporiadanie predmetov

Odborné hodnotenia, skóre vetra, školské známky, užitočnosť, čísla domov

Všetko prísne rastúce premeny

Stupnice kvantitatívnych znakov

(popísané podľa pôvodu a mernej jednotky)



Intervaly

Referenčný bod a jednotka merania sú ľubovoľné

Potenciálna energia, poloha bodu, teplota v stupňoch Celzia a Fahrenheita

Všetky lineárne transformácie φ( X) = sekera + b,

a A b svojvoľný A>0


Vzťahy

Referenčný bod je nastavený, jednotka merania je ľubovoľná

Hmotnosť, dĺžka, výkon, napätie, odpor, Kelvinova teplota, ceny

Všetky takéto transformácie φ( X) = sekera,

A svojvoľne, A>0


Rozdiely

Pôvod je ľubovoľný, merná jednotka je nastavená

Čas

Všetky transformácie posunu φ( X) = X + b,

b svojvoľne


Absolútna

Referenčný bod a jednotka merania sú nastavené

Počet ľudí v tejto miestnosti

Iba transformácia identity φ( X) = X

Okrem tých, ktoré sú uvedené v tabuľke 1, sa používajú aj iné typy váh. Všimnite si, že v tabuľke 1 výraz „merná jednotka je ľubovoľná“ znamená, že môže byť zvolená na základe dohody odborníkov, ale nevyplýva zo žiadnych zásadných vzťahov. Pri meraní času je prirodzená jednotka merania daná periódami otáčania nebeských telies. Referenčný bod pri meraní dĺžky je daný dĺžkou segmentu, ktorého začiatok a koniec sa zhodujú atď.

V súčasnosti sa považuje za potrebné stanoviť pred aplikáciou určitých algoritmov analýzy údajov, na akých typoch mierok sa uvažované veličiny merajú. V tomto prípade sa časom môže zmeniť typ stupnice na meranie určitej veličiny. Napríklad teplota sa najprv merala na radovej stupnici (teplejšie - chladnejšie). Po vynájdení teplomerov sa začalo merať na intervalovej stupnici (na Celziovej, Fahrenheitovej či Réaumurovej stupnici). Teplota S na Celziovej stupnici vyjadrenej teplotou F Fahrenheita pomocou lineárnej konverzie

S objavom teplôt absolútnej nuly bolo možné prejsť na pomerovú stupnicu (Kelvinova stupnica).

Požiadavka nemennosti (primeranosti) záverov. Pre primeraný výber metód analýzy údajov je potrebné objasnenie typov používaných stupníc. Základnou požiadavkou je nezávislosť záverov, z ktorej konkrétnej meracej škály výskumník vychádzal (spomedzi všetkých škál, ktoré sa pri prijateľných transformáciách transformujú jedna do druhej). Napríklad, ak hovoríme o dĺžkach, potom by závery nemali závisieť od toho, či sú dĺžky merané v metroch, arshinoch, siakoch, stopách alebo palcoch.

Inými slovami, závery musia byť invariantné v rámci skupiny prípustných transformácií meracej stupnice. Až potom ich možno nazvať adekvátnymi, t.j. oslobodený od subjektivity výskumníka, ktorý si vyberá určitú škálu zo súboru škál daného typu, spojených prijateľnými transformáciami.

Požiadavka nemennosti záverov ukladá obmedzenia na súbor možných algoritmov analýzy údajov. Ako príklad uveďme radovú stupnicu. Niektoré algoritmy analýzy údajov umožňujú získať adekvátne závery, iné nie. Napríklad pri probléme kontroly homogenity dvoch nezávislých vzoriek poskytujú algoritmy hodnotiacej štatistiky (t. j. používajúce iba poradie výsledkov meraní) adekvátne závery, ale Cramer-Welch a Studentova štatistika nie. To znamená, že na spracovanie údajov nameraných na ordinálnej stupnici možno použiť Smirnovovo a Wilcoxonove kritériá, ale Cramer-Welchovo a Studentovo kritérium nie.
Výber priemerných hodnôt v súlade s meracími stupnicami
Požiadavka invariantnosti je dostatočne silná. Z mnohých algoritmov na analýzu štatistických údajov ho spĺňa len niekoľko. Ukážme si to na príklade porovnania priemerných hodnôt.

Cauchyho priemery. Medzi všetkými metódami analýzy údajov zaujímajú dôležité miesto algoritmy spriemerovania. V sedemdesiatych rokoch minulého storočia bolo možné úplne zistiť, aké typy priemerov možno použiť pri analýze údajov nameraných v rôznych mierkach.

Nechaj X 1 , X 2 ,…, X n - vzorkovací objem n. Väčšina všeobecný pojem priemernej hodnoty zaviedol francúzsky matematik prvej polovice 19. storočia. O. Cauchy. Priemerná hodnota (podľa Cauchyho) je ľubovoľná funkcia f(X 1 , X 2 ,...,X n) tak, že pre všetky možné hodnoty argumentov nie je hodnota tejto funkcie menšia ako minimum čísel X 1 , X 2 ,...,X n a nie viac ako maximum z týchto čísel. Cauchyho priemery sú aritmetický priemer, medián, modus, geometrický priemer, harmonický priemer, stredná štvorec.

Priemery sa zvyčajne používajú na nahradenie množiny čísel (vzorky) jedným číslom a následné porovnanie množín pomocou priemerov. Nech napr. Y 1 , Y 2 ,...,Y n- súbor hodnotení odborníkov (alebo respondentov), ​​„vystavených“ jednému predmetu skúmania, Z 1 , Z 2 ,...,Z n- do druhého. Ako možno tieto agregáty porovnať? Najjednoduchší spôsob je pomocou priemerov.

Pri prijateľnej transformácii mierky sa hodnota priemeru samozrejme mení. Ale závery o tom, pre ktorú populáciu je priemer väčší a pre ktorú - menší, by sa nemali meniť (v súlade s požiadavkou nemennosti záverov, akceptovanou ako hlavná požiadavka v teórii meraní). Formulujme zodpovedajúci matematický problém hľadania tvaru priemerných hodnôt, ktorých výsledok porovnania je stabilný vzhľadom na prípustné transformácie mierky.

Nechaj f(X 1 , X 2 ,...,X n) je Cauchyho priemer. Nech je priemer pre prvú populáciu menší ako priemer pre druhú populáciu:

f(Y 1 , Y 2 ,...,Y n) (Z 1 , Z 2 ,...,Z n).

Potom, podľa teórie meraní, pre stabilitu výsledku porovnávania priemerov je potrebné, aby pre akúkoľvek prípustnú transformáciu g(zo skupiny prípustných transformácií v zodpovedajúcej škále) platila aj nerovnosť

f(g(Y 1),g(Y 2),...,g(Y n)) (Z 1),g(Z 2 ),...,g(Z n)),

tie. priemer transformovaných hodnôt z prvej populácie bol menší ako priemer transformovaných hodnôt pre druhú populáciu. Navyše formulovaná podmienka musí byť splnená pre akékoľvek dve množiny Y 1 , Y 2 ,...,Y n A Z 1 , Z 2 ,...,Z n. A, pripomeňme, pre akúkoľvek prípustnú transformáciu. Vyvolajú sa priemerné hodnoty, ktoré spĺňajú formulovanú podmienku prípustné(v príslušnej mierke). Podľa teórie merania je možné pri analýze znaleckých posudkov a iných údajov nameraných v uvažovanej škále použiť iba prijateľné priemerné hodnoty.

Pomocou matematickej teórie rozvinutej v monografii je možné opísať formu prijateľných priemerných hodnôt v hlavných mierkach.

Priemerné hodnoty v poradovej stupnici. Zvážte spracovanie, pre jednoznačnosť, názorov odborníkov, meraných v poradovej mierke. Nasledujúce tvrdenie je pravdivé.

Veta 1. Zo všetkých Cauchyho priemerov sú prijateľnými priemermi v ordinálnej škále iba členovia variačných radov (štatistika poradia).

Veta 1, prvýkrát získaná v článku, platí za predpokladu, že priemer f(X 1 , X 2 ,...,X n) je spojitá (vzhľadom na množinu premenných) a symetrická funkcia. To druhé znamená, že keď sa preusporiadajú argumenty, hodnota funkcie f(X 1 , X 2 ,...,X n) nemení. Tento stav je celkom prirodzený, pretože nájdeme priemernú hodnotu pre agregáty (sady)čísla, nie pre sekvencie. Zostava sa nemení v závislosti od poradia, v akom uvádzame jej prvky.

Najmä podľa vety 1 môže byť medián použitý ako priemer pre údaje namerané na ordinálnej stupnici (pre nepárnu veľkosť vzorky). Pri rovnomernom objeme by sa mal použiť jeden z dvoch centrálnych členov série variácií – ako sa niekedy nazýva, ľavý stred alebo pravý stred. Použiť sa dá aj režim – vždy je členom variačnej série. Môžete použiť kvartily vzorky, minimum a maximum, decily atď. Ale nikdy nemôžete vypočítať aritmetický priemer, geometrický priemer atď.

Kolmogorov priemer. Prirodzený systém axióm (požiadaviek na priemery) vedie k takzvaným asociatívnym priemerom. Ich celkový vzhľad našiel v roku 1930 A.N. Kolmogorov. Teraz sa nazývajú „Kolmogorovove priemery“.

Pre čísla X 1 , X 2 ,...,X n Kolmogorov priemer je

G{(F(X 1) + F(X 2) +...+ F(X n))/n} ,

Kde F- prísne monotónna funkcia (t. j. prísne rastúca alebo prísne klesajúca), G- funkcia inverzná k F. Medzi priemermi Kolmogorov je veľa známych postáv. Ak teda F(X) = x, potom Kolmogorov priemer je aritmetický priemer, ak F(X) = ln X, potom geometrický priemer, ak F(X) = 1/X, potom harmonický priemer, ak F(X) = X, potom stredná odmocnina atď. (v posledných troch prípadoch sú kladné hodnoty spriemerované).

Kolmogorov priemer je špeciálny prípad Cauchyho priemeru. Na druhej strane populárne priemery, ako je medián a režim, nemožno reprezentovať ako Kolmogorovove priemery. Nasledujúce tvrdenia sú v článku prvýkrát dokázané.

Veta 2. Na intervalovej stupnici zo všetkých Kolmogorovových priemerov je prípustný iba aritmetický priemer .

Geometrický priemer alebo odmocnina z teplôt (v stupňoch Celzia), potenciálnych energií alebo súradníc bodov je teda bezvýznamná. Ako priemer by sa mal použiť aritmetický priemer. Môžete tiež použiť medián alebo režim.

Veta 3. V pomerovej škále sú zo všetkých Kolmogorovových prostriedkov prípustné iba mocniny c a geometrický priemer.

Existujú Kolmogorovove priemery, ktoré by sa v pomerovej škále nemali používať? Samozrejme, že mám. Napríklad s F(X) = e 2 X .

Poznámka 1. Geometrický priemer je hranica mocenského priemeru pri .

Poznámka 2. Vety 1 a 2 platia za určitých podmienok vnútromatematickej pravidelnosti. Dôkazy viet 1-3 sú uvedené v monografii. Prevod na prípad vážených priemerov je uvedený v článku.

Podobne ako pri priemerných hodnotách je možné študovať aj ďalšie štatistické charakteristiky - ukazovatele rozpätia, spojenia, vzdialenosti a pod. (pozri napr.). Je ľahké napríklad ukázať, že korelačný koeficient sa pri žiadnej prípustnej transformácii v intervalovej škále nemení, rovnako ako pomer rozptylov. Na rozdielovej škále sa nemení rozptyl, na pomerovej škále sa nemení variačný koeficient atď. V práci sa zvažujú ďalšie výsledky priemerných hodnôt.

Podľa uvažovaného prístupu je najprv potrebné stanoviť škály, na ktorých sa merajú sociologické údaje, a potom použiť len také algoritmy spracovania údajov, ktoré sú vzhľadom na tieto škály invariantné.

V článku sa teória merania nazýva „Stevensove obmedzenia“, ordinálna škála sa nazýva ordinálna, pomerová škála je relatívna, neexistuje pojem „prípustná transformačná skupina“ atď. Budeme používať výrazy stanovené v aplikovaných štatistikách. Vo všeobecnosti je pozícia zástancov využívania teórie merania pri analýze údajov správne popísaná v.

V ruštine existuje pomerne veľa publikácií o teórii meraní, ktoré píšu striktne kvalifikovaní autori. Keďže tu nemáme za cieľ podávať prehľad teórie meraní, odkazujeme čitateľov na práce a odkazy na literárne zdroje, ktoré sú tam dostupné.
Prvé úvahy o preklade článku P.F. Velleman a L. Wilkinson
Tento článok je písaný ako recenzia rôznych publikácií, prezentácia je na verbálnej úrovni, takmer neexistujú striktné definície, vzorce, tabuľky, príklady. Preto musíte za autorov premýšľať, čo chceli povedať. Nie vždy je možné dať ich vyjadreniam presný význam.

Na str. 173 sú vyčlenené tri oblasti kritiky:

1. Požiadavka nemennosti záverov s ohľadom na prípustné transformácie meracích stupníc "sa zdá nebezpečná pre analýzu dát."

2. Prístup teórie merania je „príliš prísny na to, aby sa dal aplikovať na reálne údaje“.

3. Tento prístup „často vedie k downgradingu údajov prostredníctvom konverzií na hodnosti a potom zbytočnému uchyľovaniu sa k neparametrickým metódam“.

Začnime všeobecným pohľadom na tieto tri línie kritiky.

1. Je naopak nebezpečné vzdať sa požiadavky invariantnosti na získanie opodstatnených záverov. Dá sa spoľahnúť na závery, ktoré sa menia prijateľnou transformáciou škály?

Samozrejme, počas úvodnej prieskumnej analýzy údajov ich môžete „prehnať“ celým arzenálom metód spracovania dostupných v softvérovom produkte – čo ak sa vám podarí všimnúť si niečo zaujímavé? „Nálezy“ získané nerigoróznymi metódami sa potom musia overiť pomocou postupov analýzy spoľahlivých údajov.

Prax nás často núti používať úvahy z teórie merania. Keď teda náš výskumný tím robil prieskumy letovej posádky leteckej spoločnosti Volga-Dnepr, ukázalo sa, že pre pilotov je jednoduchšie povedať, ktorá udalosť sa vyskytuje častejšie a ktorá menej často, ako odhadnúť počet udalostí na 1000 letov. Piloti sa nezaväzujú hodnotiť v absolútnom meradle (odhadovať pravdepodobnosti udalostí), zatiaľ čo úlohy porovnávania udalostí podľa frekvencie výskytu alebo ich odhadovania podľa výskytu pomocou podmienených skóre (hodnoty kvalitatívnych znakov) nespôsobujú ťažkosti. Hodnotenia získané z prieskumov pilotov sa teda merajú v poradových mierkach.

2. Pri praktickej práci je väčšinou celkom jasné, v akých mierkach sa údaje merajú. Ak sa pokúsite vnútiť respondentom nesprávnu stupnicu, ich odpovede budú svojvoľné a nebudú odrážať pravdivé názory, alebo môžu jednoducho odmietnuť odpovedať, ako to bolo v prípade vyššie opísaných prieskumov posádky Volga-Dnepr.

Je možné uznať, že v niektorých zriedkavých prípadoch si určenie typu stupnice merania údajov vyžaduje špeciálne štúdie.

3. Už v čase, keď článok P.F. Velleman a L. Wilkinson (1993) pomocou neparametrických metód bolo možné vyriešiť všetky tie problémy analýzy údajov, na ktoré sa v samostatných prácach stále používajú parametrické metódy. Podľa modernej paradigmy aplikovanej štatistiky by sa namiesto parametrických metód, charakteristických pre zastaranú paradigmu polovice 20. storočia, mali používať neparametrické metódy.

Podľa moderných názorov sú parametrické metódy metódy založené na pravdepodobnostno-štatistických modeloch, v ktorých distribúcie náhodných premenných patria do jednej alebo druhej z parametrických rodín - rodiny normálnych, log-normálnych, gama rozdelení alebo iných, ktoré sú zahrnuté do štyroch- parametrická rodina K. Pearsona ním zavedená na začiatku 20. storočia. Neparametrické metódy vychádzajú z ľubovoľného rozdelenia. "Konverzia na hodnosti" nie je potrebná pri aplikácii neparametrických metód. Zodpovedá prípadu, keď sa údaje merajú na poradovej stupnici.

Ako ukázali početné štúdie, takmer všetky distribúcie reálnych údajov nepatria do žiadnej zo známych parametrických rodín. Strach z neparametrických metód nemá racionálne opodstatnenie, je generovaný predsudkami zastaranej paradigmy aplikovanej štatistiky polovice 20. storočia.

Od rozboru všeobecných námietok voči aplikácii teórie merania pri rozbore sociologických dát prejdime k úvahám o konkrétnych príkladoch, ktoré uvádza P.F. Velleman a L. Wilkinson. Aby sme nenafúkli dĺžku tohto článku, nebudeme opakovať znenie príkladov za predpokladu, že čitatelia majú pred sebou preklad svojho pôvodného článku.

V Pánovej kritike vyčleňujeme niekoľko zložiek. Po prvé, výber typu mierky môže súvisieť s riešeným problémom. Čísla zmlúv spoločnosti teda slúžia predovšetkým na rozlíšenie týchto zmlúv (a súvisiacich činností), t.j. je prirodzené predpokladať, že sa merajú z hľadiska nominálnych hodnôt. Tieto čísla však časom narastajú (v súlade s dátumami uzatvárania zmlúv), preto je v niektorých problémoch manažérskeho rozhodovania prirodzené uvažovať o ich meraní v ordinálnej škále. Po druhé, pri spracovávaní ordinálnych údajov pomocou algoritmov, ktoré nie sú invariantné v ordinálnej mierke, môže nadobudnúť dojem, že boli dosiahnuté platné závery. Lord hovorí o aplikácii Čebyševovej nerovnosti (mohol byť použitý Cramer-Welchov test). Avšak pri použití rovnakého analytického postupu na dáta podrobené určitej prijateľnej transformácii v ordinálnej mierke budú závery presne opačné. Na zistenie rozdielu medzi dvoma nezávislými vzorkami by sa mali použiť neparametrické testy homogenity, ako je Wilcoxonov test.

Baker, Hardik a Petrinovich, Borgatta a Borshstein nechcú používať neparametrické metódy, neexistuje žiadne vysvetlenie. Velleman a Wilkinson ich zbytočne kritizujú za ich neochotu „zapojiť sa do problému robustnosti“. Robustné metódy, t.j. odolné voči malým odchýlkam funkcií distribúcie údajov, neumožňujú vyrovnať sa so svojvoľnými prípustnými transformáciami. Ak prejdeme od robustnosti k všeobecnejšiemu systému pojmov - k všeobecnej schéme stability, potom sa ukazuje, že metódy analýzy dát, ktoré sú odolné voči prípustným transformáciám škál, sú hodnotové metódy ako špeciálny prípad neparametrických metód.

Gutman navrhuje použiť "stratovú funkciu zvolenú na testovanie kvality modelu". V skutočnosti, ak je daná funkcia straty, potom nie je potrebné zapájať teóriu meraní. Problém je vybrať si túto funkciu, a to oprávnene. Za vyše 40 rokov poradenstva v oblasti analýzy dát som takého odborníka ešte nestretol. Ten, kto si môže zvoliť stratovú funkciu, už nie je praktik, ale kvalifikovaný špecialista v oblasti matematickej štatistiky.

Podľa Tukeyho „aké poznanie nie je založené na nejakom priblížení“ . V skutočnosti počas počiatočnej prieskumnej analýzy stačí jeden pohľad na údaje, aby odborník sformuloval záver. Praktici aj teoretici však trvajú na tom, že intuitívne závery musia byť odôvodnené prísnym zdôvodnením.
Diskusia o štatistike a typoch mier
Takto pomenovaná časť sa začína slovami: "Štatisti odmietli zákaz metód založených na obmedzeniach spojených s prípustnými transformáciami." To je úplne nepravdivé. Štatistici tento zákaz prijali (pozri diskusie v ). Je to jasné najmä teraz, 20 rokov po napísaní článku. V súčasnosti pretrvávajú pochybnosti u niektorých z tých, ktorí nie sú profesionálmi v oblasti analýzy dát, ktorí tiež inklinujú k jednoduchým rozhodnutiam a nechcú sa obťažovať štúdiom teórie merania a neparametrickej štatistiky. Tento postoj praktizujúcich je celkom prirodzený a rozumný, ale nie je plodný. Moderná aplikovaná štatistika nie je jednoduchá, jej zvládnutie si vyžaduje úsilie a čas.

Musíme priznať, že článok obsahuje veľké množstvo kategorických tvrdení, ktoré nie sú podložené argumentmi a sú v rozpore s praxou analýzy údajov. Na str. 176 sa píše: "Kľúčový argument proti používaniu normatívnej štatistiky založenej na type stupnice je: nefunguje to!". Funguje to inak - v praxi aj vo vývoji teórie (v úvodných častiach tohto článku sa ukazuje, že teória meraní umožnila dať teórii priemerov úplnú podobu). Na s.177 sa uvádza, že "skúsenosti ukazujú, že aplikácia zakázaných štatistík na údaje vedie k vedecky významným výsledkom, ktoré sú dôležité pri rozhodovaní a cenné pre ďalší výskum." Neexistujú žiadne príklady. Zjavne preto, lebo toto tvrdenie je nepravdivé.

V často používaných výrazoch bez definícií. Domáceho čitateľa možno zarazí výrok o „zásadnom rozdiele medzi matematikou a vedou“ (s. 176). Matematika je u nás podľa tradície a predpisov ministerstva školstva a vyššej atestačnej komisie jednou z vied. Sme presvedčení, že štatistické metódy a analýza údajov sú jedno a to isté. Preto sa naša najnovšia kniha volá „Štatistické metódy analýzy údajov“. Samozrejme, je možné definovať pojmy tak, že matematika nie je veda a analýza údajov sa líši od matematickej štatistiky. Diskusia o pojmoch je fascinujúca aktivita. Len jedna brožúra obsahuje asi 200 definícií pojmu „štatistika“. Je však jasné, že používanie pojmov bez definícií, ako sa to robí v , môže čitateľa iba zmiasť.
Rôzne druhy údajov
Nedá sa inak ako súhlasiť s Vellemanom a Wilkinsonom že údaje nie sú vždy čísla. Vzorovými prvkami môžu byť vektory, funkcie, rôzne typy objektov nenumerického charakteru - binárne vzťahy, množiny, fuzzy množiny, intervaly atď. To platí najmä pre výsledky výpočtov, ako sú zlomky alebo množiny bodov v rovine získané ako výsledok viacrozmerného škálovania. Poznámka: keď hovoríme o aplikácii teórie merania na analýzu údajov na začiatku tohto článku, hovorili sme o nemennosti záverov urobených na základe spracovania súborov čísel. V dôsledku toho sa teória meraní nepoužíva vo všetkých častiach aplikovanej štatistiky, ale iba pri štatistickej analýze číselných hodnôt. Táto poznámka bude potrebná pri ďalšej analýze článku.

Vždy je potrebné rozlišovať medzi prieskumnou štatistickou analýzou zameranou na „intuitívny náhľad do vzorcov súboru údajov“ a štatistikou založenou na dôkazoch, ktorá je založená na dôslednom zdôvodňovaní. Ide o prieskumnú analýzu, ktorá zahŕňa metódy transformácie údajov a viacrozmerného škálovania. Pri exploratívnej analýze nie je potrebné vyhovieť požiadavkám teórie merania, ale v štatistike založenej na dôkazoch je to naopak.

V „Dobrá analýza údajov nie je založená na predpokladoch typu údajov“ Velleman a Wilkinson správne upozorňujú na dôležitosť výberu správneho štatistického modelu. Ďalšia časť „Stevensove kategórie neopisujú pevné vlastnosti údajov“ je vlastne o tom istom: v mnohých situáciách „typ stupnice závisí od interpretácie údajov alebo od dostupnosti dodatočných informácií“. Toto tvrdenie je absolútne pravdivé, množina čísel sama o sebe neumožňuje zdôvodniť typ stupnice. Výsledok merania je 2911397 - aká mierka? Ak je to číslo z účtovnej správy, potom miera pomerov (prechod z jednej meny na druhú je podobný prevod). Ak je toto číslo z telefónneho zoznamu, potom sa telefónne číslo meria v stupnici mien. Na túto tému sme už hovorili v súvislosti s analýzou Pánovho diela. Výber štatistického modelu je teda veľmi dôležitý, určuje rozsah merania údajov.

Časť „Stevensove kategórie sú nedostatočné na opis dátových škál“ pojednáva o „viacrozmerných škálach“. Čo to je, nie je jasné, pretože neexistujú žiadne definície. Avšak kvázi praktický príklad uvedený v tabuľke 1 je dostatočne jasný. Keďže som päť rokov pracoval v zdravotníckych zariadeniach (v „Kremeľskej nemocnici“ a vo Výskumnom ústave chorôb z povolania a ochrany zdravia pri práci Akadémie lekárskych vied ZSSR), podotýkam, že počet symptómov, ktoré má pacient, nemožno považovať za indikátor závažnosti ochorenia, keďže pri takejto úvahe sa predpokladá, že všetky symptómy sú ekvivalentné vo svojom príspevku k závažnosti ochorenia. To sa v medicíne nestáva.

O čom je odsek o Andersonovej práci, zostáva nejasné, keďže neexistujú žiadne definície použitých pojmov.
Robustnosť, váhy a analýza dát
V "Štatistické postupy nemožno klasifikovať podľa Stevensových kritérií" Velleman a Wilkinson diskutujú o inverznom probléme (v terminológii ), v ktorom je potrebný daný postup analýzy údajov, aby sa zistilo, na akých mierkach tento postup vytvára invariantné závery. Dokázali sme totiž, že záver o porovnaní hodnôt lineárnej funkcie vypočítaných z dvoch vzoriek z rádovej štatistiky danej vzorcom (5) na str. na začiatku článku a v intervalovej škále (a vo váhach s užšími skupinami premien - pomery, rozdiely, absolútne), ak sú aspoň dva váhové koeficienty odlišné od 0 (pozri ). Zvyšok textu v tejto časti článku nie je vhodný na striktný výklad. Poznamenávame len, že uvažujeme o inej úlohe ako doteraz – prepojenie výpočtových postupov s meracími škálami a nie stanovenie typu meracej škály pre počiatočné údaje.

V časti „Typy škál nie sú presné kategórie“ sa opäť bez dôkazov tvrdí, že „reálne údaje nespĺňajú požiadavky typov stupníc“. Zároveň sa správne poznamenalo, že v prípade pochybností by sa malo „znížiť úroveň“ stupnice, napríklad z intervalu na radovú. V probléme, ktorý Tukey zvažoval v roku 1961, by bola užitočná štatistika intervalových údajov vyvinutá od začiatku 80. rokov 20. storočia.

V časti „Škály a analýza údajov“ je diskusia založená na zmesi prieskumnej štatistickej analýzy, v ktorej možno ignorovať váhy, na ktorých sa údaje merajú, a analýzy údajov v štádiu vyvodzovania prísnych záverov, ktoré sú nemysliteľné bez odvolávanie sa na teóriu merania. Je zvláštne, že Velleman a Wilkinson považujú za „dobré“ iba prieskumnú analýzu. Fráza: „Dobrá analýza údajov sa len zriedka riadi formálnou paradigmou testovania hypotéz“ demonštruje ich nihilizmus voči matematickej štatistike, ktorý nemožno nijako ospravedlniť.

V sekcii Zmysluplnosť zostal pojem, ktorý dal názov sekcii, nedefinovaný. Ako Velleman a Wilkinson správne zdôrazňujú, podľa teórie merania je zmysluplnosť to, čo je zachované pri prípustných transformáciách. Táto definícia sa im nepáči, ale nemôžu poskytnúť inú, pričom sa zapájajú do všeobecného uvažovania o práve na chybu. Je zvláštne čítať toto: "Ak by sa veda obmedzila na dokázateľne zmysluplné súdy, nemohla by sa rozvíjať." Matematika napreduje!

Časť „Úloha dátových typov“ začína nečakane – uznaním dôležitosti teórie merania: „Bolo by chybou predpokladať, že na dátových typoch nezáleží... Dôležitý je koncept škálového typu a Stevensova terminológia (t. j. teória merania - A.O.) je často vhodná." Ďalšia úvaha je opäť venovaná konštatovaniu, že v našej terminológii nie je typ mierky určený samotnými údajmi, ale modelom zodpovedajúcim riešenému problému (pozri vyššie interpretáciu čísla 2911397 ako výsledok meraní na stupnice pomerov alebo na ordinálnej stupnici, v závislosti od formulácie problému). Druhou myšlienkou, s ktorou sme sa už tiež stretli, je dôraz na prieskumnú analýzu a bagatelizovanie úlohy štatistiky založenej na dôkazoch.
Záver
Časť „Záver“ článku je napísaná vyvážene, ustanovenia v nej vyjadrené sú vo všeobecnosti korektné. Ako už bolo spomenuté, nemožno predpokladať, „že typ škály je samozrejmý a nezávisí od toho, akú otázku výskumník položí pred svoje údaje“. Dvadsať rokov po napísaní článku sa ukázalo, že po položení otázky musí výskumník popísať model analýzy údajov, zvyčajne pravdepodobnostno-štatistický model, vrátane výberu typu škál merania údajov a následne v rámci v rámci tohto modelu, vyvinúť metódu riešenia problému alebo si vybrať jednu z už dostupných.

Je pravda, že "štatistický softvér, ktorý uľahčuje akúkoľvek analýzu akýchkoľvek údajov, umožňuje aj nezodpovednú analýzu." Upozornil na to V.V. Nalimov pred viac ako 40 rokmi. Mal na mysli predovšetkým tendenciu vykonávať výpočty bez znalosti podstaty použitých metód.

Analýza článku je hotová.

Zhrnutím výsledkov tohto článku je potrebné uviesť prínos porovnania prístupov teórie merania a kritických poznámok k nej, zozbieraných v článku Vellemana a Wilkinsona. Diskusia umožnila objasniť množstvo otázok súvisiacich s aplikáciou aplikovanej štatistiky (analýza údajov). V prvom rade je odhalená úloha riešeného problému a dátový model používaný na stanovenie typov stupníc na meranie týchto údajov, sú oddelené oblasti použitia prieskumnej analýzy a štatistiky založené na dôkazoch. Potvrdila sa pravdivosť príslovia: "Pravda sa rodí v spore."


LITERATÚRA
1. Orlov A.I.Štatistické metódy v ruskej sociológii (o tridsať rokov neskôr) // Sociológia: metodológia, metódy, matematické modely. 2005. Číslo 20. S.32-53.

2. Orlov A.I. Nová paradigma aplikovanej štatistiky // Továrenské laboratórium. 2012. Ročník 78. číslo 1, časť I. S. 87-93.

3. Orlov A.I. Aplikovaná štatistika. Učebnica. - M.: Skúška, 2006. - 672 s.

4. Orlov A.I. Organizačné a ekonomické modelovanie: učebnica: o 3. hodine 1. časť: Nenumerická štatistika. - M .: Vydavateľstvo MSTU im. N.E. Bauman. - 2009. - 541 s.

5. Velleman P.F., Wilkinson L. Typológia nominálnych, ordinálnych, intervalových a relatívnych mierok je zavádzajúca // Sociológia: metodológia, metódy, matematické modelovanie. 2011. Číslo 33. S.166 - 193.

6. Tolstova Yu.N. Merania v sociológii. - M.: Infra-M, 1998. - 352 s.

7. Orlov A.I. Udržateľnosť v sociálno-ekonomických modeloch. - M.: Nauka, 1979. - 296 s.

8. Orlov A.I. Prípustné priemery v niektorých problémoch odborných hodnotení a agregácie ukazovateľov kvality. // Viacrozmerná štatistická analýza v sociálno-ekonomickom výskume. - M.: Nauka, 1974. S. 388-393.

9. Kolmogorov A.N. O definícii priemeru // Selected. Tvorba. Matematika a mechanika. M.: Nauka, 1985. S. 136–138.

10. Orlov A.I. Prípustné transformácie v probléme porovnávania prostriedkov. Psi-konštantná štatistika. // Algoritmy pre viacrozmernú štatistickú analýzu a ich aplikácie. - M.: Vydavateľstvo CEMI AN ZSSR, 1975. S.121-127.

11. Orlov A.I. Vzťah medzi strednými hodnotami a prípustnými transformáciami mierky // Matematické poznámky. 1981. V. 30. Číslo 4. s. 561–568.

12. Barsky B.V., Sokolov M.V. Stredné hodnoty invariantné vzhľadom na prípustné transformácie meracej stupnice. Zavodskaya lab. 2006. Ročník 72. Číslo 1. s.59-66.

13. Orlov A.I. Organizačné a ekonomické modelovanie: učebnica: za 3 hodiny 3. časť. Štatistické metódy analýzy dát. - M.: Vydavateľstvo MSTU im. N.E. Bauman, 2012. - 624 s.

14. Nikitina E.P., Freidlina V.D., Yarkho A.V. Zbierka definícií pojmu "štatistika". - M.: MGU, 1972. - 46 s.

15. Nalimov V.V. O výučbe matematiky pre experimentátorov // Výučba matematickej štatistiky pre experimentátorov. Predtlač Medzifakultného laboratória štatistických metód č.17. - M .: Vydavateľstvo Moskovskej štátnej univerzity. M.V. Lomonosov, 1971. - S.5-39.

1Alexander Ivanovič Orlov, profesor, doktor ekonómie, doktor technických vied, kandidát fyzikálnych a matematických vied, riaditeľ Inštitútu vysokých štatistických technológií a ekonometrie Moskovskej štátnej technickej univerzity. N.E. Bauman, profesor Moskovského inštitútu fyziky a technológie, poradca prezidenta skupiny Volga-Dnepr Airlines, prezident Ruskej asociácie štatistických metód. Email: Prednášal prof- orlov@ pošty. en .

Práca bola podporená Ministerstvom školstva a vedy Ruskej federácie v rámci nariadenia vlády Ruskej federácie č.218.

Použitie určitých štatistických metód určuje, do ktorej štatistickej škály patrí prijatý materiál. L.S. Stevens navrhol rozlišovať štyri štatistické škály:

1) stupnica mien (alebo menná);

2) stupnica poradia;

3) intervalová stupnica;

4) rozsah vzťahov.

Keďže poznáme typické znaky každej stupnice, nie je ťažké určiť, ku ktorej z nich by sa mal priradiť materiál, ktorý sa má štatisticky spracovať.

Menná stupnica. Táto mierka zahŕňa materiály, v ktorých sa študované objekty navzájom líšia svojou kvalitou.

Pri spracovaní takýchto materiálov nie je potrebné usporiadať tieto predmety v akomkoľvek poradí na základe ich vlastností. V zásade môžu byť predmety umiestnené v ľubovoľnom poradí.

Tu je príklad: študuje sa zloženie medzinárodnej vedeckej konferencie. Medzi účastníkmi sú Francúzi, Briti, Dáni, Nemci a Rusi. Je dôležité, v akom poradí sú účastníci pri kontrole zloženia konferencie? Môžete ich usporiadať podľa abecedy, je to pohodlné, ale je jasné, že v tomto usporiadaní nie je žiadny zásadný význam. Pri preklade týchto materiálov do iného jazyka (a teda do inej abecedy) bude tento príkaz porušený. Národné skupiny môžete usporiadať podľa počtu účastníkov. Ale pri porovnaní tohto materiálu s materiálom inej konferencie zistíme, že toto poradie pravdepodobne nebude rovnaké. Objekty uvedené na stupnici mien môžu byť umiestnené v ľubovoľnom poradí v závislosti od účelu štúdie.

Pri štatistickom spracovaní takýchto materiálov treba brať do úvahy počet jednotiek, ktorými je každý objekt reprezentovaný. Existujú veľmi účinné štatistické metódy, ktoré umožňujú z týchto číselných údajov vyvodiť vedecky významné závery (napríklad metóda chí-kvadrát).

Objednávková stupnica. Ak v pomenovacej škále poradie skúmaných predmetov prakticky nehrá žiadnu rolu, tak v poradovej škále – to je zrejmé už z jej názvu – sa všetka pozornosť prepína na túto postupnosť.

Táto škála v štatistike zahŕňa také výskumné materiály, v ktorých predmety patriace do jednej alebo viacerých tried sú predmetom posudzovania, ale líšia sa pri vzájomnom porovnaní.„viac-menej“, „vyššie-nižšie“ atď.

Najjednoduchší spôsob, ako ukázať typické znaky poradovej stupnice, je odkázať na publikované výsledky akejkoľvek športovej súťaže. V týchto súčtoch sú postupne uvedení účastníci, ktorí obsadili prvé, druhé, tretie a ďalšie miesto v poradí. Ale v týchto informáciách o výsledkoch súťaží často chýbajú informácie o skutočných úspechoch športovcov alebo sa strácajú v úzadí a do popredia sa stavajú ich rebríčky.


Povedzme, že šachista D. obsadil prvé miesto v súťaži. Aké sú jeho úspechy? Ukázalo sa, že získal 12 bodov. Šachista E. obsadil druhé miesto. Jeho úspech je 10 bodov. Tretie miesto obsadil J. s ôsmimi bodmi, štvrté Z. so šiestimi bodmi atď. V prehľadoch o súťaži ustupuje rozdiel v úspechoch v umiestnení šachistov do úzadia a ich poradové miesta zostávajú na prvom mieste. To, že práve poradovému miestu sa pripisuje hlavný význam, má svoj význam. Skutočne, v našom príklade Z dosiahol šesť a D získal 12 bodov. Toto sú ich absolútne úspechy – stávky, ktoré vyhrali. Ak sa pokúsite interpretovať tento rozdiel v úspechoch čisto aritmeticky, potom by ste museli uznať, že Z. hrá dvakrát horšie ako D., to sa nedá akceptovať. Okolnosti súťaže nie sú vždy jednoduché, rovnako ako nie je vždy jednoduchý spôsob, akým ich viedol ten či onen účastník. Preto upúšťajúc od aritmetického absolutizovania sa obmedzujú na konštatovanie, že šachista Z. zaostáva za D., ktorý získal prvé miesto, o tri poradové miesta.

Intervalová stupnica. Zahŕňa také materiály, v ktorých je kvantitatívne hodnotenie skúmaného objektu uvedené v pevných jednotkách.

Vráťme sa k experimentom, ktoré psychológ robil so Sashou. Experimenty brali do úvahy, koľko bodov mohol dať sám Sasha a každý z jeho rovesníkov, pričom pracovali maximálnou rýchlosťou, ktorú mali k dispozícii. Hodnotiacimi jednotkami v experimentoch bol počet bodov. Po ich vypočítaní výskumník získal absolútny počet bodov, ktoré sa ukázalo ako možné vložiť do prideleného času pre každého účastníka experimentov. Hlavnou ťažkosťou pri zaraďovaní materiálov do stupnice intervalov je, že je potrebné mať takú jednotku, ktorá by bola sama so sebou identická pri všetkých opakovaných meraniach, t.j. rovnaký a nezmenený. V príklade šachistov (poradová stupnica) takáto jednotka neexistuje.

V skutočnosti sa berie do úvahy počet hier, ktoré vyhral každý súťažiaci. Je ale jasné, že partie nie sú ani zďaleka rovnaké, je možné, že najťažšiu partiu proti samotnému lídrovi vyhral účastník súťaže, ktorý sa umiestnil na štvrtom mieste – vyhral šesť partií! Ale v konečných výsledkoch sa predpokladá, že všetky víťazné hry sú rovnaké. V skutočnosti to tak nie je. Preto je vhodné pri práci s takýmito materiálmi hodnotiť ich v súlade s požiadavkami stupnice zákazky, a nie stupnice intervalov. Materiály vyhovujúce rozstupovej stupnici musia mať mernú jednotku.

Vzťahová škála.Táto stupnica zahŕňa materiály, ktoré zohľadňujú nielen počet pevných jednotiek, ako v stupnici intervalov, ale aj pomer celkových získaných výsledkov k sebe navzájom. Na prácu s takýmito vzťahmi musíte mať nejaký absolútny bod, od ktorého sa odpočítavanie vedie. Pri štúdiu psychologických predmetov je táto škála prakticky nepoužiteľná.

Každé meranie nad objektom sa vykonáva v určitej mierke. Rôzne súradnice jedného pozorovacieho vektora môžu byť vyjadrené v rôznych mierkach. Takže v § 5.1 je uvedený príklad vektora pozorovania (tabuľka 5.1), v ktorom prvé súradnice majú charakter podmienených označení (sociálna príslušnosť rodiny, pohlavie a profesia hlavy rodiny, kvalita bývania podmienky), pričom zvyšok je vyjadrený v číslach (počet členov rodiny, počet detí, priemerný ročný príjem atď.). Vlastnosti týchto váh sa navzájom veľmi líšia. O pohlaví hlavy rodiny teda možno len povedať, že je buď muž, alebo žena, a že pohlavie muža sa líši od pohlavia ženy; o podmienkach bývania – že sa zhodujú alebo líšia a že v niektorých prípadoch sú niektoré podmienky bývania lepšie ako iné; o výdavkoch môžeme povedať, že výdavky na stravu jednej rodiny sú menšie, rovnaké, vyššie ako výdavky inej rodiny, je možné odhadnúť rozdiel vo výdavkoch medzi rodinami a vypočítať, koľkokrát sa výdavky jednej rodiny líšia od výdavky iného.

Hlavné typy mierok a matematické techniky na zjednotenie údajov vyjadrených v rôznych mierkach, ktoré zvyčajne predchádzajú aplikácii metód viacrozmernej analýzy, sú opísané nižšie.

10.2.1. Nominálna stupnica.

Táto škála sa používa len na zaradenie jednotlivca, objektu, do určitej triedy. Ak sú vopred popísané možné triedy a pravidlá na klasifikáciu objektu v nich, potom sa hovorí o kategorizovanej škále, ak nie, tak o nekategorizovanej. Príkladom kategorizovanej stupnice je pohlavie. V štúdii je jednotlivcovi priradená jedna z dvoch hodnôt: písmeno M alebo F, špeciálny znak alebo číslo 1 alebo 2. V zásade je možné priradiť aj iné písmená a čísla, dôležité je len to, aby -zachováva sa zhoda medzi kódmi. Na zadávanie kategorizovaných údajov je vhodné použiť „menu“, t.j. zoznam možných kategórií s ich kódmi. Príkladmi nekategorizovaných nominálnych premenných sú meno, priezvisko, miesto narodenia.

Ďalší dôležitý zdroj nekategorizovaných nominálnych údajov je uvedený v § 5.3. Toto je prípad, keď sa pozoruje dvojica objektov a premenná iba udáva, či objekty patria do rovnakej triedy alebo nie, a neuvádza, do ktorých tried patria.

Posledná okolnosť by sa nemala považovať za kuriozitu. Samozrejme, ak sú triedy vopred určené a nie je ťažké priradiť každý objekt k určitej triede, potom by to malo byť vykonané a zaznamenané, do ktorej triedy objekt patrí. Niekedy ale triedy nie sú vopred popísané, vytvorenie ich kompletnej klasifikácie je práve cieľom práce a zároveň je možné posúdiť príslušnosť predmetov k jednej triede. Napríklad u dvoch pacientov možno hovoriť o „úzkom“, „podobnom“ priebehu ochorenia, hoci neboli popísané všetky varianty priebehu ochorenia. Navyše výber empiricky podobných variantov priebehu ochorenia môže slúžiť ako východisko pre výber a popis všetkých možných variantov vývoja patologického procesu. To isté platí pre alokáciu sociálno-ekonomických skupín atď.

Tá istá premenná môže pôsobiť v rôznych kvalitách v závislosti od účelu použitia. Takže napríklad nekategorizovaná nominálna premenná - názov programu - slúži len na individualizáciu programu a ak je programov málo, dá sa nájsť priamo prezeraním zoznamu programov. Zároveň, ak sú názvy programov v zozname nejakým spôsobom zoradené (napríklad v alfanumerickom poradí), názov programu ako obrázok vyhľadávania obsahuje prvky ordinálnej hodnoty. Pre každé dve mená môžeme povedať, že sa buď zhodujú, alebo jedno z nich predchádza druhé v akceptovanom spôsobe zoradenia. Keď sa zmení spôsob objednávania, zmení sa aj vzťah follow.

Aritmetické operácie s veličinami meranými v nominálnej stupnici nemajú zmysel. Medián ani aritmetický priemer preto nemožno použiť ako zmysluplnú mieru centrálnej tendencie. Vhodnejšie štatistiky tu sú móda.

10.2.2. Ordinálna (ordinálna) mierka.

Táto stupnica okrem funkcie priraďovania objektov k určitej triede triedi aj podľa miery vyjadrenia danej vlastnosti. Každá trieda má priradený vlastný symbol tak, aby sa vopred určené poradie symbolov zhodovalo s poradím tried. Ak sú teda triedam priradené číselné hodnoty, triedy budú zoradené podľa číselnej postupnosti; ak písmená, triedy budú zoradené abecedne a ak slová, triedy budú zoradené podľa významu slov.

Napríklad v § 5.3 je uvedený príklad poradovej stupnice na opis kvality podmienok bývania so štyrmi stupňami (triedami): „zlé“, „uspokojivé“, „dobré“, „veľmi dobré“. Prirodzene, tieto triedy môžu byť očíslované číslami 1,2,3,4 alebo 4,3,2,1 alebo písmenami a, b, c, d atď.

Ďalšími známymi príkladmi radových stupníc sú: v medicíne - stupnica štádií hypertenzie podľa Myasnikova, stupnica stupňov srdcového zlyhania podľa Strazhesko - Vasilenko - Lang, stupnica závažnosti koronárnej insuficiencie podľa Vogelsona; v mineralógii - Mohsova stupnica (mastenec -1, sadra - 2, kalcit - 3, fluorit - 4, apatit - 5, ortoklas - 6, kremeň - 7, topaz - 8, korund - 9, diamant - 10), podľa ktoré minerály klasifikované podľa kritéria tvrdosti; v geografii - Beaufortova stupnica vetrov ("pokojný", "slabý vietor", "mierny vietor" atď.).

Štruktúra ordinálnej stupnice nie je zničená žiadnou transformáciou kódov jedna ku jednej, ktorá zachováva poriadok. Rovnako ako v prípade nominálnej stupnice, ani pri prevode radových mierok si aritmetické operácie nezachovávajú svoj význam, preto je vhodné ich nepoužívať. Je ľahké ukázať, že ak sa spoliehame iba na vlastnosti stupníc a nezahŕňame ďalšie úvahy mimo škál, potom jedinou povolenou štatistikou pri použití ordinálnych škál sú členovia variačného radu.

10.2.3. kvantitatívnych mierok.

Stupnica, v ktorej je možné odrážať, ako veľmi sa jeden z objektov líši od druhého z hľadiska miery vyjadrenia danej vlastnosti, sa nazýva intervalová stupnica. Pre nastavenie intervalovej mierky je potrebné definovať objekty zodpovedajúce počiatočnému bodu a mernej jednotke. A potom pri meraní priraďte každému objektu číslo, ktoré ukazuje, o koľko jednotiek merania sa tento objekt líši od objektu, ktorý sa považuje za východiskový bod. Najjednoduchším príkladom intervalovej stupnice je teplota v stupňoch Celzia, kde 0° je počiatočný bod a 1° je jednotka.

Pri lineárnych transformáciách tvaru sa štruktúra intervalovej stupnice nemení. Výsledkom takejto transformácie je posunutie začiatočného bodu o b jednotiek a násobenie jednotky o a.

Napríklad prevedením , kde je teplota v, môžete zmeniť na teplotu v stupňoch Fahrenheita.

Ak je začiatok v intervalovej stupnici absolútny nulový bod, potom je možné na stupnici zobraziť, koľkokrát sa jedno meranie líši od druhého. Zodpovedajúca stupnica sa nazýva pomerová stupnica. Škála vzťahov umožňuje transformácie formy. Väčšina stupníc používaných vo fyzike sú buď intervalové stupnice (na meranie teploty, potenciálnej energie) alebo pomerové stupnice (na meranie času, hmotnosti, náboja, vzdialenosti).

Keďže kvantitatívne škály umožňujú aritmetické transformácie, aritmetický priemer možno použiť na opísanie integrálneho trendu pri zoskupovaní údajov.

10.2.4. Jednotná reprezentácia heterogénnych údajov.

Každý typ stupnice má svoju vlastnú štatistickú techniku. Takže pre premenné merané v nominálnej mierke môžete použiť -test pre polynomické rozdelenia, -test pre kontrolu absencie asociácií v kontingenčných tabuľkách, testy pre testovanie hypotéz o pravdepodobnosti v binomickom rozdelení. Poradová stupnica zodpovedá metódam založeným na použití hodností (poradová korelácia, neparametrické kritériá na testovanie hypotéz typu ) atď.). Pomocou intervalovej stupnice je možné použiť celý arzenál štatistických metód.

Okrem toho boli vyvinuté štatistické postupy pre prípady, keď sú pozorované vektory, z ktorých niektoré súradnice sú merané v jednej mierke a iné v inej. Typickým príkladom je zvyčajná analýza rozptylu (pozri § 3.5), pri ktorej sa faktory merajú na nominálnej stupnici a odozvy zodpovedajúce ich kombináciám sa merajú na intervalovej stupnici.

Napriek tomu sa v mnohých štatistických metódach, najmä v moderných metódach viacrozmernej analýzy, predpokladá, že údaje sú merané na rovnakom type škál. Aby bolo možné aplikovať tieto metódy vo všeobecnom prípade heterogénnych údajov, boli navrhnuté rôzne techniky zjednocovania údajov. Poďme sa zoznámiť s najdôležitejšími z nich.

Redukcia na binárne premenné. Táto metóda je založená na zavedení, namiesto každej počiatočnej náhodnej premennej, série náhodných premenných, ktoré majú iba dve hodnoty: 0 a 1.

Pre nominálnu hodnotu s k gradáciami sa zadáva k takých hodnôt, že kedy kedy

Rovnaká technika sa niekedy používa pri redukcii náhodnej premennej meranej na ordinálnej stupnici na binárne premenné. V niektorých prípadoch sa však ukazuje ako vhodné vyčleniť nie udalosť, ale udalosť.Ak chcete porovnať relatívne výhody týchto dvoch metód, zvážte nasledujúci modelový problém. Nech - náhodná premenná rovnomerne rozložená na segmente, - malé číslo;

Funkcia samozrejme modeluje prvý spôsob prechodu do binárnych premenných a funkcia modeluje druhý. Po jednoduchých výpočtoch dostaneme:

Hlavnou nevýhodou opísanej techniky je zavedenie veľkého množstva nových premenných a čiastočná strata informácie obsiahnutej v dátach, jednak v dôsledku kvantovania, jednak v dôsledku umelého znižovania úrovne použitej škály.

Digitalizácia nominálnych a ordinálnych premenných. Táto metóda je v priamom protiklade k práve opísanej metóde, v ktorej sú všetky premenné zvýšené, vytiahnuté na úroveň kvantitatívnych priradením číselných hodnôt ich gradácii. Niekedy sa priradené hodnoty nazývajú štítky.

Výber etikiet v podstate závisí od účelu, pre ktorý sa digitalizácia vykonáva. Takže, ak sa študuje veľkosť vzťahu medzi dvoma nominálnymi znakmi, potom môžu byť označenia vybrané z podmienky maximalizácie korelačného koeficientu medzi nimi, . Ak hovoríme o priradení pozorovaní k jednej z vopred určených tried (diskriminačná analýza), potom výber značiek môže byť spojený s podmienkou maximalizácie normalizovanej vzdialenosti vo viacrozmernom vzorkovom priestore medzi centrami študovaných populácií (vzdialenosti Mahalanobis) . Niekedy je táto úloha zjednodušená a menovky sú priradené súradnicovo, aby sa maximalizovala iba normalizovaná vzdialenosť medzi priemernými hodnotami danej súradnice. Štatistické porovnanie na príklade jedného konkrétneho problému efektívnosti globálneho a koordinovaného prístupu k digitalizácii v diskriminačnej analýze možno nájsť v.

Prezentované metódy digitalizácie, kedy sa značky vyberajú z podmienky maximalizácie vhodne zvoleného funkcionálu, zapadajú do rámca extrémneho prístupu uvedeného v § 1.2 k formulácii hlavných problémov matematickej štatistiky.

Vo všeobecnosti je digitalizácia kvalitatívnych premenných zložitá úloha z výpočtového aj čisto štatistického hľadiska. Niektoré aspekty tohto problému sú diskutované v prácach.