Definiți o serie de variații. Seria de variații

Ca urmare a stăpânirii acestui capitol, studentul trebuie să: stiu

  • indicatori de variație și relația lor;
  • legile de bază ale distribuției caracteristicilor;
  • esența criteriilor de consimțământ; a fi capabil să
  • calcularea indicilor de variație și a criteriilor de bunăstare a potrivirii;
  • determinarea caracteristicilor de distribuție;
  • evaluarea caracteristicilor numerice de bază ale serii de distribuție statistică;

proprii

  • metode de analiză statistică a seriilor de distribuție;
  • elementele de bază ale analizei varianței;
  • tehnici de verificare a seriilor de distribuţie statistică pentru respectarea legilor de bază ale distribuţiei.

Indicatori de variație

În studiul statistic al caracteristicilor diferitelor populații statistice, este de mare interes să se studieze variația caracteristicii unităților statistice individuale ale populației, precum și natura distribuției unităților în funcție de această caracteristică. Variație - acestea sunt diferențe de valori individuale ale unei caracteristici între unitățile populației studiate. Studiul variației este de mare importanță practică. După gradul de variație, se pot judeca limitele de variație ale unei caracteristici, omogenitatea populației pentru o caracteristică dată, tipicitatea mediei și relația factorilor care determină variația. Indicatorii de variație sunt utilizați pentru a caracteriza și organiza populațiile statistice.

Rezultatele sintetizării și grupării materialelor de observație statistică, prezentate sub formă de serii de distribuție statistică, reprezintă o distribuție ordonată a unităților populației studiate pe grupe după criterii de grupare (variabile). Dacă o caracteristică calitativă este luată ca bază pentru grupare, atunci se numește o astfel de serie de distribuție atributiv(distribuirea pe profesie, gen, culoare etc.). Dacă o serie de distribuție este construită pe o bază cantitativă, atunci se numește o astfel de serie variațională(distribuția pe înălțime, greutate, salariu etc.). A construi o serie de variații înseamnă a organiza distribuția cantitativă a unităților de populație după valori caracteristice, a număra numărul de unități de populație cu aceste valori (frecvență) și a aranja rezultatele într-un tabel.

În locul frecvenței unei variante, este posibil să se folosească raportul acesteia la volumul total de observații, care se numește frecvență (frecvență relativă).

Există două tipuri de serie de variații: discrete și interval. Serii discrete- Aceasta este o serie de variații, a cărei construcție se bazează pe caracteristici cu schimbare discontinuă (caracteristici discrete). Acestea din urmă includ numărul de angajați la întreprindere, categoria tarifară, numărul de copii din familie etc. O serie de variații discrete reprezintă un tabel format din două coloane. Prima coloană indică valoarea specifică a atributului, iar a doua coloană indică numărul de unități din populație cu o anumită valoare a atributului. Dacă o caracteristică are o schimbare continuă (suma venitului, vechimea în muncă, costul activelor fixe ale întreprinderii etc., care în anumite limite poate lua orice valoare), atunci pentru această caracteristică este posibil să se construiască serie de variații de interval. Când se construiește o serie de variații de interval, tabelul are și două coloane. Primul indică valoarea atributului în intervalul „de la - la” (opțiuni), al doilea indică numărul de unități incluse în interval (frecvență). Frecvență (frecvența de repetare) - numărul de repetări ale unei anumite variante a valorilor atributelor. Intervalele pot fi închise sau deschise. Intervalele închise sunt limitate pe ambele părți, adică au atât o limită inferioară („de la”), cât și una superioară („spre”). Intervalele deschise au o singură limită: fie superioară, fie inferioară. Dacă opțiunile sunt aranjate în ordine crescătoare sau descrescătoare, atunci rândurile sunt apelate clasat.

Pentru serii de variații, există două tipuri de opțiuni de răspuns în frecvență: frecvența acumulată și frecvența acumulată. Frecvența acumulată arată câte observații valoarea caracteristicii a luat valori mai mici decât o valoare dată. Frecvența acumulată este determinată prin însumarea valorilor frecvenței unei caracteristici pentru un grup dat cu toate frecvențele grupurilor anterioare. Frecvența acumulată caracterizează proporția unităților de observare ale căror valori atribute nu depășesc limita superioară a grupului dat. Astfel, frecvența acumulată arată proporția opțiunilor în totalitate care au o valoare nu mai mare decât cea dată. Frecvența, frecvența, densitățile absolute și relative, frecvența acumulată și frecvența sunt caracteristici ale mărimii variantei.

Variațiile caracteristicilor unităților statistice ale populației, precum și natura distribuției, sunt studiate folosind indicatori și caracteristici ale seriei de variații, care includ nivelul mediu al seriei, abaterea liniară medie, abaterea standard, dispersia. , coeficienții de oscilație, variație, asimetrie, curtoză etc.

Valorile medii sunt folosite pentru a caracteriza centrul de distribuție. Media este o caracteristică statistică generalizantă în care se cuantifică nivelul tipic al unei caracteristici deținute de membrii populației studiate. Cu toate acestea, pot exista cazuri de coincidență a mediilor aritmetice cu modele de distribuție diferite, prin urmare, ca caracteristici statistice ale seriei de variații, se calculează așa-numitele medii structurale - mod, mediană, precum și cuantile, care împart seria de distribuție în egale. părți (quartile, decile, percentile etc.).

Modă - Aceasta este valoarea unei caracteristici care apare în seria de distribuție mai des decât celelalte valori ale acesteia. Pentru seriale discrete, aceasta este opțiunea cu cea mai mare frecvență. În seriile de variație de interval, pentru a determina modul, este necesar să se determine mai întâi intervalul în care se află, așa-numitul interval modal. Într-o serie de variații cu intervale egale, intervalul modal este determinat de cea mai mare frecvență, în serii cu intervale inegale - dar de cea mai mare densitate de distribuție. Formula este apoi folosită pentru a determina modul în rânduri la intervale egale

unde Mo este valoarea modei; xMo - limita inferioară a intervalului modal; h- lățimea intervalului modal; / Mo - frecvența intervalului modal; / Mo j este frecvența intervalului premodal; / Mo+1 este frecvența intervalului post-modal, iar pentru o serie cu intervale inegale în această formulă de calcul, în locul frecvențelor / Mo, / Mo, / Mo trebuie folosite densitățile de distribuție. Minte 0 _| , Minte 0> UMO+"

Dacă există un singur mod, atunci distribuția de probabilitate a variabilei aleatoare se numește unimodală; dacă există mai multe moduri, se numește multimodal (polimodal, multimodal), în cazul a două moduri - bimodal. De regulă, multimodalitatea indică faptul că distribuția studiată nu respectă legea distribuției normale. Populațiile omogene, de regulă, sunt caracterizate prin distribuții cu un singur vârf. Multivertixul indică, de asemenea, eterogenitatea populației studiate. Apariția a două sau mai multe vârfuri face necesară regruparea datelor pentru a identifica grupuri mai omogene.

Într-o serie de variații de interval, modul poate fi determinat grafic folosind o histogramă. Pentru a face acest lucru, trageți două linii care se intersectează de la punctele superioare ale celei mai înalte coloane a histogramei până la punctele superioare ale două coloane adiacente. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristicii de pe axa x corespunzătoare perpendicularei este modul. În multe cazuri, atunci când se caracterizează o populație ca indicator generalizat, se acordă preferință modului mai degrabă decât mediei aritmetice.

Mediana - Aceasta este valoarea centrală a atributului; este deținută de membrul central al seriei clasate a distribuției. În seria discretă, pentru a găsi valoarea medianei, se determină mai întâi numărul de serie al acesteia. Pentru a face acest lucru, dacă numărul de unități este impar, se adaugă una la suma tuturor frecvențelor, iar numărul este împărțit la doi. Dacă există un număr par de unități pe rând, vor exista două unități mediane, deci în acest caz mediana este definită ca media valorilor celor două unități mediane. Astfel, mediana într-o serie de variații discrete este valoarea care împarte seria în două părți care conțin același număr de opțiuni.

În seria de intervale, după determinarea numărului de serie al medianei, intervalul medial se găsește folosind frecvențele (frecvențele) acumulate, iar apoi folosind formula de calcul a medianei, se determină valoarea medianei în sine:

unde Me este valoarea mediană; x eu - limita inferioară a intervalului median; h- lățimea intervalului median; - suma frecventelor seriei de distributie; /D - frecvența acumulată a intervalului pre-median; / Me - frecvența intervalului median.

Mediana poate fi găsită grafic folosind un cumul. Pentru a face acest lucru, pe scara frecvențelor (frecvențelor) acumulate ale cumulatului, din punctul corespunzător numărului ordinal al medianei, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. În continuare, din punctul de intersecție a dreptei indicate cu cumulul, se coboară o perpendiculară pe axa absciselor. Valoarea atributului de pe axa x corespunzătoare ordonatei desenate (perpendiculară) este mediana.

Mediana este caracterizată de următoarele proprietăți.

  • 1. Nu depinde de acele valori ale atributelor care sunt situate pe ambele părți ale acestuia.
  • 2. Are proprietatea de minimalitate, ceea ce înseamnă că suma abaterilor absolute ale valorilor atributelor de la mediană reprezintă o valoare minimă în comparație cu abaterea valorilor atributelor de la orice altă valoare.
  • 3. Când se combină două distribuții cu mediane cunoscute, este imposibil să se prezică în avans valoarea medianei noii distribuții.

Aceste proprietăți ale medianei sunt utilizate pe scară largă la proiectarea locației punctelor de serviciu public - școli, clinici, benzinării, pompe de apă etc. De exemplu, dacă se plănuiește construirea unei clinici într-un anumit bloc al orașului, atunci ar fi mai oportun să o amplasăm într-un punct din bloc care să înjumătățească nu lungimea blocului, ci numărul de rezidenți.

Raportul dintre mod, mediană și medie aritmetică indică natura distribuției caracteristicii în agregat și ne permite să evaluăm simetria distribuției. Dacă x Me atunci există o asimetrie pe partea dreaptă a seriei. Cu distribuție normală X - Notificare.

K. Pearson, pe baza alinierii diferitelor tipuri de curbe, a determinat că pentru distribuțiile moderat asimetrice sunt valabile următoarele relații aproximative între media aritmetică, mediană și mod:

unde Me este valoarea mediană; Mo - sensul modei; x aritmetică - valoarea mediei aritmetice.

Dacă este nevoie de a studia structura seriei de variații mai detaliat, atunci calculați valori caracteristice similare cu mediana. Astfel de valori caracteristice împart toate unitățile de distribuție în numere egale; ele se numesc cuantile sau gradienți. Quantilele sunt împărțite în quartile, decile, percentile etc.

Quartilele împart populația în patru părți egale. Prima cuartilă este calculată în mod similar cu mediana folosind formula de calcul a primei cuartile, după ce a determinat în prealabil primul interval trimestrial:

unde Qi este valoarea primei quartile; xQ^- limita inferioară a intervalului primului quartil; h- latimea intervalului primul trimestru; /, - frecvențele seriei de intervale;

Frecvența cumulativă în intervalul care precede primul interval de quartile; Jq ( - frecvența primului interval de quartile.

Prima quartila arată că 25% din unitățile populației sunt mai mici decât valoarea sa, iar 75% sunt mai multe. A doua cuartilă este egală cu mediana, adică. Q 2 = Pe mine.

Prin analogie, se calculează a treia cuartilă, după ce a fost găsit mai întâi al treilea interval trimestrial:

unde este limita inferioară a intervalului al treilea quartil; h- lăţimea intervalului al treilea quartil; /, - frecvențele seriei de intervale; /X" - frecventa acumulata in intervalul precedent

G

intervalul al treilea quartila; Jq este frecvența celui de-al treilea interval de quartile.

A treia quartila arată că 75% din unitățile populației sunt mai mici decât valoarea sa, iar 25% sunt mai multe.

Diferența dintre al treilea și primul quartile este intervalul intercuartil:

unde Aq este valoarea intervalului intercuartil; Q 3 - valoarea a treia quartila; Q, este valoarea primei cuartile.

Decilele împart populația în 10 părți egale. Un decil este o valoare a unei caracteristici dintr-o serie de distribuție care corespunde cu zecimi din dimensiunea populației. Prin analogie cu quartilele, prima decilă arată că 10% din unitățile populației sunt mai mici decât valoarea sa, iar 90% sunt mai mari, iar a noua decilă arată că 90% din unitățile populației sunt mai mici decât valoarea sa, iar 10% sunt mai mare. Raportul dintre al nouălea și primul decil, adică Coeficientul decil este utilizat pe scară largă în studiul diferențierii veniturilor pentru a măsura raportul dintre nivelurile de venit ale celor 10% dintre cei mai înstăriți și 10% din populația cea mai puțin bogată. Percentilele împart populația clasată în 100 de părți egale. Calculul, semnificația și aplicarea percentilelor sunt similare cu decilele.

Quartilele, decilele și alte caracteristici structurale pot fi determinate grafic prin analogie cu mediana folosind cumulate.

Pentru a măsura mărimea variației se folosesc următorii indicatori: interval de variație, abatere liniară medie, abatere standard, dispersie. Mărimea intervalului de variație depinde în întregime de aleatorietatea distribuției membrilor extremi ai seriei. Acest indicator este de interes în cazurile în care este important să știți care este amplitudinea fluctuațiilor valorilor unei caracteristici:

Unde R- valoarea intervalului de variație; x max - valoarea maximă a atributului; x tt - valoarea minimă a atributului.

La calcularea intervalului de variație nu se ia în considerare valoarea marii majorități a membrilor seriei, în timp ce variația este asociată cu fiecare valoare a membrului seriei. Indicatorii care sunt medii obținute din abaterile valorilor individuale ale unei caracteristici de la valoarea lor medie nu au acest dezavantaj: abaterea liniară medie și abaterea standard. Există o relație directă între abaterile individuale de la medie și variabilitatea unei anumite trăsături. Cu cât fluctuația este mai puternică, cu atât dimensiunea absolută a abaterilor de la medie este mai mare.

Abaterea liniară medie este media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la valoarea lor medie.

Abaterea liniară medie pentru date negrupate

unde /pr este valoarea abaterii liniare medii; x, - este valoarea atributului; X - P - numarul de unitati din populatie.

Abaterea liniară medie a seriei grupate

unde / vz - valoarea abaterii liniare medii; x, este valoarea atributului; X - valoarea medie a caracteristicii pentru populația studiată; / - numărul de unități de populație dintr-o grupă separată.

În acest caz, semnele abaterilor sunt ignorate, în caz contrar, suma tuturor abaterilor va fi egală cu zero. Abaterea liniară medie, în funcție de gruparea datelor analizate, se calculează folosind diverse formule: pentru date grupate și negrupate. Datorită convenției sale, abaterea liniară medie, separat de alți indicatori de variație, este utilizată în practică relativ rar (în special, pentru a caracteriza îndeplinirea obligațiilor contractuale privind uniformitatea livrărilor; în analiza cifrei de afaceri din comerțul exterior, componența angajații, ritmul producției, calitatea produsului, ținând cont de caracteristicile tehnologice ale producției etc.).

Abaterea standard caracterizează cât de mult se abate, în medie, valorile individuale ale caracteristicii studiate de la valoarea medie a populației și este exprimată în unități de măsură ale caracteristicii studiate. Abaterea standard, fiind una dintre principalele măsuri de variație, este utilizată pe scară largă în aprecierea limitelor de variație a unei caracteristici într-o populație omogenă, în determinarea valorilor ordonate ale unei curbe de distribuție normală, precum și în calculele legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului. Abaterea standard a datelor negrupate este calculată utilizând următorul algoritm: fiecare abatere de la medie este la pătrat, toate pătratele sunt însumate, după care suma pătratelor este împărțită la numărul de termeni ai seriei și rădăcina pătrată este extrasă din coeficient:

unde un Iip este valoarea abaterii standard; Xj- valoarea atributului; X- valoarea medie a caracteristicii pentru populaţia studiată; P - numarul de unitati din populatie.

Pentru datele analizate grupate, abaterea standard a datelor este calculată folosind formula ponderată

Unde - valoarea abaterii standard; Xj- valoarea atributului; X - valoarea medie a caracteristicii pentru populația studiată; f x - numărul de unități de populație dintr-un anumit grup.

Expresia de sub rădăcină în ambele cazuri se numește varianță. Astfel, dispersia este calculată ca pătratul mediu al abaterilor valorilor atributelor de la valoarea lor medie. Pentru valorile atributelor neponderate (simple), varianța este determinată după cum urmează:

Pentru valorile caracteristice ponderate

Există și o metodă specială simplificată pentru calcularea varianței: în general

pentru valorile caracteristice neponderate (simple). pentru valorile caracteristice ponderate
folosind metoda bazată pe zero

unde a 2 este valoarea dispersiei; x, - este valoarea atributului; X - valoarea medie a caracteristicii, h- valoarea intervalului de grup, t 1 - greutate (A =

Dispersia are propria sa expresie în statistică și este unul dintre cei mai importanți indicatori ai variației. Se măsoară în unităţi corespunzătoare pătratului unităţilor de măsură ale caracteristicii studiate.

Dispersia are următoarele proprietăți.

  • 1. Varianta unei valori constante este zero.
  • 2. Reducerea tuturor valorilor unei caracteristici cu aceeași valoare A nu modifică valoarea dispersiei. Aceasta înseamnă că pătratul mediu al abaterilor poate fi calculat nu din valorile date ale unei caracteristici, ci din abaterile acestora de la un număr constant.
  • 3. Reducerea oricăror valori caracteristice în k ori reduce dispersia cu k de 2 ori, iar abaterea standard este în k ori, adica toate valorile atributului pot fi împărțite la un număr constant (să zicem, la valoarea intervalului serie), abaterea standard poate fi calculată și apoi înmulțită cu un număr constant.
  • 4. Dacă calculăm pătratul mediu al abaterilor de la orice valoare Și diferă într-un grad sau altul de media aritmetică, atunci aceasta va fi întotdeauna mai mare decât pătratul mediu al abaterilor calculate de la media aritmetică. Pătratul mediu al abaterilor va fi mai mare cu o anumită sumă - cu pătratul diferenței dintre medie și această valoare luată în mod convențional.

Variația unei caracteristici alternative constă în prezența sau absența proprietății studiate în unități ale populației. Cantitativ, variația unui atribut alternativ se exprimă prin două valori: prezența unei unități a proprietății studiate se notează cu unu (1), iar absența acestuia se notează cu zero (0). Proporția unităților care au proprietatea în studiu se notează cu P, iar proporția unităților care nu au această proprietate se notează cu G. Astfel, varianța unui atribut alternativ este egală cu produsul dintre proporția de unități care posedă această proprietate (P) cu proporția de unități care nu posedă această proprietate (G). Cea mai mare variație a populației se realizează în cazurile în care o parte a populației, constituind 50% din volumul total al populației, are o caracteristică, iar o altă parte a populației, de asemenea, egală cu 50%, nu prezintă această caracteristică, iar dispersia atinge o valoare maximă de 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 și o 2 = 0,5 0,5 = 0,25. Limita inferioară a acestui indicator este zero, ceea ce corespunde unei situații în care nu există variații în agregat. Aplicația practică a varianței unei caracteristici alternative este de a construi intervale de încredere atunci când se efectuează observații ale eșantionului.

Cu cât varianța și abaterea standard sunt mai mici, cu atât populația este mai omogenă și media va fi mai tipică. În practica statisticii, este adesea nevoie de a compara variațiile diferitelor caracteristici. De exemplu, este interesant de comparat variațiile vârstei lucrătorilor și calificărilor acestora, vechimea în muncă și salariile, costul și profitul, vechimea în muncă și productivitatea muncii etc. Pentru astfel de comparații, indicatorii variabilității absolute a caracteristicilor sunt nepotriviți: este imposibil să se compare variabilitatea experienței de muncă, exprimată în ani, cu variația salariilor, exprimată în ruble. Pentru a efectua astfel de comparații, precum și comparații ale variabilității aceleiași caracteristici în mai multe populații cu medii aritmetice diferite, se folosesc indicatori de variație - coeficientul de oscilație, coeficientul liniar de variație și coeficientul de variație, care arată măsura. de fluctuații ale valorilor extreme în jurul mediei.

Coeficient de oscilație:

Unde V R - valoarea coeficientului de oscilație; R- valoarea intervalului de variație; X -

Coeficientul liniar de variație”.

Unde Vj- valoarea coeficientului liniar de variație; eu - valoarea abaterii liniare medii; X - valoarea medie a caracteristicii pentru populaţia studiată.

Coeficientul de variație:

Unde V a - valoarea coeficientului de variație; a este valoarea abaterii standard; X - valoarea medie a caracteristicii pentru populaţia studiată.

Coeficientul de oscilație este raportul procentual dintre intervalul de variație și valoarea medie a caracteristicii studiate, iar coeficientul liniar de variație este raportul dintre abaterea medie liniară și valoarea medie a caracteristicii studiate, exprimat ca procent. Coeficientul de variație este procentul abaterii standard față de valoarea medie a caracteristicii studiate. Ca valoare relativă, exprimată în procente, coeficientul de variație este utilizat pentru a compara gradul de variație a diferitelor caracteristici. Folosind coeficientul de variație se evaluează omogenitatea unei populații statistice. Dacă coeficientul de variație este mai mic de 33%, atunci populația studiată este omogenă, iar variația este slabă. Dacă coeficientul de variație este mai mare de 33%, atunci populația studiată este eterogenă, variația este puternică, iar valoarea medie este atipică și nu poate fi folosită ca indicator general al acestei populații. În plus, coeficienții de variație sunt utilizați pentru a compara variabilitatea unei trăsături în diferite populații. De exemplu, pentru a evalua variația vechimii în muncă a lucrătorilor la două întreprinderi. Cu cât valoarea coeficientului este mai mare, cu atât variația caracteristicii este mai semnificativă.

Pe baza quartilelor calculate, este de asemenea posibil să se calculeze indicatorul relativ al variației trimestriale folosind formula

unde Q 2 Și

Intervalul intercuartil este determinat de formula

Abaterea quartilei este utilizată în locul intervalului de variație pentru a evita dezavantajele asociate utilizării valorilor extreme:

Pentru serii de variații inegale de interval, se calculează și densitatea distribuției. Este definit ca câtul dintre frecvența sau frecvența corespunzătoare împărțit la valoarea intervalului. În serii de intervale inegale se utilizează densitățile de distribuție absolute și relative. Densitatea de distribuție absolută este frecvența pe unitatea de lungime a intervalului. Densitatea de distribuție relativă - frecvența pe unitatea de lungime a intervalului.

Toate cele de mai sus sunt valabile pentru seriile de distribuție a căror lege de distribuție este bine descrisă de legea distribuției normale sau este apropiată de aceasta.

Variația determină diferențe în valorile unei caracteristici între diferite unități ale unei populații date în aceeași perioadă (punct în timp). Variația este cauzată de condiții diferite de existență a diferitelor unități ale populației. De exemplu, chiar și gemenii în cursul vieții dobândesc diferențe de înălțime, greutate, precum și în caracteristici precum nivelul de educație, venitul, numărul de copii etc.

Variația apare ca urmare a faptului că valorile atributului în sine sunt formate sub influența totală a diferitelor condiții, care sunt combinate în moduri diferite în fiecare caz individual. Astfel, valoarea oricărei opțiuni este obiectivă.

Variația este caracteristică la toate fenomenele naturii și societății, fără excepție, cu excepția sensurilor normative stabilite legal ale caracteristicilor sociale individuale. Studiile de variație în statistică sunt de mare importanță; ele ajută la înțelegerea esenței fenomenului studiat. Găsirea variației, aflarea cauzelor acesteia, identificarea influenței factorilor individuali oferă informații importante pentru implementarea deciziilor de management bazate științific.

Valoarea medie dă o caracteristică generalizată a caracteristicii populației, dar nu dezvăluie structura acesteia. Valoarea medie nu arată cum sunt situate variantele caracteristicii medii în jurul acesteia, indiferent dacă sunt distribuite în apropierea mediei sau se abat de la aceasta. Media la două populații poate fi aceeași, dar într-o versiune toate valorile individuale diferă de aceasta în mod nesemnificativ, iar în cealaltă, aceste diferențe sunt mari, adică. în primul caz, variația caracteristicii este mică, iar în al doilea este mare; acest lucru este foarte important pentru caracterizarea semnificației valorii medii.

Pentru ca șeful unei organizații, un manager sau un cercetător să studieze variația și să o gestioneze, statistica a dezvoltat metode speciale de studiere a variației (un sistem de indicatori). Cu ajutorul lor, se găsește variația și se caracterizează proprietățile acesteia. Indicatorii de variație includ : interval de variație, abatere liniară medie, coeficient de variație.

Seria de variații și formele sale

Seria de variații- aceasta este o distribuție ordonată a unităților unei populații, adesea în funcție de valori crescătoare (mai rar descrescătoare) ale unei caracteristici și numărând numărul de unități cu o anumită valoare a caracteristicii. Când numărul de unități de populație este mare, seria clasată devine greoaie și construcția ei durează mult. Într-o astfel de situație, se construiește o serie de variații prin gruparea unităților populației în funcție de valorile caracteristicii studiate.

Există următoarele forme de serie de variații :

  1. Serii clasate reprezintă o listă a unităţilor individuale ale populaţiei în ordine crescătoare (descrescătoare) a caracteristicii studiate.
  2. Serii de variații discrete - acesta este un tabel format din două linii sau grafice: valori specifice ale caracteristicii variabile x și numărul de unități ale populației cu o valoare dată f - caracteristica frecvenței. Este construit atunci când atributul ia cel mai mare număr de valori.
  3. Serii de intervale.

Gama de variație este determinată ca valoare absolută a diferenței dintre valorile (variantele) maxime și minime ale caracteristicii:

Gama de variație arată doar abateri extreme ale caracteristicii și nu reflectă abaterile individuale ale tuturor opțiunilor din serie. Caracterizează limitele schimbării într-o caracteristică variabilă și depinde de fluctuațiile a două opțiuni extreme și nu este absolut legată de frecvențele din seria de variații, adică de natura distribuției, ceea ce conferă acestei valori un caracter aleatoriu. Pentru a analiza variația, aveți nevoie de un indicator care să reflecte toate fluctuațiile caracteristicii de variație și să ofere o caracteristică generală. Cel mai simplu indicator de acest tip este deviația liniară medie.

Rânduri construite pe o bază cantitativă, sunt numite variațională.

Seria de distribuție consta în Opțiuni(valori caracteristice) şi frecvente(numar de grupuri). Se numesc frecvențele exprimate ca valori relative (fracții, procente). frecvente. Suma tuturor frecvențelor se numește volumul seriei de distribuție.

După tip, seriile de distribuție sunt împărțite în discret(construit pe baza valorilor discontinue ale caracteristicii) și interval(pe baza valorilor continue ale caracteristicii).

Seria de variații reprezintă două coloane (sau rânduri); dintre care unul oferă valori individuale ale unei caracteristici variabile, numite variante și notate cu X; iar în celălalt - numere absolute care arată de câte ori (cât de des) apare fiecare opțiune. Indicatorii din a doua coloană se numesc frecvențe și sunt notați în mod convențional cu f. Să remarcăm încă o dată că în a doua coloană pot fi utilizați indicatori relativi, care caracterizează ponderea frecvenței opțiunilor individuale în suma totală a frecvențelor. Acești indicatori relativi se numesc frecvențe și sunt notați în mod convențional cu ω. Suma tuturor frecvențelor în acest caz este egală cu unu. Cu toate acestea, frecvențele pot fi exprimate și ca procente, iar apoi suma tuturor frecvențelor dă 100%.

Dacă variantele unei serii de variații sunt exprimate sub formă de mărimi discrete, atunci o astfel de serie de variații se numește discret.

Pentru caracteristicile continue, serii de variații sunt construite ca interval, adică valorile atributului din ele sunt exprimate „de la... la...”. În acest caz, valorile minime ale caracteristicii într-un astfel de interval se numesc limita inferioară a intervalului, iar maxima - limita superioară.

Serii de variații de intervale sunt, de asemenea, construite pentru caracteristici discrete care variază într-un interval mare. Seria cu intervale poate fi cu egalȘi inegal la intervale.

Să luăm în considerare modul în care este determinată valoarea intervalelor egale. Să introducem următoarea notație:

i– dimensiunea intervalului;

- valoarea maximă a caracteristicii pentru unitățile populației;

– valoarea minimă a caracteristicii pentru unitățile populației;

n – numărul de grupuri alocate.

, dacă n este cunoscut.

Dacă numărul de grupuri care trebuie distinse este dificil de determinat în prealabil, atunci pentru a calcula valoarea optimă a intervalului cu o dimensiune suficientă a populației, se poate recomanda formula propusă de Sturgess în 1926:

n = 1+ 3,322 log N, unde N este numărul de unități din agregat.

Mărimea intervalelor inegale este determinată în fiecare caz individual, ținând cont de caracteristicile obiectului de studiu.

Distribuția statistică a eșantionului apelați o listă de opțiuni și frecvențele corespunzătoare (sau frecvențele relative).

Distribuția statistică a eșantionului poate fi specificată sub forma unui tabel, în prima coloană a căreia se află opțiunile, iar în a doua - frecvențele corespunzătoare acestor opțiuni ni, sau frecvențe relative Pi .

Distribuția statistică a eșantionului

Serii de intervale sunt serii de variații în care valorile caracteristicilor care stau la baza formării lor sunt exprimate în anumite limite (intervale). Frecvențele în acest caz nu se referă la valori individuale ale atributului, ci la întregul interval.

Serii de distribuție pe intervale sunt construite pe baza caracteristicilor cantitative continue, precum și pe caracteristici discrete care variază în limite semnificative.

O serie de intervale poate fi reprezentată prin distribuția statistică a unui eșantion indicând intervalele și frecvențele corespunzătoare acestora. În acest caz, suma frecvențelor variantelor care se încadrează în acest interval este luată ca frecvență a intervalului.

La gruparea după caracteristici cantitative continue, este importantă determinarea mărimii intervalului.

Pe lângă media eșantionului și varianța eșantionului, sunt utilizate și alte caracteristici ale seriei de variații.

Modă Se numește varianta care are cea mai mare frecvență.

Metoda de grupare vă permite, de asemenea, să măsurați variație(variabilitate, fluctuație) semnelor. Când numărul de unități dintr-o populație este relativ mic, variația este măsurată pe baza numărului clasat de unități care alcătuiesc populația. Serialul se numește clasat, dacă unităţile sunt dispuse în ordinea crescătoare (descrescătoare) a caracteristicii.

Cu toate acestea, seriile clasificate sunt destul de indicative atunci când este necesară o caracteristică comparativă a variației. În plus, în multe cazuri avem de-a face cu populații statistice formate dintr-un număr mare de unități, care sunt practic greu de reprezentat sub forma unei serii specifice. În acest sens, pentru o primă cunoaștere generală a datelor statistice și mai ales pentru a facilita studiul variației caracteristicilor, fenomenele și procesele studiate sunt de obicei combinate în grupuri, iar rezultatele grupării sunt prezentate sub formă de tabele de grup.

Dacă un tabel de grup are doar două coloane - grupuri după o caracteristică selectată (opțiuni) și numărul de grupuri (frecvență sau frecvență), se numește aproape de distribuție.

Interval de distribuție - cel mai simplu tip de grupare structurală bazată pe o caracteristică, afișată într-un tabel de grup cu două coloane care conțin variante și frecvențe ale caracteristicii. În multe cazuri, cu o astfel de grupare structurală, i.e. Odată cu compilarea seriilor de distribuție începe studiul materialului statistic inițial.

O grupare structurală sub forma unei serii de distribuție poate fi transformată într-o veritabilă grupare structurală dacă grupurile selectate sunt caracterizate nu numai prin frecvențe, ci și prin alți indicatori statistici. Scopul principal al seriei de distribuție este de a studia variația caracteristicilor. Teoria distribuției seriilor este dezvoltată în detaliu prin statistici matematice.

Serii de distribuție sunt împărțite în atributiv(gruparea în funcție de caracteristicile atributive, de exemplu, împărțirea populației pe gen, naționalitate, stare civilă etc.) și variațională(gruparea după caracteristici cantitative).

Seria de variații este un tabel de grup care conține două coloane: gruparea unităților în funcție de o caracteristică cantitativă și numărul de unități din fiecare grupă. Intervalele din seria de variații sunt de obicei formate egale și închise. Seria de variații este următoarea grupare a populației ruse după venitul monetar mediu pe cap de locuitor (Tabelul 3.10).

Tabelul 3.10

Distribuția populației Rusiei în funcție de venitul mediu pe cap de locuitor în perioada 2004-2009.

Grupuri de populație după venitul mediu pe cap de locuitor, rub./lună

Populația din grup, % din total

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Peste 25.000,0

Întreaga populație

Serii de variații, la rândul lor, sunt împărțite în discrete și interval. Discret serii de variații combină variante de caracteristici discrete care variază în limite înguste. Un exemplu de serie de variații discrete este distribuția familiilor rusești după numărul de copii pe care îi au.

Interval serii de variații combină variante fie ale caracteristicilor continue, fie ale caracteristicilor discrete care variază într-o gamă largă. Intervalul este seria de variații a distribuției populației ruse în funcție de venitul monetar mediu pe cap de locuitor.

Serii de variații discrete nu sunt folosite foarte des în practică. Între timp, compilarea lor nu este dificilă, întrucât componența grupurilor este determinată de variantele specifice pe care le posedă de fapt caracteristicile grupării studiate.

Serii de variații de intervale sunt mai răspândite. La compilarea acestora, apare o întrebare dificilă cu privire la numărul de grupuri, precum și la dimensiunea intervalelor care ar trebui stabilite.

Principiile pentru rezolvarea acestei probleme sunt expuse în capitolul privind metodologia de construire a grupărilor statistice (vezi paragraful 3.3).

Seriile de variații sunt un mijloc de colaps sau comprimare a diverselor informații într-o formă compactă; din ele se poate face o judecată destul de clară asupra naturii variației și se poate studia diferențele dintre caracteristicile fenomenelor incluse în setul studiat. Dar cea mai importantă semnificație a seriei de variații este aceea că pe baza lor sunt calculate caracteristicile de generalizare speciale ale variației (vezi capitolul 7).

Seria de variații este o serie de valori numerice ale unei caracteristici.

Principalele caracteristici ale seriei de variații: v – variantă, p – frecvența apariției acesteia.

Tipuri de serie de variații:

    în funcție de frecvența de apariție a opțiunilor: simplă - opțiunea apare o dată, ponderată - opțiunea apare de două sau de mai multe ori;

    după locația opțiunilor: clasate - opțiunile sunt aranjate în ordine descrescătoare și crescătoare, neclasate - opțiunile sunt scrise fără o ordine anume;

    prin combinarea unei opțiuni în grupuri: grupate - opțiunile sunt combinate în grupuri, negrupate - opțiunile nu sunt combinate în grupuri;

    opțiuni după dimensiune: continuu - opțiunile sunt exprimate ca număr întreg și fracționar, discrete - opțiunile sunt exprimate ca număr întreg, complexe - opțiunile sunt reprezentate printr-o valoare relativă sau medie.

O serie de variații este compilată și formalizată în scopul calculării valorilor medii.

Formular de înregistrare a seriei de variații:

8. Valori medii, tipuri, metode de calcul, aplicare în sănătate

Valori medii– o caracteristică generalizantă cumulativă a caracteristicilor cantitative. Aplicarea mediilor:

1. Să caracterizeze organizarea muncii instituțiilor medicale și să evalueze activitățile acestora:

a) în clinică: indicatori ai volumului de muncă al medicilor, numărul mediu de vizite, numărul mediu de rezidenți din zonă;

b) într-un spital: numărul mediu de zile în care un pat este deschis pe an; durata medie de spitalizare;

c) în centrul igienei, epidemiologiei și sănătății publice: suprafața medie (sau capacitatea cubică) pe persoană, standardele medii de nutriție (proteine, grăsimi, glucide, vitamine, săruri minerale, calorii), norme și standarde sanitare etc.;

2. Să caracterizeze dezvoltarea fizică (principalele caracteristici antropometrice, morfologice și funcționale);

3. Să determine parametrii medicali și fiziologici ai organismului în condiții normale și patologice în studii clinice și experimentale.

4. În cercetarea științifică specială.

Diferența dintre valorile medii și indicatori:

1. Coeficienții caracterizează o caracteristică alternativă care apare doar într-o anumită parte a populației statistice, care poate să apară sau nu.

Valorile medii acoperă caracteristici comune tuturor membrilor echipei, dar în grade diferite (greutate, înălțime, zile de tratament în spital).

2. Coeficienții sunt utilizați pentru măsurarea caracteristicilor calitative. Valori medii – pentru diferite caracteristici cantitative.

Tipuri de medii:

    media aritmetică, caracteristicile sale sunt abaterea standard și eroarea medie

    mod și mediană. Moda (lună)– corespunde valorii caracteristicii care apare mai des decât altele într-o anumită populație. Mediană (eu)– valoarea unei caracteristici care ocupă valoarea mediană într-o populație dată. Împarte seria în 2 părți egale în funcție de numărul de observații. Media aritmetică (M)– spre deosebire de mod și mediană, se bazează pe toate observațiile făcute, prin urmare este o caracteristică importantă pentru întreaga distribuție.

    alte tipuri de medii care sunt utilizate în studiile speciale: rădăcină medie pătrată, cubică, armonică, geometrică, progresivă.

Media aritmetică caracterizează nivelul mediu al populaţiei statistice.

Pentru o serie simplă, unde

∑v – opțiune de sumă,

n – numărul de observații.

pentru o serie ponderată, unde

∑vр – suma produselor fiecărei opțiuni și frecvența apariției acesteia

n – numărul de observații.

Deviație standard media aritmetică sau sigma (σ) caracterizează diversitatea unei caracteristici

- pentru o serie simplă

Σd 2 – suma pătratelor diferenței dintre media aritmetică și fiecare opțiune (d = │M-V│)

n – numărul de observații

- pentru o serie cântărită

∑d 2 p – suma produselor pătratelor diferenței dintre media aritmetică și fiecare opțiune și frecvența apariției acesteia,

n – numărul de observații.

Gradul de diversitate poate fi judecat după mărimea coeficientului de variație
. Mai mult de 20% este o diversitate puternică, 10-20% este o diversitate medie, mai puțin de 10% este o diversitate slabă.

Dacă adunăm și scădem o sigma (M ± 1σ) la valoarea medie aritmetică, atunci cu o distribuție normală, cel puțin 68,3% din toate variantele (observațiile) se vor încadra în aceste limite, ceea ce este considerat norma pentru fenomenul studiat. . Dacă k 2 ± 2σ, atunci 95,5% din toate observațiile vor fi în aceste limite, iar dacă k M ± 3σ, atunci 99,7% din toate observațiile vor fi în aceste limite. Astfel, abaterea standard este o abatere standard care ne permite să anticipăm probabilitatea apariției unei astfel de valori a caracteristicii studiate care se află în limitele specificate.

Eroarea medie a mediei aritmetice sau părtinire de reprezentativitate. Pentru o serie simplă, ponderată și regula momentelor:

.

Pentru a calcula valorile medii, este necesar: omogenitatea materialului, un număr suficient de observații. Dacă numărul de observații este mai mic de 30, n-1 este utilizat în formulele pentru calcularea σ și m.

La evaluarea rezultatului obținut prin mărimea erorii medii, se utilizează un coeficient de încredere, care face posibilă determinarea probabilității unui răspuns corect, adică indică faptul că valoarea rezultată a erorii de eșantionare nu va fi mai mare decât eroarea reală făcută ca urmare a observației continue. În consecință, odată cu creșterea probabilității de încredere, lățimea intervalului de încredere crește, ceea ce, la rândul său, crește încrederea judecății și suportabilitatea rezultatului obținut.