Statistici de intrare pentru analiza de regresie. Analiza regresiei este o metodă statistică pentru studierea dependenței unei variabile aleatoare de variabile

Analiza regresiei este o metodă de stabilire a unei expresii analitice a dependenței stocastice dintre caracteristicile studiate. Ecuația de regresie arată cum se modifică media la la schimbarea vreunuia dintre X i , si are forma:

Unde y - variabila dependenta (este intotdeauna aceeasi);

X i - variabile independente (factori) (pot fi mai mulți dintre ei).

Dacă există o singură variabilă independentă, aceasta este o simplă analiză de regresie. Dacă sunt mai multe dintre ele ( P 2), atunci o astfel de analiză se numește multifactorială.

Analiza regresiei rezolvă două probleme principale:

    construirea unei ecuații de regresie, adică găsirea tipului de relaţie dintre indicatorul de rezultat şi factorii independenţi X 1 , X 2 , …, X n .

    evaluarea semnificației ecuației rezultate, i.e. determinarea cât de mult caracteristicile factorilor selectați explică variația unei trăsături u.

Analiza de regresie este utilizată în principal pentru planificare, precum și pentru dezvoltarea unui cadru de reglementare.

Spre deosebire de analiza corelației, care răspunde doar la întrebarea dacă există o relație între caracteristicile analizate, analiza de regresie oferă și expresia sa formalizată. În plus, dacă analiza corelației studiază orice relație între factori, atunci analiza de regresie studiază dependența unilaterală, de exemplu. o relație care arată modul în care o modificare a caracteristicilor factorilor afectează caracteristica efectivă.

Analiza regresiei este una dintre cele mai dezvoltate metode de statistică matematică. Strict vorbind, pentru a implementa analiza de regresie este necesar să se îndeplinească o serie de cerințe speciale (în special, X l ,X 2 ,...,X n ;y trebuie să fie variabile aleatoare independente, distribuite normal, cu varianțe constante). În viața reală, respectarea strictă a cerințelor analizei de regresie și corelație este foarte rară, dar ambele metode sunt foarte frecvente în cercetarea economică. Dependențe în economie pot fi nu numai directe, ci și inverse și neliniare. Un model de regresie poate fi construit în prezența oricărei dependențe, totuși, în analiza multivariată sunt utilizate doar modele liniare de formă:

Ecuația de regresie este construită, de regulă, folosind metoda celor mai mici pătrate, a cărei esență este de a minimiza suma abaterilor pătrate a valorilor reale ale caracteristicii rezultate din valorile ei calculate, adică:

Unde T - numărul de observații;

j =a+b 1 X 1 j +b 2 X 2 j + ... + b n X n j - valoarea calculată a factorului rezultat.

Se recomandă determinarea coeficienților de regresie folosind pachete analitice pentru un computer personal sau un calculator financiar special. În cel mai simplu caz, coeficienții de regresie ai unei ecuații de regresie liniară cu un singur factor de forma y = a + bx poate fi găsit folosind formulele:

Analiza grupului

Analiza cluster este una dintre metodele de analiză multidimensională destinată grupării (clusteringului) unei populații ale cărei elemente sunt caracterizate de multe caracteristici. Valorile fiecărei caracteristici servesc drept coordonate ale fiecărei unități a populației studiate în spațiul multidimensional al caracteristicilor. Fiecare observație, caracterizată prin valorile mai multor indicatori, poate fi reprezentată ca un punct în spațiul acestor indicatori, ale căror valori sunt considerate coordonate într-un spațiu multidimensional. Distanța dintre puncte RȘi q Cu k coordonatele sunt definite ca:

Principalul criteriu de grupare este ca diferențele dintre clustere să fie mai semnificative decât între observațiile atribuite aceluiași cluster, de exemplu. într-un spațiu multidimensional trebuie respectată următoarea inegalitate:

Unde r 1, 2 - distanța dintre clusterele 1 și 2.

La fel ca procedurile de analiză de regresie, procedura de grupare este destul de laborioasă; este recomandabil să o efectuați pe un computer.

Scopul analizei de regresie este de a măsura relația dintre o variabilă dependentă și una (analiza de regresie în perechi) sau mai multe (multiple) variabile independente. Variabilele independente mai sunt numite și variabile factori, explicative, determinante, regresoare și predictoare.

Variabila dependentă este uneori numită variabilă determinată, explicată sau „răspuns”. Utilizarea extrem de răspândită a analizei de regresie în cercetarea empirică nu se datorează doar faptului că este un instrument convenabil pentru testarea ipotezelor. Regresia, în special regresia multiplă, este o metodă eficientă de modelare și prognoză.

Să începem să explicăm principiile de lucru cu analiza de regresie cu una mai simplă - metoda perechii.

Analiza de regresie pereche

Primii pași atunci când se utilizează analiza de regresie vor fi aproape identici cu cei pe care i-am făcut în calcularea coeficientului de corelație. Cele trei condiții principale pentru eficacitatea analizei corelației folosind metoda Pearson - distribuția normală a variabilelor, măsurarea pe intervale a variabilelor, relația liniară între variabile - sunt de asemenea relevante pentru regresia multiplă. În consecință, în prima etapă, se construiesc diagrame de dispersie, se efectuează o analiză statistică și descriptivă a variabilelor și se calculează o linie de regresie. Ca și în cadrul analizei de corelație, liniile de regresie sunt construite folosind metoda celor mai mici pătrate.

Pentru a ilustra mai clar diferențele dintre cele două metode de analiză a datelor, să ne întoarcem la exemplul deja discutat cu variabilele „sprijin SPS” și „cota populației rurale”. Datele sursă sunt identice. Diferența dintre diagramele de dispersie va fi că în analiza de regresie este corect să se traseze variabila dependentă - în cazul nostru, „suport SPS” pe axa Y, în timp ce în analiza corelației acest lucru nu contează. După curățarea valorilor aberante, diagrama de dispersie arată astfel:

Ideea fundamentală a analizei de regresie este că, având o tendință generală pentru variabile - sub forma unei linii de regresie - este posibil să se prezică valoarea variabilei dependente, având în vedere valorile celei independente.

Să ne imaginăm o funcție liniară matematică obișnuită. Orice linie dreaptă din spațiul euclidian poate fi descrisă prin formula:

unde a este o constantă care specifică deplasarea de-a lungul axei ordonatelor; b este un coeficient care determină unghiul de înclinare al dreptei.

Cunoscând panta și constanta, puteți calcula (prevaza) valoarea lui y pentru orice x.

Această funcție cea mai simplă a stat la baza modelului de analiză de regresie cu avertismentul că nu vom prezice valoarea lui y exact, ci într-un anumit interval de încredere, i.e. aproximativ.

Constanta este punctul de intersecție al dreptei de regresie și a axei y (intersecția F, denumită de obicei „interceptor” în pachetele statistice). În exemplul nostru cu votul pentru Uniunea Forțelor Dreapte, valoarea sa rotunjită va fi 10,55. Coeficientul unghiular b va fi de aproximativ -0,1 (ca și în analiza corelației, semnul arată tipul de conexiune - directă sau inversă). Astfel, modelul rezultat va avea forma SP C = -0,1 x Sel. S.U.A. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Diferența dintre valorile inițiale și cele prezise se numește rest (am întâlnit deja acest termen, care este fundamental pentru statistică, atunci când analizăm tabelele de contingență). Deci, pentru cazul „Republicii Adygea” restul va fi egal cu 3,92 - 5,63 = -1,71. Cu cât valoarea modulară a restului este mai mare, cu atât valoarea prezisă este mai puțin reușită.

Calculăm valorile și reziduurile prezise pentru toate cazurile:
Se întâmplă S-a așezat. S.U.A. MERSI

(original)

MERSI

(prevăzut)

Resturi
Republica Adygea 47 3,92 5,63 -1,71 -
Republica Altai 76 5,4 2,59 2,81
Republica Bashkortostan 36 6,04 6,78 -0,74
Republica Buriatia 41 8,36 6,25 2,11
Republica Daghestan 59 1,22 4,37 -3,15
Republica Inguşetia 59 0,38 4,37 3,99
etc.

Analiza raportului dintre valorile inițiale și cele prezise servește la evaluarea calității modelului rezultat și a capacității sale de predicție. Unul dintre principalii indicatori ai statisticilor de regresie este coeficientul de corelație multiplă R - coeficientul de corelație dintre valorile inițiale și cele prezise ale variabilei dependente. În analiza de regresie pereche, este egal cu coeficientul obișnuit de corelație Pearson între variabilele dependente și independente, în cazul nostru - 0,63. Pentru a interpreta în mod semnificativ mai mulți R, acesta trebuie convertit într-un coeficient de determinare. Acest lucru se face în același mod ca în analiza corelației - prin pătrare. Coeficientul de determinare R-pătrat (R 2) arată proporția de variație a variabilei dependente care este explicată de variabila(e) independentă(e).

În cazul nostru, R2 = 0,39 (0,63 2); aceasta înseamnă că variabila „cota populației rurale” explică aproximativ 40% din variația variabilei „sprijin SPS”. Cu cât coeficientul de determinare este mai mare, cu atât calitatea modelului este mai mare.

Un alt indicator al calității modelului este eroarea standard de estimare. Aceasta este o măsură a cât de larg sunt „împrăștiate” punctele în jurul liniei de regresie. Măsura împrăștierii pentru variabilele de interval este abaterea standard. În consecință, eroarea standard a estimării este abaterea standard a distribuției reziduurilor. Cu cât valoarea sa este mai mare, cu atât este mai mare împrăștierea și modelul este mai rău. În cazul nostru, eroarea standard este 2.18. Cu această sumă, modelul nostru va „greșa în medie” atunci când prezice valoarea variabilei „suport SPS”.

Statisticile de regresie includ și analiza varianței. Cu ajutorul ei aflăm: 1) ce proporţie din variaţia (dispersia) variabilei dependente este explicată de variabila independentă; 2) ce proporție din varianța variabilei dependente este contabilizată de reziduuri (partea neexplicată); 3) care este raportul dintre aceste două cantități (/"-raport). Statisticile de dispersie sunt deosebit de importante pentru studiile prin eșantion - arată cât de probabil este să existe o relație între variabilele independente și dependente în populație. Cu toate acestea, pentru studii continue (ca în exemplul nostru) rezultatele studiului analizei varianței nu sunt utile. În acest caz, ele verifică dacă modelul statistic identificat este cauzat de o combinație de circumstanțe aleatorii, cât de caracteristic este pentru complexul de condiții în care populația examinată este localizată, adică se stabilește că rezultatul obținut nu este adevărat pentru un agregat general mai larg, ci gradul de regularitate al acestuia, lipsa de influențe aleatorii.

În cazul nostru, statisticile ANOVA sunt după cum urmează:

SS df DOMNIȘOARĂ F sens
Regres. 258,77 1,00 258,77 54,29 0.000000001
Rest 395,59 83,00 L,11
Total 654,36

Raportul F de 54,29 este semnificativ la nivelul 0,0000000001. În consecință, putem respinge cu încredere ipoteza nulă (că relația pe care am descoperit-o se datorează întâmplării).

Criteriul t îndeplinește o funcție similară, dar în raport cu coeficienții de regresie (unghiular și F-intersecție). Utilizând criteriul /, testăm ipoteza că în populația generală coeficienții de regresie sunt egali cu zero. În cazul nostru, putem respinge din nou cu încredere ipoteza nulă.

Analiza de regresie multiplă

Modelul de regresie multiplă este aproape identic cu modelul de regresie pereche; singura diferență este că mai multe variabile independente sunt incluse secvențial în funcția liniară:

Y = b1X1 + b2X2 + …+ bpXp + a.

Dacă există mai mult de două variabile independente, nu ne putem face o idee vizuală a relației lor; în acest sens, regresia multiplă este mai puțin „vizuală” decât regresia pe perechi. Când aveți două variabile independente, poate fi util să afișați datele într-un grafic de dispersie 3D. În pachetele software profesionale de statistică (de exemplu, Statistica) există o opțiune de a roti o diagramă tridimensională, care vă permite să reprezentați vizual bine structura datelor.

Când se lucrează cu regresia multiplă, spre deosebire de regresia perechi, este necesar să se determine algoritmul de analiză. Algoritmul standard include toți predictorii disponibili în modelul de regresie final. Algoritmul pas cu pas implică includerea (excluderea) secvențială a variabilelor independente pe baza „greutății” lor explicative. Metoda în trepte este bună când există multe variabile independente; „curăță” modelul predictorilor sincer slabi, făcându-l mai compact și mai concis.

O condiție suplimentară pentru corectitudinea regresiei multiple (împreună cu intervalul, normalitatea și liniaritatea) este absența multicolinearității - prezența unor corelații puternice între variabile independente.

Interpretarea statisticilor de regresie multiplă include toate elementele pe care le-am luat în considerare pentru cazul regresiei pe perechi. În plus, există și alte componente importante ale statisticilor analizei de regresie multiplă.

Vom ilustra munca cu regresie multiplă folosind exemplul de testare a ipotezelor care explică diferențele de nivel de activitate electorală din regiunile rusești. Studiile empirice specifice au sugerat că nivelul prezenței la vot este influențat de:

Factorul național (variabila „populație rusă”; operaționalizată ca pondere a populației ruse în entitățile constitutive ale Federației Ruse). Se presupune că o creștere a ponderii populației ruse duce la o scădere a prezenței la vot;

Factorul de urbanizare (variabila „populație urbană”; operaționalizat ca pondere a populației urbane în entitățile constitutive ale Federației Ruse; am lucrat deja cu acest factor ca parte a analizei de corelație). Se presupune că o creștere a ponderii populației urbane duce și la o scădere a prezenței la vot.

Variabila dependentă - „intensitatea activității electorale” („activă”) este operaționalizată prin datele privind prezența medie la vot pe regiune la alegerile federale din 1995 până în 2003. Tabelul de date inițial pentru două variabile independente și una dependentă va fi următorul:

Se întâmplă Variabile
Active. Gor. S.U.A. Rus. S.U.A.
Republica Adygea 64,92 53 68
Republica Altai 68,60 24 60
Republica Buriatia 60,75 59 70
Republica Daghestan 79,92 41 9
Republica Inguşetia 75,05 41 23
Republica Kalmykia 68,52 39 37
Republica Karachay-Cerkess 66,68 44 42
Republica Karelia 61,70 73 73
Republica Komi 59,60 74 57
Republica Mari El 65,19 62 47

etc. (după curățarea emisiilor, rămân 83 de cazuri din 88)

Statistici care descriu calitatea modelului:

1. Multiplu R = 0,62; L-pătrat = 0,38. În consecință, factorul național și factorul de urbanizare explică împreună aproximativ 38% din variația variabilei „activitate electorală”.

2. Eroarea medie este 3,38. Acesta este exact cât de „greșit în medie” este modelul construit atunci când prezice nivelul prezenței la vot.

3. Raportul /l al variației explicate și inexplicabile este de 25,2 la nivelul 0,000000003. Ipoteza nulă despre caracterul aleatoriu al relațiilor identificate este respinsă.

4. Criteriul / pentru coeficienții constanti și de regresie ai variabilelor „populație urbană” și „populație rusă” este semnificativ la nivelul de 0,0000001; 0,00005 și respectiv 0,007. Ipoteza nulă conform căreia coeficienții sunt aleatori este respinsă.

Statistici suplimentare utile în analiza relației dintre valorile inițiale și cele prezise ale variabilei dependente sunt distanța Mahalanobis și distanța lui Cook. Prima este o măsură a unicității cazului (arată cât de mult se abate combinația de valori ale tuturor variabilelor independente pentru un caz dat de la valoarea medie pentru toate variabilele independente simultan). Al doilea este o măsură a influenței cazului. Diferite observații au efecte diferite asupra pantei dreptei de regresie, iar distanța lui Cook poate fi folosită pentru a le compara pe acest indicator. Acest lucru poate fi util atunci când curățați valorile aberante (un lucru aberant poate fi considerat un caz prea influent).

În exemplul nostru, cazurile unice și influente includ Daghestan.

Se întâmplă Original

valorile

Predska

valorile

Resturi Distanţă

Mahalanobis

Distanţă
Adygea 64,92 66,33 -1,40 0,69 0,00
Republica Altai 68,60 69.91 -1,31 6,80 0,01
Republica Buriatia 60,75 65,56 -4,81 0,23 0,01
Republica Daghestan 79,92 71,01 8,91 10,57 0,44
Republica Inguşetia 75,05 70,21 4,84 6,73 0,08
Republica Kalmykia 68,52 69,59 -1,07 4,20 0,00

Modelul de regresie în sine are următorii parametri: Y-intersection (constant) = 75,99; b (orizontal) = -0,1; Kommersant (nas. rus.) = -0,06. Formula finală.

Dacă există o corelație între factor și caracteristicile de performanță, medicii trebuie adesea să stabilească în ce valoare se poate schimba valoarea unei caracteristici atunci când cealaltă trece la o unitate de măsură general acceptată sau una stabilită de însuși cercetătorul.

De exemplu, cum se va schimba greutatea corporală a școlarilor de clasa I (fete sau băieți) dacă înălțimea lor crește cu 1 cm? În aceste scopuri se folosește metoda analizei regresiei.

Cel mai adesea, metoda analizei regresiei este utilizată pentru a dezvolta scale normative și standarde de dezvoltare fizică.

  1. Definiţia Regression. Regresia este o funcție care permite, din valoarea medie a unei caracteristici, să se determine valoarea medie a unei alte caracteristici care este corelată cu prima.

    În acest scop, se utilizează coeficientul de regresie și o serie de alți parametri. De exemplu, puteți calcula numărul de răceli în medie la anumite valori ale temperaturii medii lunare a aerului în perioada toamnă-iarnă.

  2. Determinarea coeficientului de regresie. Coeficientul de regresie este valoarea absolută cu care, în medie, valoarea unei caracteristici se modifică atunci când o altă caracteristică asociată se modifică cu o unitate de măsură specificată.
  3. Formula coeficientului de regresie. R y/x = r xy x (σ y / σ x)
    unde R у/х - coeficient de regresie;
    r xy - coeficientul de corelație între caracteristicile x și y;
    (σ y și σ x) - abaterile standard ale caracteristicilor x și y.

    În exemplul nostru;
    σ x = 4,6 (abaterea standard a temperaturii aerului în perioada toamnă-iarnă;
    σ y = 8,65 (abaterea standard a numărului de boli infecțioase și răceli).
    Astfel, R y/x este coeficientul de regresie.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, i.e. când temperatura medie lunară a aerului (x) scade cu 1 grad, numărul mediu de boli infecțioase și reci (y) în perioada toamnă-iarnă se va modifica cu 1,8 cazuri.

  4. Ecuația de regresie. y = M y + R y/x (x - M x)
    unde y este valoarea medie a caracteristicii, care ar trebui determinată atunci când valoarea medie a unei alte caracteristici se modifică (x);
    x este valoarea medie cunoscută a unei alte caracteristici;
    R y/x - coeficientul de regresie;
    M x, M y - valori medii cunoscute ale caracteristicilor x și y.

    De exemplu, numărul mediu de boli infecțioase și reci (y) poate fi determinat fără măsurători speciale la orice valoare medie a temperaturii medii lunare a aerului (x). Deci, dacă x = - 9°, R y/x = 1,8 boli, M x = -7°, M y = 20 boli, atunci y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 boli.
    Această ecuație se aplică în cazul unei relații liniare între două caracteristici (x și y).

  5. Scopul ecuației de regresie. Ecuația de regresie este utilizată pentru a construi o dreaptă de regresie. Acesta din urmă permite, fără măsurători speciale, să se determine orice valoare medie (y) a unei caracteristici dacă valoarea (x) a altei caracteristici se modifică. Pe baza acestor date, se construiește un grafic - linie de regresie, care poate fi folosit pentru a determina numărul mediu de răceli la orice valoare a temperaturii medii lunare în intervalul dintre valorile calculate ale numărului de răceli.
  6. Regresie Sigma (formula).
    unde σ Rу/х - sigma (deviația standard) a regresiei;
    σ y - abaterea standard a caracteristicii y;
    r xy - coeficientul de corelație între caracteristicile x și y.

    Deci, dacă σ y - abaterea standard a numărului de răceli = 8,65; r xy - coeficientul de corelație dintre numărul de răceli (y) și temperatura medie lunară a aerului în perioada toamnă-iarnă (x) este egal cu - 0,96, atunci

  7. Atribuirea sigma de regresie. Oferă o descriere a măsurătorii diversităţii caracteristicii rezultate (y).

    De exemplu, caracterizează diversitatea numărului de răceli la o anumită valoare a temperaturii medii lunare a aerului în perioada toamnă-iarnă. Astfel, numărul mediu de răceli la temperatura aerului x 1 = -6° poate varia de la 15,78 boli la 20,62 boli.
    La x 2 = -9°, numărul mediu de răceli poate varia de la 21,18 boli la 26,02 boli etc.

    Regresia sigma este utilizată pentru a construi o scală de regresie, care reflectă abaterea valorilor caracteristicii rezultate de la valoarea medie trasată pe linia de regresie.

  8. Date necesare pentru calcularea și reprezentarea grafică a scalei de regresie
    • coeficient de regresie - R у/х;
    • ecuația de regresie - y = M y + R y/x (x-M x);
    • regresie sigma - σ Rx/y
  9. Secvența de calcule și reprezentarea grafică a scalei de regresie.
    • determinați coeficientul de regresie folosind formula (vezi paragraful 3). De exemplu, este necesar să se determine cât de mult se va schimba greutatea corporală în medie (la o anumită vârstă în funcție de sex) dacă înălțimea medie se schimbă cu 1 cm.
    • folosind formula ecuației de regresie (a se vedea punctul 4), determinați care, de exemplu, va fi greutatea corporală în medie (y, y 2, y 3 ...) * pentru o anumită valoare a înălțimii (x, x 2, x 3 ). ..) .
      ________________
      * Valoarea lui „y” trebuie calculată pentru cel puțin trei valori cunoscute ale lui „x”.

      În același timp, se cunosc valorile medii ale greutății corporale și ale înălțimii (M x și M y) pentru o anumită vârstă și sex.

    • calculați sigma de regresie, cunoscând valorile corespunzătoare ale σ y și r xy și substituind valorile acestora în formulă (a se vedea paragraful 6).
    • pe baza valorilor cunoscute x 1, x 2, x 3 și a valorilor medii corespunzătoare y 1, y 2 y 3, precum și pe cea mai mică (y - σ rу/х) și cea mai mare (y + σ rу) /х) valorile (y) construiesc o scară de regresie.

      Pentru a reprezenta grafic scala de regresie, valorile x, x2, x3 (axa ordonatelor) sunt mai întâi marcate pe grafic, adică. se construiește o linie de regresie, de exemplu, dependența greutății corporale (y) de înălțimea (x).

      Apoi, la punctele corespunzătoare 1, y 2, y 3, se notează valorile numerice ale sigma de regresie, adică. pe grafic găsiți cele mai mici și cele mai mari valori ale 1, y 2, y 3.

  10. Utilizarea practică a scalei de regresie. Se dezvoltă scale normative și standarde, în special pentru dezvoltarea fizică. Folosind o scară standard, puteți oferi o evaluare individuală a dezvoltării copiilor. În acest caz, dezvoltarea fizică este evaluată ca fiind armonioasă dacă, de exemplu, la o anumită înălțime, greutatea corporală a copilului se află la o sigma de regresie la unitatea medie calculată de greutate corporală - (y) pentru o anumită înălțime (x) ( y ± 1 σ Ry/x).

    Dezvoltarea fizică este considerată dizarmonică în ceea ce privește greutatea corporală dacă greutatea corporală a copilului pentru o anumită înălțime se află în a doua sigma de regresie: (y ± 2 σ Ry/x)

    Dezvoltarea fizică va fi puternic dizarmonică din cauza greutății corporale excesive și insuficiente dacă greutatea corporală pentru o anumită înălțime se află în a treia sigma de regresie (y ± 3 σ Ry/x).

Conform rezultatelor unui studiu statistic al dezvoltării fizice a băieților de 5 ani, se știe că înălțimea medie a acestora (x) este de 109 cm, iar greutatea corporală medie (y) este de 19 kg. Coeficientul de corelație între înălțime și greutatea corporală este de +0,9, abaterile standard sunt prezentate în tabel.

Necesar:

  • calculați coeficientul de regresie;
  • folosind ecuația de regresie, determinați care va fi greutatea corporală așteptată a băieților de 5 ani cu o înălțime egală cu x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calculați sigma de regresie, construiți o scală de regresie și prezentați grafic rezultatele soluției acesteia;
  • trage concluziile adecvate.

Condițiile problemei și rezultatele soluționării acesteia sunt prezentate în tabelul rezumativ.

tabelul 1

Condițiile problemei Rezultatele rezolvării problemei
ecuația de regresie regresie sigma scala de regresie (greutate corporală estimată (în kg))
M σ r xy R y/x X U σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Înălțime (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Masa corporala (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Soluţie.

Concluzie. Astfel, scala de regresie în limitele valorilor calculate ale greutății corporale face posibilă determinarea acesteia la orice altă valoare a înălțimii sau evaluarea dezvoltării individuale a copilului. Pentru a face acest lucru, restabiliți perpendiculara pe dreapta de regresie.

  1. Vlasov V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sănătate publică și asistență medicală. Manual pentru universități. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medic V.A., Yuryev V.K. Curs de prelegeri despre sănătatea publică și sănătatea: Partea 1. Sănătatea publică. - M.: Medicină, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. şi altele.Medicina socială şi organizarea sănătăţii (Manual în 2 volume). - Sankt Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. și altele.Organizarea de igienă socială și asistență medicală (Tutorial) - Moscova, 2000. - 432 p.
  6. S. Glanz. Statistica medicala si biologica. Traducere din engleză - M., Praktika, 1998. - 459 p.

Metoda analizei regresiei este utilizată pentru determinarea parametrilor tehnici și economici ai produselor aparținând unei anumite serii parametrice în vederea construirii și alinierii relațiilor valorice. Această metodă este utilizată pentru a analiza și justifica raporturile de nivel și preț ale produselor caracterizate prin prezența unuia sau mai multor parametri tehnici și economici care reflectă principalele proprietăți ale consumatorului. Analiza de regresie ne permite să găsim o formulă empirică care descrie dependența prețului de parametrii tehnici și economici ai produselor:

P=f(X1X2,...,Xn),

unde P este valoarea prețului unitar al produsului, rub.; (X1, X2, ... Xn) - parametrii tehnici și economici ai produselor.

Metoda analizei regresiei - cea mai avansată dintre metodele normativ-parametrice utilizate - este eficientă atunci când se efectuează calcule bazate pe utilizarea tehnologiilor și sistemelor informaționale moderne. Aplicarea sa include următorii pași principali:

  • determinarea grupelor parametrice de clasificare a produselor;
  • selectarea parametrilor care influențează cel mai mult prețul produsului;
  • selectarea și justificarea formei de legătură între modificările de preț atunci când se modifică parametrii;
  • construirea unui sistem de ecuaţii normale şi calculul coeficienţilor de regresie.

Principalul grup de produse de calificare, al cărui preț este supus egalizării, este o serie parametrică, în cadrul căreia produsele pot fi grupate în diferite modele în funcție de aplicarea lor, condițiile și cerințele de funcționare, etc. La formarea seriilor parametrice, metodele automate de clasificare pot fi utilizate, care permit distingerea grupelor omogene de masa totală a produselor. Selecția parametrilor tehnici și economici se face pe baza următoarelor cerințe de bază:

  • parametrii selectați includ parametri înregistrați în standarde și specificații tehnice; pe lângă parametrii tehnici (putere, capacitate de încărcare, viteză etc.), se folosesc indicatori de serializare a produsului, coeficienți de complexitate, unificare etc.;
  • setul de parametri selectați ar trebui să caracterizeze suficient de complet designul, proprietățile tehnologice și operaționale ale produselor incluse în serie și să aibă o corelație destul de strânsă cu prețul;
  • parametrii nu trebuie să fie interdependenți.

Pentru a selecta parametrii tehnici și economici care afectează semnificativ prețul, se calculează o matrice de coeficienți de corelație perechi. Pe baza mărimii coeficienților de corelație dintre parametri, se poate aprecia proximitatea conexiunii lor. În același timp, o corelație apropiată de zero arată o influență nesemnificativă a parametrului asupra prețului. Selecția finală a parametrilor tehnici și economici se efectuează în procesul de analiză de regresie pas cu pas folosind tehnologia computerizată și programe standard adecvate.

În practica de stabilire a prețurilor, se utilizează următorul set de funcții:

liniar

P = ao + alXl + ... + antXn,

liniar-putere

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logaritm invers

P = a0 + a1: În X1 + ... + an: În Xn,

putere

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indicativ

P = e^(a1+a1X1+...+anXn)

hiperbolic

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

unde P este egalizarea prețurilor; X1 X2,..., Xn - valoarea parametrilor tehnico-economici ai produselor din serie; a0, a1 ..., an - coeficienții calculați ai ecuației de regresie.

În lucrările practice de stabilire a prețurilor, în funcție de forma relației dintre prețuri și parametrii tehnici și economici, pot fi utilizate și alte ecuații de regresie. Tipul de funcție a conexiunii dintre preț și un set de parametri tehnici și economici poate fi presetat sau selectat automat în timpul procesării computerului. Apropierea corelației dintre preț și setul de parametri se apreciază prin valoarea coeficientului de corelație multiplă. Apropierea sa de unul indică o legătură strânsă. Folosind ecuația de regresie, se obțin valori de preț egalizate (calculate) pentru produsele dintr-o serie parametrică dată. Pentru a evalua rezultatele egalizării, se calculează valorile relative ale abaterii valorilor de preț calculate de la cele reale:

Tsr = Rf - Rr: R x 100

unde Рф, Рр - prețuri reale și calculate.

Valoarea CR nu trebuie să depășească 8-10%. În cazul abaterilor semnificative ale valorilor calculate față de cele reale, este necesar să se investigheze:

  • corectitudinea formării unei serii parametrice, deoarece poate conține produse care, în parametrii lor, diferă brusc de alte produse din serie. Ele trebuie excluse;
  • selectarea corectă a parametrilor tehnici și economici. Este posibil un set de parametri care este slab corelat cu prețul. În acest caz, este necesar să continuați căutarea și selectarea parametrilor.

Procedura și metodologia de realizare a analizei de regresie, găsirea parametrilor necunoscuți ai ecuației și evaluarea economică a rezultatelor obținute sunt efectuate în conformitate cu cerințele statisticii matematice.

Caracteristicile dependențelor cauzale

Relații cauză-efect- aceasta este o legătură între fenomene și procese, atunci când o modificare a unuia dintre ele - cauza - duce la o schimbare a celuilalt - efectul.

Semnele în funcție de semnificația lor pentru studiul relației sunt împărțite în două clase.

Se numesc semne care provoacă modificări în alte semne asociate factorial (sau factori).

Semnele care se modifică sub influența semnelor factorilor sunt efectiv.

Se disting următoarele forme de comunicare: funcțională și stocastică. Funcţional este o relație în care o anumită valoare a unei caracteristici factoriale corespunde uneia și numai unei valori a caracteristicii rezultante. Legatura functionala se manifesta in toate cazurile de observatie si pentru fiecare unitate specifica a populatiei studiate.

Relația funcțională poate fi reprezentată prin următoarea ecuație:
y i =f(x i), unde: y i - semnul rezultat; f(x i) - o funcție cunoscută a conexiunii dintre caracteristicile rezultate și factori; x i - semn factor.
În natura reală nu există conexiuni funcționale. Sunt doar abstracții, utile în analiza fenomenelor, dar simplificând realitatea.

Stochastic (statistic sau aleatoriu)conexiune reprezinta o relatie intre marimi in care una dintre ele reactioneaza la o modificare a unei alte marimi sau a altor marimi prin modificarea legii distributiei. Cu alte cuvinte, cu o relație dată, valori diferite ale unei variabile corespund unor distribuții diferite ale altei variabile. Acest lucru se datorează faptului că variabila dependentă, pe lângă cele independente luate în considerare, este influențată de o serie de factori aleatori necontabilizați sau necontrolați, precum și de unele erori inevitabile în măsurarea variabilelor. Datorită faptului că valorile variabilei dependente sunt supuse împrăștierii aleatoare, ele nu pot fi prezise cu suficientă acuratețe, ci pot fi indicate doar cu o anumită probabilitate.

Datorită ambiguității dependenței stocastice dintre Y și X, în special, schema de dependență mediată pe x prezintă interes, i.e. un model de modificare a valorii medii - așteptarea matematică condiționată Mx(Y) (așteptarea matematică a unei variabile aleatoare Y, găsită cu condiția ca variabila X să ia valoarea x) în funcție de x.

Un caz special de comunicare stocastică este comunicarea de corelație. Corelație(din lat. corelație- corelație, relație). Definiția directă a termenului corelație - stocastic, probabil, posibil conexiune între două (pereche) sau mai multe (multiple) variabile aleatorii.

O dependență de corelație între două variabile se mai numește și o relație statistică între aceste variabile, în care fiecare valoare a unei variabile corespunde unei anumite valori medii, adică. așteptările matematice condiționate sunt diferite. Dependența de corelație este un caz special de dependență stocastică, în care o modificare a valorilor caracteristicilor factorilor (x 1 x 2 ..., x n) implică o modificare a valorii medii a caracteristicii rezultate.



Se obișnuiește să se distingă următoarele tipuri de corelații:

1. Corelația de perechi – o conexiune între două caracteristici (rezultativ și factor sau doi factori).

2. Corelație parțială - dependența dintre caracteristica rezultată și un factor cu o valoare fixă ​​a altor caracteristici factoriale incluse în studiu.

3. Corelație multiplă - dependența rezultatului și a două sau mai multe caracteristici factoriale incluse în studiu.

Scopul analizei de regresie

Forma analitică de reprezentare a relațiilor cauză-efect este modelele de regresie. Validitatea științifică și popularitatea analizei de regresie o fac unul dintre principalele instrumente matematice de modelare a fenomenului studiat. Această metodă este utilizată pentru a netezi datele experimentale și pentru a obține estimări cantitative ale influenței comparative a diferiților factori asupra variabilei rezultate.

Analiza de regresie esteîn definirea unei expresii analitice a unei relații în care o modificare a unei valori (variabilă dependentă sau caracteristică rezultantă) se datorează influenței uneia sau mai multor valori independente (factori sau predictori) și setul tuturor celorlalți factori care influențează și valoarea dependentă este luată ca valori constante și medii.

Obiectivele analizei de regresie:

Evaluarea dependenței funcționale a valorii medii condiționate a caracteristicii rezultante y de factorii factori (x 1, x 2, ..., x n);

Prezicerea valorii unei variabile dependente folosind variabilele independente.

Determinarea contribuției variabilelor independente individuale la variația variabilei dependente.

Analiza de regresie nu poate fi utilizată pentru a determina dacă există o relație între variabile, deoarece prezența unei astfel de relații este o condiție prealabilă pentru aplicarea analizei.

În analiza de regresie, se presupune în prealabil că există relații cauză-efect între rezultatul (U) și caracteristicile factorilor x 1, x 2 ..., x n.

Funcţie , op Dependența determinantă a indicatorului de parametri se numește ecuație (funcție) de regresie 1 . Ecuația de regresie arată valoarea așteptată a variabilei dependente având în vedere anumite valori ale variabilelor independente.
În funcție de numărul de factori incluși în model X modelele sunt împărțite în unic factor (model de regresie pereche) și multifactor (model de regresie multiplă). În funcție de tipul funcției, modelele sunt împărțite în liniare și neliniare.

Model de regresie pereche

Datorită influenței factorilor și cauzelor aleatoare neevaluate, observațiile individuale y se vor abate într-o măsură mai mare sau mai mică de la funcția de regresie f(x). În acest caz, ecuația pentru relația dintre două variabile (model de regresie pereche) poate fi prezentată astfel:

Y=f(X) + ɛ,

unde ɛ este o variabilă aleatoare care caracterizează abaterea de la funcția de regresie. Această variabilă se numește perturbare sau perturbare (reziduală sau eroare). Astfel, în modelul de regresie variabila dependentă Y există o anumită funcție f(X) până la tulburări aleatorii ɛ.

Să luăm în considerare modelul clasic de regresie liniară în perechi (CLMPR). Ea arata ca

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

Unde y eu– explicat (variabilă rezultată, dependentă, endogenă); x i– variabilă explicativă (predictor, factor, exogen); β0, β1– coeficienți numerici; ɛ eu– componentă aleatoare (stochastică) sau eroare.

Condiții de bază (precondiții, ipoteze) ale KLMPR:

1) x i– o cantitate deterministă (nealeatorie) și se presupune că dintre valorile x i - nu toate sunt la fel.

2) Aşteptarea matematică (valoarea medie) a perturbării ɛ eu este egal cu zero:

М[ɛ i ]=0 (i=1,2, …, n).

3) Dispersia perturbației este constantă pentru orice valoare a lui i (condiția de homoscedasticitate):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Tulburările pentru diferite observații sunt necorelate:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 pentru i≠j,

unde cov[ɛ i , ɛ j ] este coeficientul de covarianță (momentul de corelație).

5) Perturbațiile sunt variabile aleatoare distribuite în mod normal, cu medie zero și varianță σ 2:

ɛ i ≈ N(0, σ 2).

Pentru a obține o ecuație de regresie, primele patru premise sunt suficiente. Cerința de a îndeplini a cincea condiție prealabilă este necesară pentru a evalua acuratețea ecuației de regresie și a parametrilor acesteia.

Cometariu: Accentul pe relațiile liniare se explică prin variația limitată a variabilelor și prin faptul că, în majoritatea cazurilor, formele neliniare de relații sunt convertite (prin logaritm sau înlocuirea variabilelor) într-o formă liniară pentru a efectua calcule.

Metoda tradițională a celor mai mici pătrate (OLS).

Estimarea modelului din eșantion este ecuația

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

unde ŷ i – valori teoretice (aproximative) ale variabilei dependente obținute din ecuația de regresie; a 0 , a 1 - coeficienții (parametrii) ecuației de regresie (eșantion de estimări ale coeficienților β 0, respectiv β 1).

Conform celor mai mici pătrate, parametrii necunoscuți a 0 , a 1 sunt aleși astfel încât suma abaterilor pătrate ale valorilor ŷ i de la valorile empirice y i (suma reziduală a pătratelor) să fie minimă:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

unde e i = y i - ŷ i – eșantion estimare a perturbației ɛ i, sau reziduală de regresie.

Problema se rezumă la găsirea unor astfel de valori ale parametrilor a 0 și a 1 la care funcția Q e ia cea mai mică valoare. Rețineți că funcția Q e = Q e (a 0 , a 1) este o funcție a două variabile a 0 și a 1 până când am găsit și apoi le-am fixat valorile „cele mai bune” (în sensul metodei celor mai mici pătrate), a x i , y i sunt numere constante găsite experimental.

Condițiile necesare pentru extremul (3) se găsesc prin egalarea la zero a derivatelor parțiale ale acestei funcții a două variabile. Ca rezultat, obținem un sistem de două ecuații liniare, care se numește sistem de ecuații normale:

(4)

Coeficientul a 1 este un coeficient de regresie eșantion al lui y pe x, care arată câte unități în medie se modifică variabila y atunci când variabila x se modifică cu o unitate de măsură a acesteia, adică variația lui y pe unitatea de variație a lui x. Semn a 1 indică direcția acestei schimbări. Coeficientul a 0 - deplasare, conform (2) este egal cu valoarea lui ŷ i la x = 0 și poate să nu aibă o interpretare semnificativă. Din acest motiv, variabila dependentă este uneori numită răspuns.

Proprietățile statistice ale estimărilor coeficientului de regresie:

Estimările coeficientului a 0 , a 1 sunt nepărtinitoare;

Varianțele estimărilor a 0 , a 1 scad (precizia estimărilor crește) odată cu creșterea dimensiunii eșantionului n;

Varianta estimarii pantei a 1 scade cu cresterea si de aceea este recomandabil sa alegeti x i astfel incat raspandirea lor in jurul valorii medii sa fie mare;

Pentru x¯ > 0 (care este de cel mai mare interes), există o relație statistică negativă între un 0 și un 1 (o creștere a unui 1 duce la o scădere a unui 0).