ABC al statisticilor medicale. Capitolul III. Interval de încredere. Ce este și cum poate fi folosit

Să presupunem că avem un număr mare de articole cu o distribuție normală a unor caracteristici (de exemplu, un depozit complet de legume de același tip, a căror dimensiune și greutate variază). Vrei să știi caracteristicile medii ale întregului lot de mărfuri, dar nu ai nici timp, nici dorința de a măsura și cântări fiecare legumă. Înțelegi că acest lucru nu este necesar. Dar câte piese ar trebui luate pentru o verificare la fața locului?

Înainte de a oferi mai multe formule utile pentru această situație, să ne amintim câteva notații.

În primul rând, dacă am măsura întregul depozit de legume (acest set de elemente se numește populația generală), atunci am ști cu toată exactitatea disponibilă greutatea medie a întregului lot. Să numim această medie medie X .g en . - media generală. Știm deja ce este complet determinat dacă valoarea medie și abaterea s sunt cunoscute . Adevărat, în timp ce nu suntem nici X medie gen s Nu cunoaștem populația generală. Putem lua doar o anumită probă, să măsurăm valorile de care avem nevoie și să calculăm pentru această probă atât valoarea medie X, cât și abaterea standard S selectată.

Se știe că dacă verificarea noastră eșantion conține un număr mare de elemente (de obicei n este mai mare de 30), și acestea sunt luate într-adevăr aleatoriu, apoi s populația generală nu va diferi cu greu de selecția S ..

În plus, pentru cazul distribuției normale putem folosi următoarele formule:

Cu o probabilitate de 95%


Cu o probabilitate de 99%



În general, cu probabilitatea P (t)


Relația dintre valoarea t și valoarea probabilității P (t), cu care dorim să cunoaștem intervalul de încredere, poate fi luată din următorul tabel:


Astfel, am determinat în ce interval se află valoarea medie a populației (cu o probabilitate dată).

Dacă nu avem un eșantion suficient de mare, nu putem spune că populația are s = S selectează În plus, în acest caz, apropierea eșantionului de distribuția normală este problematică. În acest caz, folosim și S select în schimb s în formula:




dar valoarea lui t pentru o probabilitate fixă ​​P(t) va depinde de numărul de elemente din eșantionul n. Cu cât n este mai mare, cu atât intervalul de încredere rezultat va fi mai apropiat de valoarea dată de formula (1). Valorile t în acest caz sunt preluate dintr-un alt tabel (testul t al studentului), pe care îl prezentăm mai jos:

Valorile testului t al lui Student pentru probabilitatea 0,95 și 0,99


Exemplul 3. 30 de persoane au fost alese aleatoriu dintre angajații companiei. Potrivit eșantionului, s-a dovedit că salariul mediu (pe lună) este de 30 de mii de ruble, cu o abatere standard de 5 mii de ruble. Determinați salariul mediu în companie cu o probabilitate de 0,99.

Soluţie: Prin condiție avem n = 30, X avg. =30000, S=5000, P = 0,99. Pentru a găsi intervalul de încredere, vom folosi formula corespunzătoare testului t Student. Din tabelul pentru n = 30 și P = 0,99 găsim t = 2,756, prin urmare,


acestea. mandatar căutat interval 27484< Х ср.ген < 32516.

Deci, cu o probabilitate de 0,99 putem spune că intervalul (27484; 32516) conține în sine salariul mediu în firmă.

Sperăm că veți folosi această metodă și nu este necesar să aveți o masă cu dvs. de fiecare dată. Calculele pot fi efectuate automat în Excel. În timp ce vă aflați în fișierul Excel, faceți clic pe butonul fx din meniul de sus. Apoi, selectați tipul „statistic” dintre funcții, iar din lista propusă în fereastra - STUDAR DISCOVER. Apoi, la prompt, plasând cursorul în câmpul „probabilitate”, introduceți valoarea probabilității inverse (adică, în cazul nostru, în loc de probabilitatea de 0,95, trebuie să introduceți probabilitatea de 0,05). Aparent, foaia de calcul este concepută în așa fel încât rezultatul să răspundă la întrebarea cât de probabil avem să greșim. În mod similar, în câmpul Grad de libertate, introduceți o valoare (n-1) pentru eșantionul dvs.

Există două tipuri de estimări în statistică: punct și interval. Estimarea punctuala este un singur eșantion statistic care este utilizat pentru a estima un parametru de populație. De exemplu, media eșantionului este o estimare punctuală a așteptărilor matematice a populației și a varianței eșantionului S 2- estimarea punctuală a varianței populației σ 2. s-a demonstrat că media eșantionului este o estimare imparțială a așteptărilor matematice a populației. O medie a eșantionului se numește imparțial deoarece media tuturor mediilor eșantionului (cu aceeași dimensiune a eșantionului) n) este egală cu așteptarea matematică a populației generale.

Pentru variația eșantionului S 2 a devenit o estimare imparțială a varianței populației σ 2, numitorul varianței eșantionului trebuie setat egal cu n – 1 , dar nu n. Cu alte cuvinte, varianța populației este media tuturor variațiilor posibile ale eșantionului.

La estimarea parametrilor populației, ar trebui să se țină cont de faptul că statisticile eșantionului precum , depind de mostre specifice. A ține cont de acest fapt, a obține estimarea intervalului așteptarea matematică a populației generale, analizați distribuția mediilor eșantionului (pentru mai multe detalii, vezi). Intervalul construit este caracterizat de un anumit nivel de încredere, care reprezintă probabilitatea ca parametrul adevărat al populației să fie estimat corect. Intervale similare de încredere pot fi utilizate pentru a estima proporția unei caracteristici Rși principala masă distribuită a populației.

Descărcați nota în sau format, exemple în format

Construirea unui interval de încredere pentru așteptarea matematică a populației cu o abatere standard cunoscută

Construirea unui interval de încredere pentru ponderea unei caracteristici în populație

Această secțiune extinde conceptul de interval de încredere la date categorice. Acest lucru ne permite să estimăm ponderea caracteristicii în populație R folosind partajarea eșantionului RS= X/n. După cum este indicat, dacă cantitățile nRȘi n(1 – p) depășește numărul 5, distribuția binomială poate fi aproximată ca normal. Prin urmare, pentru a estima ponderea unei caracteristici în populație R se poate construi un interval al cărui nivel de încredere este egal cu (1 – α)х100%.


Unde pS- cota de eșantion a caracteristicii, egală cu X/n, adică numărul de succese împărțit la dimensiunea eșantionului, R- ponderea caracteristicii în populația generală, Z- valoarea critică a distribuției normale standardizate, n- marime de mostra.

Exemplul 3. Sa presupunem ca din sistemul informatic este extras un esantion format din 100 de facturi completate in ultima luna. Să presupunem că 10 dintre aceste facturi au fost întocmite cu erori. Prin urmare, R= 10/100 = 0,1. Nivelul de încredere de 95% corespunde valorii critice Z = 1,96.

Astfel, probabilitatea ca între 4,12% și 15,88% din facturi să conțină erori este de 95%.

Pentru o anumită dimensiune a eșantionului, intervalul de încredere care conține proporția caracteristicii în populație pare mai larg decât pentru o variabilă aleatoare continuă. Acest lucru se datorează faptului că măsurătorile unei variabile aleatoare continue conțin mai multe informații decât măsurătorile datelor categorice. Cu alte cuvinte, datele categorice care iau doar două valori conțin informații insuficiente pentru a estima parametrii distribuției lor.

ÎNcalcularea estimărilor extrase dintr-o populație finită

Estimarea așteptărilor matematice. Factorul de corecție pentru populația finală ( fpc) a fost folosit pentru a reduce eroarea standard cu un factor. La calcularea intervalelor de încredere pentru estimările parametrilor populației, se aplică un factor de corecție în situațiile în care probele sunt extrase fără a fi returnate. Astfel, un interval de încredere pentru așteptarea matematică având un nivel de încredere egal cu (1 – α)х100%, se calculează prin formula:

Exemplul 4. Pentru a ilustra utilizarea factorului de corecție pentru o populație finită, să revenim la problema calculării intervalului de încredere pentru suma medie a facturilor, discutată mai sus în Exemplul 3. Să presupunem că o companie emite 5.000 de facturi pe lună și X= 110,27 dolari, S= 28,95 USD N = 5000, n = 100, α = 0,05, t 99 = 1,9842. Folosind formula (6) obținem:

Estimarea cotei unei caracteristici. Atunci când alegeți fără returnare, intervalul de încredere pentru proporția atributului având un nivel de încredere egal cu (1 – α)х100%, se calculează prin formula:

Intervale de încredere și probleme etice

Atunci când se eșantionează o populație și se trag concluzii statistice, apar adesea probleme etice. Principalul este modul în care intervalele de încredere și estimările punctuale ale statisticilor eșantionului sunt de acord. Publicarea estimărilor punctuale fără a specifica intervalele de încredere asociate (de obicei la nivelul de încredere de 95%) și dimensiunea eșantionului din care sunt derivate pot crea confuzie. Acest lucru poate da utilizatorului impresia că estimarea punctuală este exact ceea ce are nevoie pentru a prezice proprietățile întregii populații. Astfel, este necesar să înțelegem că în orice cercetare accentul ar trebui să fie nu pe estimările punctuale, ci pe estimările pe intervale. În plus, o atenție deosebită trebuie acordată selecției corecte a dimensiunilor eșantionului.

Cel mai adesea, obiectele manipulării statistice sunt rezultatele anchetelor sociologice ale populației pe anumite probleme politice. În același timp, rezultatele sondajului sunt publicate pe primele pagini ale ziarelor, iar eroarea de eșantionare și metodologia de analiză statistică sunt publicate undeva la mijloc. Pentru a demonstra validitatea estimărilor punctuale obţinute este necesar să se indice mărimea eşantionului pe baza căruia au fost obţinute, limitele intervalului de încredere şi nivelul său de semnificaţie.

Următoarea notă

Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 448–462

Teorema limitei centrale afirmă că, cu o dimensiune a eșantionului suficient de mare, distribuția eșantionului de medii poate fi aproximată printr-o distribuție normală. Această proprietate nu depinde de tipul de distribuție a populației.

INTERVALE DE ÎNCREDERE PENTRU FRECVENȚE ȘI FRACȚII

© 2008

Institutul Național de Sănătate Publică, Oslo, Norvegia

Articolul descrie și discută calculul intervalelor de încredere pentru frecvențe și proporții folosind metodele Wald, Wilson, Clopper - Pearson, folosind transformarea unghiulară și metoda Wald cu corecția Agresti - Coull. Materialul prezentat oferă informații generale despre metodele de calculare a intervalelor de încredere pentru frecvențe și proporții și are scopul de a trezi interesul cititorilor de reviste nu numai pentru utilizarea intervalelor de încredere în prezentarea rezultatelor propriilor cercetări, ci și pentru citirea literaturii de specialitate înainte de a începe munca. asupra viitoarelor publicații.

Cuvinte cheie: interval de încredere, frecvență, proporție

Una dintre publicațiile anterioare a menționat pe scurt descrierea datelor calitative și a raportat că estimarea intervalului acestora este preferabilă estimării punctuale pentru descrierea frecvenței de apariție a caracteristicii studiate în populație. Într-adevăr, întrucât cercetarea este efectuată folosind date eșantionate, proiecția rezultatelor asupra populației trebuie să conțină un element de imprecizie a eșantionării. Intervalul de încredere este o măsură a acurateței parametrului estimat. Este interesant că unele cărți despre statistici de bază pentru medici ignoră complet subiectul intervalelor de încredere pentru frecvențe. În acest articol vom analiza mai multe moduri de a calcula intervalele de încredere pentru frecvențe, implicând astfel de caracteristici ale eșantionului precum nerepetiția și reprezentativitatea, precum și independența observațiilor unele față de altele. În acest articol, frecvența este înțeleasă nu ca un număr absolut care arată de câte ori apare o anumită valoare în agregat, ci ca o valoare relativă care determină proporția de participanți la studiu la care apare caracteristica studiată.

În cercetarea biomedicală, intervalele de încredere de 95% sunt cel mai frecvent utilizate. Acest interval de încredere este zona în care proporția reală se încadrează în 95% din timp. Cu alte cuvinte, putem spune cu o fiabilitate de 95% că adevărata valoare a frecvenței de apariție a unei trăsături în populație va fi în intervalul de încredere de 95%.

Majoritatea manualelor de statistică pentru cercetătorii medicali raportează că eroarea de frecvență este calculată folosind formula

unde p este frecvența de apariție a caracteristicii în eșantion (valoare de la 0 la 1). Majoritatea articolelor științifice interne indică frecvența de apariție a unei trăsături într-un eșantion (p), precum și eroarea (e) acesteia sub forma p ± s. Este mai indicat, însă, să se prezinte un interval de încredere de 95% pentru frecvența de apariție a unei trăsături în populație, care va include valori de la

inainte de.

Unele manuale recomandă ca pentru eșantioane mici să înlocuiți valoarea de 1,96 cu valoarea lui t pentru N – 1 grade de libertate, unde N este numărul de observații din eșantion. Valoarea t este găsită din tabelele pentru distribuția t, disponibile în aproape toate manualele de statistică. Utilizarea distribuției t pentru metoda Wald nu oferă avantaje vizibile în comparație cu alte metode discutate mai jos și, prin urmare, nu este recomandată de unii autori.

Metoda prezentată mai sus pentru calcularea intervalelor de încredere pentru frecvențe sau proporții este numită Wald în onoarea lui Abraham Wald (1902–1950), deoarece utilizarea sa pe scară largă a început după publicarea lui Wald și Wolfowitz în 1939. Cu toate acestea, metoda în sine a fost propusă de Pierre Simon Laplace (1749–1827) încă din 1812.

Metoda Wald este foarte populară, dar aplicarea ei este asociată cu probleme semnificative. Metoda nu este recomandată pentru eșantioane de dimensiuni mici, precum și în cazurile în care frecvența de apariție a unei caracteristici tinde spre 0 sau 1 (0% sau 100%) și este pur și simplu imposibilă pentru frecvențele de 0 și 1. În plus, aproximarea distribuției normale, care este utilizată la calcularea erorii, „nu funcționează” în cazurile în care n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Deoarece noua variabilă este distribuită în mod normal, limitele inferioare și superioare ale intervalului de încredere de 95% pentru variabila φ vor fi φ-1,96 și φ+1,96 stânga">

În loc de 1,96 pentru probele mici, se recomandă înlocuirea valorii t cu N – 1 grade de libertate. Această metodă nu produce valori negative și permite estimări mai precise ale intervalelor de încredere pentru frecvențe decât metoda Wald. În plus, este descris în multe cărți interne de referință privind statistica medicală, ceea ce, totuși, nu a condus la utilizarea sa pe scară largă în cercetarea medicală. Calcularea intervalelor de încredere folosind transformarea unghiulară nu este recomandată pentru frecvențele care se apropie de 0 sau 1.

Aici se termină de obicei descrierea metodelor de estimare a intervalelor de încredere în majoritatea cărților despre bazele statisticii pentru cercetătorii medicali, iar această problemă este tipică nu numai pentru literatura națională, ci și pentru literatura străină. Ambele metode se bazează pe teorema limită centrală, care implică un eșantion mare.

Ținând cont de neajunsurile estimării intervalelor de încredere folosind metodele de mai sus, Clopper și Pearson au propus în 1934 o metodă de calcul a așa-numitului interval de încredere exact, având în vedere distribuția binomială a trăsăturii studiate. Această metodă este disponibilă în multe calculatoare online, dar intervalele de încredere obținute astfel sunt în majoritatea cazurilor prea largi. În același timp, această metodă este recomandată pentru utilizare în cazurile în care este necesară o evaluare conservatoare. Gradul de conservativitate al metodei crește pe măsură ce dimensiunea eșantionului scade, mai ales când N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Potrivit multor statisticieni, cea mai optimă evaluare a intervalelor de încredere pentru frecvențe este realizată prin metoda Wilson, propusă încă din 1927, dar practic neutilizată în cercetarea biomedicală internă. Această metodă nu numai că permite estimarea intervalelor de încredere atât pentru frecvențe foarte mici, cât și pentru frecvențe foarte mari, dar este și aplicabilă pentru un număr mic de observații. În general, intervalul de încredere conform formulei lui Wilson are forma



unde ia valoarea 1,96 la calcularea intervalului de încredere de 95%, N este numărul de observații, iar p este frecvența de apariție a caracteristicii în eșantion. Această metodă este disponibilă în calculatoarele online, astfel încât utilizarea sa nu este problematică. și nu recomandăm utilizarea acestei metode pentru n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Pe lângă metoda Wilson, se crede că metoda Wald cu corecție Agresti-Coll oferă o estimare optimă a intervalului de încredere pentru frecvențe. Corecția Agresti-Coll este o înlocuire în formula Wald a frecvenței de apariție a unei caracteristici într-un eșantion (p) cu p`, la calculul care 2 se adaugă la numărător și 4 se adaugă la numitor, adică p` = (X + 2) / (N + 4), unde X este numărul de participanți la studiu care au caracteristica studiată și N este dimensiunea eșantionului. Această modificare produce rezultate foarte asemănătoare cu formula lui Wilson, cu excepția cazului în care frecvența evenimentelor se apropie de 0% sau 100% și eșantionul este mic. Pe lângă metodele de mai sus pentru calcularea intervalelor de încredere pentru frecvențe, au fost propuse corecții de continuitate atât pentru metodele Wald, cât și pentru cele Wilson pentru eșantioane mici, dar studiile au arătat că utilizarea lor este inadecvată.

Să luăm în considerare aplicarea metodelor de mai sus pentru calcularea intervalelor de încredere folosind două exemple. În primul caz, studiem un eșantion mare de 1.000 de participanți la studiu selectați aleatoriu, dintre care 450 au trăsătura studiată (aceasta ar putea fi un factor de risc, un rezultat sau orice altă trăsătură), reprezentând o frecvență de 0,45 sau 45. %. În al doilea caz, studiul se desfășoară folosind un eșantion mic, să zicem, doar 20 de persoane și doar 1 participant la studiu (5%) are trăsătura studiată. Intervalele de încredere folosind metoda Wald, metoda Wald cu corecție Agresti–Coll și metoda Wilson au fost calculate folosind un calculator online dezvoltat de Jeff Sauro (http://www. /wald. htm). Intervalele de încredere corectate ale lui Wilson au fost calculate utilizând calculatorul furnizat de Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Calculele de transformare Angular Fisher au fost efectuate manual folosind valoarea critică t pentru 19 și, respectiv, 999 de grade de libertate. Rezultatele calculului sunt prezentate în tabel pentru ambele exemple.

Intervalele de încredere calculate în șase moduri diferite pentru două exemple descrise în text

Metoda de calcul a intervalului de încredere

P=0,0500 sau 5%

95% CI pentru X=450, N=1000, P=0,4500 sau 45%

–0,0455–0,2541

Wald cu corectie Agresti–Coll

<,0001–0,2541

Wilson cu corecție de continuitate

„metoda exactă” Clopper-Pearson

Transformare unghiulară

<0,0001–0,1967

După cum se poate observa din tabel, pentru primul exemplu intervalul de încredere calculat folosind metoda Wald „general acceptată” intră în regiunea negativă, ceea ce nu poate fi cazul frecvențelor. Din păcate, astfel de incidente nu sunt neobișnuite în literatura rusă. Modul tradițional de prezentare a datelor în termeni de frecvență și eroarea acesteia maschează parțial această problemă. De exemplu, dacă frecvența de apariție a unei trăsături (în procente) este prezentată ca 2,1 ± 1,4, atunci aceasta nu este la fel de „ofensivă pentru ochi” ca 2,1% (IC 95%: -0,7; 4,9), deși și înseamnă același lucru. Metoda Wald cu corecția Agresti–Coll și calculul folosind transformarea unghiulară oferă o limită inferioară care tinde spre zero. Metoda lui Wilson corectată în funcție de continuitate și „metoda exactă” produc intervale de încredere mai largi decât metoda lui Wilson. Pentru al doilea exemplu, toate metodele dau aproximativ aceleași intervale de încredere (diferențele apar numai în miimi), ceea ce nu este surprinzător, deoarece frecvența de apariție a evenimentului din acest exemplu nu este mult diferită de 50%, iar dimensiunea eșantionului este destul de mare.

Pentru cititorii interesați de această problemă, le putem recomanda lucrările lui R. G. Newcombe și Brown, Cai și Dasgupta, care oferă avantajele și dezavantajele utilizării a 7 și, respectiv, 10 metode diferite pentru calcularea intervalelor de încredere. Dintre manualele interne, recomandăm cartea și, care, pe lângă o descriere detaliată a teoriei, prezintă metodele lui Wald și Wilson, precum și o metodă de calcul a intervalelor de încredere ținând cont de distribuția binomială a frecvenței. Pe lângă calculatoarele online gratuite (http://www. /wald. htm și http://faculty. vassar. edu/lowry/prop1.html), intervalele de încredere pentru frecvențe (și nu numai!) pot fi calculate folosind Programul CIA (Confidence Intervals Analysis), care poate fi descărcat de pe http://www. scoala medicala. soton. ac. uk/cia/ .

Următorul articol va analiza modalități univariate de a compara datele calitative.

Bibliografie

Banerji A. Statistica medicală în limbaj clar: un curs introductiv / A. Banerjee. – M.: Medicină practică, 2007. – 287 p. Statistici medicale / . – M.: Agenția de Informații Medicale, 2007. – 475 p. Glanz S. Statistică medicală şi biologică / S. Glanz. – M.: Praktika, 1998. Tipuri de date, testare de distribuție și statistică descriptivă // Ecologie umană – 2008. – Nr. 1. – P. 52–58. Zhizhin K. S.. Statistici medicale: manual / . – Rostov n/d: Phoenix, 2007. – 160 p. Statistici medicale aplicate / , . - St.Petersburg. : Foliot, 2003. – 428 p. Lakin G. F. Biometrie / . – M.: Şcoala superioară, 1990. – 350 p. Medicul V. A. Statistica matematică în medicină / , . – M.: Finanțe și Statistică, 2007. – 798 p. Statistica matematică în cercetarea clinică / , . – M.: GEOTAR-MED, 2001. – 256 p. Junkerov V. ȘI. Prelucrarea medicala si statistica a datelor de cercetare medicala / , . - St.Petersburg. : VmedA, 2002. – 266 p. Agresti A. Aproximat este mai bine decât exact pentru estimarea pe intervale a proporțiilor binomiale / A. Agresti, B. Coull // Statistician american. – 1998. – N 52. – P. 119–126. Altman D. Statistici cu încredere // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – Londra: BMJ Books, 2000. – 240 p. Brown L.D. Estimarea intervalului pentru o proporție binomială / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical science. – 2001. – N 2. – P. 101–133. Clopper C.J. Utilizarea limitelor de încredere sau fiduciale ilustrate în cazul binomului / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404–413. Garcia-Perez M.A. Despre intervalul de încredere pentru parametrul binom / M. A. Garcia-Perez // Calitate și cantitate. – 2005. – N 39. – P. 467–481. Motulsky H. Biostatistică intuitivă // H. Motulsky. – Oxford: Oxford University Press, 1995. – 386 p. Newcombe R. G. Intervale de încredere pe două părți pentru o singură proporție: comparație a șapte metode / R. G. Newcombe // Statistics in Medicine. – 1998. – N. 17. – P. 857–872. Sauro J. Estimarea ratelor de finalizare din eșantioane mici folosind intervale de încredere binomiale: comparații și recomandări / J. Sauro, J. R. Lewis // Proceedings of the human factors and ergonomics society annual meeting. – Orlando, FL, 2005. Wald A. Limite de încredere pentru funcțiile de distribuție continuă // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. – 1939. – N 10. – P. 105–118. Wilson E.B. Inferență probabilă, legea succesiunii și inferență statistică / E. B. Wilson // Journal of American Statistical Association. – 1927. – N 22. – P. 209–212.

INTERVALE DE ÎNCREDERE PENTRU PROPORȚII

A. M. Grjibovski

Institutul Național de Sănătate Publică, Oslo, Norvegia

Articolul prezintă mai multe metode de calcul a intervalelor de încredere pentru proporții binomiale, și anume, metodele Wald, Wilson, arcsinus, Agresti-Coull și exacte Clopper-Pearson. Lucrarea oferă doar o introducere generală a problemei estimării intervalului de încredere a unei proporții binomiale și scopul său este nu numai de a stimula cititorii să folosească intervalele de încredere atunci când prezintă rezultatele propriilor cercetări empirice, ci și de a-i încuraja să consulte cărți de statistică. înainte de a analiza propriile date și de a pregăti manuscrise.

Cuvinte cheie: interval de încredere, proporție

Informații de contact:

Consilier principal, Institutul Național de Sănătate Publică, Oslo, Norvegia

Estimarea intervalelor de încredere

obiective de invatare

Statisticile iau în considerare următoarele două sarcini principale:

    Avem o estimare bazată pe date de eșantion și dorim să facem o declarație probabilistică despre unde se află adevărata valoare a parametrului estimat.

    Avem o ipoteză specifică care trebuie testată folosind date eșantion.

În acest subiect luăm în considerare prima sarcină. Să introducem și definiția unui interval de încredere.

Un interval de încredere este un interval care este construit în jurul valorii estimate a unui parametru și arată unde este situată valoarea adevărată a parametrului estimat cu o probabilitate specificată a priori.

După ce ați studiat materialul pe această temă, dvs.:

    afla ce este un interval de încredere pentru o estimare;

    învață să clasifice problemele statistice;

    stăpânește tehnica construirii intervalelor de încredere, atât folosind formule statistice, cât și cu instrumente software;

    învață să determine dimensiunile eșantionului necesare pentru a realiza anumiți parametri de acuratețe a estimărilor statistice.

Distribuția caracteristicilor eșantionului

distribuție T

După cum sa discutat mai sus, distribuția variabilei aleatoare este apropiată de distribuția normală standardizată cu parametrii 0 și 1. Deoarece nu cunoaștem valoarea lui σ, o înlocuim cu o estimare a lui s. Cantitatea are deja o distribuție diferită și anume sau Repartizarea elevilor, care este determinat de parametrul n -1 (numărul de grade de libertate). Această distribuție este apropiată de distribuția normală (cu cât n este mai mare, cu atât distribuțiile sunt mai apropiate).

În fig. 95
este prezentată distribuţia Student cu 30 de grade de libertate. După cum puteți vedea, este foarte aproape de distribuția normală.

Similar cu funcțiile pentru lucrul cu distribuția normală NORMIDIST și NORMINV, există funcții pentru lucrul cu distribuția t - STUDIST (TDIST) și STUDRASOBR (TINV). Un exemplu de utilizare a acestor funcții poate fi văzut în fișierul STUTRASP.XLS (șablon și soluție) și în Fig. 96
.

Distribuții ale altor caracteristici

După cum știm deja, pentru a determina acuratețea estimării așteptărilor matematice, avem nevoie de o distribuție t. Pentru a estima alți parametri, cum ar fi varianța, sunt necesare distribuții diferite. Două dintre ele sunt distribuția F și x 2 -distributie.

Interval de încredere pentru medie

Interval de încredere- acesta este un interval care este construit în jurul valorii estimate a parametrului și arată unde este situată valoarea reală a parametrului estimat cu o probabilitate specificată a priori.

Are loc construirea unui interval de încredere pentru valoarea medie în felul următor:

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a estima cererea pentru acesta, managerul plănuiește să selecteze aleatoriu 40 de vizitatori dintre cei care l-au încercat deja și să le solicite să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze valoarea așteptată. numărul de puncte pe care noul produs le va primi și construiți un interval de încredere de 95% pentru această estimare. Cum să facă acest lucru? (vezi fișierul SANDWICH1.XLS (șablon și soluție).

Soluţie

Pentru a rezolva această problemă puteți folosi . Rezultatele sunt prezentate în Fig. 97
.

Interval de încredere pentru valoarea totală

Uneori, folosind datele eșantionului, este necesar să se estimeze nu așteptările matematice, ci suma totală a valorilor. De exemplu, într-o situație cu un auditor, interesul poate fi estimarea nu a mărimii medii a contului, ci a sumei tuturor conturilor.

Fie N numărul total de elemente, n dimensiunea eșantionului, T 3 să fie suma valorilor din eșantion, T" să fie estimarea pentru suma întregii populații, apoi , iar intervalul de încredere este calculat prin formula , unde s este estimarea abaterii standard pentru eșantion și este estimarea mediei pentru eșantion.

Exemplu

Să presupunem că o agenție fiscală dorește să estimeze rambursările totale de taxe pentru 10.000 de contribuabili. Contribuabilul fie primește o rambursare, fie plătește taxe suplimentare. Găsiți intervalul de încredere de 95% pentru suma rambursării, presupunând o dimensiune a eșantionului de 500 de persoane (a se vedea fișierul SUMA REFUND.XLS (șablon și soluție).

Soluţie

StatPro nu are o procedură specială pentru acest caz, cu toate acestea, se poate observa că limitele pot fi obținute din limitele pentru medie pe baza formulelor de mai sus (Fig. 98).
).

Interval de încredere pentru proporție

Fie p așteptarea matematică a cotei clienților și fie p b estimarea acestei cote obținută dintr-un eșantion de mărimea n. Se poate demonstra că pentru suficient de mare distribuția evaluării va fi apropiată de normal cu așteptările matematice p și abaterea standard . Eroarea standard de estimare în acest caz este exprimată ca , iar intervalul de încredere este ca .

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a evalua cererea pentru acesta, managerul a selectat aleatoriu 40 de vizitatori dintre cei care l-au încercat deja și le-a cerut să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze proporția așteptată de clienții care evaluează noul produs cu cel puțin 6 puncte (se așteaptă ca acești clienți să fie consumatorii noului produs).

Soluţie

Inițial, creăm o nouă coloană pe baza atributului 1 dacă ratingul clientului a fost mai mare de 6 puncte și 0 în caz contrar (vezi fișierul SANDWICH2.XLS (șablon și soluție).

Metoda 1

Numărând numărul de 1, estimăm cota și apoi folosim formulele.

Valoarea zcr este luată din tabele speciale de distribuție normală (de exemplu, 1,96 pentru un interval de încredere de 95%).

Folosind această abordare și date specifice pentru a construi un interval de 95%, obținem următoarele rezultate (Fig. 99
). Valoarea critică a parametrului zcr este 1,96. Eroarea standard a estimării este 0,077. Limita inferioară a intervalului de încredere este 0,475. Limita superioară a intervalului de încredere este 0,775. Astfel, managerul are dreptul să creadă cu 95% de încredere că procentul de clienți care evaluează noul produs cu 6 puncte sau mai mult se va situa între 47,5 și 77,5.

Metoda 2

Această problemă poate fi rezolvată folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să rețineți că cota în acest caz coincide cu valoarea medie a coloanei Tip. În continuare aplicăm StatPro/Inferență statistică/Analiza unui eșantion pentru a construi un interval de încredere al mediei (estimarea așteptărilor matematice) pentru coloana Tip. Rezultatele obţinute în acest caz vor fi foarte apropiate de rezultatele primei metode (Fig. 99).

Interval de încredere pentru abaterea standard

s este utilizat ca estimare a abaterii standard (formula este dată în secțiunea 1). Funcția de densitate a estimării s este funcția chi-pătrat, care, ca și distribuția t, are n-1 grade de libertate. Există funcții speciale pentru lucrul cu această distribuție CHIDIST și CHIINV.

Intervalul de încredere în acest caz nu va mai fi simetric. O diagramă de limite convențională este prezentată în Fig. 100 .

Exemplu

Mașina trebuie să producă piese cu un diametru de 10 cm. Cu toate acestea, din diverse circumstanțe, apar erori. Controlorul de calitate este preocupat de două circumstanțe: în primul rând, valoarea medie ar trebui să fie de 10 cm; în al doilea rând, chiar și în acest caz, dacă abaterile sunt mari, atunci multe părți vor fi respinse. Zilnic face un eșantion de 50 de părți (vezi fișierul CONTROL DE CALITATE.XLS (șablon și soluție). Ce concluzii poate da un astfel de eșantion?

Soluţie

Să construim intervale de încredere de 95% pentru medie și abaterea standard folosind StatPro/Inferență statistică/Analiza unui eșantion(Fig. 101
).

Apoi, folosind ipoteza unei distribuții normale a diametrelor, calculăm proporția de produse defecte, stabilind o abatere maximă de 0,065. Folosind capacitățile tabelului de substituție (cazul a doi parametri), graficăm dependența proporției defectelor de valoarea medie și abaterea standard (Fig. 102).
).

Interval de încredere pentru diferența dintre două medii

Aceasta este una dintre cele mai importante aplicații ale metodelor statistice. Exemple de situații.

    Un manager de magazin de îmbrăcăminte ar dori să știe cât cheltuie mai mult sau mai puțin clientul mediu de sex feminin în magazin decât clientul mediu de sex masculin.

    Cele două companii aeriene zboară pe rute similare. O organizație de consumatori ar dori să compare diferența dintre timpii medii de întârziere a zborului estimați pentru ambele companii aeriene.

    Compania trimite cupoane pentru anumite tipuri de mărfuri într-un oraș și nu în altul. Managerii doresc să compare volumele medii de achiziție ale acestor produse în următoarele două luni.

    Un dealer de mașini se ocupă adesea de cupluri căsătorite la prezentări. Pentru a înțelege reacțiile lor personale la prezentare, cuplurile sunt adesea intervievate separat. Managerul vrea să evalueze diferența dintre ratingurile acordate de bărbați și femei.

Cazul probelor independente

Diferența dintre medii va avea o distribuție t cu n 1 + n 2 - 2 grade de libertate. Intervalul de încredere pentru μ 1 - μ 2 este exprimat prin relația:

Această problemă poate fi rezolvată nu numai folosind formulele de mai sus, ci și folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să utilizați

Interval de încredere pentru diferența dintre proporții

Să fie așteptarea matematică a acțiunilor. Fie estimările lor ale eșantionului, construite din eșantioane de dimensiunea n 1 și respectiv n 2. Atunci este o estimare a diferenței. Prin urmare, intervalul de încredere al acestei diferențe este exprimat astfel:

Aici z cr este o valoare obținută dintr-o distribuție normală folosind tabele speciale (de exemplu, 1,96 pentru un interval de încredere de 95%).

Eroarea standard de estimare este exprimată în acest caz prin relația:

.

Exemplu

Magazinul, pregătindu-se pentru o vânzare mare, a întreprins următoarele cercetări de marketing. Primii 300 de cumpărători au fost selectați și împărțiți aleatoriu în două grupuri a câte 150 de membri fiecare. Tuturor cumpărătorilor selectați li s-au trimis invitații pentru a participa la vânzare, dar numai membrii primului grup au primit un cupon care le dă dreptul la o reducere de 5%. În timpul vânzării, au fost înregistrate achizițiile tuturor celor 300 de cumpărători selectați. Cum poate un manager să interpreteze rezultatele și să emită o judecată cu privire la eficacitatea cupoanelor? (vezi fișierul COUPONS.XLS (șablon și soluție)).

Soluţie

Pentru cazul nostru specific, din 150 de clienți care au primit un cupon de reducere, 55 au făcut o achiziție la vânzare, iar dintre cei 150 care nu au primit un cupon, doar 35 au făcut o achiziție (Fig. 103).
). Apoi, valorile proporțiilor eșantionului sunt 0,3667 și, respectiv, 0,2333. Și diferența de eșantion dintre ele este egală cu 0,1333, respectiv. Presupunând un interval de încredere de 95%, găsim din tabelul de distribuție normală z cr = 1,96. Calculul erorii standard a diferenței de eșantion este de 0,0524. În cele din urmă constatăm că limita inferioară a intervalului de încredere de 95% este 0,0307, ​​​​iar limita superioară este 0,2359, respectiv. Rezultatele obținute pot fi interpretate în așa fel încât pentru fiecare 100 de clienți care au primit un cupon de reducere să ne așteptăm de la 3 până la 23 de clienți noi. Totuși, trebuie să ținem cont de faptul că această concluzie în sine nu înseamnă eficiența utilizării cupoanelor (întrucât prin acordarea unei reduceri pierdem profit!). Să demonstrăm acest lucru cu date specifice. Să presupunem că dimensiunea medie a achiziției este de 400 de ruble, din care 50 de ruble. există profit pentru magazin. Atunci profitul așteptat pentru 100 de clienți care nu au primit un cupon este:

50 0,2333 100 = 1166,50 rub.

Calcule similare pentru 100 de clienți care au primit un cupon oferă:

30 0,3667 100 = 1100,10 rub.

Scăderea profitului mediu la 30 se explică prin faptul că, folosind reducerea, clienții care au primit un cupon vor face în medie o achiziție de 380 de ruble.

Astfel, concluzia finală indică ineficacitatea utilizării unor astfel de cupoane în această situație particulară.

Cometariu. Această problemă poate fi rezolvată folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să reduceți această problemă la problema estimării diferenței dintre două medii folosind metoda și apoi să aplicați StatPro/Inferență statistică/Analiza cu două eșantioane pentru a construi un interval de încredere pentru diferența dintre două valori medii.

Controlul lungimii intervalului de încredere

Lungimea intervalului de încredere depinde de urmatoarele conditii:

    date direct (abatere standard);

    nivelul de semnificație;

    marime de mostra.

Dimensiunea eșantionului pentru estimarea mediei

În primul rând, să luăm în considerare problema în cazul general. Să notăm valoarea a jumătate din lungimea intervalului de încredere dat nouă ca B (Fig. 104).
). Știm că intervalul de încredere pentru valoarea medie a unei variabile aleatoare X este exprimat ca , Unde . a crede:

și exprimând n, obținem .

Din păcate, nu știm valoarea exactă a varianței variabilei aleatoare X. În plus, nu cunoaștem valoarea lui tcr, deoarece depinde de n prin numărul de grade de libertate. În această situație, putem face următoarele. În loc de varianța s, folosim o estimare a varianței bazată pe orice implementări disponibile ale variabilei aleatoare studiate. În loc de valoarea t cr, folosim valoarea z cr pentru distribuția normală. Acest lucru este destul de acceptabil, deoarece funcțiile de densitate de distribuție pentru distribuțiile normale și t sunt foarte apropiate (cu excepția cazului n mic). Astfel, formula necesară ia forma:

.

Deoarece formula dă, în general vorbind, rezultate non-întregi, rotunjirea cu un exces din rezultat este luată ca dimensiunea eșantionului dorită.

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a evalua cererea pentru acesta, managerul plănuiește să selecteze aleatoriu un număr de vizitatori dintre cei care l-au încercat deja și să le solicite să-și evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze numărul așteptat de puncte pe care noul produs le va primi produs și construiți un interval de încredere de 95% pentru această estimare. În același timp, el dorește ca jumătatea lățimii intervalului de încredere să nu depășească 0,3. Câți vizitatori trebuie să intervieveze?

după cum urmează:

Aici r ots este o estimare a proporției p, iar B este o jumătate dată din lungimea intervalului de încredere. O supraestimare pentru n poate fi obținută folosind valoarea r ots= 0,5. În acest caz, lungimea intervalului de încredere nu va depăși valoarea specificată B pentru orice valoare adevărată a lui p.

Exemplu

Lăsați managerul din exemplul anterior să planifice să estimeze ponderea clienților care au preferat un nou tip de produs. El vrea să construiască un interval de încredere de 90% a cărui jumătate de lungime nu depășește 0,05. Câți clienți ar trebui să fie incluși în eșantionul aleatoriu?

Soluţie

În cazul nostru, valoarea lui z cr = 1,645. Prin urmare, cantitatea necesară este calculată ca .

Dacă managerul ar avea motive să creadă că valoarea p dorită este, de exemplu, aproximativ 0,3, atunci prin înlocuirea acestei valori în formula de mai sus, am obține o valoare ale eșantionului aleatoriu mai mică, și anume 228.

Formula de determinare mărimea eșantionului aleatoriu în cazul diferenței dintre două medii scris ca:

.

Exemplu

O companie de calculatoare are un centru de servicii pentru clienți. Recent, a crescut numărul de reclamații ale clienților cu privire la calitatea slabă a serviciilor. Centrul de servicii angajează în principal două tipuri de angajați: cei care nu au multă experiență, dar au urmat cursuri pregătitoare speciale și cei care au o vastă experiență practică, dar nu au urmat cursuri speciale. Compania dorește să analizeze reclamațiile clienților din ultimele șase luni și să compare numărul mediu de reclamații pentru fiecare dintre cele două grupuri de angajați. Se presupune că numerele din eșantioane pentru ambele grupuri vor fi aceleași. Câți angajați trebuie să fie incluși în eșantion pentru a obține un interval de 95% cu o jumătate de lungime de cel mult 2?

Soluţie

Aici σ ots este o estimare a abaterii standard a ambelor variabile aleatoare în ipoteza că acestea sunt apropiate. Astfel, în problema noastră trebuie să obținem cumva această estimare. Acest lucru se poate face, de exemplu, după cum urmează. După ce a analizat datele privind reclamațiile clienților din ultimele șase luni, un manager poate observa că fiecare angajat primește în general de la 6 la 36 de reclamații. Știind că, pentru o distribuție normală, aproape toate valorile sunt la cel mult trei abateri standard de la medie, el poate crede în mod rezonabil că:

, de unde σ ots = 5.

Înlocuind această valoare în formulă, obținem .

Formula de determinare mărimea eşantionului aleatoriu în cazul estimării diferenţei dintre proporţii are forma:

Exemplu

O anumită companie are două fabrici care produc produse similare. Un manager de companie dorește să compare procentul de produse defecte din ambele fabrici. Conform informațiilor disponibile, rata defectelor la ambele fabrici variază de la 3 la 5%. Este intenționat să construiască un interval de încredere de 99% cu o jumătate de lungime de cel mult 0,005 (sau 0,5%). Câte produse trebuie selectate din fiecare fabrică?

Soluţie

Aici p 1ots și p 2ots sunt estimări ale a două cote necunoscute de defecte la prima și a doua fabrică. Dacă punem p 1ots = p 2ots = 0,5, atunci obținem o valoare supraestimată pentru n. Dar din moment ce în cazul nostru avem câteva informații a priori despre aceste acțiuni, luăm estimarea superioară a acestor acțiuni și anume 0,05. Primim

Atunci când se estimează unii parametri ai populației din datele eșantionului, este util să se dea nu numai o estimare punctuală a parametrului, ci și să se furnizeze un interval de încredere care arată unde se poate afla valoarea exactă a parametrului estimat.

În acest capitol ne-am familiarizat și cu relații cantitative care ne permit să construim astfel de intervale pentru diverși parametri; a învățat modalități de a controla durata intervalului de încredere.

Rețineți, de asemenea, că problema estimării dimensiunilor eșantionului (problema planificării unui experiment) poate fi rezolvată folosind instrumente standard StatPro, și anume StatPro/Inferență statistică/Selectare dimensiune eșantion.

Din acest articol veți învăța:

    Ce s-a întâmplat interval de încredere?

    Care e ideea regulile 3 sigma?

    Cum poți aplica aceste cunoștințe în practică?

În prezent, datorită unei supraabundențe de informații asociate cu o gamă largă de produse, direcții de vânzare, angajați, domenii de activitate etc., poate fi dificil să evidențiezi principalul lucru, care, în primul rând, merită să-i acordăm atenție și să depunem eforturi pentru a-l gestiona. Definiție interval de încredereși analiza valorilor reale care depășesc limitele sale - o tehnică care vă va ajuta să evidențiați situațiile, influențând tendințele în schimbare. Veți putea dezvolta factori pozitivi și reduce influența celor negativi. Această tehnologie este utilizată în multe companii mondiale bine-cunoscute.

Există așa-numitele „ alerte", care informează managerii că următoarea valoare este într-o anumită direcție a trecut dincolo interval de încredere. Ce înseamnă acest lucru? Acesta este un semnal că a avut loc un eveniment neobișnuit, care poate schimba tendința existentă în această direcție. Acesta este un semnal la asta pentru a-l da seamaîn situație și înțelegeți ce a influențat-o.

De exemplu, luați în considerare mai multe situații. Am calculat prognoza vânzărilor cu limite estimate pentru 100 de articole de produs pentru 2011 pe lună și vânzările reale în martie:

  1. Pentru „uleiul de floarea soarelui” au depășit limita superioară a prognozei și nu au intrat în intervalul de încredere.
  2. Pentru „Drojdie uscată” am depășit limita inferioară a prognozei.
  3. „Teci de ovăz” a depășit limita superioară.

Pentru alte produse, vânzările efective s-au încadrat în limitele prognozate date. Acestea. vânzările lor au fost în limitele așteptărilor. Așadar, am identificat 3 produse care au depășit granițele și am început să ne dăm seama ce le-a influențat să treacă dincolo de granițe:

  1. Pentru uleiul de floarea soarelui am intrat într-o nouă rețea de distribuție, care ne-a oferit un volum suplimentar de vânzări, ceea ce ne-a determinat să depășim limita superioară. Pentru acest produs, merită să recalculăm prognoza până la sfârșitul anului, ținând cont de prognoza de vânzări pentru această rețea.
  2. Pentru „Drojdie uscată”, mașina s-a blocat la vamă și a existat un deficit în 5 zile, ceea ce a afectat scăderea vânzărilor și a depășit limita inferioară. Ar putea fi util să vă dați seama ce a cauzat-o și să încercați să nu repetați această situație.
  3. A fost lansat un eveniment de promovare a vânzărilor pentru Terci de ovăz, care a dat o creștere semnificativă a vânzărilor și a făcut ca compania să depășească prognoza.

Am identificat 3 factori care au influențat depășirea limitelor prognozate. Pot exista mult mai multe în viață Pentru a crește acuratețea prognozei și a planificării, factori care duc la faptul că vânzările reale pot depăși limitele prognozate, merită evidențiate și construirea de previziuni și planuri pentru ele separat. Și apoi luați în considerare impactul lor asupra prognozei principale de vânzări. De asemenea, puteți evalua în mod regulat impactul acestor factori și puteți schimba situația în bine. prin reducerea influenței factorilor negativi și creșterea influenței factorilor pozitivi.

Cu un interval de încredere putem:

  1. Selectați indicațiile de orientare, cărora merită să le acordați atenție, pentru că s-au produs evenimente în aceste direcţii care pot afecta schimbare de tendință.
  2. Identificați factorii, care influențează cu adevărat schimbarea situației.
  3. Accept decizie informată(de exemplu, despre achiziție, planificare etc.).

Acum să ne uităm la ce este un interval de încredere și cum să-l calculăm în Excel folosind un exemplu.

Ce este un interval de încredere?

Intervalul de încredere reprezintă limitele de prognoză (superioare și inferioare), în interiorul cărora cu o probabilitate dată (sigma) vor apărea valorile reale.

Acestea. Calculăm prognoza - acesta este ghidul nostru principal, dar înțelegem că este puțin probabil ca valorile reale să fie 100% egale cu prognoza noastră. Și se pune întrebarea, în ce limite valorile reale pot scădea, dacă tendința actuală continuă? Și această întrebare ne va ajuta să răspundem calculul intervalului de încredere, adică - limitele superioare și inferioare ale prognozei.

Ce este o probabilitate sigma dată?

La calcul interval de încredere putem probabilitate stabilită lovituri valori reale în limitele de prognoză date. Cum să o facă? Pentru a face acest lucru, setăm valoarea lui sigma și, dacă sigma este egal cu:

    3 sigma- atunci, probabilitatea ca următoarea valoare reală să cadă în intervalul de încredere va fi de 99,7%, sau 300 la 1, sau există o probabilitate de 0,3% de a depăși granițele.

    2 sigma- atunci, probabilitatea ca următoarea valoare să se încadreze în limite este ≈ 95,5%, i.e. șansele sunt de aproximativ 20 la 1, sau există o șansă de 4,5% să treci peste bord.

    1 sigma- atunci probabilitatea este ≈ 68,3%, i.e. șansele sunt de aproximativ 2 la 1 sau există o șansă de 31,7% ca următoarea valoare să cadă în afara intervalului de încredere.

Noi am formulat regula 3 sigma,care spune că probabilitatea de lovire o altă valoare aleatorie în intervalul de încredere cu o valoare dată trei sigma este 99,7%.

Marele matematician rus Cebyshev a demonstrat teorema că există o probabilitate de 10% de a depăși limitele prognozate cu o valoare dată de trei sigma. Acestea. probabilitatea de a se încadra în intervalul de încredere de 3 sigma va fi de cel puțin 90%, în timp ce o încercare de a calcula prognoza și limitele acesteia „cu ochi” este plină de erori mult mai semnificative.

Cum să calculezi singur un interval de încredere în Excel?

Să ne uităm la calculul intervalului de încredere în Excel (adică, limitele superioare și inferioare ale prognozei) folosind un exemplu. Avem o serie de timp - vânzări pe lună timp de 5 ani. Vezi fisierul atasat.

Pentru a calcula limitele de prognoză, calculăm:

  1. Prognoza de vânzări().
  2. Sigma - abatere standard modele de prognoză din valori reale.
  3. Trei sigma.
  4. Interval de încredere.

1. Prognoza vânzărilor.

=(RC[-14] (date de serie temporală)- RC[-1] (valoarea modelului))^2(pătrat)


3. Pentru fiecare lună, să însumăm valorile abaterii de la etapa 8 Sum((Xi-Ximod)^2), adică. Să rezumam ianuarie, februarie... pentru fiecare an.

Pentru a face acest lucru, utilizați formula =SUMIF()

SUMIF(matrice cu numerele perioadei din interiorul ciclului (pentru luni de la 1 la 12); link la numărul perioadei din ciclu; link la o matrice cu pătrate ale diferenței dintre datele sursă și valorile perioadei)


4. Calculați abaterea standard pentru fiecare perioadă din ciclu de la 1 la 12 (etapa 10 in fisierul atasat).

Pentru a face acest lucru, extragem rădăcina din valoarea calculată la etapa 9 și împărțim la numărul de perioade din acest ciclu minus 1 = SQRT((Sum(Xi-Ximod)^2/(n-1))

Să folosim formulele din Excel =ROOT(R8 (link către (Sum(Xi-Ximod)^2)/(COUNTIF($O$8:$O$67 (link la matrice cu numere de ciclu); O8 (link la un anumit număr de ciclu pe care îl numărăm în matrice))-1))

Folosind formula Excel = COUNTIF numărăm numărul n


După ce am calculat abaterea standard a datelor reale de la modelul de prognoză, am obținut valoarea sigma pentru fiecare lună - etapa 10 in fisierul atasat.

3. Să calculăm 3 sigma.

La etapa 11 setăm numărul de sigma - în exemplul nostru „3” (etapa 11 in fisierul atasat):

De asemenea, convenabil pentru exersarea valorilor sigma:

1,64 sigma - 10% sanse de depasire a limitei (1 sansa din 10);

1,96 sigma - 5% șansă de a depăși limitele (1 șansă din 20);

2,6 sigma - 1% șansă de a depăși limitele (1 șansă la 100).

5) Calcularea trei sigma, pentru aceasta înmulțim valorile „sigma” pentru fiecare lună cu „3”.

3. Determinați intervalul de încredere.

  1. Limită superioară de prognoză- previziunea vanzarilor tinand cont de crestere si sezonalitate + (plus) 3 sigma;
  2. Limită inferioară de prognoză- prognoza vânzărilor ținând cont de creștere și sezonalitate – (minus) 3 sigma;

Pentru comoditatea calculării intervalului de încredere pentru o perioadă lungă (vezi fișierul atașat), vom folosi formula Excel =Y8+CĂUTARE V(W8, 8 USD: 19 USD, 2,0 USD), Unde

Y8- Prognoza de vânzări;

W8- numarul lunii pentru care vom lua valoarea 3-sigma;

Acestea. Limită superioară de prognoză= „prognoza vânzărilor” + „3 sigma” (în exemplu, CĂUTARE V (numărul lunii; tabel cu valori 3 sigma; coloană din care extragem valoarea sigma egală cu numărul lunii din rândul corespunzător; 0)).

Limită inferioară de prognoză= „prognoza vânzărilor” minus „3 sigma”.

Deci, am calculat intervalul de încredere în Excel.

Acum avem o prognoză și un interval cu limite în care valorile reale vor cădea cu o probabilitate sigma dată.

În acest articol, am analizat ce sunt sigma și regula trei sigma, cum să determinați un interval de încredere și de ce puteți utiliza această tehnică în practică.

Vă dorim prognoze corecte și succes!

Cum Forecast4AC PRO vă poate ajutala calcularea intervalului de încredere?:

    Forecast4AC PRO va calcula automat limitele superioare sau inferioare ale prognozei pentru mai mult de 1000 de serii temporale simultan;

    Capacitatea de a analiza limitele prognozei în comparație cu prognoza, tendința și vânzările reale pe diagramă cu o singură apăsare de tastă;

În programul Forcast4AC PRO este posibil să setați valoarea sigma de la 1 la 3.

Alăturaţi-ne!

Descărcați aplicații gratuite de prognoză și analiză de afaceri:


  • Novo Forecast Lite- automată calculul prognozei V excela.
  • 4analitica - Analiza ABC-XYZși analiza emisiilor Excela.
  • Qlik Sense Desktop și QlikViewPersonal Edition - sisteme BI pentru analiza și vizualizarea datelor.

Testați capacitățile soluțiilor plătite:

  • Novo Forecast PRO- prognoza in Excel pentru seturi mari de date.