تقریب داده های تجربی. روش حداقل مربعات حوزه های کاربردی

3. تقریب توابع با استفاده از روش

کمترین مربعات

روش حداقل مربعات در هنگام پردازش نتایج آزمایش برای تقریب ها (تقریبا) داده های تجربی فرمول تحلیلی شکل خاص فرمول، به عنوان یک قاعده، از ملاحظات فیزیکی انتخاب می شود. این فرمول ها می توانند:

و دیگران.

ماهیت روش حداقل مربعات به شرح زیر است. اجازه دهید نتایج اندازه گیری در جدول ارائه شود:

جدول 4

x n

y n

(3.1)

جایی که f یک تابع شناخته شده است، a 0، a 1، …، a m - پارامترهای ثابت ناشناخته، که مقادیر آنها باید پیدا شود. در روش حداقل مربعات، تقریب تابع (3.1) به وابستگی تجربی در صورت شرط بهترین در نظر گرفته می شود.

(3.2)

به این معنا که مقادیر آ انحراف مجذور تابع تحلیلی مورد نظر از وابستگی تجربی باید حداقل باشد .

توجه داشته باشید که تابعس تماس گرفت لزج.


از آنجا که اختلاف است

پس حداقلی دارد. شرط لازم برای حداقل یک تابع از چندین متغیر، برابری با صفر تمام مشتقات جزئی این تابع با توجه به پارامترها است. بنابراین، یافتن بهترین مقادیر پارامترهای تابع تقریبی (3.1)، یعنی مقادیری که برای آنها Q = Q (a 0 , a 1 , …, a m ) حداقل است، به حل سیستم معادلات کاهش می یابد:

(3.3)

روش حداقل مربعات را می توان تفسیر هندسی زیر ارائه داد: در میان یک خانواده نامتناهی از خطوط از یک نوع معین، یک خط یافت می شود که مجموع مجذور تفاوت ها در مختصات نقاط آزمایشی و مختصات متناظر نقاط مربوط به آن است. معادله این خط کوچکترین خواهد بود.

یافتن پارامترهای یک تابع خطی

اجازه دهید داده های تجربی با یک تابع خطی نمایش داده شوند:

انتخاب چنین مقادیری الزامی استالف و ب ، که برای آن تابع

(3.4)

حداقل خواهد بود. شرایط لازم برای حداقل تابع (3.4) به سیستم معادلات کاهش می یابد:

پس از تبدیل ها، سیستمی متشکل از دو معادله خطی با دو مجهول به دست می آوریم:

(3.5)

با حل آن، مقادیر مورد نظر پارامترها را پیدا می کنیمالف و ب .

یافتن پارامترهای یک تابع درجه دوم

اگر تابع تقریبی یک وابستگی درجه دوم باشد

سپس پارامترهای آن a , b , c از شرط حداقل تابع پیدا کنید:

(3.6)

حداقل شرایط برای تابع (3.6) به سیستم معادلات کاهش می یابد:


پس از تبدیل ها، سیستمی از سه معادله خطی با سه مجهول به دست می آوریم:

(3.7)

در حل می کنیم که مقادیر مورد نظر پارامترها را پیدا می کنیمالف و ب و ج

مثال . اجازه دهید جدول مقادیر زیر در نتیجه آزمایش به دست آید x و y:

جدول 5

y من

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

لازم است داده های تجربی را با توابع خطی و درجه دوم تقریب کنیم.

راه حل. یافتن پارامترهای توابع تقریبی به حل سیستم معادلات خطی (3.5) و (3.7) کاهش می یابد. برای حل مشکل از پردازنده صفحه گسترده استفاده می کنیمبرتری داشتن.

1. ابتدا شیت های 1 و 2 را پیوند می دهیم. مقادیر آزمایشی را وارد کنید x i و y منبه ستون ها A و B، از خط دوم شروع می کنیم (در خط اول عنوان ستون ها را قرار می دهیم). سپس مجموع این ستون ها را محاسبه کرده و در ردیف دهم قرار می دهیم.

در ستون های C–G محاسبه و جمع را به ترتیب قرار دهید

2. ورق ها را باز کنید. محاسبات بیشتر به روشی مشابه برای وابستگی خطی به برگه 1 و برای وابستگی درجه دوم به ورق 2 انجام خواهد شد.

3. در زیر جدول به دست آمده، ماتریسی از ضرایب و بردار ستونی از اعضای آزاد را تشکیل می دهیم. بیایید سیستم معادلات خطی را طبق الگوریتم زیر حل کنیم:

برای محاسبه ماتریس معکوس و ضرب ماتریس ها از استاد کارکردو توابع MOBRو MUMNOZH.

4. در بلوک سلولی H2:اچ 9 بر اساس ضرایب به دست آمده محاسبه می کنیم مقادیر تقریبیچند جمله ایy من کالک.، در بلوک I 2: I 9 - انحرافات D y i = y من انقضا. - y من کالک.، در ستون J - اختلاف:

جداول به دست آمده و ساخته شده با استفاده از جادوگران نمودارنمودارها در شکل های 6، 7، 8 نشان داده شده است.


برنج. 6. جدول محاسبه ضرایب یک تابع خطی،

تقریبیداده های تجربی


برنج. 7. جدول محاسبه ضرایب تابع درجه دوم،

تقریبیداده های تجربی


برنج. 8. نمایش گرافیکی نتایج تقریب

داده های تجربی توابع خطی و درجه دوم.

پاسخ. داده های تجربی با وابستگی خطی تقریبی شدند y = 0,07881 ایکس + 0,442262 با باقی مانده س = 0,165167 و وابستگی درجه دوم y = 3,115476 ایکس 2 – 5,2175 ایکس + 2,529631 با باقی مانده س = 0,002103 .

وظایف. تابع داده شده توسط توابع جدولی، خطی و درجه دوم را تقریب دهید.

جدول 6

№0

ایکس

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599

ماهیت روش در این واقعیت نهفته است که معیار کیفیت راه حل مورد بررسی، مجموع مربعات خطاها است که به دنبال به حداقل رساندن آن است. برای اعمال این، لازم است تا حد امکان اندازه گیری های یک متغیر تصادفی ناشناخته (هر چه بیشتر - دقت راه حل بیشتر باشد) و مجموعه خاصی از راه حل های مورد انتظار انجام شود، که از بین آنها باید بهترین را انتخاب کرد. . اگر مجموعه راه حل ها پارامتر شده باشد، باید مقدار بهینه پارامترها را پیدا کرد.

چرا مربع های خطا به حداقل می رسند، نه خود خطاها؟ واقعیت این است که در بیشتر موارد خطاها در هر دو جهت رخ می دهد: برآورد می تواند بزرگتر از اندازه گیری یا کمتر از آن باشد. اگر خطاهایی را با علائم مختلف اضافه کنیم، آنها یکدیگر را خنثی می کنند و در نتیجه، مجموع تصور نادرستی از کیفیت برآورد به ما می دهد. غالباً برای اینکه تخمین نهایی با مقادیر اندازه گیری شده دارای ابعاد یکسانی باشد، از مجموع مجذور خطاها جذر جذر گرفته می شود.


یک عکس:

LSM در ریاضیات، به ویژه - در نظریه احتمالات و آمار ریاضی استفاده می شود. این روش بیشترین کاربرد را در مشکلات فیلترینگ دارد، زمانی که لازم است سیگنال مفید را از نویز قرار گرفته بر روی آن جدا کنید.

همچنین در آنالیز ریاضی برای نمایش تقریبی یک تابع داده شده توسط توابع ساده تر استفاده می شود. یکی دیگر از زمینه های کاربرد LSM حل سیستم های معادلات با مجهولات کمتر از تعداد معادلات است.

من به چند برنامه بسیار غیرمنتظره دیگر از LSM رسیدم که می خواهم در این مقاله در مورد آنها صحبت کنم.

MNC ها و اشتباهات املایی

اشتباهات تایپی و املایی آفت مترجمان خودکار و موتورهای جستجو است. در واقع، اگر کلمه فقط 1 حرف متفاوت باشد، برنامه آن را به عنوان کلمه دیگری در نظر می گیرد و آن را به اشتباه ترجمه/جستجو می کند یا ترجمه نمی کند/اصلاً آن را پیدا نمی کند.

من مشکل مشابهی داشتم: دو پایگاه داده با آدرس خانه های مسکو وجود داشت و آنها باید در یکی ترکیب می شدند. اما آدرس ها به سبک دیگری نوشته شده بودند. در یک پایگاه داده استاندارد KLADR (طبقه بندی کننده آدرس همه روسی) وجود داشت، به عنوان مثال: "BABUSHKINA PILOT UL., D10K3". و در پایگاه داده دیگری یک سبک پستی وجود داشت، به عنوان مثال: "St. خلبان بابوشکین، خانه 10 ساختمان 3. به نظر می رسد که در هر دو مورد خطایی وجود ندارد و خودکار کردن فرآیند فوق العاده دشوار است (هر پایگاه داده 40000 رکورد دارد!). اگرچه اشتباهات تایپی به اندازه کافی وجود داشت ... چگونه به رایانه بفهمانیم که 2 آدرس بالا متعلق به یک خانه هستند؟ اینجا جایی بود که MNC برای من مفید بود.

من چه کرده ام؟ با یافتن حرف بعدی در آدرس اول، به دنبال همان نامه در آدرس دوم گشتم. اگر هر دو در یک مکان بودند، پس من خطای آن حرف را 0 فرض می‌کردم. اگر در موقعیت‌های مجاور بودند، خطا 1 بود. اگر 2 موقعیت جابه‌جایی داشت، خطا 2 بود و غیره. اگر در آدرس دیگر چنین حرفی وجود نداشت، خطا n+1 در نظر گرفته می شد که n تعداد حروف در آدرس اول است. بنابراین، من مجموع مربعات خطاها را محاسبه کردم و رکوردهایی را که در آنها این مجموع حداقل بود، به هم وصل کردم.

البته تعداد خانه ها و ساختمان ها به طور جداگانه پردازش شد. نمی دانم "دوچرخه" دیگری اختراع کردم یا واقعاً بود، اما مشکل به سرعت و کارآمد حل شد. نمی دانم آیا این روش در موتورهای جستجو استفاده می شود؟ شاید مورد استفاده قرار گیرد، زیرا هر موتور جستجوی محترم، هنگام ملاقات با یک کلمه ناآشنا، جایگزینی از کلمات آشنا ارائه می دهد ("شاید منظور شما ..."). با این حال، آنها می توانند این تحلیل را به نحوی متفاوت انجام دهند.

OLS و جستجو بر اساس تصاویر، چهره ها و نقشه ها

این روش را می توان برای جستجوی تصاویر، نقشه ها، نقشه ها و حتی چهره افراد نیز به کار برد.

یک عکس:

اکنون همه موتورهای جستجو به جای جستجو بر اساس تصاویر، در واقع از جستجو بر اساس شرح تصاویر استفاده می کنند. این بدون شک یک سرویس مفید و راحت است، اما من پیشنهاد می کنم آن را با جستجوی واقعی تصویر تکمیل کنید.

یک تصویر نمونه معرفی می شود و با مجموع مجذور انحرافات نقاط مشخصه برای همه تصاویر رتبه بندی می شود. تعیین این نقاط بسیار مشخص به خودی خود یک کار غیر پیش پا افتاده است. با این حال، کاملا قابل حل است: به عنوان مثال، برای صورت، اینها گوشه چشم، لب، نوک بینی، سوراخ های بینی، لبه ها و مرکز ابروها، مردمک ها و غیره هستند.

با مقایسه این پارامترها، می توانید چهره ای را پیدا کنید که بیشترین شباهت را به نمونه دارد. من قبلاً سایت هایی را دیده ام که چنین سرویسی در آنها کار می کند و شما می توانید یک سلبریتی را پیدا کنید که شبیه ترین عکسی است که شما پیشنهاد کرده اید و حتی انیمیشنی بسازید که شما را تبدیل به یک سلبریتی کند. مطمئناً همین روش در پایگاه های وزارت امور داخله که حاوی تصاویر یکسانی از مجرمان است، کار می کند.

عکس: pixabay.com

بله، و اثر انگشت را می توان به همین روش جستجو کرد. جستجوی نقشه بر بی نظمی های طبیعی اشیاء جغرافیایی - خم رودخانه ها، رشته کوه ها، خطوط کلی سواحل، جنگل ها و مزارع متمرکز است.

در اینجا یک روش OLS فوق العاده و همه کاره وجود دارد. من مطمئن هستم که شما خوانندگان عزیز می توانید بسیاری از کاربردهای غیرمعمول و غیرمنتظره این روش را برای خود بیابید.

روش حداقل مربعات (OLS، eng. Ordinary Least Squares، OLS)- یک روش ریاضی که برای حل مسائل مختلف استفاده می شود، بر اساس به حداقل رساندن مجموع مجذور انحراف برخی از توابع از متغیرهای مورد نظر. می توان از آن برای "حل" معادلات بیش از حد تعیین شده استفاده کرد (زمانی که تعداد معادلات از تعداد مجهولات بیشتر شود)، برای یافتن راه حل در مورد سیستم های غیرخطی معادلات معمولی (نه بیش از حد تعیین شده)، برای تقریب مقادیر نقطه ای. از یک عملکرد خاص OLS یکی از روش های اساسی تحلیل رگرسیون برای تخمین پارامترهای ناشناخته مدل های رگرسیون از داده های نمونه است.

یوتیوب دایره المعارفی

    1 / 5

    ✪ روش حداقل مربعات. موضوع

    ✪ Mitin I. V. - پردازش نتایج فیزیکی. آزمایش - روش حداقل مربعات (سخنرانی 4)

    ✪ حداقل مربعات، درس 1/2. تابع خطی

    ✪ اقتصاد سنجی سخنرانی 5. روش حداقل مربعات

    ✪ روش حداقل مربعات. پاسخ ها

    زیرنویس

داستان

تا اوایل قرن نوزدهم. دانشمندان قوانین خاصی برای حل یک سیستم معادلات که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان روش‌های خاصی بسته به نوع معادلات و هوشمندی ماشین‌حساب‌ها مورد استفاده قرار می‌گرفت و بنابراین ماشین‌حساب‌های مختلف، با شروع از داده‌های مشاهداتی یکسان، به نتایج متفاوتی می‌رسیدند. اولین کاربرد این روش به گاوس (1795) نسبت داده می شود و لژاندر (1805) به طور مستقل آن را کشف و با نام مدرن خود منتشر کرد (fr. Metode des moindres quarres) . لاپلاس این روش را با نظریه احتمالات مرتبط کرد و ریاضیدان آمریکایی آدرین (1808) کاربردهای احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافته و بهبود یافته است.

ماهیت روش حداقل مربعات

اجازه دهید x (\displaystyle x)- کیت n (\displaystyle n)متغیرهای ناشناخته (پارامترها) f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- مجموعه ای از توابع از این مجموعه از متغیرها. مشکل انتخاب چنین مقادیری است x (\displaystyle x)به طوری که مقادیر این توابع تا حد امکان به برخی از مقادیر نزدیک باشد y i (\displaystyle y_(i)). در اصل، ما در مورد "حل" سیستم معادلات بیش از حد تعیین شده صحبت می کنیم. f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)در معنای مشخص شده، حداکثر نزدیکی قسمت های چپ و راست سیستم. ماهیت LSM این است که به عنوان یک "میزان مجاورت" مجموع انحرافات مجذور قسمت های چپ و راست را انتخاب کنید. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). بنابراین، ماهیت LSM را می توان به صورت زیر بیان کرد:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\پیکان راست \دقیقه _(x)).

اگر سیستم معادلات دارای جواب باشد، حداقل مجموع مربعات برابر با صفر خواهد بود و جواب های دقیق سیستم معادلات را می توان به صورت تحلیلی یا مثلاً با روش های مختلف بهینه سازی عددی یافت. اگر سیستم بیش از حد تعیین شده باشد، یعنی به زبان ساده، تعداد معادلات مستقل از تعداد متغیرهای مجهول بیشتر باشد، در این صورت سیستم راه حل دقیقی ندارد و روش حداقل مربعات به ما امکان می دهد برخی از بردارهای "بهینه" را پیدا کنیم. x (\displaystyle x)به معنای حداکثر نزدیکی بردارها y (\displaystyle y)و f (x) (\displaystyle f(x))یا حداکثر نزدیکی بردار انحراف e (\displaystyle e)به صفر (نزدیک به معنای فاصله اقلیدسی درک می شود).

مثال - سیستم معادلات خطی

به طور خاص، روش حداقل مربعات را می توان برای "حل" سیستم معادلات خطی استفاده کرد

A x = b (\displaystyle Ax=b),

جایی که A (\displaystyle A)ماتریس اندازه مستطیلی m × n، m > n (\displaystyle m\times n,m>n)(یعنی تعداد ردیف های ماتریس A بیشتر از تعداد متغیرهای مورد نیاز است).

چنین سیستم معادلاتی به طور کلی هیچ راه حلی ندارد. بنابراین، این سیستم را می توان تنها به معنای انتخاب چنین بردار "حل" کرد x (\displaystyle x)برای به حداقل رساندن "فاصله" بین بردارها A x (\displaystyle Axe)و b (\displaystyle b). برای این کار می توانید معیار کمینه سازی مجذور اختلاف قسمت های چپ و راست معادلات سیستم را اعمال کنید. (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\right arrow \min ). به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

OLS در تحلیل رگرسیون (تقریبا داده ها)

بذار باشه n (\displaystyle n)مقادیر برخی از متغیرها y (\displaystyle y)(این ممکن است نتایج مشاهدات، آزمایش ها و غیره باشد) و متغیرهای مربوطه x (\displaystyle x). چالش ایجاد رابطه بین y (\displaystyle y)و x (\displaystyle x)تقریبی توسط برخی تابع شناخته شده تا برخی از پارامترهای ناشناخته b (\displaystyle b)، یعنی در واقع بهترین مقادیر پارامترها را پیدا کنید b (\displaystyle b)، با حداکثر تقریب مقادیر f (x , b) (\displaystyle f(x,b))به ارزش های واقعی y (\displaystyle y). در واقع، این به حالت "حل" یک سیستم معادلات بیش از حد تعیین شده با توجه به b (\displaystyle b):

F (xt، b) = y t، t = 1، …، n (\displaystyle f(x_(t)،b)=y_(t)،t=1،\ldots،n).

در تحلیل رگرسیون و به ویژه در اقتصاد سنجی از مدل های احتمالی رابطه بین متغیرها استفاده می شود.

Y t = f (xt , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

جایی که ε t (\displaystyle \varepsilon _(t))- باصطلاح خطاهای تصادفیمدل ها.

بر این اساس، انحراف مقادیر مشاهده شده y (\displaystyle y)از مدل f (x , b) (\displaystyle f(x,b))قبلاً در خود مدل فرض شده است. ماهیت LSM (معمولی، کلاسیک) یافتن چنین پارامترهایی است b (\displaystyle b)، که در آن مجموع انحرافات مجذور (خطاها، برای مدل های رگرسیون اغلب آنها را باقیمانده رگرسیون می نامند) e t (\displaystyle e_(t))حداقل خواهد بود:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

جایی که R S S (\displaystyle RSS)- انگلیسی. مجموع مربعات باقیمانده به صورت زیر تعریف می شود:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\جمع _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

در حالت کلی می توان این مشکل را با روش های عددی بهینه سازی (حداقل سازی) حل کرد. در این مورد، شخص صحبت می کند حداقل مربعات غیر خطی(NLS یا NLLS - eng. حداقل مربعات غیر خطی). در بسیاری از موارد می توان یک راه حل تحلیلی به دست آورد. برای حل مشکل کمینه سازی، باید نقاط ساکن تابع را پیدا کرد R S (b) (\displaystyle RSS(b))، آن را با توجه به پارامترهای ناشناخته متمایز می کند b (\displaystyle b)، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t)،b))(\frac (\جزئی f(x_(t)،b))(\جزئی b))=0).

LSM در مورد رگرسیون خطی

بگذارید وابستگی رگرسیون خطی باشد:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

اجازه دهید yبردار ستون مشاهدات متغیر مورد توضیح است و X (\displaystyle X)- این هست (n × k) (\displaystyle ((n\times k)))- ماتریس مشاهدات عوامل (ردیف های ماتریس - بردارهای مقادیر عامل در یک مشاهده داده شده، توسط ستون ها - بردار مقادیر یک عامل معین در همه مشاهدات). نمایش ماتریسی مدل خطی به شکل زیر است:

y = Xb + ε (\displaystyle y=Xb+\varepsilon).

سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر با

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

بر این اساس مجموع مجذورهای باقیمانده رگرسیون برابر خواهد بود

R S S = e T e = (y - X b) T (y - X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

متمایز کردن این تابع با توجه به بردار پارامتر b (\displaystyle b)و با معادل سازی مشتقات با صفر، سیستمی از معادلات را به دست می آوریم (به صورت ماتریسی):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

در شکل ماتریس رمزگشایی شده، این سیستم معادلات به شکل زیر است:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t ∑ x t 2 x 3 x 1 x 1 ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b x t 3 ⋮ b x k) = (\y) (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk) \\\ جمع x_(t2)x_(t1)&\مجموع x_(t2)^(2)&\مجموع x_(t2)x_(t3)&\ldots &\ مجموع x_(t2)x_(tk) \\\مجموع x_(t3)x_(t1)&\مجموع x_(t3)x_(t2)&\مجموع x_(t3)^(2)&\ldots &\ جمع x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\ مجموع x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3)\\\vdots \\b_( k)\\\پایان(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \ جمع x_(t3)y_(t )\\\vdots \\\ جمع x_(tk)y_(t)\\\ end (pmatrix)))که در آن تمام مبالغ بر تمام مقادیر مجاز گرفته می شود t (\displaystyle t).

اگر یک ثابت در مدل گنجانده شود (طبق معمول)، پس x t 1 = 1 (\displaystyle x_(t1)=1)برای همه t (\displaystyle t)بنابراین، در گوشه سمت چپ بالای ماتریس سیستم معادلات تعداد مشاهدات است. n (\displaystyle n)، و در عناصر باقی مانده از ردیف اول و ستون اول - فقط مجموع مقادیر متغیرها: ∑ x t j (\displaystyle \sum x_(tj))و اولین عنصر سمت راست سیستم - ∑ y t (\displaystyle \ جمع y_(t)).

حل این سیستم معادلات فرمول کلی را برای برآورد حداقل مربعات برای مدل خطی به دست می دهد:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\چپ((\frac (1)(n))X^(T)X\راست)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

برای اهداف تحلیلی، آخرین نمایش این فرمول مفید است (در سیستم معادلات وقتی بر n تقسیم می شود، میانگین های حسابی به جای مجموع ظاهر می شوند). اگر داده ها در مدل رگرسیونی متمرکز شده استسپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه عوامل و ماتریس دوم بردار کوواریانس عوامل با متغیر وابسته است. اگر علاوه بر این، داده نیز باشد نرمال شدهدر SKO (یعنی در نهایت استاندارد شده، سپس ماتریس اول به معنای ماتریس همبستگی نمونه عوامل است، بردار دوم - بردار همبستگی نمونه عوامل با متغیر وابسته.

ویژگی مهم تخمین LLS برای مدل ها با یک ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\کلاه (ب))_(j)(\bar (x))_(j)).

به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه می‌شویم که تخمین OLS از یک پارامتر واحد (خود ثابت) برابر است با مقدار میانگین متغیر توضیح داده شده. یعنی، میانگین حسابی، که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته می شود، همچنین یک تخمین حداقل مربعات است - این معیار حداقل مجموع مجذور انحرافات از آن را برآورده می کند.

ساده ترین موارد خاص

در مورد رگرسیون خطی زوجی y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))، هنگامی که وابستگی خطی یک متغیر به متغیر دیگر تخمین زده می شود، فرمول های محاسبه ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید). سیستم معادلات به شکل زیر است:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end (pmatrix))).

از اینجا به راحتی می توان تخمین هایی را برای ضرایب پیدا کرد:

(b ^ = Cov⁡ (x, y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2, a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(موارد) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2)))،\\( \hat (a))=(\bar (y))-b(\bar (x)).\end (موارد)))

علیرغم اینکه به طور کلی مدل های دارای ثابت ارجح هستند، در برخی موارد از ملاحظات نظری مشخص می شود که ثابت a (\displaystyle a)باید برابر با صفر باشد. برای مثال در فیزیک رابطه بین ولتاژ و جریان شکلی دارد U = I ⋅ R (\displaystyle U=I\cdot R); برای اندازه گیری ولتاژ و جریان، لازم است مقاومت را تخمین بزنیم. در این مورد، ما در مورد یک مدل صحبت می کنیم y = b x (\displaystyle y=bx). در این حالت به جای سیستم معادلات، یک معادله واحد داریم

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

بنابراین فرمول تخمین یک ضریب منفرد دارای فرم است

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\ جمع _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\ overline (x^(2)) ))).

مورد یک مدل چند جمله ای

اگر داده ها با تابع رگرسیون چند جمله ای یک متغیر برازش داده شوند f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i))، سپس درک درجات x i (\displaystyle x^(i))به عنوان عوامل مستقل برای هر یک من (\displaystyle i)برآورد پارامترهای مدل بر اساس فرمول کلی برای تخمین پارامترهای مدل خطی امکان پذیر است. برای این کار کافی است در فرمول کلی در نظر بگیریم که با چنین تعبیری x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))و x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). بنابراین، معادلات ماتریسی در این مورد به شکل زیر خواهد بود:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t k + 1 ... ∑ n x t k n y t ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\ جمع \حدود _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

ویژگی های آماری برآوردهای OLS

اول از همه، توجه می کنیم که برای مدل های خطی، برآوردهای حداقل مربعات، تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای بی طرفی تخمین های حداقل مربعات، تحقق مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی مشروط به عوامل باید برابر با صفر باشد. این شرط ارضا می شود، به ویژه، اگر

  1. انتظار ریاضی خطاهای تصادفی صفر است و
  2. عوامل و خطاهای تصادفی مقادیر مستقل و تصادفی هستند.

شرط دوم - شرط عوامل برونزا - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها امکان به دست آوردن تخمین های کیفی را در این مورد نمی دهد). در مورد کلاسیک، فرض قوی تری در مورد قطعیت عوامل ایجاد می شود، برخلاف یک خطای تصادفی، که به طور خودکار به این معنی است که شرایط برون زا برآورده می شود. در حالت کلی، برای سازگاری برآوردها، ارضای شرط برون زایی همراه با همگرایی ماتریس کافی است. V x (\displaystyle V_(x))با افزایش حجم نمونه تا بی نهایت، به برخی از ماتریس های غیر منحط می رسد.

برای اینکه علاوه بر سازگاری و بی طرفی، برآورد حداقل مربعات (معمول) نیز مؤثر باشد (بهترین در کلاس تخمین های بی طرفانه خطی)، لازم است ویژگی های اضافی یک خطای تصادفی را برآورده کرد:

این مفروضات را می توان برای ماتریس کوواریانس بردار خطاهای تصادفی فرموله کرد. V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک. تخمین‌های OLS برای رگرسیون خطی کلاسیک، تخمین‌های بی‌طرف، سازگار و کارآمد در کلاس تمام تخمین‌های بی‌طرف خطی هستند (در ادبیات انگلیسی، گاهی اوقات از مخفف استفاده می‌شود. آبی (بهترین برآوردگر خطی بی طرفانه) بهترین تخمین بی طرفانه خطی است. در ادبیات داخلی، قضیه گاوس--مارکف بیشتر مورد استناد قرار می گیرد. همانطور که نشان دادن آسان است، ماتریس کوواریانس بردار برآورد ضریب برابر خواهد بود با:

V (b ^ O L S) = σ 2 (X T X) - 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

کارایی به این معنی است که این ماتریس کوواریانس "حداقل" است (هر ترکیب خطی ضرایب، و به ویژه خود ضرایب، دارای حداقل واریانس هستند)، یعنی در کلاس تخمین های بی طرف خطی، تخمین های OLS بهترین هستند. عناصر مورب این ماتریس - واریانس های تخمین ضرایب - پارامترهای مهم کیفیت برآوردهای به دست آمده هستند. با این حال، محاسبه ماتریس کوواریانس ممکن نیست زیرا واریانس خطای تصادفی ناشناخته است. می توان ثابت کرد که برآورد بی طرفانه و سازگار (برای مدل خطی کلاسیک) از واریانس خطاهای تصادفی مقدار:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

با جایگزینی این مقدار در فرمول ماتریس کوواریانس، تخمینی از ماتریس کوواریانس بدست می آوریم. برآوردهای حاصل نیز بی‌طرفانه و سازگار هستند. همچنین مهم است که تخمین واریانس خطا (و در نتیجه واریانس ضرایب) و تخمین پارامترهای مدل، متغیرهای تصادفی مستقل باشند، که امکان به دست آوردن آمار آزمون برای آزمون فرضیه‌های مربوط به ضرایب مدل را ممکن می‌سازد.

لازم به ذکر است که اگر مفروضات کلاسیک برآورده نشوند، برآوردهای پارامتر حداقل مربعات کارآمدترین نیستند و در جایی که W (\displaystyle W)یک ماتریس وزن قطعی مثبت متقارن است. حداقل مربعات معمولی یک مورد خاص از این رویکرد است، زمانی که ماتریس وزن متناسب با ماتریس هویت باشد. همانطور که مشخص است، برای ماتریس های متقارن (یا عملگرها) تجزیه وجود دارد W = P T P (\displaystyle W=P^(T)P). بنابراین، این تابع را می توان به صورت زیر نشان داد e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *))، یعنی این تابع را می توان به عنوان مجموع مربع های برخی از "باقیمانده های" تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم.

ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) تخمین های به اصطلاح هستند. OLS تعمیم یافته (OMNK، GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی برابر با ماتریس کوواریانس معکوس خطاهای تصادفی: W = V ε - 1 (\displaystyle W=V_(\varepsilon)^(-1)).

می توان نشان داد که فرمول تخمین GLS پارامترهای مدل خطی دارای شکل است.

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

ماتریس کوواریانس این برآوردها به ترتیب برابر خواهد بود

V (b ^ G L S) = (X T V - 1 X) - 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- یک)).

در واقع، ماهیت OLS در یک تبدیل خاص (خطی) (P) از داده های اصلی و اعمال حداقل مربعات معمول برای داده های تبدیل شده نهفته است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند.

حداقل مربعات وزنی

در مورد ماتریس وزن مورب (و از این رو ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS - Weighted Least Squares) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" دریافت می کند که با واریانس خطای تصادفی در این مشاهده نسبت معکوس دارد: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ سیگما _(t)^(2)))). در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر مقداری متناسب با انحراف استاندارد فرضی خطاهای تصادفی) تبدیل می شوند و حداقل مربعات نرمال برای داده های وزنی اعمال می شود.

ISBN 978-5-7749-0473-0.

  • اقتصاد سنجی. کتاب درسی / ویرایش. Eliseeva I. I. - ویرایش دوم. - م.: امور مالی و آمار، 2006. - 576 ص. - ISBN 5-279-02786-3.
  • الکساندروا N.V.تاریخچه اصطلاحات، مفاهیم، ​​نامگذاری های ریاضی: کتاب فرهنگ لغت مرجع. - چاپ سوم - M.: LKI، 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin، Rusakov V.S. تجزیه و تحلیل و پردازش داده های تجربی - ویرایش پنجم - 24 ص.
  • روش حداقل مربعاتبرای تخمین پارامترهای معادله رگرسیون استفاده می شود.
    تعداد خطوط (اطلاعات اولیه)

    یکی از روش های بررسی روابط تصادفی بین ویژگی ها، تحلیل رگرسیون است.
    تجزیه و تحلیل رگرسیون مشتق از یک معادله رگرسیونی است که برای یافتن مقدار متوسط ​​یک متغیر تصادفی (ویژگی-نتیجه) استفاده می شود، در صورتی که مقدار متغیرهای دیگر (یا سایر) (فاکتورها) مشخص باشد. شامل مراحل زیر است:

    1. انتخاب شکل اتصال (نوع معادله رگرسیون تحلیلی)؛
    2. تخمین پارامترهای معادله;
    3. ارزیابی کیفیت معادله رگرسیون تحلیلی.
    اغلب، یک فرم خطی برای توصیف رابطه آماری ویژگی ها استفاده می شود. توجه به یک رابطه خطی با یک تفسیر اقتصادی روشن از پارامترهای آن، محدود به تغییرات متغیرها، و با این واقعیت که در بیشتر موارد، اشکال غیر خطی یک رابطه تبدیل می‌شوند (با گرفتن لگاریتم یا تغییر متغیرها) توضیح داده می‌شود. به شکل خطی برای انجام محاسبات.
    در مورد یک رابطه جفت خطی، معادله رگرسیون به شکل زیر خواهد بود: y i =a+b·x i +u i. پارامترهای این معادله a و b از داده های مشاهدات آماری x و y برآورد شده است. نتیجه چنین ارزیابی معادله است: , که در آن , - تخمین پارامترهای a و b , - مقدار مشخصه مؤثر (متغیر) بدست آمده توسط معادله رگرسیون (مقدار محاسبه شده).

    رایج ترین مورد استفاده برای تخمین پارامتر است روش حداقل مربعات (LSM).
    روش حداقل مربعات بهترین تخمین (سازگار، کارآمد و بی طرفانه) را از پارامترهای معادله رگرسیون ارائه می دهد. اما تنها در صورتی که مفروضات خاصی در مورد عبارت تصادفی (u) و متغیر مستقل (x) برآورده شوند (به فرضیات OLS مراجعه کنید).

    مسئله تخمین پارامترهای یک معادله جفت خطی به روش حداقل مربعاتشامل موارد زیر است: برای به دست آوردن چنین برآوردهایی از پارامترها، که در آن مجموع انحرافات مجذور مقادیر واقعی ویژگی مؤثر - y i از مقادیر محاسبه شده - حداقل است.
    به صورت رسمی معیار OLSمی توان اینگونه نوشت: .

    طبقه بندی روش های حداقل مربعات

    1. روش حداقل مربعات
    2. روش حداکثر درستنمایی (برای یک مدل رگرسیون خطی کلاسیک نرمال، نرمال بودن باقیمانده های رگرسیون فرض شده است).
    3. روش حداقل مربعات تعمیم یافته GLSM در مورد خودهمبستگی خطا و در مورد ناهمسانی استفاده می شود.
    4. روش حداقل مربعات وزنی (مورد خاص GLSM با باقیمانده های ناهمسان).

    ماهیت را نشان دهید روش کلاسیک حداقل مربعات گرافیکی. برای انجام این کار، با توجه به داده‌های مشاهده‌ای (xi, y i, i=1;n) در یک سیستم مختصات مستطیلی یک نمودار نقطه‌ای می‌سازیم (به چنین نمودار نقطه‌ای میدان همبستگی می‌گویند). بیایید سعی کنیم خط مستقیمی را پیدا کنیم که نزدیکترین خط به نقاط میدان همبستگی باشد. بر اساس روش حداقل مربعات، خط به گونه ای انتخاب می شود که مجموع مجذور فاصله های عمودی بین نقاط میدان همبستگی و این خط حداقل باشد.

    نماد ریاضی این مسئله: .
    مقادیر y i و x i = 1...n برای ما شناخته شده است، اینها داده های مشاهده ای هستند. در تابع S ثابت هستند. متغیرهای این تابع برآوردهای مورد نیاز پارامترهای - , . برای یافتن حداقل یک تابع از 2 متغیر، لازم است مشتقات جزئی این تابع را نسبت به هر یک از پارامترها محاسبه کرده و آنها را با صفر برابر کنیم. .
    در نتیجه سیستمی متشکل از 2 معادله خطی نرمال بدست می آوریم:
    با حل این سیستم، تخمین پارامترهای مورد نیاز را پیدا می کنیم:

    صحت محاسبه پارامترهای معادله رگرسیون را می توان با مقایسه مجموع بررسی کرد (به دلیل گرد کردن محاسبات ممکن است مقداری مغایرت وجود داشته باشد).
    برای محاسبه تخمین پارامترها، می توانید جدول 1 را بسازید.
    علامت ضریب رگرسیون b جهت رابطه را نشان می دهد (اگر b > 0، رابطه مستقیم است، اگر b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
    به طور رسمی، مقدار پارامتر a میانگین مقدار y برای x برابر با صفر است. اگر ضریب علامت مقدار صفر نداشته باشد و نتواند داشته باشد، تفسیر فوق از پارامتر a معنی ندارد.

    ارزیابی تنگی رابطه بین ویژگی ها با استفاده از ضریب همبستگی جفت خطی - r x,y انجام می شود. با استفاده از فرمول قابل محاسبه است: . علاوه بر این، ضریب همبستگی جفت خطی را می توان بر اساس ضریب رگرسیون b تعیین کرد: .
    محدوده مقادیر مجاز ضریب خطی همبستگی جفت از 1- تا 1+ است. علامت ضریب همبستگی جهت رابطه را نشان می دهد. اگر r x، y > 0، آنگاه اتصال مستقیم است. اگر r x، y<0, то связь обратная.
    اگر این ضریب نزدیک به واحد در مدول باشد، رابطه بین ویژگی ها را می توان به عنوان یک رابطه خطی نسبتا نزدیک تفسیر کرد. اگر مدول آن برابر با یک ê r x، y ê =1 باشد، آنگاه رابطه بین ویژگی ها تابعی خطی است. اگر ویژگی های x و y به صورت خطی مستقل باشند، آنگاه r x,y نزدیک به 0 است.
    از جدول 1 نیز می توان برای محاسبه r x,y استفاده کرد.

    میز 1

    N مشاهداتx iy منx i ∙ y i
    1 x 1y 1x 1 y 1
    2 x2y2x 2 y 2
    ...
    nx ny nx n y n
    جمع ستون∑x∑y∑ x y
    منظور داشتن
    برای ارزیابی کیفیت معادله رگرسیون به دست آمده، ضریب تعیین نظری محاسبه می شود - R 2 yx:

    ,
    که در آن d 2 واریانس y است که با معادله رگرسیون توضیح داده می شود.
    e 2 - واریانس باقیمانده (با معادله رگرسیون قابل توضیح نیست) واریانس y ;
    s 2 y - واریانس کل (کل) y .
    ضریب تعیین، سهم تغییر (پراکندگی) ویژگی حاصل از y را که با رگرسیون (و در نتیجه، عامل x) در کل تغییرات (پراکندگی) y توضیح داده شده است، مشخص می کند. ضریب تعیین R 2 yx مقادیر 0 تا 1 را می گیرد. بر این اساس، مقدار 1-R 2 yx نسبت واریانس y را مشخص می کند که ناشی از تأثیر سایر عوامل در نظر گرفته نشده در مدل و خطاهای مشخصات است.
    با رگرسیون خطی زوجی R 2 yx =r 2 yx .

    تابع را با یک چند جمله ای درجه 2 تقریب می کنیم. برای انجام این کار، ضرایب سیستم نرمال معادلات را محاسبه می کنیم:

    , ,

    اجازه دهید یک سیستم معمولی از حداقل مربعات بسازیم که به شکل زیر است:

    راه حل سیستم به راحتی پیدا می شود:،، .

    بنابراین، چند جمله ای درجه 2 یافت می شود: .

    پیش زمینه نظری

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال 2. یافتن درجه بهینه یک چند جمله ای

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال 3. استخراج یک سیستم نرمال معادلات برای یافتن پارامترهای یک وابستگی تجربی.

    اجازه دهید سیستمی از معادلات را برای تعیین ضرایب و توابع استخراج کنیم ، که تقریب ریشه میانگین مربع تابع داده شده را با توجه به نقاط انجام می دهد. یک تابع بنویسید و شرط اکستریم لازم برای آن را بنویسید:

    سپس سیستم عادی به شکل زیر در می آید:

    ما یک سیستم خطی معادلات برای پارامترهای مجهول به دست آورده ایم که به راحتی قابل حل است.

    پیش زمینه نظری

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال.

    داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

    در نتیجه تراز آنها، تابع

    استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریبی کنید y=ax+b(پیدا کردن پارامترها آو ب). دریابید که کدام یک از دو خط بهتر است (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید.

    ماهیت روش حداقل مربعات (LSM).

    مشکل پیدا کردن ضرایب وابستگی خطی است که برای آنها تابع دو متغیر است آو بکمترین مقدار را می گیرد. یعنی با توجه به داده ها آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است.

    بنابراین، حل مثال به یافتن حد فاصل یک تابع از دو متغیر خلاصه می شود.

    استخراج فرمول برای یافتن ضرایب.

    یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی توابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم.

    ما سیستم معادلات حاصل را با هر روشی حل می کنیم (مثلا روش تعویضیا روش کرامر) و فرمول های یافتن ضرایب را با استفاده از روش حداقل مربعات (LSM) بدست آورید.

    با داده آو بعملکرد کمترین مقدار را می گیرد. اثبات این حقیقت در زیر در متن انتهای صفحه آورده شده است.

    این کل روش حداقل مربعات است. فرمول برای یافتن پارامتر آشامل مجموع ، ، ، و پارامتر است nمقدار داده های تجربی است. مقادیر این مبالغ توصیه می شود به طور جداگانه محاسبه شوند.

    ضریب ببعد از محاسبه پیدا شد آ.

    وقت آن است که نمونه اصلی را به خاطر بسپارید.

    راه حل.

    در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

    مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

    مقادیر ردیف پنجم جدول با مربع کردن مقادیر سطر دوم برای هر عدد به دست می آید. من.

    مقادیر آخرین ستون جدول مجموع مقادیر در سراسر سطرها است.

    برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. ما مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

    در نتیجه، y=0.165x+2.184خط مستقیم تقریبی مورد نظر است.

    باقی مانده است که بفهمیم کدام یک از خطوط y=0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی تخمینی را با استفاده از روش حداقل مربعات انجام می دهد.

    برآورد خطای روش حداقل مربعات.

    برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که از نظر روش حداقل مربعات، داده های اصلی را بهتر تقریب می کند.

    از آن زمان، پس از آن خط y=0.165x+2.184داده های اصلی را بهتر تقریب می کند.

    تصویر گرافیکی روش حداقل مربعات (LSM).

    همه چیز در نمودارها عالی به نظر می رسد. خط قرمز همان خط یافت شده است y=0.165x+2.184، خط آبی است ، نقاط صورتی داده های اصلی هستند.

    برای چیست، این همه تقریب برای چیست؟

    من شخصاً برای حل مسائل هموارسازی داده ها، مسائل درون یابی و برون یابی استفاده می کنم (در مثال اصلی، می توان از شما درخواست کرد که مقدار مقدار مشاهده شده را پیدا کنید. yدر x=3یا چه زمانی x=6طبق روش MNC). اما در ادامه در بخش دیگری از سایت در این مورد بیشتر صحبت خواهیم کرد.

    بالای صفحه

    اثبات

    به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

    دیفرانسیل مرتبه دوم به شکل زیر است:

    به این معنا که

    بنابراین، ماتریس فرم درجه دوم دارای فرم است

    و مقادیر عناصر به آن بستگی ندارد آو ب.

    اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. این مستلزم آن است که مینورهای زاویه مثبت باشند.

    مینور زاویه ای مرتبه اول . نابرابری سخت است، زیرا نقاط بر هم منطبق نیستند. این امر در مواردی که در ادامه خواهد آمد به طور ضمنی مشخص خواهد شد.

    مینور زاویه ای مرتبه دوم

    این را ثابت کنیم روش استقراء ریاضی

    نتیجه: مقادیر یافت شده آو ببا کوچکترین مقدار تابع مطابقت دارد بنابراین، پارامترهای مورد نظر برای روش حداقل مربعات هستند.

    تا حالا فهمیدی؟
    یک راه حل سفارش دهید

    بالای صفحه

    توسعه پیش بینی با استفاده از روش حداقل مربعات. مثال حل مسئله

    برون یابی - این یک روش تحقیق علمی است که مبتنی بر انتشار روندهای گذشته و حال، الگوها، روابط با توسعه آینده موضوع پیش بینی است. روش های برون یابی شامل روش میانگین متحرک، روش هموارسازی نمایی، روش حداقل مربعات.

    ذات روش حداقل مربعات شامل به حداقل رساندن مجموع انحرافات مربع بین مقادیر مشاهده شده و محاسبه شده است. مقادیر محاسبه شده با توجه به معادله انتخاب شده - معادله رگرسیون پیدا می شود. هرچه فاصله بین مقادیر واقعی و مقادیر محاسبه شده کمتر باشد، پیش بینی بر اساس معادله رگرسیون دقیق تر است.

    تجزیه و تحلیل نظری ماهیت پدیده مورد مطالعه، تغییری که در آن توسط یک سری زمانی نمایش داده می شود، به عنوان مبنایی برای انتخاب یک منحنی عمل می کند. ملاحظاتی در مورد ماهیت رشد سطوح سریال گاهی مورد توجه قرار می گیرد. بنابراین، اگر رشد خروجی در یک تصاعد حسابی انتظار می رود، هموارسازی در یک خط مستقیم انجام می شود. اگر معلوم شد که رشد نمایی است، صاف کردن باید مطابق تابع نمایی انجام شود.

    فرمول کار روش حداقل مربعات : Y t+1 = a*X + b، جایی که t + 1 دوره پیش بینی است. Уt+1 - شاخص پیش بینی شده. a و b ضرایب هستند. X نماد زمان است.

    ضرایب a و b بر اساس فرمول زیر محاسبه می شود:

    جایی که، Uf - مقادیر واقعی سری دینامیک؛ n تعداد سطوح در سری زمانی است.

    هموارسازی سری های زمانی با روش حداقل مربعات در خدمت منعکس کننده الگوهای توسعه پدیده مورد مطالعه است. در بیان تحلیلی یک روند، زمان به عنوان یک متغیر مستقل در نظر گرفته می شود و سطوح سری تابعی از این متغیر مستقل عمل می کنند.

    توسعه یک پدیده به این بستگی ندارد که چند سال از نقطه شروع آن گذشته باشد، بلکه به این بستگی دارد که چه عواملی بر توسعه آن تأثیر گذاشته اند، در چه جهتی و با چه شدتی. از اینجا مشخص می شود که توسعه یک پدیده در زمان در نتیجه عمل این عوامل ظاهر می شود.

    تنظیم صحیح نوع منحنی، نوع وابستگی تحلیلی به زمان یکی از دشوارترین وظایف تحلیل پیش پیش بینی است. .

    انتخاب نوع تابعی که روند را توصیف می‌کند، که پارامترهای آن با روش حداقل مربعات تعیین می‌شوند، در اغلب موارد تجربی، با ساخت تعدادی توابع و مقایسه آن‌ها با یکدیگر با مقدار میانگین ریشه است. خطای مربعی که با فرمول محاسبه می شود:

    جایی که Uf - مقادیر واقعی سری دینامیک؛ Ur - مقادیر محاسبه شده (هموار) سری های زمانی؛ n تعداد سطوح در سری زمانی است. p تعداد پارامترهای تعریف شده در فرمول های توصیف کننده روند (روند توسعه) است.

    معایب روش حداقل مربعات :

    • هنگام تلاش برای توصیف پدیده اقتصادی مورد مطالعه با استفاده از یک معادله ریاضی، پیش‌بینی برای مدت کوتاهی دقیق خواهد بود و معادله رگرسیون باید با دستیابی به اطلاعات جدید مجدداً محاسبه شود.
    • پیچیدگی انتخاب معادله رگرسیون که با استفاده از برنامه های کامپیوتری استاندارد قابل حل است.

    نمونه ای از استفاده از روش حداقل مربعات برای توسعه پیش بینی

    یک وظیفه . داده هایی وجود دارد که سطح بیکاری در منطقه را مشخص می کند، %

    • با استفاده از روش های میانگین متحرک، هموارسازی نمایی، حداقل مربعات، پیش بینی نرخ بیکاری در منطقه را برای ماه های نوامبر، دسامبر، ژانویه بسازید.
    • با استفاده از هر روش، خطاهای پیش بینی های حاصل را محاسبه کنید.
    • نتایج به دست آمده را مقایسه کنید، نتیجه گیری کنید.

    راه حل حداقل مربعات

    برای حل، جدولی را تهیه می کنیم که در آن محاسبات لازم را انجام می دهیم:

    ε = 28.63/10 = 2.86٪ دقت پیش بینیبالا

    نتیجه : مقایسه نتایج به دست آمده در محاسبات روش میانگین متحرک , هموارسازی نمایی و روش حداقل مربعات، می توان گفت که میانگین خطای نسبی در محاسبات با روش هموارسازی نمایی در محدوده 20-50٪ قرار می گیرد. این بدان معنی است که دقت پیش بینی در این مورد فقط رضایت بخش است.

    در حالت اول و سوم، دقت پیش‌بینی بالا است، زیرا میانگین خطای نسبی کمتر از 10٪ است. اما روش میانگین متحرک امکان دستیابی به نتایج قابل اعتماد تری را فراهم کرد (پیش بینی برای نوامبر - 1.52٪ ، پیش بینی برای دسامبر - 1.53٪ ، پیش بینی ژانویه - 1.49٪) ، زیرا میانگین خطای نسبی هنگام استفاده از این روش کوچکترین است - 1 13 درصد.

    روش حداقل مربعات

    سایر مقالات مرتبط:

    فهرست منابع استفاده شده

    1. توصیه های علمی و روش شناختی در مورد مسائل تشخیص خطرات اجتماعی و پیش بینی چالش ها، تهدیدها و پیامدهای اجتماعی. دانشگاه دولتی اجتماعی روسیه مسکو. 2010;
    2. ولادیمیروا L.P. پیش بینی و برنامه ریزی در شرایط بازار: Proc. کمک هزینه M .: انتشارات داشکوف و شرکت، 2001؛
    3. نوویکووا N.V.، Pozdeeva O.G. پیش بینی اقتصاد ملی: راهنمای آموزشی و روش شناختی. یکاترینبورگ: انتشارات اورال. حالت اقتصاد دانشگاه، 1386;
    4. Slutskin L.N. دوره MBA در پیش بینی کسب و کار. مسکو: کتاب های تجاری آلپینا، 2006.

    برنامه MNE

    داده ها را وارد کنید

    داده ها و تقریب y = a + b x

    من- تعداد نقطه آزمایشی؛
    x i- مقدار پارامتر ثابت در نقطه من;
    y من- مقدار پارامتر اندازه گیری شده در نقطه من;
    ω من- اندازه گیری وزن در نقطه من;
    y i، محاسبه- تفاوت بین مقدار اندازه گیری شده و مقدار محاسبه شده از رگرسیون yدر نقطه من;
    S x i (x i)- برآورد خطا x iهنگام اندازه گیری yدر نقطه من.

    داده ها و تقریب y = kx

    من x i y من ω من y i، محاسبه Δy i S x i (x i)

    روی نمودار کلیک کنید

    راهنمای کاربر برای برنامه آنلاین MNC.

    در قسمت داده، در هر خط جداگانه، مقادیر «x» و «y» را در یک نقطه آزمایشی وارد کنید. مقادیر باید با فضای خالی (فضا یا تب) از هم جدا شوند.

    مقدار سوم می تواند وزن نقطه «w» باشد. اگر وزن نقطه مشخص نشده باشد، برابر با یک است. در اکثریت قریب به اتفاق موارد، وزن نقاط تجربی ناشناخته یا محاسبه نشده است. تمام داده های تجربی معادل در نظر گرفته می شوند. گاهی اوقات وزن ها در محدوده مقادیر مورد مطالعه قطعاً معادل نیستند و حتی می توان آنها را به صورت تئوری محاسبه کرد. به عنوان مثال، در اسپکتروفتومتری، وزن ها را می توان با استفاده از فرمول های ساده محاسبه کرد، اگرچه اساساً همه برای کاهش هزینه های نیروی کار از این امر غفلت می کنند.

    داده ها را می توان از طریق کلیپ بورد از صفحه گسترده مجموعه آفیس، مانند Excel از Microsoft Office یا Calc از Open Office، جایگذاری کرد. برای انجام این کار، در صفحه گسترده، محدوده داده را برای کپی انتخاب کنید، در کلیپ بورد کپی کنید و داده ها را در فیلد داده در این صفحه جای گذاری کنید.

    برای محاسبه با روش حداقل مربعات، حداقل دو نقطه برای تعیین دو ضریب «b» لازم است - مماس زاویه میل خط مستقیم و «a» - مقدار قطع شده توسط خط مستقیم روی «y» محور.

    برای تخمین خطای ضرایب رگرسیون محاسبه شده، باید تعداد نقاط آزمایشی را بیش از دو قرار داد.

    روش حداقل مربعات (LSM).

    هر چه تعداد امتیازات آزمایشی بیشتر باشد، تخمین آماری ضرایب دقیق تر (به دلیل کاهش ضریب دانشجویی) و تخمین به برآورد نمونه عمومی نزدیکتر است.

    به دست آوردن مقادیر در هر نقطه آزمایشی اغلب با هزینه های نیروی کار قابل توجهی همراه است، بنابراین، تعداد آزمایش های مصالحه ای اغلب انجام می شود که تخمین قابل هضمی را ارائه می دهد و منجر به هزینه های نیروی کار بیش از حد نمی شود. به عنوان یک قاعده، تعداد نقاط آزمایشی برای وابستگی حداقل مربعات خطی با دو ضریب در منطقه 5-7 امتیاز انتخاب می شود.

    نظریه مختصری از حداقل مربعات برای وابستگی خطی

    فرض کنید مجموعه ای از داده های تجربی به شکل جفت مقادیر [`y_i`, `x_i`] داریم که در آن `i` تعداد یک اندازه گیری آزمایشی از 1 تا n است. "y_i" - مقدار مقدار اندازه گیری شده در نقطه "i"؛ "x_i" - مقدار پارامتری که در نقطه "i" تنظیم می کنیم.

    یک مثال اجرای قانون اهم است. با تغییر ولتاژ (اختلاف پتانسیل) بین مقاطع مدار الکتریکی، مقدار جریان عبوری از این قسمت را اندازه گیری می کنیم. فیزیک به ما این وابستگی را می دهد که به طور تجربی یافت می شود:

    «I=U/R»،
    جایی که "I" - قدرت فعلی. `R` - مقاومت؛ "U" - ولتاژ.

    در این حالت، «y_i» مقدار جریان اندازه‌گیری شده و «x_i» مقدار ولتاژ است.

    به عنوان مثال دیگر، جذب نور توسط محلول یک ماده در محلول را در نظر بگیرید. شیمی این فرمول را به ما می دهد:

    "A = εl C"،
    که در آن "A" چگالی نوری محلول است. `ε` - انتقال املاح. `l` - طول مسیر هنگامی که نور از یک کووت با محلول عبور می کند. "C" غلظت املاح است.

    در این مورد، «y_i» چگالی نوری اندازه‌گیری شده «A» است و «x_i» غلظت ماده‌ای است که ما تنظیم می‌کنیم.

    ما موردی را در نظر خواهیم گرفت که خطای نسبی در تنظیم `x_i` بسیار کمتر از خطای نسبی در اندازه گیری `y_i` باشد. همچنین فرض می‌کنیم که تمام مقادیر اندازه‌گیری‌شده «y_i» تصادفی و به طور معمول توزیع شده‌اند، یعنی. از قانون توزیع نرمال پیروی کنید.

    در مورد وابستگی خطی «y» به «x»، می‌توانیم وابستگی نظری را بنویسیم:
    `y = a + bx`.

    از دیدگاه هندسی، ضریب «b» مماس زاویه میل خط به محور «x» را نشان می‌دهد و ضریب «a» مقدار «y» را در نقطه تقاطع خط نشان می‌دهد. خط با محور `y` (برای `x = 0`).

    یافتن پارامترهای خط رگرسیون

    در یک آزمایش، مقادیر اندازه‌گیری شده «y_i» به دلیل خطاهای اندازه‌گیری، که همیشه در زندگی واقعی ذاتی هستند، نمی‌توانند دقیقاً روی خط نظری قرار بگیرند. بنابراین، یک معادله خطی باید با یک سیستم معادلات نشان داده شود:
    `y_i = a + b x_i + ε_i` (1)،
    که در آن «ε_i» خطای اندازه‌گیری ناشناخته «y» در آزمایش «i» است.

    وابستگی (1) نیز نامیده می شود پسرفت، یعنی وابستگی دو کمیت به یکدیگر با اهمیت آماری.

    وظیفه بازگرداندن وابستگی یافتن ضرایب «a» و «b» از نقاط آزمایشی [`y_i`، `x_i`] است.

    برای یافتن ضرایب معمولاً از «a» و «b» استفاده می شود روش حداقل مربع(MNK). این یک مورد خاص از اصل حداکثر احتمال است.

    بیایید (1) را به صورت «ε_i = y_i - a - b x_i» بازنویسی کنیم.

    سپس مجموع مربعات خطاها خواهد بود
    `Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

    اصل روش حداقل مربعات به حداقل رساندن مجموع (2) با توجه به پارامترهای "a" و "b" است..

    حداقل زمانی حاصل می شود که مشتقات جزئی جمع (2) با توجه به ضرایب «a» و «b» برابر با صفر باشد:
    `frac(ف جزئی)(جزئی a) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(جزئی a) = 0`
    `frac(ف جزئی)(ب جزئی) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(b جزئی) = 0`

    با گسترش مشتقات، سیستمی متشکل از دو معادله با دو مجهول به دست می آوریم:
    `sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
    `sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

    براکت ها را باز می کنیم و مجموع را مستقل از ضرایب مورد نظر به نیمه دیگر منتقل می کنیم، یک سیستم معادلات خطی به دست می آوریم:
    `sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
    `sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

    با حل سیستم به دست آمده، فرمول هایی برای ضرایب «a» و «b» پیدا می کنیم:

    `a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

    `b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (جمع_(i=1)^(n) x_i)^2)` (3.2)

    این فرمول‌ها وقتی راه‌حل‌هایی دارند که «n> 1» (خط را می‌توان با حداقل 2 نقطه رسم کرد) و زمانی که تعیین‌کننده «D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`، یعنی. هنگامی که نقاط "x_i" در آزمایش متفاوت است (یعنی زمانی که خط عمودی نیست).

    برآورد خطا در ضرایب خط رگرسیون

    برای برآورد دقیق‌تر خطا در محاسبه ضرایب «a» و «b»، تعداد زیادی از نقاط آزمایشی مطلوب است. وقتی n=2 باشد، تخمین خطای ضرایب غیرممکن است، زیرا خط تقریبی به طور منحصر به فرد از دو نقطه عبور می کند.

    خطای متغیر تصادفی "V" مشخص می شود قانون انباشت خطا
    `S_V^2 = sum_(i=1)^p (frac(f جزئی)(جزئی z_i))^2 S_(z_i)^2`,
    که در آن «p» تعداد پارامترهای «z_i» با خطای «S_(z_i)» است که بر خطای «S_V» تأثیر می‌گذارد.
    "f" تابع وابستگی "V" به "z_i" است.

    بیایید قانون انباشت خطاها را برای خطای ضرایب «a» و «b» بنویسیم.
    `S_a^2 = sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(جزئی a )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 `,
    `S_b^2 = sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(b جزئی )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 `,
    زیرا `S_(x_i)^2 = 0` (ما قبلاً رزرو کردیم که خطای `x` ناچیز است).

    `S_y^2 = S_(y_i)^2` - خطا (واریانس، مجذور انحراف استاندارد) در بعد `y`، با فرض اینکه خطا برای همه مقادیر `y` یکنواخت است.

    با جایگزینی فرمول های محاسبه «a» و «b» در عبارات به دست آمده، دریافت می کنیم

    `S_a^2 = S_y^2 فرک(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 فراک (جمع_(i=1)^(n) x_i^2) (D)` (4.1)

    `S_b^2 = S_y^2 فرک(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

    در بیشتر آزمایش‌های واقعی، مقدار «Sy» اندازه‌گیری نمی‌شود. برای انجام این کار، انجام چندین اندازه گیری موازی (آزمایش) در یک یا چند نقطه از طرح ضروری است که باعث افزایش زمان (و احتمالاً هزینه) آزمایش می شود. بنابراین، معمولاً فرض می‌شود که انحراف «y» از خط رگرسیون را می‌توان تصادفی در نظر گرفت. برآورد واریانس `y` در این مورد با فرمول محاسبه می شود.

    `S_y^2 = S_(y، استراحت)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

    مقسوم‌کننده «n-2» به این دلیل ظاهر می‌شود که به دلیل محاسبه دو ضریب برای یک نمونه از داده‌های تجربی، تعداد درجات آزادی را کاهش داده‌ایم.

    به این تخمین، واریانس باقیمانده نسبت به خط رگرسیون S_(y، استراحت)^2 نیز گفته می شود.

    ارزیابی اهمیت ضرایب بر اساس معیار دانشجو انجام می شود

    `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

    اگر معیارهای محاسبه‌شده «t_a»، «t_b» کمتر از معیارهای جدول «t(P, n-2)» باشند، در نظر گرفته می‌شود که ضریب مربوطه تفاوت معنی‌داری با صفر با احتمال داده شده «P» ندارد.

    برای ارزیابی کیفیت توصیف یک رابطه خطی، می‌توانید «S_(y، استراحت)^2» و «S_(bar y)» را نسبت به میانگین با استفاده از معیار فیشر مقایسه کنید.

    `S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - برآورد نمونه از واریانس `y` نسبت به میانگین.

    برای ارزیابی اثربخشی معادله رگرسیون برای توصیف وابستگی، ضریب فیشر محاسبه شده است.
    `F = S_(نوار y) / S_(y، استراحت)^2`،
    که با ضریب فیشر جدولی "F(p، n-1، n-2)" مقایسه شده است.

    اگر «F > F(P، n-1، n-2)»، تفاوت بین توصیف وابستگی `y = f(x)` با استفاده از معادله رگرسیون و توصیف با استفاده از میانگین از نظر آماری با احتمال معنی دار در نظر گرفته می شود. "P". آن ها رگرسیون وابستگی را بهتر از گسترش «y» حول میانگین توصیف می کند.

    روی نمودار کلیک کنید
    برای اضافه کردن مقادیر به جدول

    روش حداقل مربعات روش حداقل مربعات به معنای تعیین پارامترهای مجهول a، b، c، وابستگی تابعی پذیرفته شده است.

    روش حداقل مربعات به معنای تعیین پارامترهای مجهول است الف، ب، ج، …وابستگی عملکردی پذیرفته شده

    y = f(x,a,b,c,…),

    که حداقل میانگین مربع (واریانس) خطا را فراهم می کند

    , (24)

    که در آن x i، y i - مجموعه ای از جفت اعداد به دست آمده از آزمایش.

    از آنجایی که شرط حداکثر بودن یک تابع از چندین متغیر شرطی است که مشتقات جزئی آن برابر با صفر باشند، پس پارامترها الف، ب، ج، …از سیستم معادلات تعیین می شود:

    ; ; ; … (25)

    باید به خاطر داشت که از روش حداقل مربعات برای انتخاب پارامترهای بعد از فرم تابع استفاده می شود y = f(x)تعریف شده است.

    اگر از ملاحظات نظری نتوان نتیجه‌گیری در مورد اینکه فرمول تجربی چگونه باید باشد، نتیجه‌گیری کرد، باید توسط بازنمایی‌های بصری هدایت شود، در درجه اول یک نمایش گرافیکی از داده‌های مشاهده شده.

    در عمل، اغلب به انواع توابع زیر محدود می شود:

    1) خطی ;

    2) درجه دوم الف.