Реферат Класичний метод найменших квадратів

Страница 1 из 2 | Следующая страница
Запровадження

Цей курсової проект включає у собі інформацію про методі найменших квадратів та її різновидах. Діяльність приведено інформація за класичним методу найменших квадратів, докладно описаний зваженийМНК, дана коротка інформацію продвухшаговом ітрехшаговим методах найменших квадратів.

При аналізі різних джерел інформації (дивися список літератури) віддають перевагу роботам, що описує непросто математичний і статистичний базиси досліджуваних методів. Діяльність зроблено акцент до можливості практичного використання різнихстатистико-математических методик головним чином галузі економічних та фінансових досліджень.


>Парная лінійна регресія. Метод найменших квадратів

Мал.1

На малюнку зображені три ситуації:

• на графіці (а) взаємозв'язок x і в близька до лінійної; є пряма лінія (1) тут близька до точкам спостережень, і останні відхиляються від нього лише результаті порівняно невеликих випадкових впливів;

• на графіці (b) реальна взаємозв'язок величин x і в описується нелінійної функцією (2), і хоч би ми провели пряму лінію (наприклад, 1), відхилення точок спостережень від нього будуть суттєвими, і невипадковими;

• на графіці (з) явна взаємозв'язок між перемінними x і в відсутня; хоч би ми вибрали формулу зв'язку, результати їїпараметризации будуть тут невдалими. Зокрема, прямі лінії 1 і 2, проведені через "центр" "хмари" точок спостережень і мають протилежний нахил, однаково погані у тому, роблячи висновки щодо очікуваних значеннях перемінної у по значенням перемінної x.

>Начальним пунктом економетричного аналізу залежностей зазвичай є оцінка лінійної залежності змінних. Якщо є певна "хмару" точок спостережень, нього можна спробувати провести таку пряму лінію, що є найкращою у сенсі серед усіх прямих ліній, тобто "найближчій" до точкам спостережень з їхньої сукупності. І тому ми спочатку повинні визначити поняття близькості прямий до певного безлічі точок на площині; заходи такий близькості можуть бути різними. Проте будь-яка розумний захід мусить бути, очевидно, пов'язані з відстанями від точок спостережень до аналізованої прямий лінії (>задаваемой рівнянням у= а +bх).

Зазвичай, у ролі критерію близькості використовується мінімум суми квадратівразностей спостережень залежною перемінної у і теоретичних, розрахованих по рівнянню регресії значень (а +bхi):

>Q =Sei2 =P.S (>yi-(a+bxi))2®min (1)

вважається, що з і x - відомі дані спостережень, чи b - невідомі параметри лінії регресії. Оскільки функціяQ безупинна, опукла і обмежена знизу нулем, вона не має мінімум. Для відповідних точці цього мінімуму значень чи b вдасться знайти прості і зручні формули (вони наведено нижче). Метод оцінювання параметрів лінійної регресії, здатний мінімізувати суму квадратів відхилень спостережень залежною перемінної від шуканої лінійної функції, називається Методом найменших квадратів (>МНК), чиLeastSquaresMethod (>LS).

"Найкраща" поМНК є пряма лінія завжди існує, і навіть найкраща який завжди є дуже хорошою. Якщо дійсності залежністьy=f(х) є, наприклад,квадратичной (як у малюнку1(b)), що його зможе адекватно описати ніяка лінійна функція, хоча серед усіх таких функцій неодмінно знайдеться "найкраща". Якщо величини x і в взагалі пов'язані (рис. 1 (з)), ми також завжди зможемо знайти "найкращу" лінійну функцію у =а+bх для даної сукупності спостережень, але нинішнього разі конкретні значення чиЬ визначаються лише випадковими відхиленнями змінних і держава сама дуже сильно змінюватися щодо різноманітних вибірок з одному й тому ж генеральної сукупності. Можливо, на рис.1(с) пряма 1 є найкращою серед усіх прямих ліній (себто мінімального значення функціїQ), але будь-яка інша пряма, через центральну точку "хмари" (наприклад, лінія 2), не набагато у сенсі гірше, ніж пряма 1, і може бути найкращою внаслідок невеликого зміни вибірки.

Розглянемо тепер завдання оцінки коефіцієнтів парної лінійної регресії формальніше. Припустимо, що зв'язок між x і .улинейна: у =a+bх. Тут мають на увазі зв'язок між всіма можливими значеннями величин x і в, тобто для генеральної сукупності. Наявність випадкових відхилень, викликаних впливом на зміну в багатьох інших, неврахованих у нашій рівнянні факторів, і помилок виміру, призведе до того що, що зв'язок можна побачити величинxi іyi придбає видуi=a+bхi+єi,. Тутєi. - випадкові помилки (відхилення, обурення). Завдання ось у чому: за даними спостережень {>xi}, {>уi} оцінити значення параметрів айв, щоб забезпечити мінімум величиниQ. Якби мали відомі точні значення відхиленьєi, можна було б (у разі правильності гаданої лінійної формули) розрахувати значення параметрів a і b. Проте значення випадкових відхилень в вибірці невідомі, і з спостереженнямxi іуi можна було одержати оцінки параметрів сек. і р, які самі випадкові величинами, оскільки відповідають випадкової вибірці. Нехай а - оцінка параметра a, b - оцінка параметра b. Тоді оцінене рівняння регресії матиме вид:

>yi=а+bxi+еi,

дееi - спостережувані значення помилокєi.

Для оцінки параметрів a і b скористаємосяМНК, який мінімізує суму квадратів відхилень фактичних значеньуi від розрахункових. Мінімум шукається по змінним чи b.

А, щоб отриманіМНК оцінки чи b мали бажаними властивостями, зробимо такі передумови про відхиленняєi:

1) величинаєi є випадкової перемінної;

2) математичне очікуванняєi одно нулю: М (>єi) = 0;

3) дисперсіяє постійна:D(єi) =D(єi) =s2 всім і, j;

4) значенняєi незалежні між собою. Звідки випливає, зокрема, що

            (2)

Відомо, що, якщо умови 1)-4) виконуються, то оцінки, вироблені допомогоюМНК, мають такими властивостями:

1) Оцінки єнесмещенними, тобто. математичне очікування оцінки кожного параметра одно його істинному значенням:М(а) =a;М(b)=b. Це випливає речей, щоМ(єi) = 0, у відповідь про відсутність систематичної помилки у визначенні становища лінії регресії.

2) Оцінки заможні, оскільки дисперсія оцінок параметрів за умов зростання числа спостережень котиться до нуля:; . Інакше висловлюючись, якщо п дуже багато, то напевно а близько до a, а b близько до b: надійність оцінки зі збільшенням вибірки зростає.

3) Оцінки ефективні, вони теж мають найменшудисперсию проти будь-якими іншими оцінками даного параметра, лінійними щодо величинуi . У англомовної літературі такі оцінки називаютьсяBLUE (>BestLinearUnbiasedEstimators - найкращі лінійнінесмещенние оцінки).

Перелічені властивості не залежить від конкретної розподілу величинєi, тим щонайменше, зазвичай передбачається, що вони розподілені нормальноN(0;y2). Ця передумова необхідна для перевірки статистичну значимість зроблених оцінок й універсального визначення їм довірчих інтервалів. За її виконанні оцінкиМНК мають найменшудисперсию як серед лінійних, але серед усіхнесмещенних оцінок.

Якщо припущення 3) і 4) порушено, тобто дисперсія обурень мінлива і/або значенняє. пов'язані одне з одним, то властивостінесмещенности і спроможності зберігаються, але властивість ефективності - немає.

Розглянемо тепер процедуру оцінювання параметрів парній лінійної регресії чи b. А, щоб функціяQ =Sei2 =P.S (>yi-(a+bxi))2 досягала мінімуму, необхідно рівність нулю її приватних похідних:

    (3) (4)

Якщо рівняння (3) розділити на п, одержимоу=а+bх (тут - середні значення x і в). Отже, лінія регресії проходить через точку зі середніми значеннями x і в.Подставив величину та якщо з (3) в (4), отримуємо

Звідки


     (5) (6)

Інакше можна записати, що (деr коефіцієнт кореляції x і в). Отже, коефіцієнт регресії пропорційний показникуковариации і коефіцієнта кореляції x і в, а коефіцієнти цю пропорційність служать для порівняння переліченихразноразмерних величин. Оцінки a і b, очевидно, є лінійними щодоyi (якщоxi вважати коефіцієнтами) - вище звідси згадувалося.

Отже, якщо коефіцієнтr вже розрахований, то легко розрахувати коефіцієнт парної регресії, не вирішуючи системи рівнянь. Зрозуміло, що й розраховані лінійні регресіїх(у) іу(х), то твір коефіцієнтівdx іby, одноr2:

       (7)[1]

Зважений метод найменших квадратів

Не всі завдання дослідження взаємозв'язків економічних змінних описуються звичайній лінійної регресійної моделлю. По-перше, вихідні дані можуть відповідати або іншим суб'єктам передумов лінійної регресійної моделі рівні і потребуватиме або додаткової обробки, чи іншого модельного інструментарію. По-друге, досліджуваний процес у часто описується не одним рівнянням, а системою, де одні й самі перемінні можна одних випадках що пояснюють, а інших - залежними. По-третє, досліджувані взаємозв'язку може бути (і звичайно є) думок нелінійних, а процедуралинеаризации не легко можна здійснити і може призвести до спотворення. По-четверте, структура описуваного процесу може обумовлювати наявність різноманітних перетинів поміжоцениваемими коефіцієнтами регресії, що також передбачає необхідність використання таких спеціальних методів.

Найпоширенішим на практиці статистичного оцінювання параметрів рівнянь регресії є метод найменших квадратів. Цей метод грунтується ряд передумов щодо природи даних, і результатів побудови моделі. Основні їх - це чіткий поділ вихідних змінних на залежні і незалежні,некоррелированность чинників, які входять у рівняння, лінійність зв'язку, відсутністьавтокорреляции залишків, рівність їх математичних очікувань нулю і стала дисперсія. Емпіричні дані який завжди мають такими характеристиками, тобто. передумовиМНК порушуються. Застосування цього методу чистому вигляді можуть призвести до таких небажаним результатам, як усунення оцінюваних параметрів, зниження їх спроможності, стійкості, а окремих випадках може і зовсім дати рішення. Саме для пом'якшення небажаних ефектів при побудові регресійних рівнянь, підвищення адекватності моделей існує низка удосконаленьМНК, що застосовуються для даних нестандартній природи.

Однією з основних гіпотезМНК є очікування про рівність дисперсій відхиленьеi, тобто. їх розкид навколо середнього (нульового) значення низки може бути величиною стабільної. Це властивість називаєтьсягомоскедастичностью. Насправді дисперсії відхилень досить часто неоднакові, тобто спостерігаєтьсягетероскедастичность. Це може випливати з різні причини. Наприклад, можливі помилки у вихідних даних. Випадкові неточності в вихідної інформації, такі як помилки у порядку чисел, можуть зробити істотне впливом геть результати. Часто більший розкид відхиленьєi, спостерігається на великих значеннях залежною перемінної (змінних). Якщо даних міститься значну помилку, то, природно, великим буде розроблено та відхилення модельного значення, розрахованого по помилковим даним. А, щоб позбутися цієї помилки ми мусимо зменшити внесок цих даних в результати розрахунків, поставити їм менше значення, ніж ж для решти. Ця ідея реалізована в підвішеномуМНК.

Нехай першому етапі оцінена лінійнарегрессионная модель з допомогою звичайногоМНК. Припустимо, що залишкиеi незалежні між собою, але мають різні дисперсії (оскільки теоретичні відхиленняеi не можна розрахувати, їх зазвичай заміняють на фактичні відхилення залежною перемінної від лінії регресії ^., котрим формулюються самі вихідні вимоги, що уєi). І тут квадратну матрицюковариацийcov(ei,ej) можна як:

деcov(ei,ej)=0 при і j;cov(ei,ej)=S2; п - довжина аналізованого тимчасового низки.

Якщо величини відомі, то далі можна застосувати зваженийМНК, використовуючи як терезів розміру й мінімізуючи суму


ФормулаQ, записана для парній регресії; аналогічний вид вона не має й у множинної лінійної регресії. З використаннямIVLS оцінки параметрів як виходятьнесмещенними (вони такими й для звичайногоМНК), але й точними (мають меншудисперсию), ніж не зважені оцінки.

Проблема у цьому, щоб оцінити величиниs2, оскільки заздалегідь звичайно невідомі. Тому, використовуючи першому етапі звичайнийМНК, потрібно спробувати з'ясувати причину і характеру відмінностей дисперсійеi. Для економічних даних, наприклад, величина середньої помилки то, можливо пропорційна абсолютному значенням незалежної перемінної. Це можна перевірити статистично й реально ввімкнути до увагиМНК ваги, рівні .

Існують спеціальні критерії і складні процедури перевірки рівності дисперсій відхилень. Наприклад, можна розгледіти приватне від розподілуcумм найбільших найменших квадратів відхилень, які мають мати розподіл Фішера у разігомоскедастичности.

Використання зваженого методу в статистичних пакетах, де надано можливість ставити ваги вручну, дозволяє регулювати внесок тих чи інших даних в результати побудови моделей. Це необхідна за тому випадку, ми апріорно знаємо про не типовості певної частини інформації, тобто. на залежну зміну впливали чинники, явно невключаемие в модель. Як приклад такої ситуації привести випадки стихійних лих, посух. При аналізі макроекономічних показників (ВНП та інших.) дані упродовж років будуть ні типовими. За такого стану спробуємо виключити вплив цієї маленької частини інформації завданням терезів. У різних статистичних пакетах наводиться можливий набір терезів. Зазвичай це числа від Про до 100. За умовчанням всі дані враховуються з одиничними вагами. При вказуванні ваги менше 1 ми знижуємо внесок цих даних, і якщо поставити вагу більше одиниці, то внесок цієї маленької частини інформації збільшиться. Шляхом завдання вагового вектора ми можемо як зменшити вплив яких - або років із набору даних, а й узагалі виключити його з аналізу. Отже, ключовим моментом при застосуванні цього є вибір терезів. У першому наближенні ваги можуть встановлюватися пропорційно помилок не виваженоїрегрессии.[1]

 

Системи одночасних рівнянь

При статистичному моделюванні економічних ситуацій часто необхідно побудова систем рівнянь, коли самі й самі перемінні у різних регресійних рівняннях можуть одночасно виступати, з одного боку, у ролірезультирующих,объясняемих змінних, з другого боку - у ролі пояснюють змінних. Такі системи рівнянь прийнято називати системами одночасних рівнянь. Причому у співвідношення можуть входити перемінні, що стосуються як до поточному періодуt, до попереднім періодам. Такі перемінні називаютьсялаговими. Змінні за попередні роки зазвичай виступають пояснюють змінних.

Як ілюстрацію наведемо приклад зі економіки. Розглянемо модель попиту й пропозиції. Як відомо, попит D певний продукт залежить від ціни р. Від цього ж параметра, але з протилежним за сигналом коефіцієнтом, залежить пропозицію цього продукту. Сили ринкового механізму формують ціну в такий спосіб, що і пропозиції зрівнюються. Ми повинні побудувати модель описаної ситуації. І тому є дані про рівень рівноважних цін, і попиті (що дорівнює пропозиції). Подану ситуацію можна формалізувати як наступній лінійної моделі:

    (3.1)

попит пропорційний ціні з коефіцієнтом пропорційностіa1<0, тобто. зв'язок негативна;

(3.2)

пропозицію пропорційно ціні з коефіцієнтом пропорційностіа2>0, тобто. зв'язок позитивна;

(3.3)

Тутеl,е'l, (>l=1,...,n) - помилки моделі, мають нульовий математичне очікування.

Перші дві з поданих рівнянь, якщо їх необхідно розглядати окремо, можуть цілком звичайними. Ми можемо визначити коефіцієнти регресії кожного з цих рівнянь. Але цього разі залишається питанням відкритим питання рівність

Страница 1 из 2 | Следующая страница

Схожі реферати:

Навігація