SLR-простая линейная регрессия (в R, но о математике позади, а не о программировании)


Таким образом, у меня есть некоторые проблемы с пониманием простой линейной регрессии. Я много читал, так что у меня есть основные идеи в голове, но я не могу полностью следовать, когда мы делаем один. Итак, у меня есть следующее уравнение:

yi = a + bxi + ei
Хорошо, я понимаю, что это уравнение для прямой линии, хотя я действительно задаюсь вопросом о "ei", поскольку я не могу найти его в интернете, но мой профессор продолжает использовать его.

Итак, я хочу найти a и b, чтобы найти прямую линию, которая, как я надеюсь, не слишком далеко от моих данных (это правда?). Я знаю, что могу вычислить это, но это не мой вопрос.

Я надеюсь, что это нормально, если я добавлю свой пример здесь, чтобы я мог объяснить, что я делаю.: набор данных

x        y
8        6.4
8        6.8
3        1.7
2        2.3
2        3.8
1        2.3
1        5.0
1        4.0
1        3.4
0        2.3

Расчет все, что нужно, я получаю: b = 0,4599 a = 2.55827

(и выполнение lm с R показывает мне, что это правильно). Теперь, если я начерчу эту прямую линию abline(2.55827,0.4599) (входя в Перехват первым??), это показывает мне, что это просто не очень хорошая линия, и, глядя на таблицу, я бы полностью согласился. Но сделайте это Я правильно понял? Если точки x|y расположены так, как они расположены через заданные значения (то есть без определенного паттерна), просто нет хорошей линии, чтобы найти, поэтому я могу найти только довольно хорошую линию.

Может кто-нибудь помочь мне здесь?

3 2

3 ответа:

Хорошо, я понимаю, что это уравнение для прямой линии, хотя я действительно задаюсь вопросом о "ei", поскольку я не могу найти его в интернете, но мой профессор продолжает использовать его.

Это не уравнение для прямой. yi = a + bx i это уравнение для прямой. Что e i - это погрешность между этой прямой, заданной a и b, и вашими измерениями. Другими словами, ei = y i - (a + bxi).

Что делает линейная регрессия, так это находит значения для a и b, которые минимизируют сумму квадратов этих членов ошибки. Это соответствие не обязательно хорошее; это просто лучшее из возможных (в смысле наименьших квадратов). Размер остатка дает вам представление о том, насколько хорошо он подошел.

Чтобы иметь возможность понять, хороша ли подгонка или плоха, вам нужно знать не только остатки, но и ошибки в индивидууме. измерения.

Гил Стрэнг - один из великих прикладных математиков. Он может объяснить линейную алгебру и наименьшие квадраты, как никто другой:

Http://videolectures.net/mit18085f07_strang_lec04/

Это, кажется, старый вопрос, однако есть хорошая статья, которая объясняет математику за линейной регрессией, а также Пошаговое кодирование математики на языке R: http://www.codophile.com/programming-linear-regression-in-r/

Я надеюсь, что это поможет.