В чем разница между линейной регрессией и логистической регрессией?


когда мы должны предсказать значение a категорический (или дискретный) результат мы используем логистическая регрессия. Я считаю, что мы используем линейная регрессия также прогнозируют значение результата с учетом входных значений.

тогда, в чем разница между двумя методологиями?

11 135

11 ответов:

  • линейная регрессия выводится как вероятности

    заманчиво использовать выход линейной регрессии в качестве вероятностей, но это ошибка, потому что выход может быть отрицательным и больше 1, тогда как вероятность не может. Как регрессия может на самом деле производить вероятности, которые могут быть меньше 0 или даже больше, чем 1, была введена логистическая регрессия.

    источник: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    enter image description here

  • исход

    в линейной регрессии результат (зависимая переменная) является непрерывным. Он может иметь любое из бесконечного числа возможных значений.

    в логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.

  • зависимая переменная

    логистическая регрессия используется, когда переменная ответа носит категориальный характер. Например, Да/нет, истина/ложь, красный/зеленый/синий, 1-й/2-й/3-й/4-й и т. д.

    линейная регрессия используется, когда ваша переменная ответа непрерывна. Например, вес, рост, количество часов и т. д.

  • уравнение

    линейная регрессия дает уравнение который имеет вид Y = mX + C, означает, уравнение со степенью 1.

    однако, логистическая регрессия дает уравнение, которое имеет вид Y = eX + e - X

  • коэффициент толкования

    в линейной регрессии интерпретация коэффициентов независимых переменных довольно проста (т. е. удержание всех других переменных постоянным, с единичным увеличением этой переменной, зависимым ожидается, что переменная увеличится / уменьшится на xxx).

    однако, в логистической регрессии, зависит от семьи (биномиальное, Пуассона, так далее.) и ссылка (журнал, логит, обратный отчет, и т. д.) вы используете, интерпретация отличается.

  • метод минимизации ошибок

    линейная регрессия использует наименьших квадратов способ свести к минимуму ошибки и достигают наилучшего возможного соответствия, в то время как логистическая регрессия использует максимального правдоподобия метод, чтобы прийти к решению.

    линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки штрафуются квадратично.

    логистическая регрессия прямо противоположна. Использование функции логистических потерь приводит к тому, что большие ошибки штрафуются до асимптотически постоянной.

    рассмотрим линейную регрессию по категориальным {0, 1} результатам, чтобы понять, почему это проблема. Если ваша модель предсказывает результат 38, когда истина равна 1, вы ничего не потеряли. Линейная регрессия будет пытаться уменьшить это 38, логистика не будет (столько же)2.

в линейной регрессии результат (зависимая переменная) является непрерывным. Он может иметь любое из бесконечного числа возможных значений. В логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.

любой, существует так много возможных значений, что будет выбрана модель линейной регрессии.

Если бы вместо этого вы хотели предсказать, основываясь на размере, будет ли дом продаваться более чем за $200 тыс., Вы бы использовали логистическую регрессию. Возможные выходы либо да, дом продадут за более чем $ 200 тыс., либо нет, дома не будет.

основные отличия :

линейная регрессия-это в основном регрессионная модель, которая означает, что она даст не дискретный/непрерывный выход функции. Таким образом, этот подход дает значение. Например: учитывая x, Что такое f (x)

например, учитывая обучающий набор различных факторов и цену недвижимости после обучения мы можем предоставить необходимые факторы, чтобы определить, какой будет цена недвижимости.

логистическая регрессия в основном двоичный алгоритм классификации, который означает, что здесь будет дискретный выход значения для функции . Например: для данного x, если F(x)>порог классифицирует его как 1, иначе классифицирует его как 0.

например, учитывая набор размеров опухоли головного мозга в качестве обучающих данных, мы можем использовать размер в качестве входных данных, чтобы определить, является ли его Бенин или злокачественная опухоль. Поэтому здесь выход дискретный либо 0, либо 1.

*здесь функция в основном является функцией гипотезы

Они оба довольно похожи в решении для решения, но, как говорили другие, один (логистическая регрессия) предназначен для прогнозирования категории "fit" (Y/N или 1/0), а другой (линейная регрессия) - для прогнозирования значения.

поэтому, если вы хотите предсказать, есть ли у вас рак Y/N (или вероятность) - используйте логистику. Если вы хотите знать, сколько лет вы проживете-используйте линейную регрессию !

просто добавить на предыдущие ответы.

линейная регрессия

предназначен для решения задачи прогнозирования / оценки выходного значения для данного элемента X(скажем, f (x)). Результатом предсказания является семантическая функция, где значения могут быть положительными или отрицательными. В этом случае у вас обычно есть входной набор данных с большим количеством примеры и выходное значение для каждого из них. Цель состоит в том, чтобы иметь возможность fit модель для этого набора данных, так что вы можете предсказать, что выход для новых различных/никогда не видел элементов. Ниже приведен классический пример подгонки линии к набору точек, но в целом линейная регрессия может быть использована для подгонки более сложных моделей (с использованием более высоких степеней полинома):

enter image description here решение проблемы

регрессия Linea может быть решена двумя различными способами:

  1. нормальный уравнение (прямой способ решения задачи)
  2. градиентный спуск (итерационный подход)

логистическая регрессия

предназначен для решения классификация проблемы, где данный элемент вы должны классифицировать то же самое в N категориях. Типичными примерами являются, например, дали адрес, чтобы классифицировать его как спам или нет, или дали средство найти К который категории он относится (автомобиль, грузовик, фургон и т. д..). Это в основном выходные конечный набор дискретных значений.

решение проблемы

проблемы логистической регрессии могут быть решены только с помощью градиентного спуска. Формулировка в целом очень похожа на линейную регрессию единственное отличие заключается в использовании различных функций гипотезы. В линейной регрессии гипотеза имеет вид:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

где тета-это модель, которую мы пытаемся подогнать и [1, x_1, x_2,..] является входным вектором. В логистике регрессия функция гипотезы отличается:

g(x) = 1 / (1 + e^-x)

enter image description here

эта функция обладает хорошим свойством, в основном она отображает любое значение в диапазон [0,1], который подходит для обработки вероятностей во время classificatin. Например, в случае двоичной классификации g (X) можно интерпретировать как вероятность принадлежности к положительному классу. В этом случае обычно у вас есть разные классы, которые разделены с помощью решение граница который в основном a кривой это решает разделение между различными классами. Ниже приведен пример набора данных, разделенного на два класса.

enter image description here

короче: Линейная регрессия дает непрерывный выход. т. е. любое значение между диапазоном значений. Логистическая регрессия дает дискретный выход. т. е. Да/нет, 0/1 рода мероприятий.

| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

Не могу не согласиться с комментариями выше. Кроме того, есть еще некоторые различия, такие как

в линейной регрессии остатки считаются нормально распределенными. В логистической регрессии остатки должны быть независимыми, но не нормально распределенными.

линейная регрессия предполагает, что постоянное изменение значения объясняющей переменной приводит к постоянному изменению переменной ответа. Это предположение не выполняется, если значение переменная ответа представляет собой вероятность (в логистической регрессии)

GLM (обобщенные линейные модели)не предполагает линейной связи между зависимыми и независимыми переменными. Однако он предполагает линейную связь между функцией связи и независимыми переменными в модели logit.

проще говоря, если в модели линейной регрессии тест дела, которые находятся далеко от порога(скажем, =0.5)для предсказания y=1 и г=0. Тогда в этом случае гипотеза изменится и станет хуже.Поэтому линейная регрессионная модель не используется для задачи классификации.

еще одна проблема заключается в том, что если классификация-это y=0 и y=1, а H(X) может быть > 1 или

логистическая регрессия используется для прогнозирования категориальных результатов, таких как Да/нет, низкий/средний/высокий и т. д. У вас есть в основном 2 типа логистической регрессии двоичная логистическая регрессия (Да / нет, одобрена / отклонена) или Многоклассовая логистическая регрессия (низкая/средняя/высокая, цифры от 0-9 и т. д.)

с другой стороны, линейная регрессия-это если ваша зависимая переменная (y) непрерывна. y = mx + c-простое уравнение линейной регрессии (m = наклон, а c-y-перехват). Полилинейный регрессия имеет более 1 независимой переменной (x1,x2, x3 ... и т. д.)