machine-learning • Лекция

Линейная Регрессия. Интерпретируемость и Метрики

Лекция 8: Линейная Регрессия. Интерпретируемость и Метрики

Цели лекции

Понять, как машина “рисует линию” через облако точек (метод наименьших квадратов).
Разобраться в функциях потерь: почему квадрат ошибки (MSE) популярнее модуля (MAE).
Научиться оценивать качество регрессии: что на самом деле значит $R^2$ .
Освоить интерпретацию весов модели и узнать, почему мультиколлинеарность — враг инженера.

Часть 1: Механика Линейной Регрессии

Линейная регрессия — это “Hello World” в мире ML. Несмотря на простоту, она используется в банках, страховании и медицине, потому что она интерпретируема. Мы всегда можем сказать, почему модель приняла решение.

1.1. Формула

В школе мы учили $y = kx + b$ . В машинном обучении мы пишем чуть иначе: $\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + ... + w_n x_n$

$\hat{y}$ (y-hat): Наше предсказание.
$w$ (Weights, Веса): Коэффициенты важности признаков. Это то, что модель “учит”.
$w_0$ (Bias, Сдвиг): Базовое значение, если все признаки равны нулю.

1.2. Геометрический смысл

Представьте облако точек на графике (Площадь vs Цена). Задача модели — провести прямую линию так, чтобы она прошла максимально близко ко всем точкам одновременно.

Расстояние от реальной точки до линии называется остатком (Residual) или ошибкой.

Часть 2: Функция Потерь (Loss Function)

Как объяснить машине, какая линия “лучше”? Нужно дать ей числовую метрику “плохости” (Loss). Модель будет пытаться это число минимизировать.

Стандарт индустрии. Мы берем ошибки, возводим их в квадрат и усредняем. $MSE = \frac{1}{N} \sum (y_{true} - y_{pred})^2$

Почему квадрат?

Квадрат убивает знак (ошибка -5 и +5 равнозначны).
Штраф за большие ошибки. Если модель ошиблась на 10, штраф будет 100. Если на 2 — штраф 4. MSE “ненавидит” большие промахи.
Удобная математика (производная квадрата — простая линейная функция), что важно для Градиентного спуска.

Робастность. Мы берем модуль ошибок. $MAE = \frac{1}{N} \sum |y_{true} - y_{pred}|$

В чем разница? MAE линейна. Ей все равно, ошиблись вы чуть-чуть много раз или один раз сильно. Применение: Если в данных много выбросов (аномалий), MSE сойдет с ума, пытаясь подстроиться под них. MAE более устойчива (Robust).

Часть 3: Метрики качества (Evaluation)

Мы обучили модель. Как понять, хороша ли она?

3.1. $R^2$ Score (Коэффициент детерминации)

Это “доля объясненной дисперсии”. Диапазон: от $-\infty$ до 1.

Интерпретация R-квадрат

Представьте простейшую “глупую” модель, которая всегда предсказывает среднее значение по больнице ( $\bar{y}$ ).

$R^2 = 1$ : Идеальное предсказание.
$R^2 = 0$ : Ваша модель работает так же, как простое предсказание среднего. Она бесполезна.
$R^2 < 0$ : Ваша модель хуже, чем просто среднее. Вы что-то сломали.
Пример: $R^2=0.8$ означает, что модель объяснила 80% закономерностей в данных, а 20% осталось в шуме.

3.2. RMSE (Root Mean Squared Error)

Это корень из MSE: $RMSE = \sqrt{MSE}$

Зачем: Чтобы вернуть размерность. Если мы предсказываем цену в рублях, MSE будет в “квадратных рублях” (что бессмысленно). RMSE будет в рублях.
Пример: RMSE = 5000. Значит, в среднем модель ошибается на 5000 рублей.

Часть 4: Интерпретация весов и Проблемы

4.1. Физический смысл весов

Если уравнение предсказания стоимости квартиры: $Цена = 50000 + 100 \times (Площадь) + 2000 \times (Комнаты)$

Вес $w_1 = 100$ : При увеличении площади на 1 кв.м. (при прочих равных) цена растет на 100$.
Вес $w_2 = 2000$ : Дополнительная комната добавляет 2000$.

Золотое правило сравнения весов

Сравнивать веса между собой можно только если данные отмасштабированы (StandardScaler). Иначе вес признака “Количество комнат” (1-5) будет огромным, а вес “Площади” (20-200) маленьким, просто чтобы компенсировать разницу в единицах измерения.

4.2. Мультиколлинеарность — Злейший враг

Это ситуация, когда два признака очень сильно коррелируют друг с другом (Линейно зависимы).

Как ломается математика

Пример: Мы добавили в модель и “Площадь в м²”, и “Площадь в футах”.
Проблема: Модель не может решить, какому признаку дать вес. Она может дать одному $+1,000,000$ , а другому $-999,999$ .
Симптом: $R^2$ высокий, а веса огромные и нелогичные.
Лечение: Смотреть корреляционную матрицу и удалять дублирующие признаки.

🧠 Проверка знаний

Почему при наличии сильных выбросов в целевой переменной инженер может предпочесть использовать функцию потерь MAE вместо MSE?

Какой первый шаг необходимо сделать, прежде чем делать выводы о том, какой признак 'важнее' в линейной регрессии, просто сравнивая величину их весов (w)?