machine-learning Лекция

Линейная Регрессия. Интерпретируемость и Метрики

Лекция 8: Линейная Регрессия. Интерпретируемость и Метрики

Цели лекции

  1. Понять, как машина “рисует линию” через облако точек (метод наименьших квадратов).
  2. Разобраться в функциях потерь: почему квадрат ошибки (MSE) популярнее модуля (MAE).
  3. Научиться оценивать качество регрессии: что на самом деле значит R2R^2.
  4. Освоить интерпретацию весов модели и узнать, почему мультиколлинеарность — враг инженера.

Часть 1: Механика Линейной Регрессии

Линейная регрессия — это “Hello World” в мире ML. Несмотря на простоту, она используется в банках, страховании и медицине, потому что она интерпретируема. Мы всегда можем сказать, почему модель приняла решение.

1.1. Формула

В школе мы учили y=kx+by = kx + b. В машинном обучении мы пишем чуть иначе: y^=w0+w1x1+w2x2+...+wnxn\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + ... + w_n x_n

  • y^\hat{y} (y-hat): Наше предсказание.
  • ww (Weights, Веса): Коэффициенты важности признаков. Это то, что модель “учит”.
  • w0w_0 (Bias, Сдвиг): Базовое значение, если все признаки равны нулю.

1.2. Геометрический смысл

Представьте облако точек на графике (Площадь vs Цена). Задача модели — провести прямую линию так, чтобы она прошла максимально близко ко всем точкам одновременно.

Расстояние от реальной точки до линии называется остатком (Residual) или ошибкой.


Часть 2: Функция Потерь (Loss Function)

Как объяснить машине, какая линия “лучше”? Нужно дать ей числовую метрику “плохости” (Loss). Модель будет пытаться это число минимизировать.


Часть 3: Метрики качества (Evaluation)

Мы обучили модель. Как понять, хороша ли она?

3.1. R2R^2 Score (Коэффициент детерминации)

Это “доля объясненной дисперсии”. Диапазон: от -\infty до 1.

Интерпретация R-квадрат

Представьте простейшую “глупую” модель, которая всегда предсказывает среднее значение по больнице (yˉ\bar{y}).

  • R2=1R^2 = 1: Идеальное предсказание.
  • R2=0R^2 = 0: Ваша модель работает так же, как простое предсказание среднего. Она бесполезна.
  • R2<0R^2 < 0: Ваша модель хуже, чем просто среднее. Вы что-то сломали.
  • Пример: R2=0.8R^2=0.8 означает, что модель объяснила 80% закономерностей в данных, а 20% осталось в шуме.

3.2. RMSE (Root Mean Squared Error)

Это корень из MSE: RMSE=MSERMSE = \sqrt{MSE}

  • Зачем: Чтобы вернуть размерность. Если мы предсказываем цену в рублях, MSE будет в “квадратных рублях” (что бессмысленно). RMSE будет в рублях.
  • Пример: RMSE = 5000. Значит, в среднем модель ошибается на 5000 рублей.

Часть 4: Интерпретация весов и Проблемы

4.1. Физический смысл весов

Если уравнение предсказания стоимости квартиры: Цена=50000+100×(Площадь)+2000×(Комнаты)Цена = 50000 + 100 \times (Площадь) + 2000 \times (Комнаты)

  • Вес w1=100w_1 = 100: При увеличении площади на 1 кв.м. (при прочих равных) цена растет на 100$.
  • Вес w2=2000w_2 = 2000: Дополнительная комната добавляет 2000$.

Золотое правило сравнения весов

Сравнивать веса между собой можно только если данные отмасштабированы (StandardScaler). Иначе вес признака “Количество комнат” (1-5) будет огромным, а вес “Площади” (20-200) маленьким, просто чтобы компенсировать разницу в единицах измерения.

4.2. Мультиколлинеарность — Злейший враг

Это ситуация, когда два признака очень сильно коррелируют друг с другом (Линейно зависимы).

Как ломается математика

  • Пример: Мы добавили в модель и “Площадь в м²”, и “Площадь в футах”.
  • Проблема: Модель не может решить, какому признаку дать вес. Она может дать одному +1,000,000+1,000,000, а другому 999,999-999,999.
  • Симптом: R2R^2 высокий, а веса огромные и нелогичные.
  • Лечение: Смотреть корреляционную матрицу и удалять дублирующие признаки.

🧠 Проверка знаний

Почему при наличии сильных выбросов в целевой переменной инженер может предпочесть использовать функцию потерь MAE вместо MSE?

Какой первый шаг необходимо сделать, прежде чем делать выводы о том, какой признак 'важнее' в линейной регрессии, просто сравнивая величину их весов (w)?