поделился событием

Наверное многие, как и я раньше, задаются вопросом - почему оценки, полученные с помощью методов регрессионного анализа, иногда бывают, мягко говоря, удивительными? Почему применение этих методов зачастую приводит к ошибкам в оценках?

Как всегда - попробуем разобраться в этом вопросе, не вдаваясь в сложные формулы и глубины математики. 

Итак - просто о сложном.

По сути данная тема - продолжение мыслей поста "Осторожно регрессия! ....". Итак, мы уже убедились, что иногда модели, особенно построенные на небольших выборках и не учитывающие некоторые ценообразующие факторы - могут быть не репрезентативными (другими словами, не отражающими настоящую картину связей между ценообразующими параметрами и стоимостью). Теперь попытаемся понять - в чем причина этого явления. 

На самом деле всё просто. Как мы знаем, для построения уравнения регрессии (нахождения коэффициентов при ценообразующими параметрами) используется метод наименьших квадратов (МНК). Суть это метода проста - с помощью нехитрых математических преобразований идет поиск таких значений коэффициентов уравнения регрессии, при которых коэффициент R-квадрат будет наибольшим. Вот здесь и возникает ошибка. Напомню, R-квадрат показывает нам, какую часть изменчивости зависимой переменной нам удалось объяснить на основе имеющейся у нас выборки и данных о значениях независимых переменных (ценообразующих факторов). 

Уловили логическое расхождение?

Метод наименьших квадратов всегда пытается на данной выборке приписать имеющимся у нас ценообразующим факторам (независимым переменным) максимальную объясняющую способность. Он так с точки зрения его математического алгоритма устроен. Но не всегда те ценообразующие факторы, данные по которым у нас есть в наличии, на это способны. 

Другими словами, если например, у Вас получилось построить модель определения стоимости квартир с разным качеством отделки с коэффициентом R-квадрат, равным 99%, в которой есть только один ценообразующий фактор - например, площадь, модель наверняка не достоверна. В данном случае не может только площадью квартиры определяться полностью её цена. 

Что же делать с такой особенностью МНК? И как получать достоверные модели?

Ответ прост - использовать большую выборку. Чем больше выборка, тем с точки зрения той же математики, сложнее будет МНК завысить объясняющую способность имеющихся у Вас ценообразующих факторов. 

Как определить оптимальный размер выборки?

Этот вопрос очень сложен и точных количественных рекомендаций Вам никто не даст. Но я Вам подскажу один признак того, что размер имеющейся у Вас выборки является достаточным для достоверных оценок. Этот признак заключается в следующем: если добавление нового наблюдения (аналога) к выборке не приводит к значительным изменениям коэффициентов регрессии и значения R-квадрат, то выборку можно считать достаточной (я называю этот признак - признаком устойчивости модели). 

Если же добавление нового наблюдения (данных по новому аналогу) в выборку приводит к значительному уменьшению R-квадрат и изменению коэффициентов регрессии - то выборку надо увеличивать. Берите это на заметку.

Поделиться:
Читать далее
« В одной из самых крупных организаций арбитражных управляющих — «Меркурий» — конфликт: председатель СРО Артур Трапицын отказывается уходить в отставку....
« Исполняющий обязанности прокурора Красноярского района просит отменить приговор по делу Морозовой и направить уголовное дело в тот же суд для рассмотрения в ином составе суда....
Комментарии0
Нет комментариев