The best practice in valuation is to work with data that is directly observable in open markets. This assertion is based on, among other things, the statements of IFRS 13 Fair Value Mesurement, IVS 2022, and RVGS 2022. One of the problems of market data is the problem of outliers, i. e., observations whose value of a feature differs significantly from the rest. This material contains no theory. It is aimed at handling of outliers using the Python language. We will work on the example of the residential real estate market in Almaty (Republic of Kazakhstan). As we work on this topic, we will consider the following questions:
- what are the basic ways of handling outliers?
- how to detect and handle outliers using Python?
- the aprroach based on the empirical relations of the Normal distribution (The z-score approach);
- Tukey’s fences (or the interquartile range (IQR) proximity rule);
- the quantile-based approach.
Перевод на русский язык:
Лучшей практикой оценки является работа с данными, которые непосредственно наблюдаются на открытых рынках. Это утверждение основано, в частности, на положениях МСФО 13 «Оценка справедливой стоимости», IVS 2022 и RVGS 2022. Одной из проблем рыночных данных является проблема выбросов,
каковы основные способы работы с выбросами?
как обнаружить и обработать выбросы с помощью Python?
В целом мы рассмотрим три простых способа обработки выбросов. Python — это больше язык для бизнеса и профессиональной деятельности, чем для науки. Ряд более сложных методов работы с выбросами будет рассмотрен в отдельном материале, содержащем код на языке R. В данной статье мы ограничимся следующими методами:
подход, основанный на эмпирических соотношениях нормального распределения (The z-score approach);
заграждения Тьюки (или правило близости интерквартильного интервала (IQR));
подход на основе квантилей.
Этот список методов не является исчерпывающим. Однако они помогут покрыть потребности оценщика, который начинает применять методы машинного обучения и математической статистики в своей работе.
Комментарии0