поделился событием

The best practice in valuation is to work with data that is directly observable in open markets. This assertion is based on, among other things, the statements of IFRS 13 Fair Value Mesurement, IVS 2022, and RVGS 2022. One of the problems of market data is the problem of outliers, i. e., observations whose value of a feature differs significantly from the rest. This material contains no theory. It is aimed at handling of outliers using the Python language. We will work on the example of the residential real estate market in Almaty (Republic of Kazakhstan). As we work on this topic, we will consider the following questions:

  • what are the basic ways of handling outliers?
  • how to detect and handle outliers using Python?
In all, we will look at three simple ways to handle outliers. Python is more a language for business and professional activities than for science. A number of more complex methods of handling outliers will be discussed in a separate material containing code in R. In this paper we will limit ourselves to the following methods:
  1. the aprroach based on the empirical relations of the Normal distribution (The z-score approach);
  2. Tukey’s fences (or the interquartile range (IQR) proximity rule);
  3. the quantile-based approach.
This list of methods is not exhaustive. However, they will help cover the needs of an appraiser who is beginning to apply machine learning and mathematical statistics methods to his or her work.


Перевод на русский язык:

Лучшей практикой оценки является работа с данными, которые непосредственно наблюдаются на открытых рынках. Это утверждение основано, в частности, на положениях МСФО 13 «Оценка справедливой стоимости», IVS 2022 и RVGS 2022. Одной из проблем рыночных данных является проблема выбросов, т. е. наблюдений, значение какого-либо признака которых значительно отличается от остальных. Данный материал не содержит теории. Он направлен на обработку выбросов с помощью языка Python. Мы будем работать на примере рынка жилой недвижимости в Алматы (Республика Казахстан). В процессе работы над данной темой мы рассмотрим следующие вопросы:

каковы основные способы работы с выбросами?
как обнаружить и обработать выбросы с помощью Python?

В целом мы рассмотрим три простых способа обработки выбросов. Python — это больше язык для бизнеса и профессиональной деятельности, чем для науки. Ряд более сложных методов работы с выбросами будет рассмотрен в отдельном материале, содержащем код на языке R. В данной статье мы ограничимся следующими методами:

подход, основанный на эмпирических соотношениях нормального распределения (The z-score approach);
заграждения Тьюки (или правило близости интерквартильного интервала (IQR));
подход на основе квантилей.

Этот список методов не является исчерпывающим. Однако они помогут покрыть потребности оценщика, который начинает применять методы машинного обучения и математической статистики в своей работе.

Поделиться:
Читать далее
Продолжаю делиться разработками. Сегодня предлагаю вашему вниманию электронную таблицу, выполняющую однопараметрическое преобразование Бокса-Кокса....
Вслед за бурным развитием программного обеспечения и IT-технологий, повышением информационной прозрачности рынков и появлением огромных массивов открытых рыночных данных, т. е....
Комментарии0
Нет комментариев