Тайна "жирного хвоста"

Тайна "жирного хвоста"

Вероятностные распределения с "жирным хвостом" чреваты для менеджера неожиданностями, сюрпризами и даже катастрофами. Умение отличать распределение с "коротким хвостом" от "жирного хвоста" становится важным, когда нам нам надо выбрать правильную стратегию, потому что то что работает для "короткого хвоста" не работает для "жирного хвоста".

Дисклеймер: я предполагаю, что вы знакомы с инструментами Канбан-метода, и основами теории вероятности и статистического анализа. Без этого читать статью может быть сложно

Когда хвост - “жирный”?

В предыдущих статьях мы говорили о Lead Time Distribution Chart, и о том, что если у распределения “длинный (жирный) хвост”, то вероятность экстремально больших значений (“черных лебедей”) гораздо выше, чем кажется.

Однако, где критерий, глядя на который мы можем сказать что у распределения есть “жирный хвост”?

Можно конечно попробовать “на глазок” попробовать определить - есть ли “жирный хвост” или нет. Но так можно легко и ошибиться, и начать исправлять то, чего нет, или наоборот, пребывать в самоуспокоенности, когда на горизонте маячит “черный лебедь.

На картинке ниже показано три распределения. Одно из них - с “жирным хвостом”. Сможете на на глаз определить - какое именно?

Какое из распределений - с жирным хвостом? Сможете сходу определить?
Какое из распределений - с жирным хвостом? Сможете сходу определить?

Думаю, что “на глазок“ определить какое из этих распределений с жирным хвостом - довольно затруднительная задача, которая требует большой насмотренности.

Если вам все же интересен правильный ответ - дочитайте статью до конца, и ответ будет в самом финале

Критерий Kanban University

Kanban University дает конкретный критерий “жирного хвоста”, который показан на картинке ниже

Котик намекает, что хвост длинный (жирный)
Котик намекает, что хвост длинный (жирный)

Критерий выглядит так: если результат деления значения 98% процентиля на 50% процентиль (медиану) больше чем 5,6, то это распределение с жирным хвостом.

На первый взгляд - удобное правило, которое без лишних сложностей обозначает границу, за которой “хвост” уже требует нашего пристального внимания.

Но если мы попытаемся найти ответ на вопрос - “А почему именно значение 5.6 определяет эту границу?” - тут появляется куча непоняток.

А почему - так?

Я долго искал ответ на этот вопрос, и к сожалению, в материалах Kanban University однозначного ответа не было. Вроде как это “эмпирически обосновано”, но каких-либо ссылок на первоисточники найти не удалось ни у Даниэля Ваканти, ни у Клауса Леопольда, ни у Дэвида Андерсона, ни у других классиков Канбан-метода.

Благодаря российскому Канбан-сообществу, удалось узнать, что это правило связано со свойствами экспоненциального распределения. Но как именно экспоненциальное распределение связано с “жирными хвостами” было по прежнему не понятно.

Дальнейшие изыскания привели меня к статье 1974 года в научном журнале Technometrics. Статья называлась “Heavy-Tailed Distributions: Properties and Tests”, автора статьи зовут Maurice C. Bryson - доцент кафедры статистику университета Колорадо (на 1974й год).

Maurice C. Bryson узнал, когда "хвост" распределения становится жирным еще до того, как Талеб написал свою книжку :)
Maurice C. Bryson узнал, когда "хвост" распределения становится жирным еще до того, как Талеб написал свою книжку :)

Именно в этой статье я нашел ответ, и сейчас расскажу его вам.

Все дело в том, что согласно исследованиям Maurice C. Bryson критерием “жирного хвоста” является случай, когда “хвост” распределения убывает медленнее, чем это происходит для экспоненциального распределения.

То есть, экспоненциальное распределение является некой границей которая отделяет обычные распределения от распределений с “жирным хвостом”.

Разбор статьи Maurice C. Bryson и пояснение ответа на вопрос “Почему это так?”, тянет на отдельную большую статью, поэтому давайте примем это правило как данность.

Соотношение 98% и 50% перцентиля

Но при чем тут соотношение 98% и 50% перцентилей, про которое говорит Kanban University? Дело в том, что значение этого отношения равное 5,6 указывает на то что это распределение является экспоненциальным.

Тут надо сказать, что экспоненциальное распределение обладает уникальными свойствами. Вне зависимости от того, какое именно экспоненциальное распределение мы возьмем (они отличаются средней частотой событий), отношение двух разных перцентилей для любого из таких распределений будет одинаковым.

Само экспоненциальное распределение описывается формулой:

Формула экспоненциального распределения
Формула экспоненциального распределения

где λ — это средняя частота событий,
e - основание натурального логарифма (может помните со школы e=2,72)

Ниже представлено три экспоненциальных распределения, с разными значениями λ.

У синего λ = 0,1:

Тайна "жирного хвоста"

у зеленого λ = 0,5:

Тайна "жирного хвоста"

А у красного λ = 1:

Тайна "жирного хвоста"

Кажется, совсем разные распределения, но давайте посчитаем для каждого из них 98% и 50% перцентили:

Для λ=0.1

  • 98% перцентиль: приблизительно 39.12
  • 50% перцентиль: приблизительно 6.93

Для λ=0.5

  • 98% перцентиль: приблизительно 7.82
  • 50% перцентиль: приблизительно 1.39

Для λ=1.0

  • 98% перцентиль: приблизительно 3.91
  • 50% перцентиль: приблизительно 0.69

Казалось, бы совершенно разные значения. А теперь давайте поделим их друг на друга и посмотрим, что получится:

Для λ=0.1:

  • 39.12 / 6.93 = 5.645

Для λ=0.5

  • 7,82 / 1,39 = 5,626

Для λ=1.0

  • 3,91 / 0,69 = 5,667

Удивительное дело! Все значения получаются почти равными 5,6! Причем, если мы возьмем другие два перцентиля в этих распределениях, то их соотношение для разных экспонент тоже окажутся приблизительно равными.

Но тогда получается, что если отношение значения 98% перцентиля к значению 50% перцентиля принимает значения:
1) равне 5,6 - это значит, что наше распределение экспонциальное и находится на границе между тонко-хвостыми и жирно-хвостыми распределениями;
2) меньшие, чем 5,6 - это значит, что наше распределение суперэкспоненциальное, у которого хвост быстро сходит на нет быстрее чем у экспоненты, и значит "жирного хвоста" тут еще нет;

3) большие, чем 5.6 - это субэкспоненциальное распределение, хвост которого убывает медленнее, чем экспоненциальное. То есть у него появляется “жирный хвост”.

Вот мы и раскрыли тайну, стоящую за правилом от Kanban University об определении “жирности” хвоста.

Теперь вы можете посчитать это соотношение для своего распределения и понять - нужно вам беспокоиться о "жирном хвосте", или нет.

Ограничения этого правила

Это правило предлагает определять характер распределения по одной точке, что довольно рискованно, так как не учитывает особенности распределения.

Для распределения с несколькими явными модами (пиками значений), это правило не будет работать корректно, так как наличие нескольких мод может значительно исказать соотношение перцентилей. Например, проверочные перцентили могут сосредоточиться вокруг одной из мод, не охватывая полностью форму распределения.

Кроме того, мультимодальные распределения часто не подчиняются экспоненциальному закону убывания вероятностей. В мультимодальных распределениях вероятности могут изменяться непредсказуемо по мере увеличения или уменьшения значений, что не позволяет опираться на соотношение перцентилей.

Поэтому прежде чем применять правило KU, надо выделить такой срез данных, в котором будет одна мода. Например, можно взять данные только по инцидентам одного типа. Скорее всего распределение этих данных будет одномодальным. Для такого распределения вполне можно применить правило KU и понять, что происходит.

Эвристики Талеба

Известный эксперт по “жирным хвостам” Нассим Талеб предлагает использовать совсем другие критерии “толстых хвостов”.

Надо сказать, что в своей книге он использует слово “эвристики”. Эвристики - это совокупность приёмов и методов, облегчающих и упрощающих решение задач. Говоря простым языком, это лайфхаки, с помощью которых мозг человека избегает долгих вычислений, но в итоге получает нужный результат.

Мне кажется это слово более емкое и широкое чем “критерии” или “правила”, поэтому в дальнейшем я буду использовать его.

В книге Талеб перечисляет несколько эвристик для определения “жирного хвоста”. Некоторые из них кажутся универсальными, а другие подходят лишь для конкретных распределений.

Эвристика Cumulative Distribution Function (CDF)

Мы разберем с вами самую простую, на мой взгляд, эвристику, с использованием Cumulative Distribution Function (CDF).

Суть этой эвристики - визуально сравнивать форму графика текущего распределения с формой графика нормального распределения.

Почему предлагается сравнивать с нормальным распределением, а не с экспоненциальным? Потому что у нормального распределения есть понятная, фиксированная форма распределения, которую легко принять за точку отсчета.

Но частотные диаграммы времени выполнения (Lead Time Distribution) - не очень удобны для сравнения между собой. Там могут быть разрывы в данных, что сильно усложняет сравнение и интерпретацию.

Кроме того, “хвост” часто становится заметен только при очень большом “увеличении” масштаба графика, когда становятся видны очень малые значения, которые трудно увидеть без специальных исследований.

Для таких задач гораздо более удобно использовать другой график - Cumulative Distribution Function (CDF).
Этот график показывает вероятность того, что значение случайной величины будет меньше или равно какого-то конкретного значения.

Например, мы можем построить такой график на основе данных о Lead Time по множеству задач, и глядя на него, легко получить ответ на вопрос - какова вероятность того, что задача будет выполняться в течение какого-то конкретного времени (то есть не превышая его)?

Рассмотрим пример.

На диаграмме ниже показана диаграмма Lead TIme Distribution (LTD).

Тайна "жирного хвоста"

И вроде бы видно, что у этого распределения есть “жирный хвост. Но давайте это перепроверим, построив график Cumulative Distribution Function (CDF) и сравнив его с таким же графиком CDF для нормального распределения с такой же модой, как и у нашего LTD

Чтобы построить график CDF, надо вычислить вероятности для каждого значения (как это сделать в Excel, читайте тут), а затем, последовательно складывая их, получить значения кумулятивной вероятности для каждого значения, и отложить его на графике.

У нас получится диаграмма, которая показывает вероятность того, что значение случайной величины будет меньше конкретного значения.

Вот какой график у нас получится:

Тайна "жирного хвоста"

Сплошная синяя линия - график Cumulative Distribution Function (CDF) для исходной LTD, а прерывистая оранжевая линия - это такой же график Cumulative Distribution Function, но уже для нормального распределения с такой же модой.

Если мы посмотрим на правую часть этих графиков, то увидим, что начиная примерно со значения равного 30 график CDF для нормального распределения больше не растет, так как стал равен 100%. Значит, начиная со значения 30 у нормального распределения больше нет “хвоста”. А вот у исходного распределения LTD, “хвост” все еще продолжает проявляться, и медленно “ползет” к значению 100%

С точки зрения эвристики Талеба - это свидетельство того, что наше распределение LTD - с “жирным хвостом”.

Тайна "жирного хвоста"

Достаточно ли этого, чтобы однозначно сказать “да, у этого распределения есть жирный хвост”?

С одной стороны, да - так как наглядно видно, что “хвост” убывает медленнее, чем это делает нормальное распределение.

С другой стороны, как было сказано выше, границей, после которой распределение точно имеет “жирный хвост”, является экспоненциальное распределение. И может оказаться так, что наше распределение убывает медленнее, чем нормальное, но все еще быстрее, чем экспоненциальное. То есть оно субэкспоненциальное. И тогда в строгом смысле, “ толстого хвоста” еще нет. О том, как это проверить, поговорим в следующих статьях.

Что лучше Эвристика от Талеба или способ Kanban University?

Визуализация и наглядность:

  • CDF: График CDF предоставляет визуальное представление накопленных вероятностей по всему диапазону значений. Это позволяет легко увидеть отклонения от нормального распределения и оценить форму хвостов распределения.
  • Метод KU: одиночная числовая оценка все же менее информативна, чем наглядный график сравнения

Анализ всего диапазона значений:

  • CDF: График CDF позволяет анализировать поведение распределения на всех участках распределения. Это важно для понимания общей формы распределения и выявления других особенностей, таких как мода, асимметрия, эксцесс.
  • Метод KU: Фокусируется только на определенных точках распределения (конкретных перцентилях), что может упустить важные характеристики в других частях распределения.

Устойчивость к выбросам:

  • CDF: График CDF менее подвержен влиянию отдельных выбросов, так как показывает накопленную вероятность, сглаживая локальные колебания.
  • Метод KU: Значения перцентилей могут сильно изменяться под воздействием выбросов, что может привести к ошибочным выводам.

Простота интерпретации в случае мультимодальных распределений:

  • CDF: Может быть легче интерпретировать для мультимодальных распределений, так как показывает полное накопление вероятностей и позволяет увидеть все пики и впадины распределения.
  • Метод KU: Могут не отражать сложные структуры мультимодальных распределений, так как основаны на фиксированных точках и не учитывают всю форму распределения.

Гибкость в анализе разных распределений:

  • CDF: Применим для анализа любых распределений, независимо от их формы и структуры.
  • Метод KU: Может быть ограничен применением к распределениям с определенными свойствами и может быть менее информативен для нестандартных или сложных распределений.

Простота использования:

  • CDF: Построение диаграммы CDF требует предварительных вычислений, а сравнение с нормальным распределением требует подбора таких параметров среднего и стандартного отклонения таким образом, чтобы форма нормального распределения соответствовала форме исследуемого распределения. Эта занимает время, и может быть не слишком просто.
  • Метод KU: Гораздо просто вычислить, особенно для однородных распределений. Удобно для быстрой оценки наличия "жирных хвостов".

Резюмируя: Обе эвристики имеют свои преимущества и могут быть полезны в зависимости от контекста анализа. Эвристика на основе CDF предоставляет более полную и наглядную картину распределения, что может быть особенно полезно при анализе сложных и мультимодальных распределений. Метод KU прост и довольно быстр в применении, но может упустить важные аспекты распределения. В идеале, для точного и всестороннего анализа следует использовать обе эвристики в комбинации с дополнительными методами статистического анализа.

*Ответ на вопрос про три графика (синий, зеленый, красный):
Синий график - распределение с коротким хвостом. Быструю убывающая плотность вероятности, и хвост практически исчезает после небольшого значения.
Зелёный график имеет чуть более растянутый хвост по сравнению с синим распределением, но экстремальные значения всё ещё достаточно редки.
Красный график имеет наиболее длинный хвост: вероятности для больших значений убывают гораздо медленнее, и наблюдаются экстремальные значения (до 20+), что указывает на жирный хвост. Так что красный график представляет распределение с длинным хвостом (fat tail distribution).

4
Начать дискуссию