Абстрагироваться от юзеров и работать только по метрикам, например, uptime, retention, nps и пр. — идея не очень, как минимум для нас. Наладить трекинг uptime для каждого юзкейса\фичи — круто, но — долго и дорого. А в итоге можно иметь всего десяток перебоев по 5 минут, но недовольство от этих перебоев приведет к оттоку. На Retention, CSAT и пр. влияет еще куча факторов, и падения — далеко не основные. Но от метрик не отказываемся — с ними на уровне повыше работаем;)
Имхо, вы переусложняете. Подозреваю, что ваша команда рано или поздно таки вернется к более простому описанию процесса работы с багами.)
Мы работаем с багами в более простом режим, просто система очень большая и сложная, и к этому прибегаем периодически