Если сервис упал, его можно перезапустить, а если он упал несколько раз, то лучше уведомить о серийном отказе службу поддержки, а если он потом заработал, то уведомить еще раз. Прекрасный алгоритм, но сервисы станут проще, если будут просто отправлять alerts и check points, а на ошибку реагировать максимально примитивно. Отследить историю и состояние сервисов можно по логам, с помощью мониторинговой платформы, даже если сервис упал бесшумно или завис.