more robust alert for node reports being up, while going down. #1877

amnonh · 2023-02-01T16:38:34Z

When a node goes down (or in extreme situtation when a node stop to operate) it can be stack in a limbo,
it reports metric, so Prometheus think it's up, while not all metrics are reported.

We already have an alert for this situations but it uses absent that is only valid for a period of time.
Instead we shoul move to:

sum(up{job="scylla"}>0)by(instance) unless sum(scylla_transport_requests_served{shard="0"}) by(instance)

The text was updated successfully, but these errors were encountered:

amnonh added the enhancement New feature or request label Feb 1, 2023

amnonh added this to the Monitoring 4.3 milestone Feb 1, 2023

amnonh mentioned this issue Feb 6, 2023

prometheus.rules.yml: A robust node shudting down #1882

Merged

amnonh closed this as completed in #1882 Feb 6, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

more robust alert for node reports being up, while going down. #1877

more robust alert for node reports being up, while going down. #1877

amnonh commented Feb 1, 2023

more robust alert for node reports being up, while going down. #1877

more robust alert for node reports being up, while going down. #1877

Comments

amnonh commented Feb 1, 2023