inframap
inframap
inframap
İçerik bilgisi
Observability
Observability
11 Mar 2025
6
minimum okuma
Yazılmıştır
Berkay Özuygur

Gözlemlenebilirliği Optimize Etme

Gözlemlenebilirliği Optimize Etmek: İzleme Gürültüsünü Aşmak

İzleme sistemlerinden gelen uyarıları yönetmek, BT ekipleri için en büyük operasyonel zorluklardan biridir. Yanlış eşik değerleri ve yetersiz filtreleme mekanizmaları nedeniyle, yanlış pozitif uyarılar ekiplerin kritik olayları gözden kaçırmasına neden olabilir. Zamanla, bu uyarılar fazla sık hale gelir ve ekipten doğal bir tepki olarak uyarı yorgunluğuna yol açar.

Alarm Gürültüsünün Kaynaklarını Anlamak

Birden fazla izleme aracının kullanıldığı BT altyapılarında, alarm gürültüsüne neden olan başlıca faktörler şunlardır:

  • Yanlış veya düşük eşik değerleri: Örneğin, CPU kullanımı birkaç saniye boyunca %90'a çıktığında bir alarm üretmek yerine, belirli bir süre bu seviyede kalmasını beklemek daha mantıklıdır.

  • Aynı olay için farklı izleme araçlarından tekrar eden alarmlar: Örneğin, hem Prometheus hem de Datadog aynı olay için ayrı ayrı uyarılar gönderirse, bu alarmlar birleştirilmelidir.

  • Gereksiz veya güncel olmayan kurallar: BT ortamı geliştikçe, izleme kurallarının güncellenmemesi, artık geçerli olmayan alarmlara neden olabilir.


Gürültüyü Azaltma Stratejileri

a) Alarm Filtreleme ve Önceliklendirme

Parny’nin Alarm Kuralları Motoru, izleme araçlarından gelen alarmları regex veya metin eşlemesi kullanarak filtrelemenizi sağlar. Bu, size:

  • Otomatik olarak önemsiz olayları görmezden gelme imkanı tanır.

  • Yalnızca kritik olayların alarm üretmesini sağlamak.

  • Belirli alarmlara öncelik verme ve yükseltmeleri atanmış personelin üzerinden yönlendirme imkanı sağlar.

  • İletişim kanallarını otomatik olarak değiştirme ve kritik durumlar için alarmları telefon, SMS veya anlık bildirimler yoluyla gönderme imkanı sunar.

  • Alarmlara öncelik etiketleri ekleme ve daha etkili bir önceliklendirme sağlamaya yardımcı olur.

Bu filtreleme mekanizmalarını uygulayarak, ekibiniz gerçek anlamda önemli alarmlara odaklanabilir ve gereksiz bildirim yorgunluğunu ortadan kaldırabilir.


Yeni Kural Ekleme


b) Yanlış Pozitif Alarmları Önleme

Yanlış pozitifleri en aza indirmek için adaptif eşikleme veya dinamik anomali tespiti gibi yöntemler uygulanabilir.

Örneğin:

  • Sabit bir CPU kullanım eşiği ayarlamak yerine, tarihsel kullanım eğilimlerine dayalı olarak ayarlanan eşik değerleri oluşturabilirsiniz.

  • Benzer olayları birleştirerek tekrarlayan alarmları önleyebilirsiniz.