Splunk On-Call (anciennement VictorOps) Examen et alternatives
VictorOps est un package de réponse aux incidents. Le service peut être intégré pour fonctionner avec d'autres systèmes de gestion informatique. VictorOps est désormais une division de Splunk .
À propos de VictorOps
VictorOps a été fondée en 2012 et a établi son siège social à Boulder, Colorado, aux États-Unis. En juin 2018, la société a été rachetée par Splunk.
Le système VictorOps est classé comme un La gestion des incidents service. Il agit comme une plaque tournante des alertes. Il s'interface avec les systèmes de détection de problèmes puis les transmet aux équipes de développement sous forme d'alertes. Le système VictorOps n’identifie pas les problèmes et ne gère pas non plus leur résolution. Le principal marché de VictorOps est celui de son utilisation dans DevOps.
Le système n’est pas conçu pour être utilisé comme environnement de service d’assistance. VictorOps n'inclut pas de système de billetterie ni de fonctions de gestion d'équipe. Cependant, il est possible de saisir des compétences spécialisées pour des membres individuels de l'équipe ou des groupes, ce qui permet au système d'envoyer avis aux contacts lorsqu'un problème survient.
Depuis que VictorOps fait partie de Splunk, son nom a été changé en Splunk sur appel . Donc, si vous recherchez VictorOps, le nouveau nom expliquerait pourquoi il a été difficile à trouver.
Splunk sur appel
Splunk On-Call est particulièrement utile pour Opérations informatiques des équipes qui soutiennent les opérations vitales 24 heures sur 24 – des systèmes qui fonctionnent 24 heures sur 24, comme l'infrastructure informatique des services d'urgence, un système de contrôle des flux de processus pour l'approvisionnement en gaz ou une usine automatisée 24 heures sur 24. Dans ces environnements, le « en dehors des heures d’ouverture » n’existe pas. Cependant, pour une gestion réaliste de l’emploi, le travail de nuit pourrait ne pas compléter pleinement l’expertise du système. Ces spécialistes ne seront pas au bureau dans ces cas-là mais seront « de garde .»
Un autre scénario concerne les services externalisés. Par exemple, les équipes de gestion des systèmes vitaux passent souvent des contrats pour assistance à l'entretien avec des cabinets de conseil spécialisés. Il existe différents contacts pour différentes spécialisations du système ou une série de contacts avec différents prestataires de services pour différents aspects du système ; Le transfert de la notification d'incident vers une autre destination est une tâche importante.
Ce sont les fonctions exécutées par Splunk On-Call. Cela nécessite que ces liens entre les types d'incidence et les intervenants soient installation . L'installation d'un service sur des systèmes trop compliqués peut rendre cette tâche de configuration fastidieuse. Mais il s’agit simplement d’une manière de codifier la mémoire des contrats, des accords et des plans que de nombreux gestionnaires de systèmes ont en tête.
Centraliser et documenter les informations de contact et les processus décisionnels des responsables des opérations informatiques lorsqu'ils décident qui appeler en cas d'urgence assurent la continuité en cas d'événement. En conséquence, les personnes qui possèdent ces connaissances s'absentent pour cause de congé, de maladie ou quittent brusquement l'entreprise.
Le flux de processus des opérations de Splunk On-Call est présenté ci-dessous.
Comme le montre le diagramme, le système peut recevoir des messages d'alerte via Mou et Équipes . Cela signifie que tout service de surveillance capable de générer des notifications par Slack peut fonctionner avec Splunk On-Call. Des notifications peuvent également être reçues de Microsoft Teams.
Une fois que Splunk On-Call reçoit une notification, il vérifie dans sa base de données les actions à effectuer et transmet ces alertes à la personne appropriée. Ceux alertes transférées peut également être envoyé via Slack ou Microsoft Teams.
Les essentiels de garde
Le coeur du Splunk sur appel le service est sa base de données de contacts. La bonne personne à qui appeler pour un problème spécifique peut être différente selon les moments de la journée. Il peut parfois être nécessaire de contacter une autre personne si le contact principal est absent. Splunk On-Call permet d'enregistrer plusieurs personnes différentes comme personnes devant suivre un planning. Ainsi, non seulement il est nécessaire de saisir les coordonnées, mais le système doit également savoir quand cette personne est responsable. Un calendrier de planification gère ce problème dans les paramètres du système On-Call.
Un autre problème auquel sont confrontés les gestionnaires de système est que le contact principal ne répond pas toujours. Le forfait de garde comprend escalade automatisée , qui implémente une deuxième notification après un délai. Cela peut impliquer de contacter la personne responsable de l’organisation ou du service auquel appartient le contact principal.
Webhooks permettre que des actions supplémentaires soient effectuées automatiquement en même temps qu'une alerte est transmise. Par exemple, de telles actions pourraient consister à faire rebondir le serveur ou à afficher une page d'état sur un site Web.
Réponse rapide
Le tableau de bord des incidents de Splunk On-Call fournit un journal en direct de tous les événements liés à l'alerte transmise via le système. Ce rapport montre les personnes de l'équipe à qui l'alerte a été attribuée et un journal des communications effectuées via un système de messagerie connecté au système On-Call.
Le gestionnaire en charge du système menacé peut activer une conférence téléphonique via le tableau de bord On-Call pour vérifier les progrès. Le système stocke les numéros de téléphone de chaque membre de l'équipe attribué, les regroupe et les compose automatiquement sans que le responsable ait besoin de voir chaque numéro.
Le gestionnaire du système peut également informer les parties prenantes de prise de conscience du problème et de progrès vers une solution. Toutes les actions personnelles et automatisées entreprises par l’équipe de gestion du système menacé sont enregistrées dans une chronologie, qui est un journal crucial qui servira pour une partie de Conformité aux SLA Documentation.
Automatisation des incidents
La valeur fondamentale de VictorOps est sa capacité à centraliser la répartition des responsabilités liées à un problème de système. Ce point central de traitement des alertes permet à l'outil d'identifier des notifications similaires. Par exemple, si une ligne de production s’arrête, des capteurs situés à plusieurs endroits de l’usine déclencheront des alertes. Plutôt que de se contenter d'un flot d'alertes, le système VictorOps fusionne tous dans une seule notification.
Les rapports attribués à un groupe d'alertes préserver toutes les alarmes entrantes d'origine. Ces informations sont utiles car elles proviennent de systèmes de surveillance en direct. Un ingénieur système peut rapidement appliquer une logique pour identifier le point de défaillance réel en examinant l'origine de toutes les notifications.
Le pilote du routage des notifications vient du Règles d'alerte dans VictorOps. Ces règles doivent toutes être mises en place, l'opérateur en charge de définir ces règles doit donc savoir précisément comment encadrer le format d'alerte et les déclencheurs associés. Les règles sont une paire d'incidents et d'actions à effectuer en réponse.
Bien que automatisation transmet les alertes sans intervention manuelle, le gestionnaire du système peut ajouter des notes à chacune au fur et à mesure de leur transmission au contact responsable. Il est également possible de mettre en place pièces jointes et texte passe-partout pour chaque type d'alerte. Ces notes peuvent inclure des instructions de sécurité et des notifications de responsabilité ou des guides de formation et de dépannage.
Informations sur la livraison
Le module Delivery Insights est une fonctionnalité intéressante pour les équipes DevOps qui opèrent un pipeline CI/CD . Cette fonctionnalité analytique aide les responsables d'équipe de développement à déterminer si l'entreprise gaspille trop d'argent sur du code mal testé qui est mis en production avant d'avoir été vérifié.
Laisser les correctifs jusqu’à ce qu’un module soit déjà en production peut coûter cher. Décomposer les systèmes existants pour résoudre une erreur de procédure et la remapper peut avoir un impact sur les systèmes associés. Ils laissaient code incorrect la mise en service nuit à la réputation de l’entreprise en laissant aux clients et aux membres du public l’impression que l’entreprise ne peut pas fournir ses services. À la lumière de ces échecs, les clients potentiels pourraient s’interroger sur la qualité du service auquel ils peuvent s’attendre.
Options de déploiement VictorOps
VictorOps n'est plus disponible en tant que produit indépendant. Vous devez regarder Splunk sur appel plutôt.
Splunk On-Call est une plateforme SaaS . Il n'existe pas de version sur site. Le service On-Call comprend le logiciel VictorOps, la puissance de traitement pour l'exécuter et un espace de stockage pour conserver les journaux et les statistiques. Abonnés à AWS et Azur Les forfaits de serveur virtuel peuvent ajouter des services Splunk sur la Marketplace de leur plateforme préférée.
Tarifs Splunk On-Call
La tarification de Splunk On-Call est un peu compliquée car elle n’est pas proposée sous forme de module séparé. Il s'agit plutôt d'une fonctionnalité complémentaire au Splunk Observabilité Cloud emballer.
Splunk Observability Cloud est un package qui comprend Surveillance des infrastructures Splunk et SplunkAPM , un moniteur de performances des applications. Le forfait comprend également Observateur du journal Splunk , qui est un gestionnaire de journaux et un produit de recherche de données.
Il existe deux plans pour Splunk Observability Cloud et le plus bas d'entre eux, appelé Standard , commence à 95 $ par mois et par hôte lorsqu'il est facturé annuellement. Le plan supérieur, appelé Plus , comprend également RHUM Splunk , un ensemble d'outils pour analyser les sites Web en direct, et son prix de départ est de 110 $ par mois et par hôte lorsqu'il est facturé annuellement.
Le module complémentaire Splunk On-Call a un prix de départ de 5 $ par utilisateur et par mois lorsqu'il est facturé annuellement. De plus, vous pouvez obtenir un Essai gratuit de 14 jours de Splunk On-Call et de tous les autres modules Splunk.
Forces et faiblesses de Splunk On-Call
VictorOps, désormais appelé Splunk sur appel , a sa place en tant que gestionnaire de notifications pour la gestion des erreurs système. Cependant, cet outil ne fonctionne pas de manière indépendante. Tout ce qu'il fait, c'est transmettre les alertes émises par d'autres logiciels. Nous avons identifié certaines forces et faiblesses de Splunk On-Call.
Avantages:
- Convient pour une utilisation par les équipes DevOps, vérifiant les fonctions internes une fois qu'elles sont mises en ligne
- Automatise le processus de notification pour les personnes responsables du support des systèmes en erreur
- S'intègre à d'autres produits Splunk et à tout moniteur pouvant envoyer des notifications via Slack ou Teams
- Documentation d'activité complète pour les rapports de conformité SLA
- Détecte les rapports similaires liés au même incident
Les inconvénients:
- Fournit des fonctionnalités que les outils de surveillance d’alerte mettent déjà en œuvre
- La qualité du routage des incidents des systèmes repose sur la capacité de l'utilisateur à créer des règles précises
Alternatives à VictorOps
Trouver des alternatives à VictorOps est une tâche difficile car, dans de nombreux cas, l’option VictorOps consiste à ne rien utiliser. Au lieu de cela, VictorOps alertes d'itinéraires à des personnes spécifiques et enregistrer les événements de notification. Cependant, de nombreux outils de surveillance qui pourraient alimenter VictorOps proposent également d'écrire des règles de routage pour diriger les alertes vers la bonne personne.
Nous avons trouvé plusieurs outils très efficaces pour soutenir DevOps équipes dans la détection des erreurs lors du passage en production et une fois les nouvelles fonctions et pages Web mises en ligne.
Voici notre liste des cinq meilleures alternatives à VictorOps.
- Centre de services SolarWinds (ESSAI GRATUIT) Ce package inclut des fonctionnalités de gestion d’équipe et de gestion des tâches dans son système de billetterie. Tout comme VictorOps, SolarWinds Service Desk peut s'intégrer à Jira pour la gestion de projet et à Slack pour les notifications. Vous pouvez recevoir des alertes de surveillance introduites dans le système de billetterie et configurer des itinéraires pour permettre au système d'attribuer automatiquement le travail. De plus, il suivra les progrès et donnera à chaque technicien une liste de tâches avec des délais. SolarWinds Service Desk est un système SaaS et vous pouvez y accéder grâce à un essai gratuit de 30 jours.
- Datadog APM + Profileur continu L'Application Performance Monitor de Datadog propose deux plans, le plus élevé d'entre eux comprenant un profileur continu et un suivi des erreurs. Ces fonctions suivent celles du package Splunk Observability Cloud avec le module complémentaire Splunk On-Call. En plus de détecter les problèmes dans le code en direct, cet outil les transmettra à l'équipe de développement. Abonnez-vous au nouveau module Datadog CI Visibility pour ajouter la gestion du pipeline CI/CD et consultez le module Incident Management pour compléter l'alternative à VictorOps. Il s'agit d'une plate-forme SaaS et tous les modules sont proposés Essai gratuit de 14 jours .
- Service de téléavertisseur est un rival très proche de Victor Ops. Il s'appuie sur des intégrations avec Slack et ServiceNow pour arbitrer les alertes déclenchées par d'autres outils de surveillance et transmettre les alertes conformément aux règles définies dans l'outil. Mais, encore une fois, il s'agit d'un package SaaS, et vous pouvez l'obtenir sur un Essai gratuit de 14 jours .
- Invincible Un service de test continu qui suit le développement du code grâce à des tests et continue d'examiner ses performances, en repérant les erreurs lorsqu'il est en ligne. Ce package peut être intégré à JIRA pour compléter l'allocation du travail et la gestion des tâches pour les problèmes de performances identifiés. Ce package est disponible sous forme de plateforme SaaS ou pour une installation sur Windows Server. Demander une démo .
- OpsGénie est un système de gestion d'astreinte et d'alerte d'Atlassian, le créateur de Jira, l'outil de gestion de projet. OpsGenie fournit un routage minutieux et s'intègre à Jira pour fournir une planification et une supervision complètes du développement et du réaménagement. Essayez-le gratuit pendant 14 jours .