Meilleures pratiques de surveillance des serveurs – Comment surveiller la santé du serveur
Vous disposez de deux options stratégiques lors de la surveillance d'un serveur : la surveillance manuelle ou automatisée du serveur. La surveillance manuelle nécessite qu'au moins un administrateur système se consacre à temps plein à la vérification des statuts du serveur. La surveillance automatisée des performances nécessite un logiciel spécialisé et ce logiciel doit être hébergé dans un centre de données, entretenu et mis à jour périodiquement. Les services de surveillance des performances basés sur le cloud résolvent tous les inconvénients de la surveillance logicielle et coûtent beaucoup moins cher que d'employer un membre d'équipe dédié ou de payer d'avance pour un logiciel spécialisé.
Dans ce guide, nous examinons les problèmes qui doivent être surveillés manuellement sur un serveur et comment ces tâches peuvent être effectuées par une solution de surveillance de serveur Software-as-a-Service (SaaS).Surveillance du serveur en temps réelet surveillance environnementale du centre de données – tel que fourni par un logiciel basé sur le cloud comme Site24x7 – non seulement permet de gagner du temps, mais réduit également les maux de tête au minimum.
Contenu [ cacher ]
- Tâches de surveillance des performances du serveur
- Maintenir la disponibilité
- Planification de la capacité du serveur
- Défauts de page et échanges de pages
- Capacité du disque
- Disponibilité de l'interface réseau
- Utilisation de serveurs et de services hors site
- Surveillance du serveur Site24x7
- Surveillance des serveurs basés sur le cloud
- FAQ sur la surveillance des serveurs
Surveillance de l'état physique du serveur
Si vous utilisez uniquement des serveurs cloud, vous n'avez pas à vous soucier de l'état physique de votre équipement. Cependant, les serveurs sur site doivent être protégés des risques et des dommages environnementaux. En plus de conserver le serveur dans une pièce sécurisée pour éviter les attaques physiques, vous devez vous assurer que la température des serveurs ne dépasse pas le niveau recommandé pour des performances efficaces dans votre environnement serveur.
Les deux principaux problèmes physiques que vous devez surveiller avec votre serveur sont :
- Source de courant
- Température
Si vous conservez vos serveurs dans un rack ou une armoire, il est possible que le boîtier intègre des systèmes de régulation de l'alimentation et de régulation de la température. Le serveur et le rack seront tous deux dotés de capteurs de surveillance de la température qui transmettront leurs informations au tableau de bord de l'administrateur système.
Vous devez faire attention à ce que la température dépasse un seuil de sécurité. Si la température commence à grimper, il se peut que le ventilateur du serveur ou du rack ait cessé de fonctionner et vous devrez vérifier cela. Si votre serveur se trouve dans une pièce séparée, vous pouvez également surveiller le contrôle de la température de son système CVC.
Vous aurez des régulateurs d’alimentation sur l’entrée d’alimentation de votre serveur. Ceux-ci doivent être surveillés pour garantir qu’ils fonctionnent correctement et atténuer les surtensions et les baisses de puissance. Votre UPS devrait vous donner le temps de passer à l’alimentation de secours en cas de panne de l’alimentation principale. Cependant, la notification de passage à l'alimentation de secours doit être prise en compte car les systèmes de basculement automatique échouent parfois.
Tâches de surveillance des performances du serveur
Si vous êtes en charge d'un service informatique et responsable des indicateurs de performance clés sur l'ensemble de votre infrastructure réseau, vous avez très probablement un serveur dans votre inventaire. La tâche principale que vous devez remplir est de rendre le serveur constamment accessible à tous. Le serveur est là pour exécuter le logiciel et/ou effectuer l'enregistrement des données. Ainsi, il doit disposer de l'espace et de la puissance de traitement disponibles pour accomplir toutes les tâches que le personnel de l'entreprise et éventuellement ses clients lui confient.
Disponibilité du serveur
La disponibilité du serveur est cruciale pendant les heures de bureau et également importante en dehors de ces heures. Si votre serveur héberge un site Web, celui-ci devra être disponible 24 heures sur 24. Vous devez également vérifier si des tâches par lots sont configurées sur le serveur en dehors des heures d'ouverture.
Vous devrez de temps en temps arrêter le serveur pour maintenance et certaines de ces tâches impliquent le redémarrage de la machine. Vous devez connaître les tâches planifiées pour s'exécuter sur le serveur et le temps nécessaire au serveur pour redémarrer et retrouver sa pleine disponibilité avant d'autoriser toute tâche de maintenance pouvant impliquer un redémarrage.
Un journal devrait être disponible qui détaille toutes les tâches planifiées configurées sur un serveur. Si ce n’est pas le cas, il suffit d’une seule commande à l’administrateur système pour en obtenir une. Votre administrateur système doit surveiller la métrique de disponibilité du serveur et la comparer aux calculs du moment du dernier redémarrage intentionnel.
Cette mesure est rétrospective, donc si vous découvrez un écart entre la période de disponibilité prévue du serveur et le chiffre de disponibilité du serveur, le système tombe en panne sans que personne ne le sache. Si le serveur redémarrait tout seul pendant les heures de bureau, votre équipe aurait probablement été inondée d'appels d'assistance. Il est donc plus probable que des temps d’arrêt inattendus se produisent en dehors des heures d’ouverture. Dans ce cas, quelqu'un doit vérifier que toutes les tâches planifiées qui devaient s'exécuter au moment de l'événement inattendu ont effectivement démarré et se sont terminées correctement.
De toute évidence, il est préférable de prévoir les problèmes et d’éviter qu’ils ne provoquent une mise hors ligne du serveur.
Maintenir la disponibilité
L'administrateur système doit prendre en compte plusieurs facteurs pour garantir que le serveur est disponible en permanence et fonctionne correctement. De mauvaises performances peuvent être presque aussi mauvaises que la mise hors ligne du serveur. Ainsi, en réalité, un serveur surchargé n’est pas disponible pour tous ses utilisateurs à un niveau de service significatif. Quatre attributs du serveur peuvent altérer les performances ou provoquer l'arrêt du matériel du serveur s'ils dépassent leur capacité.
- Processeur
- Mémoire
- Disque
- Interfaces réseau
L'administrateur système retenu doit définir des niveaux de seuil pour tous ces services. Vous devez être conscient de la pleine capacité de chacune de ces fonctionnalités matérielles et définir une série de niveaux d'avertissement aux points inférieurs à la pleine capacité.
Les pics d’utilisation du système peuvent dépasser ces niveaux sans provoquer trop de panique. C’est la possibilité d’une demande excessive qui persiste dont vous devez vous inquiéter.
L'endroit où vous fixez vos seuils et ce que vous considérez comme des violations durables de ces niveaux de sécurité dépendent grandement des éléments suivants : l'heure de la journée à laquelle la demande survient, le type d'applications à l'origine de la demande et le temps nécessaire à votre service pour y parvenir. évitez l’épuisement des ressources grâce à la mise en œuvre de solutions correctives.
Article similaire: Meilleur logiciel de surveillance des PC et du matériel
Planification de la capacité du serveur
Lorsque vous commencez à travailler avec un nouveau serveur pour une entreprise en démarrage, vous disposez de peu de données historiques à collecter pour calculer les besoins en capacité des processeurs, de la mémoire, de l'espace disque et des interfaces réseau.
Dans ces cas, vous devez élaborer des guides approximatifs sur les exigences en matière de capacité du serveur, en fonction de la configuration système requise répertoriée pour le logiciel que vous achetez pour allumer le serveur. Au fil du temps, vous pourrez collecter des statistiques d'utilisation grâce au suivi et consolider ces chiffres dans un outil analytique. Les nouvelles exigences imposées au serveur devront être ajoutées à la capacité actuelle pour estimer si vous disposez de suffisamment de ressources pour y faire face.
Défauts de page et échanges de pages
Lorsque vous calculez vos besoins en capacité, vous devez prendre en compte deux facteurs :
- Défauts de page
- Échange de pages
Les défauts de page sont répandus sur les serveurs virtuels – à la fois dans la virtualisation sur site et lorsque vous utilisez des serveurs cloud. Une « page » est un bloc de mémoire alloué au serveur virtuel. Les adresses de l'espace mémoire doivent être traduites entre celles utilisées par le système de serveur virtuel et les adresses réelles de la mémoire disponible pour le serveur sous-jacent réel.
Un bon logiciel de virtualisation devrait être capable d'éviter les défauts de page. Cependant, ils se produiront. Le système de serveur virtuel devrait être capable de résoudre lui-même les problèmes de mémoire. Cependant, ce processus perd une partie de la mémoire jusqu'à ce que toutes les adresses soient corrigées.
En mesurant le taux de défauts de page au fil du temps, vous savez quel pourcentage vous devez ajouter aux besoins en capacité de mémoire de votre serveur. Un numéro d'erreur de page indiquant qu'un problème grave est survenu avec votre virtualisation. Cela peut nécessiter un redémarrage pour résoudre.
L'échange de pages se produit lorsque le serveur manque de mémoire de travail. Il réservera une zone d'espace disque et enregistrera temporairement les données pour libérer de l'espace en mémoire. Il s’agit d’une situation qui doit être évitée et indique que vous n’avez pas alloué suffisamment de mémoire pour répondre aux exigences de tous les logiciels que vous exécutez sur le serveur.
Espérons que les avertissements de seuil que vous avez placés sur l'utilisation de la mémoire devraient vous permettre de voir que la surcapacité approche. L'échange de pages est une solution à court terme à l'épuisement de la capacité de mémoire. Si vous avez un budget très serré et que les changements de pages ne se produisent que rarement, vous avez peut-être décidé d'adopter cette stratégie pour économiser de l'argent. Cependant, cela devrait être une solution à court terme car l’échange de pages réduit les temps de réponse.
Capacité du disque
Le problème de l'échange de pages réduira l'espace disque disponible pour le stockage. Cependant, comme l'espace disque est très bon marché, vous devriez pouvoir ajouter davantage de disques pour éviter la perte d'espace. Sans espace disque suffisant, votre entreprise s’arrêtera.
Le stockage et l'archivage récents des données pour répondre aux exigences financières et de protection des données signifient que vous aurez besoin de beaucoup d'espace disque. Il est très facile d'ajouter très rapidement de l'espace disque en louant de l'espace de stockage dans le cloud et en y déplaçant les sauvegardes et l'archivage. Cependant, vous devez voir venir l’épuisement du stockage, c’est pourquoi la capacité du disque doit être surveillée en permanence.
Disponibilité de l'interface réseau
L'interface de surveillance du réseau détecte les pannes matérielles ou les surcharges. Une panne matérielle entraînera une chute soudaine de l'activité de l'interface à zéro. La surcharge empêchera de nombreux utilisateurs d'accéder au serveur.
La surcharge de l'interface réseau est un problème de planification de capacité. En surveillant constamment l'activité des E/S sur la carte réseau et en stockant cette collecte de données à des fins d'analyse, vous pouvez planifier les exigences matérielles pour garantir un accès constant au serveur.
Utilisation de serveurs et de services hors site
Que vous optiez pour des serveurs sur site ou hors site, l'utilisation de systèmes de surveillance automatisés améliore votre capacité à vérifier simultanément toutes les mesures de performances possibles et à définir des seuils d'avertissement. L'outil effectuera en permanence toutes les vérifications dont vous avez besoin sur votre serveur, vous n'avez donc pas besoin d'un membre du personnel dédié pour exécuter des scripts d'enquête et lire leurs résultats.
Un service de surveillance implémenté sur le modèle SaaS simplifie davantage la surveillance du matériel de votre serveur critique. Il comprend toute la puissance de traitement et le stockage des données ainsi que l'accès au logiciel de surveillance. Cela signifie que le logiciel de votre système de surveillance ne prend pas de place ni de puissance de traitement sur vos serveurs.
Surveillance du serveur Site24x7
Site24x7 peut fournir une surveillance des performances du serveur dans deux modes : avec et sans agent. Le problème de la surveillance sans agent est qu’elle ne sera pas en mesure de fournir des analyses en temps réel comme la version basée sur un agent. Le logiciel agent disponible avec Site24x7 est disponible pour les systèmes d'exploitation Windows, Windows Server, MacOS, FreeBSD et Linux.
De nombreuses fonctionnalités du système Site24x7 vont au-delà des simples outils de surveillance des serveurs. Par exemple, lorsque vous commencez à travailler avec le système, la configuration de la surveillance est simple car elle analyse le système et enregistre toutes les applications exécutées sur le serveur. Cela permet à l'outil de vous alerter des problèmes de performances avec les applications ainsi qu'avec le serveur lui-même. Dans l’ensemble, Site24x7 est une excellente plate-forme de surveillance de serveur et nous recommandons le téléchargement d’essai gratuit.
La surveillance des performances a des seuils d'alerte prédéfinis pour tous les statuts des serveurs qu'elle surveille, mais ceux-ci peuvent être ajustés et il est également possible de personnaliser les conditions d'alerte en combinant les statuts des attributs. La surveillance à distance peut également être configurée pour déployer l'apprentissage automatique et ajuster les niveaux de seuil à mesure qu'elle établit un historique de comportement normal. Une fois ces seuils actifs, vous n'avez pas besoin de vous asseoir et de regarder le tableau de bord, Site24x7 avertira un membre clé du personnel lorsque les niveaux d'avertissement seront déclenchés. Ces notifications peuvent être envoyées par e-mail.
Comme on peut s'y attendre, Site24x7 surveille tous les principaux attributs système d'un serveur :
- Utilisation du processeur
- Utilisation de la mémoire
- Rupture de mémoire
- Longueur de la file d'attente du processeur
- Pourcentage d'inactivité et d'occupation du disque
- Utilisation du disque avec plan de capacité
- Événements récents
- Processus supérieur par CPU et mémoire
- Exécuter des applications avec des détails
- Historique des pannes/problèmes
- Services et processus
Site24x7 dispose d'une fonction d'analyse des causes profondes qui explique chaque panne du système.
Vous payez Site24x7 par abonnement mensuel, il n'y a donc pas de frais d'achat de logiciel initiaux pour ce logiciel de gestion. La surveillance des performances du serveur est incluse dans plusieurs packages Site24x7 différents. Il est disponible sous forme une version gratuite qui surveille jusqu'à cinq serveurs. Le forfait payant le moins cher incluant la surveillance des serveurs est le Entrée plan, disponible sur un essai gratuit .
Surveillance des serveurs basés sur le cloud
Choisir un moniteur de serveur capable de gérer votre matériel serveur critique, à la fois sur site et dans le cloud, garantit la pérennité de votre entreprise. Si vous décidez de basculer votre infrastructure de serveur vers des systèmes basés sur le cloud, votre outil de surveillance de serveur est là pour vous.
Les moniteurs SaaS, tels que Site24x7, sont très bien organisés pour permettre une intégration rapide. La flexibilité et la commodité d'une solution de centre de données hors site pour la surveillance des performances des serveurs permettent d'économiser du temps et de l'argent.
Le logiciel de surveillance des serveurs est essentiel au bon fonctionnement de votre réseau et garantit que vos utilisateurs peuvent accéder aux applications critiques dont ils ont besoin pour remplir efficacement leurs rôles. L’utilisation de nos meilleures pratiques dans ce guide vous aidera à y parvenir.
FAQ sur la surveillance des serveurs
Qu'est-ce que la surveillance des serveurs ?
La « surveillance du serveur » fait référence à la tâche consistant à surveiller les performances des ressources système d'un serveur pour éviter leur épuisement. Les principaux attributs à surveiller sont l'utilisation du processeur, la consommation de mémoire, les E/S, la capacité et les niveaux d'activité du réseau, ainsi que l'utilisation du disque. Les seuils de performances vous donnent le temps d’éviter les pannes du système et les perturbations des services. Les journaux de performances du système facilitent la planification de la capacité du serveur.
Comment surveiller votre logiciel de surveillance de serveur ?
Tous les systèmes d'exploitation de serveur incluent des commandes et des utilitaires qui expliquent l'état actuel des ressources. Cependant, les contrôler constamment constitue une mauvaise utilisation des ressources humaines. L'ajout d'outils automatisés pour surveiller l'état du système en émettant des contrôles d'état de manière récursive fait gagner du temps au technicien. L'utilisation de seuils de performance avec des alertes associées signifie que le personnel sera averti en cas de problème.
Qu’est-ce que la surveillance de serveur distant ?
La surveillance des serveurs à distance consiste à mettre en œuvre la gestion des serveurs à partir d'un système situé hors site. Il peut s'agir d'un service informatique centralisé, de serveurs de surveillance sur plusieurs sites, d'un logiciel de surveillance hébergé sur un service cloud ou d'une surveillance effectuée par un fournisseur de services gérés. Les systèmes de surveillance de serveurs distants nécessitent l'installation d'un service d'agent sur chaque serveur surveillé.