Quelques jours dans la server room

Ces derniers jours, j'ai pas mal retravaillé mon infra pour en faire quelque chose de propre, aussi bien coté réseau que système.
Un réseau planté, un serveur qui me lâche, un cluster raté... Voici donc un retour de cette aventure !

Refonte du réseau

Au fur et à mesure des rajouts de serveurs, d’équipements, de changements d'adresses, mon réseau commençait à devenir un peu fouillis, et fonctionnait plus ou moins bien.
Je me suis donc décidée de tout refaire, en ajoutant un réseau pour le futur cluster et pour l'IPMI.
J'en profite aussi pour refaire le câblage, qui ne ressemblait plus à grand-chose avec tout les câbles.
Je commence donc par tout éteindre, tout débrancher, ajouter un RB3011 car je n'avais plus assez de place sur le 4011.
Après plusieurs heures de travail et de configuration, la partie réseau ressemble à ceci :

Bon, j'ai fait ce que j'ai pu pour le passage des câbles, c'est pas super beau. J'en ai profité pour tout étiqueter, pour pouvoir m'y retrouver plus facilement en cas de modification.
Voici donc le réseau final :


J'ai aussi refait la partie alimentation:

Une fois tout ça fini, je commence à redémarrer les serveurs un par un... Quand tout à coup, le drame !

Un serveur qui lâche ?

Bon, c’était pas vraiment dans les plans ça... Le Dell 2950, pve2, le serveur qui faisait la partie "client" décide de ne plus démarrer, tout simplement. Je me suis donc dit que c’était l'occasion de le remplacer, il commençait à vieillir, et était un de ceux qui consommait le plus.
Il fallait donc que j'arrive à récupérer les données, ce qui implique prendre les disques, la carte RAID, et les transplanter dans un autre serveur. Je profite du fait que j'avais remonté un serveur récemment, qui n'avait encore rien dessus, pour le transformer en nouveau pve2.
Je retire donc la carte RAID de pve2, je remplace celle présente sur le nouveau serveur par celle-ci, et je change les caddies des disques.

Une fois cela fait, on reboot, et miracle ! J'ai mes données comme si pve2 n'avais jamais planté !

Enfin rassurée de n'avoir rien perdu (à part un serveur qui me tenait à cœur), je commence à rallumer toutes les VMs une à une. Et c'est à ce moment là que je me souviens pourquoi je n'avais pas laisse allumé ce serveur: Il faisait énormément de bruit !
J'avais déjà regardé précédemment pourquoi il ventilait anormalement, sans succès. L'Idrac me disait que tout était bon, le réglage des ventilos était au minimum.... Une seule chose que je n'avais pas verifié: la pâte thermique. Je doutais fortement que ce soit ça, car le précédent R410 que j'avais monté ne m'avais pas fait de soucis. Je démonte quand même le ventirad, et là:

La pâte thermique avait fait un énorme bloc du coté du ventirad, tellement dur que j'ai du gratter à l'ongle pour tout enlever. Bon, au moins, j'ai trouvé le problème. On part donc sur un nettoyage des processeur et des ventirad:

On remet tout en place, on démarre le serveur, et il fait déjà beaucoup moins de bruit (même s'il en fait plus que les autres)
Super, ce serveur est donc prêt, plus besoin d'y toucher !

Kernel Panic ?

Toute contente, je commence donc à préparer mes serveurs pour les mettre en cluster. Je m'occupe d'abord de pve4, dont j'avais besoin de configurer l'IP du réseau cluster.
Mais il a commence à agir de façon étrange... Il ne prenait plus en compte mes commandes et au bout d'un moment freezait complètement, sans possibilité de ^C. On reboot de force, tant pis.
Et là, le fameux, le grand: KERNEL PANIC

Du coup, on part sur une réinstallation de proxmox.

Mise en cluster

En parallèle, je prépare les deux autres serveurs, pve1 et pve2, pour les mettre en cluster.
Je configure donc les IPs du réseau cluster, vérifie le fichier /etc/hosts...
Comme les deux serveurs ont chacun des VMs, il faut en renommer certaines pour pas qu'elle aient le même ID. Une fois cela fait, on peut lancer la mise en cluster.
Pour ces deux là, tout s'est à peu près bien passé: il fallait juste supprimer les VMs sur pve2 (après les avoirs copiés bien sûr !), un coup de rm -rf /etc/pve/qemu-server/*, puis une copie dans l'autre sens et tout se passe bien !

Reste plus qu'à lier pve4, fraîchement réinstallé au cluster.
Même principe, en plus simple, vu qu'il n'a pas de VMs. La liaison se passe bien, mais au bout de 5 minutes...

Le cluster est complètement cassé :(

Finalement, c'était juste Corosync qui a repris l'ancienne IP de pve1 au lieu de prendre l'IP de la range cluster. On modifie tout ça, on restart, et tada !

J'ai enfin une infra propre ! Il est temps maintenant de lancer des projets concrets !

Voilà pour cette petite aventure, n'hésitez pas à me faire un retour si ça vous a plu !

(Gros gros merci à Dorian pour sa patience et ses explications :D)
(Merci à Térence pour la correction orthographique !)

Afficher les commentaires