Retrouvez ici toutes les informations et actualités sur le Cluster IA.
Ensemble
CALCUL
CLOUD
STOCKAGE
Ensemble
- 09/01/2026 | ❶ CALCUL | L’ancien cluster Muse est retiré ! | Une équipe mandatée par Lenovo est venu retirer le matériel; 9 palettes et 3.5 tonnes de matériel ont été retiré du CINES
- 22/12/2025 | ❷ CALCUL | plusieurs jobs sont passés et sont restés en « CG » (completing) sans pouvoir s’achever | Des cartes réseaux IB PCIe ont disparu du système. Un ticket chez Lenovo est en cours.
- 17/12/2025 | ❹ CALCUL | Coupure du cluster suite au changement du contrôleur du système de refroidissement (XDU) | Suite aux nombreux problèmes sur le XDU, le technicien Vertiv a changé la carte contrôleur. Cette opération n’était pas planifiée, car nous espérions une résolution moins impactante.
- 25/11/2025 | ❷ Ensemble | Mailing du système de ticketing isdm-tickets | suite à un départ, la configuration des courriels ne fonctionnait plus la semaine du 17/11
- 25/11/2025 | ❶ CALCUL | Coupure du nœud io-cpu-09 et io-cpu-10 pour maintenance | Suite au problème de surchauffe de la semaine dernière les pâtes thermiques et un disque doivent être changés
- 20/11/2025| ❹ CALCUL | Coupure du cluster suite à une surchauffe | Suite à une opération de maintenance de notre hébergeur le 18/11, l’arrivée d’eau s’est stoppée, entrainant un arrêt de production
- 12/11/2025 | ❶ CALCUL | Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 05/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
04/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
31/10/2025 | ❶ CALCUL | Soucis impactant les nouveaux comptes | Un paramètre (wckeys) lié à
AccountingStorageEnforceempêche le lancement de nouveaux jobs pour les nouveaux utilisateurs- 31/10/2025 | ❹ CLOUD | CROCC Est – Maintenance sur contrôleur 2 et 3 terminée | Des erreurs disque affectaient les services cinder empêchant d’agir sur les volumes. La mise à jour des Firmware matériel a résolu les problèmes.
- 20/10/2025 | ❶ CALCUL |Mise en œuvre des quotas pour le calcul | déploiement d’un système de comptabilisation dédié avec la commande slurm-quota
- 22/09/2025 | ❸ CALCUL | Arrêt du calcul sur MUSE | Le scratch et les nœuds de login restent accessibles pour ceux qui n’ont pas pu faire le transfert des données essentielles du scratch. La procédure est disponible dans la documentation.
CALCUL
- 09/01/2026 | ❶ L’ancien cluster Muse est retiré ! | Une équipe mandatée par Lenovo est venu retirer le matériel; 9 palettes et 3.5 tonnes de matériel ont été retiré du CINES
- 22/12/2025 | ❷ plusieurs jobs sont passés et sont restés en « CG » (completing) sans pouvoir s’achever | Des cartes réseaux IB PCIe ont disparu du système. Un ticket chez Lenovo est en cours.
- 17/12/2025 | ❹ Coupure du cluster suite au changement du contrôleur du système de refroidissement (XDU) | Suite aux nombreux problèmes sur le XDU, le technicien Vertiv a changé la carte contrôleur. Cette opération n’était pas planifiée, car nous espérions une résolution moins impactante.
- 25/11/2025 | Coupure du nœud io-cpu-09 et io-cpu-10 pour maintenance | Suite au problème de surchauffe de la semaine dernière les pâtes thermiques et un disque doivent être changés
- 20/11/2025| ❹ Coupure du cluster suite à une surchauffe | Suite à une opération de maintenance de notre hébergeur le 18/11, l’arrivée d’eau s’est stoppée, entrainant un arrêt de production
- 12/11/2025 | ❶ Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 31/10/2025 | ❶ Soucis impactant les nouveaux comptes | Un paramètre (wckeys) lié à
AccountingStorageEnforceempêche le lancement de nouveaux jobs pour les nouveaux utilisateurs - 20/10/2025 | ❶ Mise en œuvre des quotas pour le calcul | déploiement d’un système de comptabilisation dédié avec la commande slurm-quota
- 22/09/2025 | ❸ Arrêt du calcul sur MUSE | Le scratch et les nœuds de login restent accessibles pour ceux qui n’ont pas pu faire le transfert des données essentielles du scratch. La procédure est disponible dans la documentation.
CLOUD
- 05/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
04/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
- 31/10/2025 | ❹ CROCC Est – Maintenance sur contrôleur 2 et 3 terminée | Des erreurs disque affectaient les services cinder empêchant d’agir sur les volumes. La mise à jour des Firmware matériel a résolu les problèmes.
STOCKAGE
- à venir
❶ Information ❷ Attention ❸ Important ❹ Critique
Terminé En cours
Documentation
Retrouvez toute la documention et les bonnes pratiques pour l'utilisation du Cluster IO.