Retrouvez ici toutes les informations et actualités sur le Cluster IA.
Ensemble
CALCUL
CLOUD
STOCKAGE
Ensemble
- 09/04/2026 | ❸ CLOUD | CROCC Est : Problème d’Authentification EDUGAIN|Un problème lié à un nouveau paramétrage de leur serveur concernant les certificats de sécurité, a empêché l’authentification de nos utilisateurs durant la matinée.
- 30/03/2026 | ❸ STOCKAGE | NFS saturé sur io-cinder-std | La saturation d’un espace NFS a eu des impacts sur les machines virtuelles utilisant cet espace rendant le cluster indisponible quelques heures et les VMs du cloud gelées en attente de redémarrage
- 09/01/2026 | ❶ CALCUL | L’ancien cluster Muse est retiré ! | Une équipe mandatée par Lenovo est venu retirer le matériel; 9 palettes et 3.5 tonnes de matériel ont été retiré du CINES
- 22/12/2025 | ❷ CALCUL | plusieurs jobs sont passés et sont restés en « CG » (completing) sans pouvoir s’achever | Des cartes réseaux IB PCIe ont disparu du système. Un ticket chez Lenovo est en cours.
- 17/12/2025 | ❹ CALCUL | Coupure du cluster suite au changement du contrôleur du système de refroidissement (XDU) | Suite aux nombreux problèmes sur le XDU, le technicien Vertiv a changé la carte contrôleur. Cette opération n’était pas planifiée, car nous espérions une résolution moins impactante.
- 25/11/2025 | ❷ Ensemble | Mailing du système de ticketing isdm-tickets | suite à un départ, la configuration des courriels ne fonctionnait plus la semaine du 17/11
- 25/11/2025 | ❶ CALCUL | Coupure du nœud io-cpu-09 et io-cpu-10 pour maintenance | Suite au problème de surchauffe de la semaine dernière les pâtes thermiques et un disque doivent être changés
- 20/11/2025 | ❹ CALCUL | Coupure du cluster suite à une surchauffe | Suite à une opération de maintenance de notre hébergeur le 18/11, l’arrivée d’eau s’est stoppée, entrainant un arrêt de production
- 12/11/2025 | ❶ CALCUL | Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 05/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
-
04/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
CALCUL
- 09/01/2026 | ❶ L’ancien cluster Muse est retiré ! | Une équipe mandatée par Lenovo est venu retirer le matériel; 9 palettes et 3.5 tonnes de matériel ont été retiré du CINES
- 22/12/2025 | ❷ plusieurs jobs sont passés et sont restés en « CG » (completing) sans pouvoir s’achever | Des cartes réseaux IB PCIe ont disparu du système. Un ticket chez Lenovo est en cours.
- 17/12/2025 | ❹ Coupure du cluster suite au changement du contrôleur du système de refroidissement (XDU) | Suite aux nombreux problèmes sur le XDU, le technicien Vertiv a changé la carte contrôleur. Cette opération n’était pas planifiée, car nous espérions une résolution moins impactante.
- 25/11/2025 | Coupure du nœud io-cpu-09 et io-cpu-10 pour maintenance | Suite au problème de surchauffe de la semaine dernière les pâtes thermiques et un disque doivent être changés
- 20/11/2025| ❹ Coupure du cluster suite à une surchauffe | Suite à une opération de maintenance de notre hébergeur le 18/11, l’arrivée d’eau s’est stoppée, entrainant un arrêt de production
- 12/11/2025 | ❶ Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
CLOUD
- 09/04/2026 | ❸ CROCC Est : Problème d’Authentification EDUGAIN| Un problème lié à un nouveau paramétrage de leur serveur concernant les certificats de sécurité, a empêché l’authentification de nos utilisateurs durant la matinée.
- 05/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
-
04/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
STOCKAGE
- 30/03/2026 | ❸ NFS saturé sur io-cinder-std | La saturation d’un espace NFS a eu des impacts sur les machines virtuelles utilisant cet espace rendant le cluster indisponible quelques heures et les VMs du cloud gelées en attente de redémarrage
❶ Information ❷ Attention ❸ Important ❹ Critique
Terminé En cours
Retrouvez le statut général actuel de la plateforme ici, pour le CLOUD et ici, pour le Cluster.
Documentation
Retrouvez toute la documention et les bonnes pratiques pour l'utilisation du Cluster IO.