Retrouvez ici toutes les informations et actualités sur le Cluster IA.
Ensemble
CALCUL
CLOUD
STOCKAGE
Ensemble
- 12/11/2025 | ❶ CALCUL | Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 05/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
04/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
31/10/2025 | ❶ CALCUL | Soucis impactant les nouveaux comptes | Un paramètre (wckeys) lié à
AccountingStorageEnforceempêche le lancement de nouveaux jobs pour les nouveaux utilisateurs- 31/10/2025 | ❹ CLOUD | CROCC Est – Maintenance sur contrôleur 2 et 3 terminée | Des erreurs disque affectaient les services cinder empêchant d’agir sur les volumes. La mise à jour des Firmware matériel a résolu les problèmes.
- 20/10/2025 | ❶ CALCUL |Mise en œuvre des quotas pour le calcul | déploiement d’un système de comptabilisation dédié avec la commande slurm-quota
- 22/09/2025 | ❸ CALCUL | Arrêt du calcul sur MUSE | Le scratch et les nœuds de login restent accessibles pour ceux qui n’ont pas pu faire le transfert des données essentielles du scratch. La procédure est disponible dans la documentation.
CALCUL
- 12/11/2025 | ❶ Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 31/10/2025 | ❶ Soucis impactant les nouveaux comptes | Un paramètre (wckeys) lié à
AccountingStorageEnforceempêche le lancement de nouveaux jobs pour les nouveaux utilisateurs - 20/10/2025 | ❶ Mise en œuvre des quotas pour le calcul | déploiement d’un système de comptabilisation dédié avec la commande slurm-quota
- 22/09/2025 | ❸ Arrêt du calcul sur MUSE | Le scratch et les nœuds de login restent accessibles pour ceux qui n’ont pas pu faire le transfert des données essentielles du scratch. La procédure est disponible dans la documentation.
CLOUD
- 05/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
04/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
- 31/10/2025 | ❹ CROCC Est – Maintenance sur contrôleur 2 et 3 terminée | Des erreurs disque affectaient les services cinder empêchant d’agir sur les volumes. La mise à jour des Firmware matériel a résolu les problèmes.
STOCKAGE
- à venir
❶ Information ❷ Attention ❸ Important ❹ Critique
Terminé En cours
Documentation
Retrouvez toute la documention et les bonnes pratiques pour l'utilisation du Cluster IO.