Institut de Science des Données de Montpellier
Journal
De la plateforme
Retrouvez ici toutes les informations et actualités sur le Cluster I0.
Utilisateurs directs et indirects
0
Établissements d'enseignement supérieur
0
Unités de Recherche FR
0
Utilisateurs du Cluster Calcul
0
Ensemble
CALCUL
CLOUD
STOCKAGE
Ensemble
- 25/11/2025 | ❷ Ensemble | Mailing du système de ticketing isdm-tickets | suite à un départ, la configuration des courriels ne fonctionnait plus la semaine du 17/11
- 25/11/2025 | ❶ CALCUL | Coupure du nœud io-cpu-09 et io-cpu-10 pour maintenance | Suite au problème de surchauffe de la semaine dernière les pâtes thermiques et un disque doivent être changés
- 20/11/2025| ❹ CALCUL | Coupure du cluster suite à une surchauffe | Suite à une opération de maintenance de notre hébergeur le 18/11, l’arrivée d’eau s’est stoppée, entrainant un arrêt de production
- 12/11/2025 | ❶ CALCUL | Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 05/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
-
04/11/2025 | ❹ CLOUD | CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
-
31/10/2025 | ❶ CALCUL | Soucis impactant les nouveaux comptes | Un paramètre (wckeys) lié à
AccountingStorageEnforceempêche le lancement de nouveaux jobs pour les nouveaux utilisateurs - 31/10/2025 | ❹ CLOUD | CROCC Est – Maintenance sur contrôleur 2 et 3 terminée | Des erreurs disque affectaient les services cinder empêchant d’agir sur les volumes. La mise à jour des Firmware matériel a résolu les problèmes.
- 20/10/2025 | ❶ CALCUL |Mise en œuvre des quotas pour le calcul | déploiement d’un système de comptabilisation dédié avec la commande slurm-quota
- 22/09/2025 | ❸ CALCUL | Arrêt du calcul sur MUSE | Le scratch et les nœuds de login restent accessibles pour ceux qui n’ont pas pu faire le transfert des données essentielles du scratch. La procédure est disponible dans la documentation.
CALCUL
- 25/11/2025 | Coupure du nœud io-cpu-09 et io-cpu-10 pour maintenance | Suite au problème de surchauffe de la semaine dernière les pâtes thermiques et un disque doivent être changés
- 20/11/2025| ❹ Coupure du cluster suite à une surchauffe | Suite à une opération de maintenance de notre hébergeur le 18/11, l’arrivée d’eau s’est stoppée, entrainant un arrêt de production
- 12/11/2025 | ❶ Problème matériel sur io-cpu-08 | une erreur matériel PCIe impacte tous les processus sur la carte mellanox gérant l’infiniband (le stockage Weka /scratch n’est plus accessible depuis cette machine + jobs MPI impactés)
- 31/10/2025 | ❶ Soucis impactant les nouveaux comptes | Un paramètre (wckeys) lié à
AccountingStorageEnforceempêche le lancement de nouveaux jobs pour les nouveaux utilisateurs - 20/10/2025 | ❶ Mise en œuvre des quotas pour le calcul | déploiement d’un système de comptabilisation dédié avec la commande slurm-quota
- 22/09/2025 | ❸ Arrêt du calcul sur MUSE | Le scratch et les nœuds de login restent accessibles pour ceux qui n’ont pas pu faire le transfert des données essentielles du scratch. La procédure est disponible dans la documentation.
CLOUD
- 05/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 2 | Arrêt du contrôleur 2 suite à des erreurs disque; un ticket est en cours chez le fournisseur
04/11/2025 | ❹ CROCC Est : Maintenance sur contrôleur 3 |changement de la carte mère et du contrôleur RAID du contrôleur 3 à cause d’erreurs disque persistantes
- 31/10/2025 | ❹ CROCC Est – Maintenance sur contrôleur 2 et 3 terminée | Des erreurs disque affectaient les services cinder empêchant d’agir sur les volumes. La mise à jour des Firmware matériel a résolu les problèmes.
STOCKAGE
- à venir
❶ Information ❷ Attention ❸ Important ❹ Critique
Terminé En cours