FAQ Moab Colosse

De Wiki de Calcul Québec
Aller à : Navigation, rechercher
Autres langues :anglais 100% • ‎français 100%

Dans cette page, vous trouverez une liste de messages d'erreur ou problèmes que vous pouvez rencontrer sur Moab. Elle est spécifique au serveur de calcul Colosse.

Sommaire

Mes tâches deviennent « deferred »

Il est possible que Moab ou son gestionnaire de ressources Torque rencontre une erreur au lancement d'une tâche. Ceci peut se produire par exemple s'il y a un problème de communication temporaire avec le nœud sur lequel la tâche devait être lancée. Lorsque ceci se produit, Moab marque la tâche comme « deferred ». Une tâche marquée « deferred » demeurera dans cet état pour 20 minutes, après quoi Moab réessaiera de la lancer. Ceci n'affecte pas la priorité de votre tâche et elle sera lancée dès que possible. Vous pouvez ignorer cet état à moins que la même tâche devienne « deferred » à répétition. Vous pouvez vérifier le nombre de fois qu'une tâche a été mise dans cet état et le temps restant avant qu'elle soit remise dans la file d'attente avec la commande


[nom@serveur $] checkjob -v <jobid>


Des nœuds sont disponibles, mais ma tâche ne se lance pas

Il peut arriver que la commande « mshow » ou « showq » affiche que tous les processeurs ne sont pas utilisés sans que pour autant votre tâche ne soit lancée. Plusieurs raisons peuvent expliquer cet état. Tout d'abord, certains nœuds peuvent être réservés pour des tâches de maintenance ou pour d'autres utilisateurs. Il est aussi possible qu'une tâche de plusieurs nœuds vienne de se terminer et que les nœuds soient en train d'être préparés pour une prochaine tâche.

Ma tâche n'apparaît pas dans « showq »

La commande « showq » est une commande qui est mise en cache par Moab. Il arrive qu'elle ne soit pas synchronisée avec les tâches qui sont réellement dans la file d'attente. Pour vous assurer de la synchronisation, rajoutez l'option « --blocking » :

[nom@serveur $] showq --blocking <autres options>


Vous pouvez aussi utiliser « mshow », qui est synchronisée avec Moab en permanence, mais qui n'accepte pas toutes les mêmes options que « showq ».

Ma tâche est bloquée

Plusieurs raisons peuvent expliquer une tâche qui est bloquée. Il peut s'agit d'un blocage temporaire (« deferred » par exemple) ou d'un blocage permanent. Pour obtenir plus d'informations sur la raison du blocage, exécutez

[nom@serveur $] checkjob -v -v <jobid>


Erreur de module

J'ai l'erreur suivante dans mon fichier de sortie d'erreurs

   /bin/bash: module: line 1: syntax error: unexpected end of file
   /bin/bash: error importing function definition for `module

Cette erreur est connue et n'affecte pas vos calculs. Vous pouvez l'ignorer.

ERROR: connection refused - no service listening at moab.colosse.clumeq.ca:42559

Cette erreur se produit lorsque nous redémarrons le serveur Moab. Il s'agit d'une erreur temporaire qui dure généralement moins d'une minute. Réessayez après quelques instants.

Je n'arrive pas à supprimer ma tâche

Lorsque vous tentez de supprimer votre tâche avec la commande

[nom@serveur $] mjobctl -c <jobid>


vous obtenez le message

   Message[0] job cannot be cancelled, reason== - job XXXXXXX - unknown error from resource manager torque

Il s'agit d'une erreur généralement temporaire du gestionnaire de ressources Torque. Réessayer quelques minutes après règle généralement le problème. Si ce n'est pas le cas, vous pouvez essayer la commande


[nom@serveur $] mjobctl -F <jobid>


Comment connaître la priorité de mes tâches ?

Vous pouvez connaître la priorité de vos tâches avec la commande

[nom@serveur $] mdiag -p


Comment connaître l'identificateur de mes tâches ?

Vous pouvez avoir la liste de vos tâches avec leur identificateur et le nom que vous leur avez donné en utilisant la commande


[nom@serveur $] checkjob ALL


Outils personnels
Espaces de noms

Variantes
Actions
Navigation
Ressources de Calcul Québec
Outils
Partager