常见问题

1.为什么sinfo查看对应的分区有空闲节点,但是我的作业却还在排队;

北京大学高性能计算校级公共平台采用slurm作业调度系统,整个队列中可能有需要占用多节点的高优先级任务正在等待资源,调度器会一定程度上为这些作业保留资源,以确保它们能够运行。

2.error: Job submit/allocate failed: Invalid partition name specified;

错误原因:未指定正确的partition,可通过以下指令获取可用的分区。

sacctmgr show ass user=`whoami` format=part |uniq
3.error: Job submit/allocate failed: Invalid account or account/partition combination specified;

错误原因:通常是因为没有指定正确的账户,可通过以下指令获取可用账户。

sacctmgr show ass user=`whoami` format=account%15 |uniq
4.(QOSMaxWallDurationPerJobLimit);

错误原因:指定-t, --time=\参数时,时间超过qos允许的时长,通过以下命令可以查看相应qos允许运行的最大时长。

sacctmgr show qos format=name,MaxWall

当前未名一号和生科一号最大时长限制为5天,教学一号时长限制为2天,可能会根据使用情况修改。

5.batch job submission failed: Requested node configuration is not available;

错误原因:申请资源的节点配置不匹配,如C032M0128G的每个节点只有32个核心,但你如过你但节点申请的核心数超过32,就会报错通过

6.(QOSNotAllowed);

没有指定正确的qos,以下命令可以查看不同分区下可用的qos。

sacctmgr show ass user=`whoami`  format=user,part,qos
7. (AccountNotAllowed);

出现该错误的原因通常为账户没有余额,或者账户封锁了。

8.为什么我使用128G的节点,但是还是报错说内存不足?

如果在128G内存的节点申请1个核心,那么实际可使用的内存为4G(128/32),其中32为该节点的CPU核心数。

results matching ""

    No results matching ""