常见问题
1.为什么sinfo查看对应的分区有空闲节点,但是我的作业却还在排队;
北京大学高性能计算校级公共平台采用slurm作业调度系统,整个队列中可能有需要占用多节点的高优先级任务正在等待资源,调度器会一定程度上为这些作业保留资源,以确保它们能够运行。
2.error: Job submit/allocate failed: Invalid partition name specified;
错误原因:未指定正确的partition,可通过以下指令获取可用的分区。
sacctmgr show ass user=`whoami` format=part |uniq
3.error: Job submit/allocate failed: Invalid account or account/partition combination specified;
错误原因:通常是因为没有指定正确的账户,可通过以下指令获取可用账户。
sacctmgr show ass user=`whoami` format=account%15 |uniq
4.(QOSMaxWallDurationPerJobLimit);
错误原因:指定-t, --time=\
sacctmgr show qos format=name,MaxWall
当前未名一号和生科一号最大时长限制为5天,教学一号时长限制为2天,可能会根据使用情况修改。
5.batch job submission failed: Requested node configuration is not available;
错误原因:申请资源的节点配置不匹配,如C032M0128G的每个节点只有32个核心,但你如过你但节点申请的核心数超过32,就会报错通过
6.(QOSNotAllowed);
没有指定正确的qos,以下命令可以查看不同分区下可用的qos。
sacctmgr show ass user=`whoami` format=user,part,qos
7. (AccountNotAllowed);
出现该错误的原因通常为账户没有余额,或者账户封锁了。
8.为什么我使用128G的节点,但是还是报错说内存不足?
如果在128G内存的节点申请1个核心,那么实际可使用的内存为4G(128/32),其中32为该节点的CPU核心数。