torque创建队列
- 格式:docx
- 大小:17.89 KB
- 文档页数:3
Torque创建队列
安装完torque后默认只有一个batch队列,所有节点都属于batch队列
有些情况下客户需要创建不同队列,来限制节点资源的使用
以一个18节点的集群为例
创建一个short队列,队列节点资源限制在node11,node12,node13,node14此4台机器
1,创建队列
[root@m1 server_priv]# qmgr -c "create queue short queue_type=execution"
2,定义队列必须属性
[root@m1 server_priv]# qmgr -c "set queue short enabled = True"
[root@m1 server_priv]# qmgr -c "set queue short started = True"
3,指定可用节点资源
修改/usr/local/inspur/server_priv/nodes文件如下
node1 np=12
node2 np=12
node3 np=12
node4 np=12
node5 np=12
node6 np=12
node7 np=12
node8 np=12
node9 np=12
node10 np=12
node11 np=12 short
node12 np=12 short
node13 np=12 short
node14 np=12 short
node15 np=12
node16 np=12
node17 np=12
node18 np=12
执行命令
[root@m1 server_priv]# qmgr -c "set queue short resources_default.neednodes=short"
要使操作生效需要重启pbs_server
先停掉pbs_server
[root@m1 server_priv]# qterm -t quick
再启动pbs_server
[root@m1 server_priv]# pbs_server
4,测试队列,向队列里提交作业
[inspur@m1 wtk]$ qsub hello.pbs -q short
查看状态
[inspur@m1 wtk]$ watch qstat -n
Every 2.0s: qstat -n Wed Jun 22 15:38:54 2011
m1:
Req'd Req'd Elap
Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
21.m1 inspur short hello 2531 4 -- -- 12:00 R --
node14/1+node14/0+node13/1+node13/0+node12/1+node12/0+node11/1+node11/0
5,删除队列
用以下命令删除
[root@m1 server_priv]# qmgr -c "del queue short"
对于队列其他资源限制,可以参考手册,以下也列出一些
队列最大作业数量(包含运行的和排队的):
qmgr -c "set queue short max_queuable=20"
队列最大运行作业数量(不包含排队的):
qmgr -c "set queue short max_running=20"
一个用户最大作业数量
qmgr -c "set queue short max_user_queuable=20"
一个用户最大运行作业数量(不包含排队的):
qmgr -c "set queue short max_user_run=10"
一个用户单个作业最大使用cpu核心数量(不包含排队的):
set queue long resources_max.ncpus = 2
指定队列的优先级:
qmgr -c "set queue short priority=20"
指定队列中所有作业可用的最大计算节点数量:
qmgr -c "set queue short resources_available.nodect=20"
指定队列中单个提交的作业的最大计算节点数量:
qmgr -c "set queue short resources_max.nodect=16"
允许提交作业的机器
qmgr -c "set queue batch acl_hosts=h1+h2+h3"
qmgr -c "set queue batch acl_host_enable=true"
set server acl_hosts = sn
set server acl_hosts += jn
set server acl_hosts += mn
set server acl_roots = root
set server managers = root@mn
set server operators = daihj@*
set server operators += inspur@* 让普通用户qsta 查看所有作业
set server operators += liqing@*
set server operators += root@*
set server operators += sunych@*
set server operators += zhjx@*
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server keep_completed = 30
set server submit_hosts = mn
set server submit_hosts += jn
set server submit_hosts += sn
set server auto_node_np = True
set server next_job_number = 458m
qmgr -c "set server operators -= zhangyun@*" 减去一个属性