术语及概念 作业状态:
- PEND:在队列中等待调度和分派。
- RUN:分配给指定主机并运行。
- DONE:返回值为0,正常结束。
- PSUSP:在调度和分派时暂停。(具体暂停条件待考究)
- USUSP:由用户手动进行暂停。
- SSUSP:由LSF系统暂停。(具体暂停条件待考究)
- POST_DONE:处理完成无误。 POST_ERR:处理完成有误。
- UNKWN:mbatchd守护进程同作业运行主机的sbatchd守护进程失去通讯。
- WAIT:对于提交的作业到负载大的作业队列,这个队列里作业成员等待运行。
- HOST
集群中一台单独的计算机
每个主机可能有多个处理器。多处理器主机用于运行并行作业。具有单个进程队列的多处理器主机被认为是一台机器。一个装满处理器的盒子(每个处理器都有自己的进程队列)被视为一组独立的机器。
注:主机的名称应该是唯一的。它们不能与集群名称或为集群定义的任何队列相同。
- Job:
一个lsf job是一个运行在lsf系统中的作业单元。
Job是由bsub命令行提交到lsf系统执行,通过配置的策略来进行调度,控制和跟踪。
job可以是复杂的问题,模拟场景,广泛的计算,任何需要计算能力的事情。
- Job file
当作业提交给队列时,LSF将其保存在作业文件中,直到条件适合运行为止。然后,使用作业文件来运行作业。
在UNIX上,作业文件是在执行时运行的Bourne shell脚本。
在Windows上,作业文件是在执行时处理的批处理文件。
- Interactive batch job
交互式批处理作业是允许您与应用程序交互的批处理作业,并且仍然可以利用LSF调度策略和容错能力。
所有输入和输出都是通过用于键入作业提交命令的终端进行的。
提交交互式作业时,会在作业等待调度时显示一条消息。在交互作业完成或终止之前,不能提交新的作业。
- Interactive task
交互式任务是一个命令,它不提交给批处理队列,而是立即调度执行。
LSF定位任务所需的资源,并在具有所需资源且负载较轻的候选主机中选择最佳主机。每个命令可以是单个进程,也可以是一组协作进程。
运行任务时不使用LSF的批处理特性,但仍然具有资源需求和根据负载选择运行任务的最佳主机的优势。
- Local task
本地任务是没有远程运行意义的应用程序或命令。
例如UNIX系统下的ls命令。
- Remote task
远程任务是可以在集群中的另一台机器上运行的应用程序或命令。
- Host types and host models
LSF中的主机分为主机类型和主机型号。
文章图片
- Host type
LSF主机类型是操作系统和主机CPU架构的组合。
在同一计算机体系结构上运行同一操作系统的所有计算机都属于同一类型。这些主机是二进制兼容的。
每种主机类型通常需要一组不同的LSF二进制文件。
- Host model
LSF主机模型是计算机的主机类型,它决定了在负载和位置计算中应用的CPU速度缩放系数。
在分配作业时要考虑CPU因素。
- Resourse
LSF资源是LSF系统资源中的对象,LSF使用这些资源跟踪作业需求并根据作业在各个主机上的可用性调度作业。
- Resourse usage
LSF系统使用内置和配置的资源来跟踪资源的可用性和使用情况。作业是根据各个主机上的可用资源来调度的。
通过LSF系统提交的作业在运行时使用的资源将受到监视。该信息用于执行资源限制和负载阈值,以及fairshare调度。
LSF收集以下信息:
- 作业中所有进程消耗的总CPU时间
- 作业中当前运行的所有进程的总常驻内存使用(以KB为单位)
- 作业中当前运行的所有进程的虚拟内存使用总量(以KB为单位)
- 作业中当前活动的进程组ID
- 作业中当前活动的进程
- Load indices
负载指标衡量集群中主机上动态的、非共享的资源的可用性。建立在LIM中的负载指数以固定的时间间隔进行更新。
- External load indices
由LSF管理员定义和配置,并由外部负载信息管理器(ELIM)程序收集。当收到新值时,ELIM也会更新LIM。
- Static resources
表示不随时间变化的主机信息的内置资源,例如用户进程可用的最大RAM或一台机器中的处理器数量。大多数静态资源在启动时由LIM决定。
可以使用静态资源为基于二进制体系结构、相对CPU速度和系统配置的特定作业选择适当的主机。
- Load thresholds
LSF管理员可以配置两种负载阈值来调度队列中的作业。每个负载阈值指定一个负载索引值:负载调度负载阈值决定分派待调度任务的负载条件。如果主机的负载超过任何已定义的loadSched,则无法在该主机上启动作业。此阈值也用作恢复暂停作业的条件。loadStop负载阈值决定了什么时候可以挂起正在运行的作业。要调度主机上的作业,该主机上的负载级别必须同时满足为该主机配置的阈值和分配作业的队列的阈值。负载索引的值可以随负载增加或减少,这取决于特定负载索引的含义。因此,当您将主机负载情况与阈值进行比较时,需要根据负载指数选择大于(>)或小于(<)。
- Runtime resource usage limits
在作业运行时限制资源的使用。当作业消耗的资源超过指定数量时,就会发出信号。
- Hard and soft limits
在队列级别指定的资源限制是硬限制,而通过作业提交指定的限制是软限制。有关硬限制和软限制的信息。
- Resource allocation limits
限制在为不同的作业类别启动作业进行作业调度期间必须可用的资源数量,以及限制适用于哪些资源使用者。如果所有资源都被消耗,那么在释放部分资源之前,将无法启动更多的作业
- 【LSF_术语及概念】Resource requirements (bsub -R)
sub -R选项指定作业的资源需求。资源需求限制了作业可以在哪些主机上运行。符合资源要求的主机即为候选主机。当LSF调度作业时,它收集所有候选主机的负载索引值,并将它们与调度条件进行比较。只有当所有负载值都在调度阈值内时,才会将作业分派给主机。