Skip to content

目录

集群管理要点

  • 使用你的集群
    • 查看集群信息
    • 控制守护进程
      • 控制 mbatchd
      • LSF 守护进程启动控制
        • 概述
        • 配置使能
        • LSF 守护进程启动控制行为
        • 要修改的配置
        • 命令
    • 重新配置集群的命令
      • 使用 lsadmin 和 badmin 命令重新配置
      • 通过重启 mbatchd 守护进程重新配置
      • 查看配置错误
    • 实时重构
      • bconf 命令鉴权
      • 启用实时重构
      • 添加用户共享到 fairshare 队列
      • 查看 bconf 记录
      • 合并配置文件
    • 添加集群管理员
  • 操作主机
    • 主机状态
    • 查看主机信息
      • 自定义主机信息输出
      • 自定义主机负载信息输出
    • 控制主机
    • 连接到执行主机或容器
    • 主机名
      • 有多个地址的主机
      • 使用 IPv6 地址
      • 使用浓缩符号指定主机名
  • 作业目录和数据
    • 作业输出目录
    • 指定作业输出目录
    • 临时作业目录
    • 关于弹性作业 CWD
    • 关于灵活作业输出目录
  • 作业通知
    • 禁用作业邮件
    • 作业邮件的大小

监视集群操作和运行状况

  • 监控集群性能
    • 实时监控性能指标
    • 诊断查询请求
    • 诊断调度桶 (scheduler buckets)
    • 监控调度程序的效率和开销
  • 监控作业信息
    • 查看主机级和队列级的挂起条件
    • 查看作业级暂停条件
    • 查看恢复阈值
    • 查看作业优先级信息
    • 查看作业依赖关系
    • 查看回填作业信息
      • 查看作业的开始时间信息
      • 查看可中断回填作业 (bjobs 和 bhist) 的运行限制
      • 显示回填作业的可用槽位
    • 查看作业数组 (job array) 信息
    • 查看预留槽位信息
      • 查看已配置的作业槽位共享
      • 查看运行作业的槽位分配情况
  • 通过使用外部脚本监控应用程序
    • 创建外部脚本
    • 配置应用配置文件
    • 使用应用配置文件
  • 查看资源信息
    • 查看作业级资源需求
    • 查看队列级资源需求
    • 查看主机共享资源
    • 查看主机负载情况
    • 查看作业资源使用情况
    • 查看集群资源 (lsinfo)
    • 查看主机资源 (lshosts)
      • 查看主机的资源负载 (lshosts -s)
      • 自定义主机资源信息输出
    • 查看资源预留信息
      • 查看主机级资源信息 (bhosts)
      • 查看队列级资源信息 (bqueues)
      • 查看为挂起的作业预留的内存 (bjobs)
      • 查看每个资源的预留 (bresources)
    • 查看资源分配限制信息
    • 查看应用配置文件信息
      • 查看可用的应用配置文件
    • 查看 fairshare 信息
      • 查看队列级 fairshare 信息
      • 查看跨队列 fairshare 信息
      • 查看组的分级共享信息
      • 查看主机分区的分级共享信息
      • 查看主机分区信息
    • 查看 SLAs 和服务分类信息
      • 监控 SLA
    • 查看已配置的保证资源池
      • 查看保证策略信息
  • 查看用户和用户组信息
    • 查看用户信息
    • 查看用户等待作业的阈值信息
    • 自定义用户信息输出
    • 查看用户组信息
    • 查看用户共享信息
    • 查看用户组管理信息
  • 查看队列信息
    • 队列状态
    • 查看可用队列和队列状态
    • 查看队列详细信息
    • 自定义队列信息输出
    • 查看队列的状态变化历史
    • 查看队列管理员
    • 查看队列异常状态 (bqueues)

管理作业的执行

  • 管理作业执行
    • 关于作业状态
    • 查看作业信息
      • 查看所有用户的所有作业
      • 查看作业 ID
      • 查看指定用户的作业
      • 查看正在运行的作业
      • 查看已完成的作业
      • 查看排队作业的信息
      • 查看作业的暂停原因
      • 查看执行后状态
      • 查看作业异常状态 (bjobs)
      • 查看未完成作业汇总信息
      • 查看作业提交环境
      • 自定义输出作业信息
    • 强制作业执行
      • 强制一个排队的作业运行
    • 暂停和恢复作业
      • 暂停作业
      • 恢复作业
    • 结束作业
      • 结束一个作业
      • 结束多个作业
      • 按作业状态结束作业
      • 结束作业并记录为 DONE
      • 强制从 LSF 移除一个作业
      • 从 LSF 中移除挂住的作业
      • 孤儿作业的终止
    • 向作业发送信号
      • 不同平台的信号
      • 向作业发送信号
    • 数据来源
      • 前提条件
      • 使用数据来源工具
  • 作业文件假脱机 (spooling)
    • 作业输入、输出和命令文件的文件假脱机
      • 指定作业输入文件
      • 更改作业输入文件
    • 作业假脱机目录 (JOB_SPOOL_DIR)
    • 指定作业命令文件 (bsub -Zs)
    • 使用非共享文件空间进行远程文件访问
      • 将文件从提交主机复制到执行主机
      • 指定输入文件
      • 将输出文件复制回提交主机
    • 作业提交选项文件
      • 指定 JSON 文件
      • 指定 YAML 文件
      • 指定 JSDL 文件
  • 作业数据管理
    • 复制文件到远程主机 (bsub -f)
    • 使用 LSF Data Manager 进行数据暂存 (data staging)
    • 使用直接数据暂存 (bsub -stage)
      • 配置直接数据暂存
      • 提交并运行直接数据暂存作业
  • 作业调度与分配
    • 使用排他调度
      • 配置排他队列
      • 配置主机一次只运行一个作业
      • 提交一个独占作业
      • 配置计算单元独占队列
      • 提交计算单元独占作业
    • 作业依赖和作业优先级
      • 作业依赖调度
        • 作业依赖术语
        • 依赖条件
      • 作业优先级
        • 用户分配的作业优先级
          • 配置作业优先级
          • 指定作业优先级
        • 自动升级作业优先级
          • 配置作业优先级升级
        • 绝对优先级调度
          • 启用绝对优先级调度
          • 修改系统 APS 值 (bmod)
          • 配置跨多队列 APS
          • 作业优先级行为
    • 作业请求 (requeue) 和作业重新运行
      • 关于作业请求
        • 自动作业请求
          • 配置自动作业请求
        • 作业级自动请求
        • 配置反向请求
        • 独占作业请求
          • 配置排他性作业请求
        • 请求作业
      • 自动重新运行作业
        • 配置重新运行队列级作业
        • 提交一个可重新运行的作业
        • 提交一个不可重新运行的作业
        • 为可重新运行的作业禁用执行后功能
    • 作业开始时间预测
    • 基于主机属性的作业亲和性调度
      • 配置主机属性
      • 管理主机属性
      • 提交具有属性关联的作业
  • 控制作业执行
    • 预处理和后处理
      • 关于预处理和后处理
      • 配置启用预处理和后处理
      • 预处理与后处理的行为
        • 检查预处理脚本失败的作业历史
      • 修改预处理和后处理的配置
        • 设置基于作业的预处理脚本的主机排除
      • 预处理和后处理命令
    • 作业启动器 (job starters)
      • 关于作业启动器
      • 命令级作业启动器
      • 队列级作业启动器
        • 配置队列级作业启动器
        • JOB_STARTER 参数 (lsb.queues)
      • 使用作业启动器控制执行环境
    • 作业控制动作
    • 以其他用户身份提交作业
    • 外部作业提交和执行控制
      • 作业提交和执行控制
      • 配置启用作业提交和执行控制
      • 作业提交和执行控制行为
      • 修改作业提交和执行控制的配置
      • 作业提交和执行控制命令
      • 作业提交和执行控制的命令参数
  • 交互式作业和远程任务
    • 通过 bsub 的交互式作业
      • 关于交互式作业
      • 提交交互式作业
        • 提交一个交互式作业
        • 通过伪终端提交一个交互作业
        • 提交交互式作业并将流重定向到文件
        • 提交交互作业,将流重定向到文件,并显示流
      • 交互式批处理作业的性能调优
      • 交互批处理作业消息 (messaging)
        • 配置交互批处理作业消息
        • 示例消息
      • 使用 bsub 运行 X 应用程序 (X applications)
      • 配置作业的 SSH X11 转发
      • 编写作业脚本
      • 为交互式批处理作业注册 utmp 文件项
    • 交互和远程任务
      • 运行远程任务
        • 在可用的最佳主机上运行任务
        • 在指定资源的主机上运行任务
          • 资源使用情况
        • 在指定主机上运行任务
        • 使用伪终端运行任务
        • 在多台主机上顺序运行相同的任务
        • 运行并行任务
        • 在由文件指定的主机上运行任务
      • 交互任务
        • 重定向流到文件
      • 负载共享交互会话
        • 登录到负载最小的主机
        • 登录到具有指定资源的主机

配置和共享作业资源

  • 关于 LSF 资源
    • 资源类别
    • LSF 如何使用资源
  • 代表 LSF 中的作业资源
    • 批处理内置资源
    • 静态资源
      • LIM 如何检测内核,线程和处理器
      • 定义 ncpus-处理器、核心或线程
      • 定义动态主机上 ncpus 的计算过程
      • 定义静态主机上 ncpus 的计算过程
    • 负载索引
    • 关于已配置的资源
      • 为集群添加新资源
      • 配置 lsf.shared resource 部份
      • 配置 lsf.cluster.cluster_name Host 部分
      • 配置 lsf.cluster.cluster_name ResourceMap 部分
      • 保留静态共享资源
      • 外部负载指标
        • 关于外部负载指标
        • 配置启用外部负载索引
          • 定义动态外部资源
          • 映射外部资源
          • 创建 elim 可执行文件
          • 覆盖内置的负载索引
          • 建立一个支持 JSDL 的 ELIM
          • elim 可执行文件示例
        • 外部负载指标行为
        • 修改外部负载指标的配置
        • 外部负载索引命令
      • 外部静态负载指标
        • 配置启用外部静态负载索引
        • 创建 eslim 可执行文件
        • eslim 可执行文件示例
      • 修改内置负载索引
    • 配置主机资源
      • 添加主机到集群
        • 动态添加主机
          • 在动态主机上配置和运行批处理作业
          • 将动态主机改为静态主机
          • 在共享文件系统环境中添加动态主机
          • 在非共享文件系统环境中添加动态主机
        • 使用 bconf 向集群中添加主机
      • 移除集群中的主机
        • 从管理候选列表中移除主机
        • 移除动态主机
    • 共享队列中的资源
      • 控制队列
        • 关闭队列
        • 开启队列
        • 取消激活队列
        • 激活队列
        • 记录对队列控制命令的注释
        • 配置调度窗口
        • 配置运行窗口
        • 添加队列
        • 删除队列
        • 限制哪些主机可以使用队列
        • 限制队列中并行作业请求的作业大小
        • 添加队列管理员
      • 更改队列内的作业顺序
      • 将作业从一个队列切换到另一个队列
        • 将单个作业切换到不同的队列
        • 将所有的作业切换到不同的队列
        • 使用外部作业切换控制
          • 启用作业切换控制的配置
          • 修改作业切换控制的配置
          • 作业切换控制的命令参数
    • 应用配置文件
      • 管理应用配置文件
        • 添加应用配置文件
      • 向应用程序配置文件提交作业
      • 应用程序配置文件如何与队列和作业参数交互
        • 应用程序配置文件设置覆盖队列设置
        • 应用程序配置文件限制和队列限制
        • 定义特定于应用程序的环境变量
        • 任务限制
        • 绝对运行限制
        • 预处理
        • 后处理
        • 可重新运行的作业
        • 资源需求
        • 估计作业运行时间和运行时限制
  • 基于计划的调度和预留
    • 启用基于计划的调度
    • 基于计划的分配
    • 基于计划的调度运行时间
    • 基于计划的调度限制和优先级
    • 配置可扩展的运行限制
    • 为分配计划预留资源
    • 取消计划好的分配
    • 拖延作业的计划
    • 限制计划作业的数量
    • 调整计划窗口
  • 将作业资源分配给 LSF 的用户
    • 配置资源消费者
      • 用户组
        • LSF 中的用户组
          • 如何定义用户组
          • 配置用户组的位置
          • 配置用户组
          • 配置用户组管理员
            • 配置用户组管理员权限
          • 导入外部用户组 (egroup)
        • 已存在的用户组作为 LSF 用户组
        • 外部主机和用户组
          • 关于外部主机和用户组
          • 启用外部主机和用户组的配置
          • 外部主机和用户组行为
          • 主机间用户帐户映射
            • 关于主机间用户帐号映射
            • 配置支持主机间用户帐户映射
            • 主机间用户帐户映射行为
            • 主机间用户帐户映射命令
          • 跨集群用户帐户映射
            • 关于跨集群用户帐号映射
            • 启用跨集群用户帐户映射的配置
            • 跨集群用户帐户映射行为
            • 跨集群用户帐户映射命令
          • UNIX/Windows 用户帐户映射
            • 关于 UNIX/Windows 用户帐号映射
            • 配置支持 UNIX/Windows 用户帐户映射
            • UNIX/Windows 用户帐户映射行为
            • 配置修改 UNIX/Windows 用户帐户映射行为
            • UNIX/Windows 用户帐户映射命令
        • 使用 bconf 创建用户组
      • 作业组
        • 作业组限制
        • 创建作业组
        • 在作业组下提交作业
        • 查看作业组信息 (bjgroup)
        • 查看特定作业组的作业 (bjobs)
        • 作业组和基于时间的 SLAs
          • 查看基于时间 SLA 的作业组 (bjgroup)
        • 控制作业组中的作业
          • 暂停作业 (bstop)
          • 恢复暂停的作业 (bresume)
          • 将作业移动到不同的作业组 (bmod)
          • 终止作业 (bkill)
          • 手动删除作业组 (bgdel)
          • 修改作业组限制 (bgmod)
        • 自动清理作业组
      • 主机组
        • 配置主机组
        • 用于定义主机名的通配符和特殊字符
        • 定义浓缩主机组
    • 指定资源需求
      • 关于资源需求
      • 队列级资源需求
      • 作业级资源需求
      • 资源需求字符串
        • 选择 (Selection) 字符串
        • 顺序 (Order) 字符串
        • 使用 (Usage) 字符串
        • 跨度 (Span) 字符串
        • 等价 (Same) 字符串
        • 计算单元 (Compute unit) 字符串
        • 亲和性 (Affinity) 字符串
      • 指定 GPU 资源需求
    • 预留资源
      • 关于资源预留
      • 使用资源预留
        • 配置队列级资源预留
        • 指定作业级资源预留
        • 配置每个资源的预留
      • 为挂起的作业预留内存
        • 为挂起的作业预留主机内存
        • 为顺序作业启用内存预留
        • 配置 lsb.queues
        • 为挂起的作业使用内存预留
        • 如何为挂起的作业预留内存
      • 基于时间的槽位预留
        • 配置基于时间的槽位预留
        • 假设和限制
        • 预留场景
        • 示例
    • 限制作业资源分配
      • 资源分配限制如何工作
      • 作业限制是如何工作的
      • 配置资源分配限制
        • 启用资源分配限制
        • 配置集群范围的限制
        • 限制冲突
        • 资源分配限制如何映射到版本 7 之前的作业槽位限制
      • 使用 bconf 创建一个限制
        • 使用 bconf 更新限制
    • 保证资源分配合理
      • 运行时资源使用限制
        • 关于资源使用限制
        • 改变资源使用限制的单位
        • 指定资源使用限制
          • 回填调度的默认运行限制
          • 指定作业级资源使用限制
        • 资源使用限制语法
          • CPU 时间限制
            • 归一化 CPU 时间
          • 数据段大小限制
          • 文件大小限制
          • 内存限制
            • 实施内存限制
            • 实施智能内存 (Smart memory) 限制
            • 实施操作系统内存 (OS memory) 限制
          • 进程限制
          • 运行时间限制
            • 规范化运行时
            • LSF 多集群能力运行时间限制
          • 线程限制
          • 堆叠 (Stack) 限制
          • 交换 (Swap) 限制
        • 示例
        • CPU 时间和运行时归一化
        • 基于 Linux cgroups 的内存和交换限制实施
        • PAM 资源限制
          • 配置 PAM 文件
      • 负载阈值
        • 自动暂停作业
        • 暂停条件
          • 配置队列级挂起条件
          • 关于恢复被暂停的作业
          • 指定恢复条件
      • 时间配置
        • 时间窗口
        • 时间表达式
        • 基于时间的自动配置
        • 调度及运行窗口
          • 运行窗口
            • 配置运行窗口
            • 查看运行窗口的信息
          • 调度窗口
            • 配置主机调度窗口
            • 配置队列调度窗口
            • 显示主机调度窗口
            • 显示队列调度窗口
        • 截止日期约束调度
          • 禁用截止日期约束调度
    • 抢占调度
      • 资源抢占
        • 关于资源抢占
        • 资源抢占要求
        • 资源抢占的自定义作业控制
        • 资源抢占步骤
        • 配置资源抢占
        • 内存抢占
      • 关于抢占调度
      • 配置启用抢占调度
      • 抢占式调度行为
      • 修改抢占调度行为的配置
      • 抢占式调度命令
    • 面向目标的 SLA 驱动调度
      • 使用面向目标的 SLA 调度
      • 配置 SLA 调度的服务分类
      • 使用 bconf 配置服务分类
      • 基于时间的服务分类
        • 配置基于时间的服务分类
        • 基于时间的 SLA 示例
        • SLA CONTROL_ACTION 参数 (lsb.serviceclasses)
      • 向服务类提交作业
        • 修改 SLA 作业 (bmod)
  • 全局资源
    • 全局资源收集
    • 配置
    • 使用

GPU 资源

  • 启用 GPU 特性
    • GPU 自动配置
    • 启用作业使用 GPU 资源
    • 优化 GPU 资源度量采集
    • Nvidia 数据中心 GPU 管理器 (Nvidia Data Center GPU Manager,DCGM) 的特性
    • 强制 GPU 访问
    • 当 GPU 不使用时,降低 GPU 功耗
    • Nvidia 多实例 GPU (MIG) 特性
  • 监控 GPU 资源
    • 使用 lsload 命令监控 GPU 资源
    • 使用 lshosts 命令监控 GPU 资源
  • 提交和监控 GPU 任务
    • 配置 GPU 资源需求
    • 提交需要 GPU 资源的作业
    • 监控 GPU 作业
    • GPU 作业提交的示例
  • 使用 ELIM 的 GPU 特性
    • 手动配置和使用 GPU 资源(遗留的 ELIM 过程)
    • 控制 GPU 自动提升

配置容器

  • LSF 与 Docker
    • 准备 LSF 运行 Docker 作业
    • 配置 LSF 运行 Docker 作业
    • 配置 LSF 运行 NVIDIA Docker 作业
    • 提交 Docker 作业
    • 提交 NVIDIA Docker 作业
  • LSF 与 Shifter
    • 配置 LSF 运行 Shifter 作业
    • 提交 Shifter 作业
  • LSF 与 Singularity
    • 配置 LSF 运行 Singularity 作业
    • 向 LSF 提交 Singularity 作业
  • LSF 与 Podman
    • 准备 LSF 运行 Podman 作业
    • 配置 LSF 在 Podman 容器中运行作业
    • 提交 Podman 作业
  • LSF 与 Enroot
    • 配置 LSF 在 Enroot 容器中运行作业
    • 提交 Enroot 作业

高吞吐量工作负载管理

  • 作业包
  • 作业数组
    • 创建作业数组
    • 处理输入输出文件
      • 准备输入文件
    • 在命令行上传递参数
    • 设置一个完整的数组依赖
    • 控制作业数组
    • 请求完成状态的作业
    • 作业数组的作业槽位限制
      • 设置提交时的作业数组槽位限制
  • 公平共享 (Fairshare) 调度
    • 理解公平共享调度
    • 公平共享的配置方法
      • 回退公平共享
        • 配置回退公平共享
      • 平等分享
        • 配置平等共享
      • 优先级用户和静态优先级公平共享
        • 配置优先级用户公平共享
        • 配置静态优先级公平共享
      • 主机分区公平共享
        • 配置主机分区公平共享
      • GPU 运行时间公平共享
        • 配置 GPU 运行时间
    • 基于用户的公平共享
      • 配置分级公平共享
      • 配置共享树
      • 用户共享分配
      • 动态用户优先级
    • 使用时间衰减和已提交运行时间
      • 历史运行时间衰减
        • 配置历史运行时间
        • mbatchd 重新配置和重新启动如何影响历史运行时
      • 运行时间衰减
        • 配置运行时衰减
      • 已提交运行时权重因子
        • 配置提交运行时
    • 公平共享如何影响作业调度顺序
    • 基于用户的主机分区公平共享
      • 配置主机分区公平共享调度
    • 基于用户的队列级公平共享
      • 配置队列级公平共享
      • 基于用户的跨队列公平共享
        • 配置跨队列公平共享
        • 控制跨队列公平共享中的作业调度顺序
    • 基于队列的公平共享
    • 每个队列的槽位分配
      • 配置每个队列的槽位分配
      • 典型的槽位分配场景
    • 受多个公平共享策略影响的用户
      • 提交作业并指定用户组
    • 可调整规模的作业和公平共享
  • 保障资源池
    • 关于保障资源
    • 保障资源池配置概述
    • 提交作业来使用保障
    • 打包保障
    • 向有保障的资源池中添加用户
  • 预留内存和 license 资源
    • 为挂起的作业预留内存
      • 为挂起的作业预留主机内存
      • 为顺序作业启用内存预留
      • 配置 lsb.queues
      • 为挂起的作业使用内存预留
      • 如何为挂起的作业预留内存
    • 预留 license 资源

并行工作负载管理

  • 运行并行作业
    • LSF 如何运行并行工作
    • 准备你的环境,以向 LSF 提交并行作业
      • 使用作业启动器
    • 提交一个并行作业
    • 使用 LSF 工具启动并行任务
    • 并行作业的作业槽限制
    • 指定任务的最小和最大数量
    • 限制并行作业请求的作业大小
    • 关于指定首次执行主机
      • 指定首次执行主机
        • 规则
    • 计算单位
      • 使用计算单元控制作业位置
      • 配置计算单元
      • 使用通配符和特殊字符定义计算单元的名称
      • 定义浓缩计算单元
      • 导入外部主机组 (egroup)
      • 使用提前预约的计算单元
    • 控制处理器在主机间的分配
    • 在同类主机上运行并行进程
    • 限制分配的处理器数量
    • 限制已分配主机数量
    • 预留处理器
      • 配置处理器预留
    • 为挂起的并行作业预留内存
      • 为挂起的并行作业配置内存预留
      • 启用每个任务内存预留
    • 回填调度
      • 配置回填队列
      • 执行运行限制
      • 在内存上使用回填
      • 使用可中断回填
        • 配置可中断回填队列
      • 根据可用的槽位提交回填作业
    • 如何在并行作业中使用截止日期约束调度
    • 优化并行作业抢占
      • 配置优化抢占
    • 控制 CPU 和内存的亲和性 (affinity)
      • 提交关联作业
        • 为 IBM POWER8 系统提交关联作业
      • 管理有关联资源需求的作业
      • 亲和性抢占
      • 基于 Linux cgroup cpuset 子系统的亲和性绑定
      • 便携式硬件位置
    • LSF 作业进程的处理器绑定
      • 为 LSF 作业进程启用处理器绑定
      • 并行作业的处理器绑定
    • 使用 blaunch 运行并行作业
      • blaunch 分布式应用框架
      • SGI 供应商 MPI 支持
      • 使用任务几何图形运行作业
      • 对并行任务实施资源使用限制
    • 通过 IBM 并行环境运行时版本运行 MPI 工作负载
      • 为 LSF 启用 IBM PE 运行时版本
      • 网络感知调度
      • 通过 LSF 提交 IBM 并行环境作业
      • 通过 LSF 管理 IBM 并行环境作业
  • 提前预订
    • 提前预订的类型
    • 开启预约功能
    • 允许用户创建提前预订
    • 使用提前预约
      • 添加预订
      • 更改预订
      • 取消预订
      • 查看预订
      • 提交和修改使用预订的作业
      • 查看与提前预约相关的作业
      • 提前预订行为和操作
  • 公平共享调度
    • 理解公平共享调度
    • 并行公平共享
      • 配置并行公平共享
    • 用户共享分配
    • 动态用户优先级
    • 使用时间衰减和已提交运行时间
      • 历史运行时间衰减
        • 配置历史运行时间
        • mbatchd 重新配置和重新启动如何影响历史运行时
      • 运行时间衰减
        • 配置运行时衰减
      • 已提交运行时权重因子
        • 配置已提交运行时
    • 公平共享如何影响作业调度顺序
    • 基于用户的主机分区公平共享
      • 配置主机分区公平共享调度
    • 基于用户的队列级公平共享
      • 配置队列级公平共享
    • 基于用户的跨队列公平共享
      • 配置跨队列公平共享
      • 控制跨队列公平共享中的作业调度顺序
    • 基于用户的公平共享
      • 配置分级公平共享
      • 配置共享树
    • 基于队列的公平共享
    • 每个队列的槽位分配
      • 配置每个队列的槽位分配
    • 典型槽位分配场景
    • 受多个公平共享策略影响的用户
      • 提交作业并指定用户组
    • 公平共享的配置方法
      • 主机分区公平共享
        • 配置主机分区公平共享
      • 回退公平共享
        • 配置回退公平共享
      • 平等分享
        • 配置平等共享
      • 优先级用户和静态优先级公平共享
        • 配置优先级用户公平共享
        • 配置静态优先级公平共享
      • GPU 运行时公平共享
        • 配置 GPU 运行时间
    • 可调整规模的作业和公平共享
    • 基于公平共享的作业计数
  • 作业检查点 (checkpoint) 和重新启动
    • 关于任务检查点和重启
    • 配置启用作业检查点并重新启动
    • 作业检查点和重启行为
    • 配置修改作业检查点和重新启动
    • 作业检查点和重启命令
  • 可检查点 (checkpointable) 和可重新运行 (rerunnable) 的作业迁移
    • 作业迁移行为
    • 启用作业迁移的配置
    • 修改作业迁移的配置
    • 作业迁移命令
  • 可调规模的作业
    • 可调规模作业的行为
    • 配置允许可调整规模的作业
    • 可调规模作业的命令
    • 可调规模作业的管理
      • 提交一个可调整规模的作业
      • 检查挂起的调整规模的请求
      • 取消活跃的挂起请求
    • 手动地指定调整通知命令
    • 调整规模的脚本
    • 可调整的作业如何与其他 LSF 特性一起运作

LSF 的安全性

  • 安全性考虑
    • 守护进程和命令之间的通信
    • 用于远程执行的 IBM Spectrum LSF 命令的传输
    • 访问属于其他用户的作业
    • 访问远程主机
    • 错误请求
    • 认证
  • 保护你的 LSF 集群
    • 守护进程和命令之间的安全通信
    • 加密传输 LSF 命令,方便远程执行和登录
    • 限制用户访问远程主机
    • 保护你的集群不受错误请求的影响
    • 自定义外部认证
    • 启用 LSF 守护进程的外部认证
    • 保护集群不允许在伪终端中,用 root 访问批量交互作业
    • 限制用户对管理命令和日志文件的访问
    • 作业信息访问控制
      • 设置作业信息访问控制
    • 保护 lsf.conf 文件,防止用户更改作业用户
    • 临时启用 root 权限
    • 查看集群安全设置

高级配置

  • 错误和事件日志
    • 系统目录和日志文件
      • 关于 LSF 日志文件
      • 日志的级别和描述
    • 管理错误日志
      • 设置日志文件的所有者
      • 查看文件描述符剩余个数
      • 定位错误日志
    • 系统事件日志
    • 事件日志的重复记录
      • 配置重复日志
    • 设置守护进程消息日志为调试级别
    • 设置守护进程定时级别
    • LSF 作业终止原因日志记录
      • 查看日志作业退出信息 (bacct -l)
      • 查看最近的作业退出信息 (bjobs -l)
      • 终止原因
    • LSF 作业退出码
  • 事件生成
    • 事件生成
      • 为自定义程序启用事件生成
    • 事件列表
    • 传递给 LSF 事件程序的参数
  • 自定义批量命令消息
  • LIM 如何确定主机型号和类型
    • 自动检测操作系统类型和版本
    • 添加自定义主机类型或型号
    • 自动检测硬件重构
      • 设置外部静态 LIM
  • 共享文件访问
    • Windows 的共享文件
    • 在非共享文件系统中使用 LSF
  • 共享配置文件内容
  • 认证与授权
    • 修改认证方式
    • 认证选项
    • 操作系统授权
    • LSF 授权
    • 授权失败
    • 外部认证
      • 使用 LSF (eauth) 进行外部认证
      • 配置启用外部认证
      • 外部认证行为
      • 修改外部认证的配置
      • 外部认证命令
    • Kerberos 身份验证
      • Kerberos 认证与 LSF
      • 配置启用 Kerberos 身份验证
      • 配置修改 Kerberos 身份验证
      • Kerberos 认证命令s
  • 处理作业异常
    • 邮件发送作业异常详细信息
    • 默认的 eadmin 操作
    • 处理作业的初始化失败
    • 处理主机级作业异常
    • 处理队列中的作业异常
    • 了解成功的应用程序退出值
      • 指定成功的应用程序退出值
  • 调优 CPU 因子
    • 查看标准化评级
    • 调优 CPU 因子
  • 为已完成的任务设置清理周期
  • 启用基于主机的资源
    • 便携式硬件位置
    • 定义 GPU 资源
    • 定义 Intel Xeon Phi 资源
  • 全局公平共享调度
    • 全局公平共享背景
    • 远程公平共享加载
    • 全局公平共享策略的同步模式
    • 全局公平共享设置和配置
    • 全局策略守护进程
    • 全局公平共享策略
    • 全局公平共动态用户优先级
    • 共享负载同步规则
    • 配置队列级基于用户的全局公平共享
    • 配置跨队列基于用户的全局公平共享
    • 全局公平共享调度约束
  • 在 EGO 上管理 LSF
    • 关于 LSF 的 EGO
    • LSF 和 EGO 目录结构
    • 配置 LSF 和 EGO
      • LSF 和 EGO 对应的参数
      • LSF 10 中发生变化的参数
      • LSF 管理主机专用资源组
      • 通过 EGO 管理 LSF 守护进程
        • 在启动时绕过 EGO 登录 (lsf.sudoers)
      • 设置命令行环境
    • LSF 在 EGO 的特性
      • 在 EGO-enabled SLA 调度上支持的 LSF 特性
      • 需要修改才能与 EGO-enabled SLA 调度一同工作的 LSF 特性
      • 在 EGO-enabled SLA 调度上不支持的 LSF 特性
    • 日志和故障排查
      • EGO 日志问价
      • 使用多个 EGO 日志文件来故障排查
    • 常见问题
  • 负载共享 X 应用程序
    • 启动一个 xterm
    • 在 PC 上的 xterm
    • 设置 Exceed 登录负载最小的主机
    • 在 Exceed 中开启一个 xterm
    • 示例
  • 使用 LSF 与 Etnus TotalView Debugger
    • IBM Spectrum LSF 如何使用 TotalView
    • 运行TotalView 调试作业
    • 在 TotalView 中控制和监视正在调试的作业
  • 向 LSF 服务器注册 LSF 主机名和 IP 地址

性能调优

  • 调优你的集群
    • LIM 调优
      • 负载阈值
        • 比较 LIM 负载阈值
        • LIM 报告主机繁忙
        • 互动作业
        • 多处理器系统
      • LSF 如何使用 LSF_MASTER_LIST
      • 使用 DNS 主机缓存提升集群启动性能
    • 优化 mbatchd 重启后的响应时间
    • 优化 mbatchd 查询性能
      • 配置 mbatchd 使用多线程
        • 多线程批量查询
        • 为 mbatchd 设置专用查询端口
        • 指定子 mbatchd 的过期时间
        • 配置 mbatchd 将新的作业信息推送到子 mbatchd
      • 指定硬性的 CPU 亲和性
    • 记录 mbatchd 性能指标
    • 记录 mbatchd 和 mbatchd 分析信息
    • 提高 mbatchd 对作业阵列切换事件的性能
    • 增加队列响应能力
    • 自动绑定 LSF 守护进程到指定的 CPU 核
    • 使用 LSF Explorer 提升 bacct 和 bhist 命令的性能,或者检索额外的数据
    • 通过在作业中避免运行 bwait 来提高槽位利用率
  • 实现性能和可扩展性
    • 优化大站点的性能
    • 为大型集群优化 UNIX
      • 增加文件描述符限制
    • 调整大型集群的 LSF
      • 管理调度性能
        • 启用快速调度
        • 启用连续调度
        • 使用调度器的线程,来评估资源需求匹配
        • 限制作业依赖评估
      • 限制批量查询的数量
      • 提高主机状态更新速度
      • 限制用户在队列中移动作业的能力
      • 管理排队原因的数量
      • 实现高效的事件切换
      • 自动加载更新
      • 管理 info 目录的 I/O 性能
      • 作业 ID 限制

能源感知调度

  • 管理主机电源状态
    • 配置主机电源状态管理
      • lbs.params 中的电源参数
      • lbs.resources 中的 PowerPolicy 部分
    • 控制和监控主机电源状态管理
    • 省电模式的有效主机状态
    • 关闭电源操作功能
    • 变更 lsf.shared/lsf.cluster
    • 与提前预留集成
    • 与供应系统集成
  • CPU 频率管理
    • 配置 CPU 频率管理
    • 指定作业的 CPU 频率管理
    • 作业能耗报告
    • 作业总结邮件中的资源使用情况
  • 自动选择 CPU 频率
    • 前提条件
      • 配置 MySQL 数据库
    • 配置 CPU 自动选频
      • 安装和配置基准测试程序
      • 检查计算节点性能
      • 计算系数数据
    • 创建能源策略标签
      • 能源策略标签格式
      • 生成一个能源策略标签
      • 开启 CPU 自动选频功能

LSF 的多集群能力

  • LSF 多集群能力概述
    • IBM Spectrum LSF 多集群能力的好处
    • 两种平台多集群模型
  • 设置 LSF 多集群能力
    • 设置概述
      • 系统需求
      • 安装和配置过程
      • 安装平台多集群
      • 设置公共端口
    • 非统一的命名空间
      • 用户级帐户映射
    • 远程集群感知受限
      • 添加或修改 RemoteClusters 列表
    • 守护进程通信安全
    • 集群间认证
    • 多集群作业的资源使用情况更新
    • 作业资源分配的全局限制
      • 配置全局限制
      • 查看全局限制
    • 多集群信息缓存
  • 作业转发模式
    • 作业转发模式概述
    • 作业转发模式下的任务调度
    • 作业转发模式下的队列调度参数
    • 跨集群提前预订
    • 作业转发模式下的特殊考虑
      • 作业迁移
      • 检查 (Checkpoint) MultiCluster 作业
      • 绝对优先级调度
      • 严格的资源要求选择字符串语法
      • 计算单元需求字符串
    • 多集群队列
      • 启用多集群队列
    • 仅支持远程的队列
      • 配置仅支持远程的队列
    • 请求指定的集群
    • 远程集群等效性
    • 远程资源
    • 远程队列工作负载作业转发调度器
      • 启用队列优先级
        • 配置队列优先级
      • 启用作业槽位限制
        • 配置排队作业的槽位限制
    • 执行前重试阈值
    • 重试阈值并暂停通知
    • 排队多集群作业的限制
    • 更新多集群作业的排队原因
      • 配置排队原因更新间隔
      • 配置排队原因更新包大小
    • 远程超时限制
    • 启用多集群作业转发模式下的作业优先级
      • 指定作业优先级 (bsub -sp)
      • 配置最大作业优先级
    • 加强公平分配计算,来包括作业转发模式
  • 资源租赁模式
    • 租赁模式概述
    • 采用租赁模式
    • 资源租赁模式下的特殊考虑
    • 资源导出
    • 创建导出策略
    • 导出工作站
      • 自动选择主机的分配策略
    • 导出特殊主机
      • 命名主机的分发策略
    • 导出其他资源
    • 导出共享资源
    • 共享租赁
      • 开启共享租赁功能
    • 借用资源
    • 并行作业和租赁模式