目录¶
集群管理要点¶
- 使用你的集群
- 查看集群信息
- 控制守护进程
- 控制 mbatchd
- LSF 守护进程启动控制
- 概述
- 配置使能
- LSF 守护进程启动控制行为
- 要修改的配置
- 命令
- 重新配置集群的命令
- 使用 lsadmin 和 badmin 命令重新配置
- 通过重启 mbatchd 守护进程重新配置
- 查看配置错误
- 实时重构
- bconf 命令鉴权
- 启用实时重构
- 添加用户共享到 fairshare 队列
- 查看 bconf 记录
- 合并配置文件
- 添加集群管理员
- 操作主机
- 主机状态
- 查看主机信息
- 自定义主机信息输出
- 自定义主机负载信息输出
- 控制主机
- 连接到执行主机或容器
- 主机名
- 有多个地址的主机
- 使用 IPv6 地址
- 使用浓缩符号指定主机名
- 作业目录和数据
- 作业输出目录
- 指定作业输出目录
- 临时作业目录
- 关于弹性作业 CWD
- 关于灵活作业输出目录
- 作业通知
- 禁用作业邮件
- 作业邮件的大小
监视集群操作和运行状况¶
- 监控集群性能
- 实时监控性能指标
- 诊断查询请求
- 诊断调度桶 (scheduler buckets)
- 监控调度程序的效率和开销
- 监控作业信息
- 查看主机级和队列级的挂起条件
- 查看作业级暂停条件
- 查看恢复阈值
- 查看作业优先级信息
- 查看作业依赖关系
- 查看回填作业信息
- 查看作业的开始时间信息
- 查看可中断回填作业 (bjobs 和 bhist) 的运行限制
- 显示回填作业的可用槽位
- 查看作业数组 (job array) 信息
- 查看预留槽位信息
- 查看已配置的作业槽位共享
- 查看运行作业的槽位分配情况
- 通过使用外部脚本监控应用程序
- 创建外部脚本
- 配置应用配置文件
- 使用应用配置文件
- 查看资源信息
- 查看作业级资源需求
- 查看队列级资源需求
- 查看主机共享资源
- 查看主机负载情况
- 查看作业资源使用情况
- 查看集群资源 (lsinfo)
- 查看主机资源 (lshosts)
- 查看主机的资源负载 (lshosts -s)
- 自定义主机资源信息输出
- 查看资源预留信息
- 查看主机级资源信息 (bhosts)
- 查看队列级资源信息 (bqueues)
- 查看为挂起的作业预留的内存 (bjobs)
- 查看每个资源的预留 (bresources)
- 查看资源分配限制信息
- 查看应用配置文件信息
- 查看可用的应用配置文件
- 查看 fairshare 信息
- 查看队列级 fairshare 信息
- 查看跨队列 fairshare 信息
- 查看组的分级共享信息
- 查看主机分区的分级共享信息
- 查看主机分区信息
- 查看 SLAs 和服务分类信息
- 监控 SLA
- 查看已配置的保证资源池
- 查看保证策略信息
- 查看用户和用户组信息
- 查看用户信息
- 查看用户等待作业的阈值信息
- 自定义用户信息输出
- 查看用户组信息
- 查看用户共享信息
- 查看用户组管理信息
- 查看队列信息
- 队列状态
- 查看可用队列和队列状态
- 查看队列详细信息
- 自定义队列信息输出
- 查看队列的状态变化历史
- 查看队列管理员
- 查看队列异常状态 (bqueues)
管理作业的执行¶
- 管理作业执行
- 关于作业状态
- 查看作业信息
- 查看所有用户的所有作业
- 查看作业 ID
- 查看指定用户的作业
- 查看正在运行的作业
- 查看已完成的作业
- 查看排队作业的信息
- 查看作业的暂停原因
- 查看执行后状态
- 查看作业异常状态 (bjobs)
- 查看未完成作业汇总信息
- 查看作业提交环境
- 自定义输出作业信息
- 强制作业执行
- 强制一个排队的作业运行
- 暂停和恢复作业
- 暂停作业
- 恢复作业
- 结束作业
- 结束一个作业
- 结束多个作业
- 按作业状态结束作业
- 结束作业并记录为 DONE
- 强制从 LSF 移除一个作业
- 从 LSF 中移除挂住的作业
- 孤儿作业的终止
- 向作业发送信号
- 不同平台的信号
- 向作业发送信号
- 数据来源
- 前提条件
- 使用数据来源工具
- 作业文件假脱机 (spooling)
- 作业输入、输出和命令文件的文件假脱机
- 指定作业输入文件
- 更改作业输入文件
- 作业假脱机目录 (JOB_SPOOL_DIR)
- 指定作业命令文件 (bsub -Zs)
- 使用非共享文件空间进行远程文件访问
- 将文件从提交主机复制到执行主机
- 指定输入文件
- 将输出文件复制回提交主机
- 作业提交选项文件
- 指定 JSON 文件
- 指定 YAML 文件
- 指定 JSDL 文件
- 作业输入、输出和命令文件的文件假脱机
- 作业数据管理
- 复制文件到远程主机 (bsub -f)
- 使用 LSF Data Manager 进行数据暂存 (data staging)
- 使用直接数据暂存 (bsub -stage)
- 配置直接数据暂存
- 提交并运行直接数据暂存作业
- 作业调度与分配
- 使用排他调度
- 配置排他队列
- 配置主机一次只运行一个作业
- 提交一个独占作业
- 配置计算单元独占队列
- 提交计算单元独占作业
- 作业依赖和作业优先级
- 作业依赖调度
- 作业依赖术语
- 依赖条件
- 作业优先级
- 用户分配的作业优先级
- 配置作业优先级
- 指定作业优先级
- 自动升级作业优先级
- 配置作业优先级升级
- 绝对优先级调度
- 启用绝对优先级调度
- 修改系统 APS 值 (bmod)
- 配置跨多队列 APS
- 作业优先级行为
- 用户分配的作业优先级
- 作业依赖调度
- 作业请求 (requeue) 和作业重新运行
- 关于作业请求
- 自动作业请求
- 配置自动作业请求
- 作业级自动请求
- 配置反向请求
- 独占作业请求
- 配置排他性作业请求
- 请求作业
- 自动作业请求
- 自动重新运行作业
- 配置重新运行队列级作业
- 提交一个可重新运行的作业
- 提交一个不可重新运行的作业
- 为可重新运行的作业禁用执行后功能
- 关于作业请求
- 作业开始时间预测
- 基于主机属性的作业亲和性调度
- 配置主机属性
- 管理主机属性
- 提交具有属性关联的作业
- 使用排他调度
- 控制作业执行
- 预处理和后处理
- 关于预处理和后处理
- 配置启用预处理和后处理
- 预处理与后处理的行为
- 检查预处理脚本失败的作业历史
- 修改预处理和后处理的配置
- 设置基于作业的预处理脚本的主机排除
- 预处理和后处理命令
- 作业启动器 (job starters)
- 关于作业启动器
- 命令级作业启动器
- 队列级作业启动器
- 配置队列级作业启动器
- JOB_STARTER 参数 (lsb.queues)
- 使用作业启动器控制执行环境
- 作业控制动作
- 以其他用户身份提交作业
- 外部作业提交和执行控制
- 作业提交和执行控制
- 配置启用作业提交和执行控制
- 作业提交和执行控制行为
- 修改作业提交和执行控制的配置
- 作业提交和执行控制命令
- 作业提交和执行控制的命令参数
- 预处理和后处理
- 交互式作业和远程任务
- 通过 bsub 的交互式作业
- 关于交互式作业
- 提交交互式作业
- 提交一个交互式作业
- 通过伪终端提交一个交互作业
- 提交交互式作业并将流重定向到文件
- 提交交互作业,将流重定向到文件,并显示流
- 交互式批处理作业的性能调优
- 交互批处理作业消息 (messaging)
- 配置交互批处理作业消息
- 示例消息
- 使用 bsub 运行 X 应用程序 (X applications)
- 配置作业的 SSH X11 转发
- 编写作业脚本
- 为交互式批处理作业注册 utmp 文件项
- 交互和远程任务
- 运行远程任务
- 在可用的最佳主机上运行任务
- 在指定资源的主机上运行任务
- 资源使用情况
- 在指定主机上运行任务
- 使用伪终端运行任务
- 在多台主机上顺序运行相同的任务
- 运行并行任务
- 在由文件指定的主机上运行任务
- 交互任务
- 重定向流到文件
- 负载共享交互会话
- 登录到负载最小的主机
- 登录到具有指定资源的主机
- 运行远程任务
- 通过 bsub 的交互式作业
配置和共享作业资源¶
- 关于 LSF 资源
- 资源类别
- LSF 如何使用资源
- 代表 LSF 中的作业资源
- 批处理内置资源
- 静态资源
- LIM 如何检测内核,线程和处理器
- 定义 ncpus-处理器、核心或线程
- 定义动态主机上 ncpus 的计算过程
- 定义静态主机上 ncpus 的计算过程
- 负载索引
- 关于已配置的资源
- 为集群添加新资源
- 配置 lsf.shared resource 部份
- 配置 lsf.cluster.cluster_name Host 部分
- 配置 lsf.cluster.cluster_name ResourceMap 部分
- 保留静态共享资源
- 外部负载指标
- 关于外部负载指标
- 配置启用外部负载索引
- 定义动态外部资源
- 映射外部资源
- 创建 elim 可执行文件
- 覆盖内置的负载索引
- 建立一个支持 JSDL 的 ELIM
- elim 可执行文件示例
- 外部负载指标行为
- 修改外部负载指标的配置
- 外部负载索引命令
- 外部静态负载指标
- 配置启用外部静态负载索引
- 创建 eslim 可执行文件
- eslim 可执行文件示例
- 修改内置负载索引
- 配置主机资源
- 添加主机到集群
- 动态添加主机
- 在动态主机上配置和运行批处理作业
- 将动态主机改为静态主机
- 在共享文件系统环境中添加动态主机
- 在非共享文件系统环境中添加动态主机
- 使用 bconf 向集群中添加主机
- 动态添加主机
- 移除集群中的主机
- 从管理候选列表中移除主机
- 移除动态主机
- 添加主机到集群
- 共享队列中的资源
- 控制队列
- 关闭队列
- 开启队列
- 取消激活队列
- 激活队列
- 记录对队列控制命令的注释
- 配置调度窗口
- 配置运行窗口
- 添加队列
- 删除队列
- 限制哪些主机可以使用队列
- 限制队列中并行作业请求的作业大小
- 添加队列管理员
- 更改队列内的作业顺序
- 将作业从一个队列切换到另一个队列
- 将单个作业切换到不同的队列
- 将所有的作业切换到不同的队列
- 使用外部作业切换控制
- 启用作业切换控制的配置
- 修改作业切换控制的配置
- 作业切换控制的命令参数
- 控制队列
- 应用配置文件
- 管理应用配置文件
- 添加应用配置文件
- 向应用程序配置文件提交作业
- 应用程序配置文件如何与队列和作业参数交互
- 应用程序配置文件设置覆盖队列设置
- 应用程序配置文件限制和队列限制
- 定义特定于应用程序的环境变量
- 任务限制
- 绝对运行限制
- 预处理
- 后处理
- 可重新运行的作业
- 资源需求
- 估计作业运行时间和运行时限制
- 管理应用配置文件
- 基于计划的调度和预留
- 启用基于计划的调度
- 基于计划的分配
- 基于计划的调度运行时间
- 基于计划的调度限制和优先级
- 配置可扩展的运行限制
- 为分配计划预留资源
- 取消计划好的分配
- 拖延作业的计划
- 限制计划作业的数量
- 调整计划窗口
- 将作业资源分配给 LSF 的用户
- 配置资源消费者
- 用户组
- LSF 中的用户组
- 如何定义用户组
- 配置用户组的位置
- 配置用户组
- 配置用户组管理员
- 配置用户组管理员权限
- 导入外部用户组 (egroup)
- 已存在的用户组作为 LSF 用户组
- 外部主机和用户组
- 关于外部主机和用户组
- 启用外部主机和用户组的配置
- 外部主机和用户组行为
- 主机间用户帐户映射
- 关于主机间用户帐号映射
- 配置支持主机间用户帐户映射
- 主机间用户帐户映射行为
- 主机间用户帐户映射命令
- 跨集群用户帐户映射
- 关于跨集群用户帐号映射
- 启用跨集群用户帐户映射的配置
- 跨集群用户帐户映射行为
- 跨集群用户帐户映射命令
- UNIX/Windows 用户帐户映射
- 关于 UNIX/Windows 用户帐号映射
- 配置支持 UNIX/Windows 用户帐户映射
- UNIX/Windows 用户帐户映射行为
- 配置修改 UNIX/Windows 用户帐户映射行为
- UNIX/Windows 用户帐户映射命令
- 使用 bconf 创建用户组
- LSF 中的用户组
- 作业组
- 作业组限制
- 创建作业组
- 在作业组下提交作业
- 查看作业组信息 (bjgroup)
- 查看特定作业组的作业 (bjobs)
- 作业组和基于时间的 SLAs
- 查看基于时间 SLA 的作业组 (bjgroup)
- 控制作业组中的作业
- 暂停作业 (bstop)
- 恢复暂停的作业 (bresume)
- 将作业移动到不同的作业组 (bmod)
- 终止作业 (bkill)
- 手动删除作业组 (bgdel)
- 修改作业组限制 (bgmod)
- 自动清理作业组
- 主机组
- 配置主机组
- 用于定义主机名的通配符和特殊字符
- 定义浓缩主机组
- 用户组
- 指定资源需求
- 关于资源需求
- 队列级资源需求
- 作业级资源需求
- 资源需求字符串
- 选择 (Selection) 字符串
- 顺序 (Order) 字符串
- 使用 (Usage) 字符串
- 跨度 (Span) 字符串
- 等价 (Same) 字符串
- 计算单元 (Compute unit) 字符串
- 亲和性 (Affinity) 字符串
- 指定 GPU 资源需求
- 预留资源
- 关于资源预留
- 使用资源预留
- 配置队列级资源预留
- 指定作业级资源预留
- 配置每个资源的预留
- 为挂起的作业预留内存
- 为挂起的作业预留主机内存
- 为顺序作业启用内存预留
- 配置 lsb.queues
- 为挂起的作业使用内存预留
- 如何为挂起的作业预留内存
- 基于时间的槽位预留
- 配置基于时间的槽位预留
- 假设和限制
- 预留场景
- 示例
- 限制作业资源分配
- 资源分配限制如何工作
- 作业限制是如何工作的
- 配置资源分配限制
- 启用资源分配限制
- 配置集群范围的限制
- 限制冲突
- 资源分配限制如何映射到版本 7 之前的作业槽位限制
- 使用 bconf 创建一个限制
- 使用 bconf 更新限制
- 保证资源分配合理
- 运行时资源使用限制
- 关于资源使用限制
- 改变资源使用限制的单位
- 指定资源使用限制
- 回填调度的默认运行限制
- 指定作业级资源使用限制
- 资源使用限制语法
- CPU 时间限制
- 归一化 CPU 时间
- 数据段大小限制
- 文件大小限制
- 内存限制
- 实施内存限制
- 实施智能内存 (Smart memory) 限制
- 实施操作系统内存 (OS memory) 限制
- 进程限制
- 运行时间限制
- 规范化运行时
- LSF 多集群能力运行时间限制
- 线程限制
- 堆叠 (Stack) 限制
- 交换 (Swap) 限制
- CPU 时间限制
- 示例
- CPU 时间和运行时归一化
- 基于 Linux cgroups 的内存和交换限制实施
- PAM 资源限制
- 配置 PAM 文件
- 负载阈值
- 自动暂停作业
- 暂停条件
- 配置队列级挂起条件
- 关于恢复被暂停的作业
- 指定恢复条件
- 时间配置
- 时间窗口
- 时间表达式
- 基于时间的自动配置
- 调度及运行窗口
- 运行窗口
- 配置运行窗口
- 查看运行窗口的信息
- 调度窗口
- 配置主机调度窗口
- 配置队列调度窗口
- 显示主机调度窗口
- 显示队列调度窗口
- 运行窗口
- 截止日期约束调度
- 禁用截止日期约束调度
- 运行时资源使用限制
- 抢占调度
- 资源抢占
- 关于资源抢占
- 资源抢占要求
- 资源抢占的自定义作业控制
- 资源抢占步骤
- 配置资源抢占
- 内存抢占
- 关于抢占调度
- 配置启用抢占调度
- 抢占式调度行为
- 修改抢占调度行为的配置
- 抢占式调度命令
- 资源抢占
- 面向目标的 SLA 驱动调度
- 使用面向目标的 SLA 调度
- 配置 SLA 调度的服务分类
- 使用 bconf 配置服务分类
- 基于时间的服务分类
- 配置基于时间的服务分类
- 基于时间的 SLA 示例
- SLA CONTROL_ACTION 参数 (lsb.serviceclasses)
- 向服务类提交作业
- 修改 SLA 作业 (bmod)
- 配置资源消费者
- 全局资源
- 全局资源收集
- 配置
- 使用
GPU 资源¶
- 启用 GPU 特性
- GPU 自动配置
- 启用作业使用 GPU 资源
- 优化 GPU 资源度量采集
- Nvidia 数据中心 GPU 管理器 (Nvidia Data Center GPU Manager,DCGM) 的特性
- 强制 GPU 访问
- 当 GPU 不使用时,降低 GPU 功耗
- Nvidia 多实例 GPU (MIG) 特性
- 监控 GPU 资源
- 使用 lsload 命令监控 GPU 资源
- 使用 lshosts 命令监控 GPU 资源
- 提交和监控 GPU 任务
- 配置 GPU 资源需求
- 提交需要 GPU 资源的作业
- 监控 GPU 作业
- GPU 作业提交的示例
- 使用 ELIM 的 GPU 特性
- 手动配置和使用 GPU 资源(遗留的 ELIM 过程)
- 控制 GPU 自动提升
配置容器¶
- LSF 与 Docker
- 准备 LSF 运行 Docker 作业
- 配置 LSF 运行 Docker 作业
- 配置 LSF 运行 NVIDIA Docker 作业
- 提交 Docker 作业
- 提交 NVIDIA Docker 作业
- LSF 与 Shifter
- 配置 LSF 运行 Shifter 作业
- 提交 Shifter 作业
- LSF 与 Singularity
- 配置 LSF 运行 Singularity 作业
- 向 LSF 提交 Singularity 作业
- LSF 与 Podman
- 准备 LSF 运行 Podman 作业
- 配置 LSF 在 Podman 容器中运行作业
- 提交 Podman 作业
- LSF 与 Enroot
- 配置 LSF 在 Enroot 容器中运行作业
- 提交 Enroot 作业
高吞吐量工作负载管理¶
- 作业包
- 作业数组
- 创建作业数组
- 处理输入输出文件
- 准备输入文件
- 在命令行上传递参数
- 设置一个完整的数组依赖
- 控制作业数组
- 请求完成状态的作业
- 作业数组的作业槽位限制
- 设置提交时的作业数组槽位限制
- 公平共享 (Fairshare) 调度
- 理解公平共享调度
- 公平共享的配置方法
- 回退公平共享
- 配置回退公平共享
- 平等分享
- 配置平等共享
- 优先级用户和静态优先级公平共享
- 配置优先级用户公平共享
- 配置静态优先级公平共享
- 主机分区公平共享
- 配置主机分区公平共享
- GPU 运行时间公平共享
- 配置 GPU 运行时间
- 回退公平共享
- 基于用户的公平共享
- 配置分级公平共享
- 配置共享树
- 用户共享分配
- 动态用户优先级
- 使用时间衰减和已提交运行时间
- 历史运行时间衰减
- 配置历史运行时间
- mbatchd 重新配置和重新启动如何影响历史运行时
- 运行时间衰减
- 配置运行时衰减
- 已提交运行时权重因子
- 配置提交运行时
- 历史运行时间衰减
- 公平共享如何影响作业调度顺序
- 基于用户的主机分区公平共享
- 配置主机分区公平共享调度
- 基于用户的队列级公平共享
- 配置队列级公平共享
- 基于用户的跨队列公平共享
- 配置跨队列公平共享
- 控制跨队列公平共享中的作业调度顺序
- 基于队列的公平共享
- 每个队列的槽位分配
- 配置每个队列的槽位分配
- 典型的槽位分配场景
- 受多个公平共享策略影响的用户
- 提交作业并指定用户组
- 可调整规模的作业和公平共享
- 保障资源池
- 关于保障资源
- 保障资源池配置概述
- 提交作业来使用保障
- 打包保障
- 向有保障的资源池中添加用户
- 预留内存和 license 资源
- 为挂起的作业预留内存
- 为挂起的作业预留主机内存
- 为顺序作业启用内存预留
- 配置 lsb.queues
- 为挂起的作业使用内存预留
- 如何为挂起的作业预留内存
- 预留 license 资源
- 为挂起的作业预留内存
并行工作负载管理¶
- 运行并行作业
- LSF 如何运行并行工作
- 准备你的环境,以向 LSF 提交并行作业
- 使用作业启动器
- 提交一个并行作业
- 使用 LSF 工具启动并行任务
- 并行作业的作业槽限制
- 指定任务的最小和最大数量
- 限制并行作业请求的作业大小
- 关于指定首次执行主机
- 指定首次执行主机
- 规则
- 指定首次执行主机
- 计算单位
- 使用计算单元控制作业位置
- 配置计算单元
- 使用通配符和特殊字符定义计算单元的名称
- 定义浓缩计算单元
- 导入外部主机组 (egroup)
- 使用提前预约的计算单元
- 控制处理器在主机间的分配
- 在同类主机上运行并行进程
- 限制分配的处理器数量
- 限制已分配主机数量
- 预留处理器
- 配置处理器预留
- 为挂起的并行作业预留内存
- 为挂起的并行作业配置内存预留
- 启用每个任务内存预留
- 回填调度
- 配置回填队列
- 执行运行限制
- 在内存上使用回填
- 使用可中断回填
- 配置可中断回填队列
- 根据可用的槽位提交回填作业
- 如何在并行作业中使用截止日期约束调度
- 优化并行作业抢占
- 配置优化抢占
- 控制 CPU 和内存的亲和性 (affinity)
- 提交关联作业
- 为 IBM POWER8 系统提交关联作业
- 管理有关联资源需求的作业
- 亲和性抢占
- 基于 Linux cgroup cpuset 子系统的亲和性绑定
- 便携式硬件位置
- 提交关联作业
- LSF 作业进程的处理器绑定
- 为 LSF 作业进程启用处理器绑定
- 并行作业的处理器绑定
- 使用 blaunch 运行并行作业
- blaunch 分布式应用框架
- SGI 供应商 MPI 支持
- 使用任务几何图形运行作业
- 对并行任务实施资源使用限制
- 通过 IBM 并行环境运行时版本运行 MPI 工作负载
- 为 LSF 启用 IBM PE 运行时版本
- 网络感知调度
- 通过 LSF 提交 IBM 并行环境作业
- 通过 LSF 管理 IBM 并行环境作业
- 提前预订
- 提前预订的类型
- 开启预约功能
- 允许用户创建提前预订
- 使用提前预约
- 添加预订
- 更改预订
- 取消预订
- 查看预订
- 提交和修改使用预订的作业
- 查看与提前预约相关的作业
- 提前预订行为和操作
- 公平共享调度
- 理解公平共享调度
- 并行公平共享
- 配置并行公平共享
- 用户共享分配
- 动态用户优先级
- 使用时间衰减和已提交运行时间
- 历史运行时间衰减
- 配置历史运行时间
- mbatchd 重新配置和重新启动如何影响历史运行时
- 运行时间衰减
- 配置运行时衰减
- 已提交运行时权重因子
- 配置已提交运行时
- 历史运行时间衰减
- 公平共享如何影响作业调度顺序
- 基于用户的主机分区公平共享
- 配置主机分区公平共享调度
- 基于用户的队列级公平共享
- 配置队列级公平共享
- 基于用户的跨队列公平共享
- 配置跨队列公平共享
- 控制跨队列公平共享中的作业调度顺序
- 基于用户的公平共享
- 配置分级公平共享
- 配置共享树
- 基于队列的公平共享
- 每个队列的槽位分配
- 配置每个队列的槽位分配
- 典型槽位分配场景
- 受多个公平共享策略影响的用户
- 提交作业并指定用户组
- 公平共享的配置方法
- 主机分区公平共享
- 配置主机分区公平共享
- 回退公平共享
- 配置回退公平共享
- 平等分享
- 配置平等共享
- 优先级用户和静态优先级公平共享
- 配置优先级用户公平共享
- 配置静态优先级公平共享
- GPU 运行时公平共享
- 配置 GPU 运行时间
- 主机分区公平共享
- 可调整规模的作业和公平共享
- 基于公平共享的作业计数
- 作业检查点 (checkpoint) 和重新启动
- 关于任务检查点和重启
- 配置启用作业检查点并重新启动
- 作业检查点和重启行为
- 配置修改作业检查点和重新启动
- 作业检查点和重启命令
- 可检查点 (checkpointable) 和可重新运行 (rerunnable) 的作业迁移
- 作业迁移行为
- 启用作业迁移的配置
- 修改作业迁移的配置
- 作业迁移命令
- 可调规模的作业
- 可调规模作业的行为
- 配置允许可调整规模的作业
- 可调规模作业的命令
- 可调规模作业的管理
- 提交一个可调整规模的作业
- 检查挂起的调整规模的请求
- 取消活跃的挂起请求
- 手动地指定调整通知命令
- 调整规模的脚本
- 可调整的作业如何与其他 LSF 特性一起运作
LSF 的安全性¶
- 安全性考虑
- 守护进程和命令之间的通信
- 用于远程执行的 IBM Spectrum LSF 命令的传输
- 访问属于其他用户的作业
- 访问远程主机
- 错误请求
- 认证
- 保护你的 LSF 集群
- 守护进程和命令之间的安全通信
- 加密传输 LSF 命令,方便远程执行和登录
- 限制用户访问远程主机
- 保护你的集群不受错误请求的影响
- 自定义外部认证
- 启用 LSF 守护进程的外部认证
- 保护集群不允许在伪终端中,用 root 访问批量交互作业
- 限制用户对管理命令和日志文件的访问
- 作业信息访问控制
- 设置作业信息访问控制
- 保护 lsf.conf 文件,防止用户更改作业用户
- 临时启用 root 权限
- 查看集群安全设置
高级配置¶
- 错误和事件日志
- 系统目录和日志文件
- 关于 LSF 日志文件
- 日志的级别和描述
- 管理错误日志
- 设置日志文件的所有者
- 查看文件描述符剩余个数
- 定位错误日志
- 系统事件日志
- 事件日志的重复记录
- 配置重复日志
- 设置守护进程消息日志为调试级别
- 设置守护进程定时级别
- LSF 作业终止原因日志记录
- 查看日志作业退出信息 (bacct -l)
- 查看最近的作业退出信息 (bjobs -l)
- 终止原因
- LSF 作业退出码
- 系统目录和日志文件
- 事件生成
- 事件生成
- 为自定义程序启用事件生成
- 事件列表
- 传递给 LSF 事件程序的参数
- 事件生成
- 自定义批量命令消息
- LIM 如何确定主机型号和类型
- 自动检测操作系统类型和版本
- 添加自定义主机类型或型号
- 自动检测硬件重构
- 设置外部静态 LIM
- 共享文件访问
- Windows 的共享文件
- 在非共享文件系统中使用 LSF
- 共享配置文件内容
- 认证与授权
- 修改认证方式
- 认证选项
- 操作系统授权
- LSF 授权
- 授权失败
- 外部认证
- 使用 LSF (eauth) 进行外部认证
- 配置启用外部认证
- 外部认证行为
- 修改外部认证的配置
- 外部认证命令
- Kerberos 身份验证
- Kerberos 认证与 LSF
- 配置启用 Kerberos 身份验证
- 配置修改 Kerberos 身份验证
- Kerberos 认证命令s
- 处理作业异常
- 邮件发送作业异常详细信息
- 默认的 eadmin 操作
- 处理作业的初始化失败
- 处理主机级作业异常
- 处理队列中的作业异常
- 了解成功的应用程序退出值
- 指定成功的应用程序退出值
- 调优 CPU 因子
- 查看标准化评级
- 调优 CPU 因子
- 为已完成的任务设置清理周期
- 启用基于主机的资源
- 便携式硬件位置
- 定义 GPU 资源
- 定义 Intel Xeon Phi 资源
- 全局公平共享调度
- 全局公平共享背景
- 远程公平共享加载
- 全局公平共享策略的同步模式
- 全局公平共享设置和配置
- 全局策略守护进程
- 全局公平共享策略
- 全局公平共动态用户优先级
- 共享负载同步规则
- 配置队列级基于用户的全局公平共享
- 配置跨队列基于用户的全局公平共享
- 全局公平共享调度约束
- 在 EGO 上管理 LSF
- 关于 LSF 的 EGO
- LSF 和 EGO 目录结构
- 配置 LSF 和 EGO
- LSF 和 EGO 对应的参数
- LSF 10 中发生变化的参数
- LSF 管理主机专用资源组
- 通过 EGO 管理 LSF 守护进程
- 在启动时绕过 EGO 登录 (lsf.sudoers)
- 设置命令行环境
- LSF 在 EGO 的特性
- 在 EGO-enabled SLA 调度上支持的 LSF 特性
- 需要修改才能与 EGO-enabled SLA 调度一同工作的 LSF 特性
- 在 EGO-enabled SLA 调度上不支持的 LSF 特性
- 日志和故障排查
- EGO 日志问价
- 使用多个 EGO 日志文件来故障排查
- 常见问题
- 负载共享 X 应用程序
- 启动一个 xterm
- 在 PC 上的 xterm
- 设置 Exceed 登录负载最小的主机
- 在 Exceed 中开启一个 xterm
- 示例
- 使用 LSF 与 Etnus TotalView Debugger
- IBM Spectrum LSF 如何使用 TotalView
- 运行TotalView 调试作业
- 在 TotalView 中控制和监视正在调试的作业
- 向 LSF 服务器注册 LSF 主机名和 IP 地址
性能调优¶
- 调优你的集群
- LIM 调优
- 负载阈值
- 比较 LIM 负载阈值
- LIM 报告主机繁忙
- 互动作业
- 多处理器系统
- LSF 如何使用 LSF_MASTER_LIST
- 使用 DNS 主机缓存提升集群启动性能
- 负载阈值
- 优化 mbatchd 重启后的响应时间
- 优化 mbatchd 查询性能
- 配置 mbatchd 使用多线程
- 多线程批量查询
- 为 mbatchd 设置专用查询端口
- 指定子 mbatchd 的过期时间
- 配置 mbatchd 将新的作业信息推送到子 mbatchd
- 指定硬性的 CPU 亲和性
- 配置 mbatchd 使用多线程
- 记录 mbatchd 性能指标
- 记录 mbatchd 和 mbatchd 分析信息
- 提高 mbatchd 对作业阵列切换事件的性能
- 增加队列响应能力
- 自动绑定 LSF 守护进程到指定的 CPU 核
- 使用 LSF Explorer 提升 bacct 和 bhist 命令的性能,或者检索额外的数据
- 通过在作业中避免运行 bwait 来提高槽位利用率
- LIM 调优
- 实现性能和可扩展性
- 优化大站点的性能
- 为大型集群优化 UNIX
- 增加文件描述符限制
- 调整大型集群的 LSF
- 管理调度性能
- 启用快速调度
- 启用连续调度
- 使用调度器的线程,来评估资源需求匹配
- 限制作业依赖评估
- 限制批量查询的数量
- 提高主机状态更新速度
- 限制用户在队列中移动作业的能力
- 管理排队原因的数量
- 实现高效的事件切换
- 自动加载更新
- 管理 info 目录的 I/O 性能
- 作业 ID 限制
- 管理调度性能
能源感知调度¶
- 管理主机电源状态
- 配置主机电源状态管理
- lbs.params 中的电源参数
- lbs.resources 中的 PowerPolicy 部分
- 控制和监控主机电源状态管理
- 省电模式的有效主机状态
- 关闭电源操作功能
- 变更 lsf.shared/lsf.cluster
- 与提前预留集成
- 与供应系统集成
- 配置主机电源状态管理
- CPU 频率管理
- 配置 CPU 频率管理
- 指定作业的 CPU 频率管理
- 作业能耗报告
- 作业总结邮件中的资源使用情况
- 自动选择 CPU 频率
- 前提条件
- 配置 MySQL 数据库
- 配置 CPU 自动选频
- 安装和配置基准测试程序
- 检查计算节点性能
- 计算系数数据
- 创建能源策略标签
- 能源策略标签格式
- 生成一个能源策略标签
- 开启 CPU 自动选频功能
- 前提条件
LSF 的多集群能力¶
- LSF 多集群能力概述
- IBM Spectrum LSF 多集群能力的好处
- 两种平台多集群模型
- 设置 LSF 多集群能力
- 设置概述
- 系统需求
- 安装和配置过程
- 安装平台多集群
- 设置公共端口
- 非统一的命名空间
- 用户级帐户映射
- 远程集群感知受限
- 添加或修改 RemoteClusters 列表
- 守护进程通信安全
- 集群间认证
- 多集群作业的资源使用情况更新
- 作业资源分配的全局限制
- 配置全局限制
- 查看全局限制
- 多集群信息缓存
- 设置概述
- 作业转发模式
- 作业转发模式概述
- 作业转发模式下的任务调度
- 作业转发模式下的队列调度参数
- 跨集群提前预订
- 作业转发模式下的特殊考虑
- 作业迁移
- 检查 (Checkpoint) MultiCluster 作业
- 绝对优先级调度
- 严格的资源要求选择字符串语法
- 计算单元需求字符串
- 多集群队列
- 启用多集群队列
- 仅支持远程的队列
- 配置仅支持远程的队列
- 请求指定的集群
- 远程集群等效性
- 远程资源
- 远程队列工作负载作业转发调度器
- 启用队列优先级
- 配置队列优先级
- 启用作业槽位限制
- 配置排队作业的槽位限制
- 启用队列优先级
- 执行前重试阈值
- 重试阈值并暂停通知
- 排队多集群作业的限制
- 更新多集群作业的排队原因
- 配置排队原因更新间隔
- 配置排队原因更新包大小
- 远程超时限制
- 启用多集群作业转发模式下的作业优先级
- 指定作业优先级 (bsub -sp)
- 配置最大作业优先级
- 加强公平分配计算,来包括作业转发模式
- 资源租赁模式
- 租赁模式概述
- 采用租赁模式
- 资源租赁模式下的特殊考虑
- 资源导出
- 创建导出策略
- 导出工作站
- 自动选择主机的分配策略
- 导出特殊主机
- 命名主机的分发策略
- 导出其他资源
- 导出共享资源
- 共享租赁
- 开启共享租赁功能
- 借用资源
- 并行作业和租赁模式