目录¶
在 Windows 上使用 LSF¶
- 测试你的 LSF 安装
- LSF 默认用户映射
- 环境
- 使用 Windows 性能监视器绘制资源图表
- LSF 主机动态 IP 寻址
- 使用微软终端服务在 LSF 中显示 GUI
- 混合集群中安装 LSF
LSF License Scheduler¶
介绍¶
- 概述
- LSF License Scheduler 版本之间的差异
- 词汇表
- 架构
安装和启动许可证调度程序¶
- 安装许可证调度程序
- 安装前
- License Scheduler 的设置脚本做些什么
- 安装许可证调度程序与 LSF (UNIX)
- 在 Windows 上安装许可证调度程序
- 安装许可证调度程序与 LSF (Windows)
- 排查故障
- 配置 LSF License Scheduler 基本版
- 启动License Scheduler
- License Scheduler 中的 LSF 参数
- 关于提交作业
- 配置变更后
- 添加集群到 License Scheduler
- 配置多个管理员
- 升级许可证调度程序
- 防火墙
LSF License Scheduler 概念¶
- License Scheduler 模式
- 项目组
- License Scheduler 中的服务域
- 分发策略
- 项目模式抢占
- 抢占限制
- LSF 抢占与 License Scheduler 抢占
- FlexNet 和 Reprise License Manager 的 License 使用
- 已知许可证要求
- 未知的许可证要求
- 项目模式
- 集群模式
- 保留 FlexNet Manager 许可证
配置 License Scheduler¶
- 配置集群模式
- 配置有保证的集群模式
- 项目的项目模式
- 项目组的项目模式
- 项目模式可选设置
- 主动所有权
- 默认项目
- 项目组
- 配置组 license 的所有权
- 互动 (taskman) 作业
- 集群和交互分配
- 特性组
- 查看 license 特征组信息
- License 特性的位置
- 提交使用本地的作业
- 本地如何与其他设置一起工作
- 分层的项目组路径
- 需求限制
- 配置 lmremove 或 rlmremove 抢占
- 重启执行配置更改
- 快速调度项目模式
- 配置 lmremove 或 rlmremove 抢占
- 自动时间配置
- 故障转移
- LANs 的故障切换配置
- WANs 的故障切换配置
- 在 WAN 中配置并启动 License Scheduler
- WAN 示例
- 主机和网络级别的服务发放
- 设置 fod
- 用户认证
查看信息和排查故障¶
- 关于查看可用 license
- 查看传递给作业的 license server 和 license feature 信息
- 自定义动态 license 信息输出
- 关于错误日志
- 管理日志文件
- 临时修改日志级别
- 故障排除
- 文件位置
- 检查 blcollect 是否支持 lmstat
- 除非定义了 LSF 许可调度程序 elim,否则不删除 lsb.tokens
Ref参考erence¶
- lsf.licensescheduler
- bladmin
- blcollect
- blcstat
- blhosts
- blinfo
- blkill
- blparams
- blstat
- bltasks
- blusers
- fod.conf
- fodadmin
- fodapps
- fodhosts
- fodid
- taskman
LSF Data Manager¶
关于 IBM Spectrum LSF Data Manager¶
- 概念和术语
- LSF 数据管理器如何工作
- 单集群实现
- LSF 多集群能力实现
计划并安装 IBM Spectrum LSF Data Manager¶
- 计划安装
- 安装 LSF Data Manager
- 安装 LSF
- 安装 LSF Data Manager
- 配置 LSF data manager 参数
- 安装验证
使用 LSF Data Manager¶
- 提交和管理有数据需求的作业
- 指定任务的数据需求
- 创建数据规格文件
- 分段数据
- Staging data in
- Staging data out
- 数据需求工作流的数据标签
- 数据标签的指定规则
- 创建和使用数据标签
- 数据标签示例
- 监控数据标签
- 清理数据标签
- 修改数据作业
- 传输数据需求文件
- 环境变量
- 指定用户组
- 允许其他用户访问您的文件
- 查询有数据需求的作业
- 查询数据缓存
- 示例数据需求查询
- 查询数据标签
- 查询数据作业
- 查看数据作业的历史信息
- 查询数据缓存
管理 LSF Data Manager¶
- 管理 dmd
- 显示 LSF 数据管理器配置
- 重新配置 LSF 数据管理器
- 关闭 LSF 数据管理器
- 配置故障切换
- 管理暂存区(缓存)
- 配置数据暂存区
- 分段区域文件结构
- 远程文件访问
- 允许用户控制对其文件的访问
- 管理数据传输
- 数据传输任务
- 监控数据传输任务
- 传输队列概述
- 配置数据传输队列
- 管理数据传输队列
- 管理数据传输节点
- 处理数据传输任务失败的故障排查
- 数据传输任务的脚本接口
- 配置 IBM Aspera 作为数据传输工具
- 使用 bsub -f 启用数据需求文件传输
- esub.datamanager 脚本
- lsrcp.wrapper.datamanager 脚本
- 数据传输任务
- 数据规范文件
- 数据规范文件格式
- 配置 LSF Data Manager 使用 LSF 多集群能力
- 在 LSF 数据管理器中建立 IBM Spectrum LSF 多集群能力作业转发
- 显示 LSF 数据管理器连接
- 对有数据需求的远程作业选择集群
- 跨多个集群的中间数据标签
- 查询远程 LSF 数据管理器信息
- 优化本地 stage in
- 多个集群的单一数据管理器
命令参考¶
- bsub
- 选项
- -data
- -datagrp
- -stage
- 选项
- bdata
- 概述
- 子命令
- cache
- chgrp
- chmod
- tags
- showconf
- connections
- admin
- 帮助和版本显示
- 另请参阅
- bjobs
- 选项
- -data
- 选项
- bstage
- bstage in
- bstage out
- 帮助和版本显示
- 另请参阅
配置参考¶
- lsb.queues
- DATA_TRANSFER
- lsf.conf
- LSB_TIME_DMD
- LSF_DATA_HOSTS
- LSF_DATA_PORT
- LSF_DATA_SKIP_GROUP_CHECK
- LSF_STAGE_IN_EXEC
- LSB_STAGE_OUT_EXEC
- LSB_STAGE_STORAGE
- LSB_STAGE_TRANSFER_RATE
- lsf.datamanager
- lsf.datamanager Parameters section
- RemoteDataManagers section
LSF resource connnector¶
LSF resource connector 概述¶
配置 resource providers¶
- 设置初始配置
- 配置多个资源提供程序
- 配置不同的模板创建实例
- 为模板分配独占资源
- 配置 IBM Spectrum Conductor with Spark 与 LSF 资源连接器
- 管理资源共享和分配
- 在计算主机上安装 LSF
- 为使用 Spark 的 IBM Spectrum Conductor 配置资源连接器
- 向 EGO 提交工作
- LSF 如何将主机返回给 EGO
- 配置 IBM Bluemix 与 LSF 资源连接器
- 配置 IBM Bluemix 的 LSF 资源连接器
- 向 IBM Bluemix 提交作业
- 配置 OpenStack 与 LSF 资源连接器
- 配置 OpenStack 的 DNS 服务器
- 为 OpenStack 配置资源连接器
- 向 OpenStack 提交作业
- LSF 如何将主机返回给 OpenStack
- 配置 Microsoft Azure 与 LSF 资源连接器
- 配置 Microsoft Azure 的 LSF 资源连接器
- 更新 Microsoft Azure 的 LSF 配置
- 向 Microsoft Azure 提交作业
- 添加多个 Azure providers
- 配置 Microsoft Azure CycleCloud 与 LSF 资源连接器
- 配置 Microsoft Azure CycleCloud 的 LSF 资源连接器
- 更新 Microsoft Azure CycleCloud 的 LSF 配置
- 向 Microsoft Azure CycleCloud 提交作业
- 配置 Google Cloud Platform 与 LSF resource connector
- 配置 Google Cloud Platform 的 LSF 资源连接器
- 向 Google Cloud Platform 提交作业
- 配置 Amazon Web Services 与 LSF resource connector
- 准备配置 AWS
- 构建云映像
- 准备 Amazon Web Services 组件
- 启动 Amazon Web Services EC2 实例
- 在 AWS EC2 实例上安装 LSF 服务器主机
- 启用 Amazon Web Services (AWS) 的 LSF 资源连接器
- aws_enable.sh 脚本
- 选择账号鉴权方式
- 为 LSF 执行 AWS 启用脚本
- 完成对 AWS 资源连接器的启用
- 配置用户脚本注册 AWS 主机
- 配置 Bursting 行为
- 配置阈值
- 提供具体的策略配置
- 控制回收行为
- 为模板分配独占资源
- 使用 federated accounts 配置 AWS 访问
- 配置 AWS 启动模板
- 附加 EFA 网络接口
- 使用 AWS 现场实例
- 配置 AWS Spot 实例
- 向 AWS 提交作业
- LSF 如何将主机返回给 AWS
- 配置 OpenShift 与 LSF 资源连接器
- 启用 OpenShift 的 LSF 资源连接器
- 向 OpenShift 提交作业
- 配置 IBM Cloud Gen 2 与 LSF 资源连接器
- 为 LSF 资源连接器准备 IBM Cloud Gen 2
- 配置 IBM Cloud Gen 2 的 LSF 资源连接器
- 向 IBM Cloud Gen 2 提交作业
更新资源连接器的 LSF 配置¶
- 预置和后预置
- 定义资源发放策略
- 使用 LSF 补丁安装程序更新资源连接器
查看关于 LSF 资源连接器的信息¶
- 检查 LSF 资源连接器状态
- 使用 badmin 查看 LSF 资源连接器信息
- 日志和故障排查
配置参考¶
- lsb.applications
- RC_ACCOUNT
- RC_RECLAIM_ACTION
- lsb.queues
- RC_ACCOUNT
- RC_DEMAND_POLICY
- RC_HOSTS
- lsf.conf
- LSB_RC_DEFAULT_HOST_TYPE
- LSB_RC_EXTERNAL_HOST_FLAG
- LSB_RC_EXTERNAL_HOST_IDLE_TIME
- LSB_RC_EXTERNAL_HOST_MAX_TTL
- LSB_RC_MQTT_ERROR_LIMIT
- LSF_MQ_BROKER_HOSTS
- LSB_RC_QUERY_INTERVAL
- LSB_RC_REQUEUE_BUFFER
- LSB_RC_TEMPLATE_REQUEST_DELAY
- LSB_RC_UPDATE_INTERVAL
- MQTT_BROKER_HOST
- MQTT_BROKER_PORT
- EBROKERD_HOST_CLEAN_DELAY
- egoprov_config.json
- egoprov_ego.conf
- egoprov_templates.json
- hostProviders.json
- osprov_config.json
- osprov_templates.json
- policy_config.json
- awsprov_config.json
- awsprov_templates.json
- azureprov_config.json
- azureprov_templates.json
- cyclecloudprov_config.json
- cyclecloudprov_templates.json
- softlayerprov_config.json
- softlayer_templates.json
- googleprov_config.json
- googleprov_templates.json
- openshiftprov_config.json
- openshiftprov_templates.json
- ibmcloudgen2_config.json
- ibmcloudgen2_templates.json
LSF Connector 与 Kubernetes¶
概述¶
局限¶
安装¶
配置¶
验证¶
部署作业¶
提交作业¶
- 示例: 提交 sleep 作业