王帅俭

18614236639 | a978685835@163.com | 男 | 12年经验 | 1990.10

核心优势

技术栈全面：8年Golang / 3年C++ / 3年Linux开发经验，深耕云计算（Kubernetes、GPU虚拟化）、大模型训练优化（Megatron、MoE）、高性能调度（Binpack、拓扑亲和）。
工程能力强：主导多个公司级AI平台架构设计（百度AI平台、Shopee MLP调度），解决GPU利用率、容错、混布等核心问题。
算法落地经验：实现DP Overlap、Memory-Cost Model等优化策略，提升大模型训练MFU（Model FLOPs Utilization）。
工作经历

马上消费金融股份有限公司 `2025.06 – 至今`

资深架构师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： 大模型预训练 — 训练框架、算法创新与性能优化

B200性能基准测试：完成B200 GPU在Dense与MoE模型下的训练性能基准测试，产出MFU/吞吐/显存占用对比数据，为硬件选型与集群容量规划提供决策依据。
预训练算法创新 Multi-LM-Head：主导Multi-LM-Head预训练方案端到端落地，打通模型改造与训练、loss曲线分析、评测等流程，验证新结构在预训练阶段的效果与收益。
Megatron训练疑难问题排查：定位并修复Megatron dataset使用中的爆内存问题；深入分析validation loss反常低于training loss的根因，保障训练指标的可解释性与可信度。
训练Step-样本关联能力建设：在Megatron中实现训练step与数据样本的精确映射，loss spike发生时可快速回溯定位异常样本，大幅提升数据质量排查与训练稳定性分析的效率。

虾皮（Shopee） `2023.12 – 2025.05`

研发工程师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： AI基础架构 — 调度与训练优化

GPU调度系统：设计单GPU Pod Group Binpack算法，降低资源碎片率30%；实现NCCL拓扑亲和调度；实现共享GPU调度并指定GPU卡，提升GPU利用率10%。
稳定性提升：开发Torch作业容错框架，结合NCCL日志分析工具，故障排查效率提升50%。
新技术调研：调研MoE（混合专家模型）在分布式训练中的落地可行性分析。

百度 `2021.04 – 2023.12`

Golang 研发工程师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： AI平台建设（孔明）,GPU虚拟化，大模型训练

大模型性能优化：迁移ChatGLM-6B至Megatron框架，重构RoPE；通过DP Overlap技术提升MFU。
GPU虚拟化：主导CGPU算力/显存隔离方案，实现故障隔离与透明迁移，利用率提升35%。
调度系统：设计共享GPU调度方案（Volcano集成），支持超发抢占与混布，集群资源利用率达65%。

猿辅导 `2020.10 – 2021.03`

Golang 研发工程师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： 负责基础架构Kubernetes平台建设。

北京京东（T6） `2018.01 – 2020.10`

Golang 研发工程师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： 前期参与Baas平台建设，围绕Kubernetes结合区块链业务构建区块链底层平台，负责指导、处理、协调和解决团队云计算方面的技术问题；后期负责商城Paas平台虚拟网络建设。

北京东方国信科技股份有限公司 `2016.07 – 2017.12`

Golang 研发工程师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： 参与Paas平台建设，围绕Kubernetes结合自身业务做增强功能，负责指导、处理、协调和解决公司云计算项目中出现的技术问题。

山东金码信息技术有限公司北京分公司 `2013.07 – 2016.06`

软件研发工程师 | 计算机软件 | 民营 | 规模：1000-9999 人
工作描述： 根据需求编写代码，并参与软件开发的全过程，包括需求分析、环境部署、软件开发、系统上线和一些维护工作。

项目经历

大模型预训练（马上消费金融） `2025.06 – 至今`

项目背景： 公司引入B200新硬件并启动大模型预训练建设，需完成新硬件性能评估、探索模型结构创新方向，同时保障训练框架在规模化场景下的稳定性与可观测性。
责任描述： 负责新硬件性能评估与大模型预训练创新方案端到端落地，覆盖数据、训练、评测、问题排查全链路。

B200 性能基准测试

基于Megatron在B200上搭建完整评测环境，基于Qwen3-8B和qwen3-30B跑通Dense与MoE两类模型
系统性设计测试矩阵，发现B200 dense性能符合预期，但是moe MFU上不去，经过一些调整能达到20%
产出MFU、吞吐（tokens/s）等核心指标，与H100对比形成横向数据报告，为公司后续硬件选型、集群容量规划与成本测算提供决策支撑。
预训练算法创新：Multi-LM-Head
完成Multi-LM-Head预训练方案从0到1落地：主要包括模型结构改造、跑loss曲线，评测等过程。
在Megatron框架内实现多LM Head结构，尝试利用kl学习最后一层lm-head, 利用余弦相似度学习最后一层hidden-state，添加线性层等多种方式、编写算子优化lm-head显存占用提升训练性能。
对比baseline细粒度分析loss曲线（train/val loss、各head loss分解）与下游评测指标，验证新结构在预训练阶段的效果与收益，为后续策略选型提供实验依据。

Megatron 训练疑难问题排查

定位并修复Megatron dataset使用中的爆内存问题：通过内存profile定位到一个数据集文件对一个mask,数据集文件太多的话，内存线性增长，优化后消除训练启动阶段的内存瓶颈。
深入分析validation loss反常低于training loss的根因，排查到数据采样与验证集构造等环节的差异，给出修复方案，保障训练指标的可解释性与可信度。
在Megatron中实现训练step与数据样本的精确映射，覆盖多DP rank下的索引记录，保证分布式训练下的可追溯性，loss spike发生时，支持从异常step快速回溯到触发该spike的具体样本。

AI基础架构 — 调度与训练优化（虾皮） `2023.12 – 2025.05`

项目背景： 公司AI训练规模快速扩张，GPU资源紧张，作业稳定性与集群利用率面临持续压力，需在调度层与训练框架层系统性优化。
责任描述： 负责GPU调度与训练框架相关工作，提升集群利用率、作业稳定性，并推进新技术方向调研落地。

核心调度功能

实现单GPU Pod Group Binpack调度算法，从卡、拓扑多维度优化资源分配策略，有效降低资源碎片率30%，主要是将作业分成多个组，一个组放到一个节点上，可以理解为为了适配TP, 要把完整的一个组放到一节点上，这样可以提高训练性能；同时兼容单机多卡、多机多卡等多种训练场景。
实现拓扑亲和调度：分配卡时优先选择距离较近的组合（同轨GPU, 交换机，NVLink/PCIe亲和），减少跨NUMA、跨PCIe switch的通信开销，提升通信密集型作业的训练效率。
实现共享GPU调度并支持指定GPU卡，为不同资源粒度的作业提供统一调度入口，GPU利用率提升10%。

稳定性建设

开发Torch作业容错框架：修改torch框架，因为容错etcd跟k8s不适配，掉卡之类的只是会在内容重启，不会让Pod感知到，因此只要出现错误就要结束管理进程，退出Pod，然后控制器再拉起新的Pod;捕获节点/卡级别故障并自动恢复训练，减少人工介入；结合NCCL日志分析工具，故障排查效率提升50%。
外围增加系统故障检查排查能力（节点健康、网络、NCCL异常等），与容错机制联动形成闭环。
在NCCL侧增加关键路径日志，构建集群拓扑信息可视化，直观看到GPU、网卡最终选择路径，快速判断是否影响性能。

利用率提升与新技术调研

解决新机型拓扑带来的性能问题，通过挂载NCCL拓扑以及指定卡号等手段进一步压榨硬件收益。
调研MoE（混合专家模型）在分布式训练中的落地可行性，包括通信模式、负载均衡、Expert Parallel方案等，输出调研结论与可行性分析。
调研强化学习训练在分布式环境下的工程挑战，为后续技术选型提供参考。

大模型项目（百度） `2023.05 – 2023.12`

项目背景： 团队需在Megatron框架上跑通ChatGLM系列模型并做深度性能调优，沉淀大模型训练性能优化方法论。
责任描述： 负责模型迁移与训练性能优化，提升MFU。

迁移ChatGLM-6B到Megatron框架：适配模型结构差异（RoPE位置编码、LayerNorm实现、attention mask等），逐层对齐tensor精度，确保迁移后训练行为与原实现一致。
调研activation checkpointing重计算方案，优化Megatron中重计算现有逻辑，减少无效重计算开销。
构造Memory-Cost Model：通过模拟数据推算不同并行切分方式（TP/PP/DP组合）下的显存占用与通信开销，辅助选择最优并行策略，避免线上试错成本。
在Megatron上实现DP Overlap（梯度allreduce与反向计算重叠），使用nsys分析通信/计算时间线验证优化效果，MFU显著提升。
日常跑各种模型规模及相关特性（FlashAttention、重计算、并行策略等）对应的MFU，形成完整的性能基线数据库。

GPU虚拟化（百度） `2022.10 – 2023.04`

项目背景： 公司AI训练作业对GPU资源需求多样化（推理/训练/开发），整卡粒度分配浪费严重，需要细粒度切分与资源隔离能力。
责任描述： 负责CGPU（算力/显存隔离）研发、GPU池化研发、作业迁移功能。

CGPU 算力/显存隔离

维护CGPU核心功能，持续优化算力和显存的隔离精度与用户体验。
保障故障隔离能力：单个作业异常不影响同卡其他作业；减少高低优先级作业避让带来的抖动问题。

GPU整体利用率提升35%。

透明容错 / 作业迁移

设计并实现透明容错方案：通过训练框架与底层运行时协同，故障节点上的作业可无感迁移到健康节点，用户侧感知最小化。

GPU 池化

负责GPU池化项目，自底向上打通多租户和算力应用，构建资源池抽象层。
实现公有云场景下GPU的任意切分使用，按需分配算力与显存，支持弹性伸缩与跨机使用。

AI平台（孔明）（百度） `2022.01 – 2022.10`

项目背景： 孔明AI平台需进一步提升GPU利用率，支持在离线混布、VPA等调度新特性，应对业务多样化资源需求。
责任描述： 负责离线调度团队，主导离线训练VPA、修复共享GPU调度方案，以及增加在离线混布、支持编解码等调度功能。

修复共享GPU调度方案：由于kubelet没有把Pod信息传递到device plugin，现有共享方案可能出现重复分配卡的情况；通过在runtime层修改修正分配卡信息，根治重复分配问题，保障共享GPU调度正确性。
离线训练VPA：为了进一步提升GPU利用率，通过利用率动态将GPU使用资源缩减到1/2，可混布其他作业进一步提升GPU利用率（当时K8s社区也在支持该功能，实现还不稳定，未全量上线，但为后续VPA方向积累了工程经验）。
在离线混布与编解码调度：开发多种调度策略，在离线混布采用卡粒度亲和性减少资源争抢；编解码场景增加两种资源类型，支持更细粒度的异构资源调度。

AI平台（孔明）调度（百度） `2021.04 – 2021.12`

项目背景： 为了提升GPU利用率、提高作业运行质量，需在调度层面补齐容错弹性、超发抢占、共享GPU调度等核心能力。
责任描述： 设计并实现离线训练容错弹性、超发抢占及共享GPU调度方案，并推全上线。

支持容错弹性训练：调度侧实现EDL（Elastic Deep Learning）训练，自定义作业对象（CRD），在控制器实现作业Pod的扩缩，维护完整状态机，训练过程中可根据资源状况和故障情况动态调整参与训练的节点数。
支持共享GPU调度方案：由于升级问题，从魔改原生调度器改为使用Volcano调度器，并在Volcano中实现共享GPU调度方案，打通整卡、NVIDIA原生资源表达等多种GPU资源形式的统一调度。
支持作业超发功能：超发作业采用资源借用模式，不从队列中扣减资源；同时超发作业优先级最低，队列资源不足时通过抢占驱逐超发作业，在保障正常作业SLA的同时最大化利用空闲资源，集群资源利用率达65%。

K8s平台建设（猿辅导） `2020.10 – 2021.03`

项目背景： 公司基础架构Kubernetes平台处于建设早期，需补齐统一认证、故障自愈等周边能力，保障平台稳定性。
责任描述： 规划网络方案，对接其他组件，完善平台可用性。

对接idaas统一认证系统：以client-go-credential-plugin方式实现authn/authz服务，让K8s用户无感接入公司统一认证体系。
利用NPD（Node Problem Detector）构建故障处理系统，主要针对docker / BGP / POD等问题，将事件统一入库并接入告警，形成节点健康闭环。

商城Paas平台建设（京东） `2020.04 – 2020.09`

项目背景： 商城核心业务容器化落地过程中，对Docker稳定性、安全隔离、资源观测等提出更高要求。
责任描述： 定制Docker、调研Kata、构建故障处理系统。

在Docker上做深度定制化工作：升级Docker版本，修复dockerhang等生产问题，定制业务需要的功能参数。
针对大流量高负载下Docker隔离缺陷暴露的问题，对Kata Containers进行调研，评估轻量虚拟化方案的性能与安全收益，并在生产环境落地使用。
采用Webhook等多种方式实现lxcfs跟K8s结合，完成容器内部资源指标（CPU/内存等）的视角隔离，解决容器内看到宿主机资源信息的问题。

商城Paas平台虚拟网络建设（京东） `2019.08 – 2020.03`

开发工具： JetBrains、Golang
项目背景： 基于每年618、双11大促需求，必须保证线上网络服务稳定；同时私有云需要与京东云/腾讯云等公有云打通，支持混合云部署。
责任描述： 接手BGP网络项目，开发新的网络项目。

接手BGP网络项目后梳理整体流程、修补历史遗留漏洞、增加平台化功能，为大促保驾护航。
独立完成私有云平台上京东云项目，调用京东云/腾讯云API接口，实现平台网络组件与公有云VPC/路由的适配，支持混合云网络打通。

Baas平台二期（京东） `2019.04 – 2019.08`

开发工具： JetBrains、Golang
项目背景： Fabric项目只提供二进制工具管理peer，企业用户使用门槛高，平台侧需要抽象出更好用的peer管理能力。
责任描述： 负责Fabric优化及peer管理平台化。

为平台增加节点管理功能，使用户可方便地为该组织下的部门或子组织设置节点，降低Fabric使用门槛。
设计方案：调用Kubernetes接口创建deployment等peer相关资源；利用Informer机制监视deployment资源状态变化；通过事件回调触发数据库状态改写，完整覆盖peer全生命周期管理。

Baas上京东云二期（京东） `2019.03 – 2019.04`

开发工具： JetBrains、Golang
项目背景： 一期仅内部用户试用，二期要公测上线，需补齐订单计费模块与K8s版本升级等关键能力。
责任描述： 完成订单计费、Kubernetes版本升级测试及监控功能；负责订单计费及K8s升级测试。

为公测上线补齐订单计费模块：双写事件分发机制保证后台前端监控等下游服务顺利接入；采用状态机维护订单全生命周期状态，高效集成订单计费模块。
完成京东云K8s团队版本升级测试：覆盖核心API兼容性、工作负载迁移验证，升级后平台更稳定。
联调过程中识别并规避POC阶段未发现的API接口风险（通过手动改数据库临时修复），未影响测试和上线进度。

stellar底层集成（京东） `2019.01 – 2019.02`

开发工具： JetBrains、Golang
责任描述： 负责stellar网络的部署集成与API封装。

编写Helm Chart完成stellar网络的一键启动，解决多节点编排与配置管理问题。
封装stellar API为rtmc模块提供统一接口，支持发行资产、转账等业务操作，屏蔽底层链路细节。

Baas上京东云一期（京东） `2018.10 – 2018.12`

开发工具： JetBrains、Golang
项目简介： Baas支持混合云，利用京东云作为公有云部分融合进公司私有云服务。
责任描述： 上云主要包括账户打通、服务迁移适配（Helm Chart及Kubernetes相关功能适配）、京东云资源及Kubernetes API调用。

主要负责调用API对京东云资源及Kubernetes集群进行统一管理，屏蔽公有云与私有云的差异。

由于安全合规需要，实现验证码功能，增强用户身份校验。

Baas平台存储模块（京东） `2018.06 – 2018.08`

开发工具： JetBrains、Golang
项目背景： Fabric的公用配置文件与区块链数据有共享存储与自动扩容诉求，避免手工同步和存储打满。
责任描述： 带两位同事负责存储模块开发，为区块链服务提供共享存储支持。

将Fabric公用配置文件统一放到共享存储，避免多节点同步之苦。
基于glusterfs及Kubernetes storageclass扩容机制，上层加一层控制层封装存储模块业务语义。
后期发现glusterfs效率较慢，集成rook安装Ceph作为新的后端存储方案，性能显著提升。

Baas平台一期（京东） `2018.01 – 2018.08`

开发工具： JetBrains、Golang、Shell
项目简介： Baas平台主要结合Kubernetes及区块链作为底层平台，为上层业务提供服务。
项目背景： 业界当时并无成熟的区块链底层平台，区块链开发部署繁琐、学习成本高，Fabric跟容器天然亲和，Baas平台可以显著降低研发人员及公司接入区块链服务的门槛。
责任描述： 参与Baas架构设计，向团队普及Kubernetes基本套路及用法；平台搭建起来后，参与一键部署及企业组网开发工作。

后端架构：采用 rancher + Kubernetes + Helm + 应用商店的模式搭建后端服务，快速交付MVP。
前端：仿照rancher页面风格做Baas前端，降低用户学习成本。
DevOps：利用 Jenkins + Helm仓库 + Docker仓库的模式搭建开发/发布环境。
Fabric Helm Chart编写完成后，拆分组网操作步骤，抽象出一键部署与企业组网流程，让业务方分钟级上链。
教育经历

山东科技大学 `2009.09 – 2013.06`

计算机科学与技术 | 本科

王帅俭

核心优势

工作经历

马上消费金融股份有限公司 2025.06 – 至今

虾皮（Shopee） 2023.12 – 2025.05

百度 2021.04 – 2023.12

猿辅导 2020.10 – 2021.03

北京京东（T6） 2018.01 – 2020.10

北京东方国信科技股份有限公司 2016.07 – 2017.12

山东金码信息技术有限公司北京分公司 2013.07 – 2016.06

项目经历

大模型预训练（马上消费金融） 2025.06 – 至今

B200 性能基准测试

Megatron 训练疑难问题排查

AI基础架构 — 调度与训练优化（虾皮） 2023.12 – 2025.05

核心调度功能

稳定性建设

利用率提升与新技术调研

大模型项目（百度） 2023.05 – 2023.12

GPU虚拟化（百度） 2022.10 – 2023.04

CGPU 算力/显存隔离

GPU整体利用率提升35%。

透明容错 / 作业迁移

GPU 池化

AI平台（孔明）（百度） 2022.01 – 2022.10

AI平台（孔明）调度（百度） 2021.04 – 2021.12

K8s平台建设（猿辅导） 2020.10 – 2021.03

商城Paas平台建设（京东） 2020.04 – 2020.09

商城Paas平台虚拟网络建设（京东） 2019.08 – 2020.03

Baas平台二期（京东） 2019.04 – 2019.08

Baas上京东云二期（京东） 2019.03 – 2019.04

stellar底层集成（京东） 2019.01 – 2019.02

Baas上京东云一期（京东） 2018.10 – 2018.12