个人简历


资深研发工程师 | 云计算与大模型架构

王帅俭

18614236639 | a978685835@163.com | 男 | 12年经验 | 1990.10

核心优势

  • 技术栈全面:8年Golang / 3年C++ / 3年Linux开发经验,深耕云计算(Kubernetes、GPU虚拟化)、大模型训练优化(Megatron、MoE)、高性能调度(Binpack、拓扑亲和)。
  • 工程能力强:主导多个公司级AI平台架构设计(百度AI平台、Shopee MLP调度),解决GPU利用率、容错、混布等核心问题。
  • 算法落地经验:实现DP Overlap、Memory-Cost Model等优化策略,提升大模型训练MFU(Model FLOPs Utilization)。

    工作经历

马上消费金融股份有限公司 2025.06 – 至今

资深架构师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: 大模型预训练 — 训练框架、算法创新与性能优化

  • B200性能基准测试:完成B200 GPU在Dense与MoE模型下的训练性能基准测试,产出MFU/吞吐/显存占用对比数据,为硬件选型与集群容量规划提供决策依据。
  • 预训练算法创新 Multi-LM-Head:主导Multi-LM-Head预训练方案端到端落地,打通模型改造与训练、loss曲线分析、评测等流程,验证新结构在预训练阶段的效果与收益。
  • Megatron训练疑难问题排查:定位并修复Megatron dataset使用中的爆内存问题;深入分析validation loss反常低于training loss的根因,保障训练指标的可解释性与可信度。
  • 训练Step-样本关联能力建设:在Megatron中实现训练step与数据样本的精确映射,loss spike发生时可快速回溯定位异常样本,大幅提升数据质量排查与训练稳定性分析的效率。

虾皮(Shopee) 2023.12 – 2025.05

研发工程师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: AI基础架构 — 调度与训练优化

  • GPU调度系统:设计单GPU Pod Group Binpack算法,降低资源碎片率30%;实现NCCL拓扑亲和调度;实现共享GPU调度并指定GPU卡,提升GPU利用率10%。
  • 稳定性提升:开发Torch作业容错框架,结合NCCL日志分析工具,故障排查效率提升50%。
  • 新技术调研:调研MoE(混合专家模型)在分布式训练中的落地可行性分析。

百度 2021.04 – 2023.12

Golang 研发工程师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: AI平台建设(孔明),GPU虚拟化,大模型训练

  • 大模型性能优化:迁移ChatGLM-6B至Megatron框架,重构RoPE;通过DP Overlap技术提升MFU。
  • GPU虚拟化:主导CGPU算力/显存隔离方案,实现故障隔离与透明迁移,利用率提升35%。
  • 调度系统:设计共享GPU调度方案(Volcano集成),支持超发抢占与混布,集群资源利用率达65%。

猿辅导 2020.10 – 2021.03

Golang 研发工程师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: 负责基础架构Kubernetes平台建设。

北京京东(T6) 2018.01 – 2020.10

Golang 研发工程师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: 前期参与Baas平台建设,围绕Kubernetes结合区块链业务构建区块链底层平台,负责指导、处理、协调和解决团队云计算方面的技术问题;后期负责商城Paas平台虚拟网络建设。

北京东方国信科技股份有限公司 2016.07 – 2017.12

Golang 研发工程师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: 参与Paas平台建设,围绕Kubernetes结合自身业务做增强功能,负责指导、处理、协调和解决公司云计算项目中出现的技术问题。

山东金码信息技术有限公司北京分公司 2013.07 – 2016.06

软件研发工程师 | 计算机软件 | 民营 | 规模:1000-9999 人
工作描述: 根据需求编写代码,并参与软件开发的全过程,包括需求分析、环境部署、软件开发、系统上线和一些维护工作。

项目经历

大模型预训练(马上消费金融) 2025.06 – 至今

项目背景: 公司引入B200新硬件并启动大模型预训练建设,需完成新硬件性能评估、探索模型结构创新方向,同时保障训练框架在规模化场景下的稳定性与可观测性。
责任描述: 负责新硬件性能评估与大模型预训练创新方案端到端落地,覆盖数据、训练、评测、问题排查全链路。

B200 性能基准测试

  • 基于Megatron在B200上搭建完整评测环境,基于Qwen3-8B和qwen3-30B跑通Dense与MoE两类模型
  • 系统性设计测试矩阵,发现B200 dense性能符合预期,但是moe MFU上不去,经过一些调整能达到20%
  • 产出MFU、吞吐(tokens/s)等核心指标,与H100对比形成横向数据报告,为公司后续硬件选型、集群容量规划与成本测算提供决策支撑。
  • 预训练算法创新:Multi-LM-Head
  • 完成Multi-LM-Head预训练方案从0到1落地:主要包括模型结构改造、跑loss曲线,评测等过程。
  • 在Megatron框架内实现多LM Head结构,尝试利用kl学习最后一层lm-head, 利用余弦相似度学习最后一层hidden-state,添加线性层等多种方式、编写算子优化lm-head显存占用提升训练性能。
  • 对比baseline细粒度分析loss曲线(train/val loss、各head loss分解)与下游评测指标,验证新结构在预训练阶段的效果与收益,为后续策略选型提供实验依据。

Megatron 训练疑难问题排查

  • 定位并修复Megatron dataset使用中的爆内存问题:通过内存profile定位到一个数据集文件对一个mask,数据集文件太多的话,内存线性增长,优化后消除训练启动阶段的内存瓶颈。
  • 深入分析validation loss反常低于training loss的根因,排查到数据采样与验证集构造等环节的差异,给出修复方案,保障训练指标的可解释性与可信度。
  • 在Megatron中实现训练step与数据样本的精确映射,覆盖多DP rank下的索引记录,保证分布式训练下的可追溯性,loss spike发生时,支持从异常step快速回溯到触发该spike的具体样本。

AI基础架构 — 调度与训练优化(虾皮) 2023.12 – 2025.05

项目背景: 公司AI训练规模快速扩张,GPU资源紧张,作业稳定性与集群利用率面临持续压力,需在调度层与训练框架层系统性优化。
责任描述: 负责GPU调度与训练框架相关工作,提升集群利用率、作业稳定性,并推进新技术方向调研落地。

核心调度功能

  • 实现单GPU Pod Group Binpack调度算法,从卡、拓扑多维度优化资源分配策略,有效降低资源碎片率30%,主要是将作业分成多个组,一个组放到一个节点上,可以理解为为了适配TP, 要把完整的一个组放到一节点上,这样可以提高训练性能;同时兼容单机多卡、多机多卡等多种训练场景。
  • 实现拓扑亲和调度:分配卡时优先选择距离较近的组合(同轨GPU, 交换机,NVLink/PCIe亲和),减少跨NUMA、跨PCIe switch的通信开销,提升通信密集型作业的训练效率。
  • 实现共享GPU调度并支持指定GPU卡,为不同资源粒度的作业提供统一调度入口,GPU利用率提升10%。

稳定性建设

  • 开发Torch作业容错框架:修改torch框架,因为容错etcd跟k8s不适配,掉卡之类的只是会在内容重启,不会让Pod感知到,因此只要出现错误就要结束管理进程,退出Pod,然后控制器再拉起新的Pod;捕获节点/卡级别故障并自动恢复训练,减少人工介入;结合NCCL日志分析工具,故障排查效率提升50%。
  • 外围增加系统故障检查排查能力(节点健康、网络、NCCL异常等),与容错机制联动形成闭环。
  • 在NCCL侧增加关键路径日志,构建集群拓扑信息可视化,直观看到GPU、网卡最终选择路径,快速判断是否影响性能。

利用率提升与新技术调研

  • 解决新机型拓扑带来的性能问题,通过挂载NCCL拓扑以及指定卡号等手段进一步压榨硬件收益。
  • 调研MoE(混合专家模型)在分布式训练中的落地可行性,包括通信模式、负载均衡、Expert Parallel方案等,输出调研结论与可行性分析。
  • 调研强化学习训练在分布式环境下的工程挑战,为后续技术选型提供参考。

大模型项目(百度) 2023.05 – 2023.12

项目背景: 团队需在Megatron框架上跑通ChatGLM系列模型并做深度性能调优,沉淀大模型训练性能优化方法论。
责任描述: 负责模型迁移与训练性能优化,提升MFU。

  • 迁移ChatGLM-6B到Megatron框架:适配模型结构差异(RoPE位置编码、LayerNorm实现、attention mask等),逐层对齐tensor精度,确保迁移后训练行为与原实现一致。
  • 调研activation checkpointing重计算方案,优化Megatron中重计算现有逻辑,减少无效重计算开销。
  • 构造Memory-Cost Model:通过模拟数据推算不同并行切分方式(TP/PP/DP组合)下的显存占用与通信开销,辅助选择最优并行策略,避免线上试错成本。
  • 在Megatron上实现DP Overlap(梯度allreduce与反向计算重叠),使用nsys分析通信/计算时间线验证优化效果,MFU显著提升。
  • 日常跑各种模型规模及相关特性(FlashAttention、重计算、并行策略等)对应的MFU,形成完整的性能基线数据库。

GPU虚拟化(百度) 2022.10 – 2023.04

项目背景: 公司AI训练作业对GPU资源需求多样化(推理/训练/开发),整卡粒度分配浪费严重,需要细粒度切分与资源隔离能力。
责任描述: 负责CGPU(算力/显存隔离)研发、GPU池化研发、作业迁移功能。

CGPU 算力/显存隔离

  • 维护CGPU核心功能,持续优化算力和显存的隔离精度与用户体验。
  • 保障故障隔离能力:单个作业异常不影响同卡其他作业;减少高低优先级作业避让带来的抖动问题。

GPU整体利用率提升35%。

透明容错 / 作业迁移

  • 设计并实现透明容错方案:通过训练框架与底层运行时协同,故障节点上的作业可无感迁移到健康节点,用户侧感知最小化。

GPU 池化

  • 负责GPU池化项目,自底向上打通多租户和算力应用,构建资源池抽象层。
  • 实现公有云场景下GPU的任意切分使用,按需分配算力与显存,支持弹性伸缩与跨机使用。

AI平台(孔明)(百度) 2022.01 – 2022.10

项目背景: 孔明AI平台需进一步提升GPU利用率,支持在离线混布、VPA等调度新特性,应对业务多样化资源需求。
责任描述: 负责离线调度团队,主导离线训练VPA、修复共享GPU调度方案,以及增加在离线混布、支持编解码等调度功能。

  • 修复共享GPU调度方案:由于kubelet没有把Pod信息传递到device plugin,现有共享方案可能出现重复分配卡的情况;通过在runtime层修改修正分配卡信息,根治重复分配问题,保障共享GPU调度正确性。
  • 离线训练VPA:为了进一步提升GPU利用率,通过利用率动态将GPU使用资源缩减到1/2,可混布其他作业进一步提升GPU利用率(当时K8s社区也在支持该功能,实现还不稳定,未全量上线,但为后续VPA方向积累了工程经验)。
  • 在离线混布与编解码调度:开发多种调度策略,在离线混布采用卡粒度亲和性减少资源争抢;编解码场景增加两种资源类型,支持更细粒度的异构资源调度。

AI平台(孔明)调度(百度) 2021.04 – 2021.12

项目背景: 为了提升GPU利用率、提高作业运行质量,需在调度层面补齐容错弹性、超发抢占、共享GPU调度等核心能力。
责任描述: 设计并实现离线训练容错弹性、超发抢占及共享GPU调度方案,并推全上线。

  • 支持容错弹性训练:调度侧实现EDL(Elastic Deep Learning)训练,自定义作业对象(CRD),在控制器实现作业Pod的扩缩,维护完整状态机,训练过程中可根据资源状况和故障情况动态调整参与训练的节点数。
  • 支持共享GPU调度方案:由于升级问题,从魔改原生调度器改为使用Volcano调度器,并在Volcano中实现共享GPU调度方案,打通整卡、NVIDIA原生资源表达等多种GPU资源形式的统一调度。
  • 支持作业超发功能:超发作业采用资源借用模式,不从队列中扣减资源;同时超发作业优先级最低,队列资源不足时通过抢占驱逐超发作业,在保障正常作业SLA的同时最大化利用空闲资源,集群资源利用率达65%。

K8s平台建设(猿辅导) 2020.10 – 2021.03

项目背景: 公司基础架构Kubernetes平台处于建设早期,需补齐统一认证、故障自愈等周边能力,保障平台稳定性。
责任描述: 规划网络方案,对接其他组件,完善平台可用性。

  • 对接idaas统一认证系统:以client-go-credential-plugin方式实现authn/authz服务,让K8s用户无感接入公司统一认证体系。
  • 利用NPD(Node Problem Detector)构建故障处理系统,主要针对docker / BGP / POD等问题,将事件统一入库并接入告警,形成节点健康闭环。

商城Paas平台建设(京东) 2020.04 – 2020.09

项目背景: 商城核心业务容器化落地过程中,对Docker稳定性、安全隔离、资源观测等提出更高要求。
责任描述: 定制Docker、调研Kata、构建故障处理系统。

  • 在Docker上做深度定制化工作:升级Docker版本,修复dockerhang等生产问题,定制业务需要的功能参数。
  • 针对大流量高负载下Docker隔离缺陷暴露的问题,对Kata Containers进行调研,评估轻量虚拟化方案的性能与安全收益,并在生产环境落地使用。
  • 采用Webhook等多种方式实现lxcfs跟K8s结合,完成容器内部资源指标(CPU/内存等)的视角隔离,解决容器内看到宿主机资源信息的问题。

商城Paas平台虚拟网络建设(京东) 2019.08 – 2020.03

开发工具: JetBrains、Golang
项目背景: 基于每年618、双11大促需求,必须保证线上网络服务稳定;同时私有云需要与京东云/腾讯云等公有云打通,支持混合云部署。
责任描述: 接手BGP网络项目,开发新的网络项目。

  • 接手BGP网络项目后梳理整体流程、修补历史遗留漏洞、增加平台化功能,为大促保驾护航。
  • 独立完成私有云平台上京东云项目,调用京东云/腾讯云API接口,实现平台网络组件与公有云VPC/路由的适配,支持混合云网络打通。

Baas平台二期(京东) 2019.04 – 2019.08

开发工具: JetBrains、Golang
项目背景: Fabric项目只提供二进制工具管理peer,企业用户使用门槛高,平台侧需要抽象出更好用的peer管理能力。
责任描述: 负责Fabric优化及peer管理平台化。

  • 为平台增加节点管理功能,使用户可方便地为该组织下的部门或子组织设置节点,降低Fabric使用门槛。
  • 设计方案:调用Kubernetes接口创建deployment等peer相关资源;利用Informer机制监视deployment资源状态变化;通过事件回调触发数据库状态改写,完整覆盖peer全生命周期管理。

Baas上京东云二期(京东) 2019.03 – 2019.04

开发工具: JetBrains、Golang
项目背景: 一期仅内部用户试用,二期要公测上线,需补齐订单计费模块与K8s版本升级等关键能力。
责任描述: 完成订单计费、Kubernetes版本升级测试及监控功能;负责订单计费及K8s升级测试。

  • 为公测上线补齐订单计费模块:双写事件分发机制保证后台前端监控等下游服务顺利接入;采用状态机维护订单全生命周期状态,高效集成订单计费模块。
  • 完成京东云K8s团队版本升级测试:覆盖核心API兼容性、工作负载迁移验证,升级后平台更稳定。
  • 联调过程中识别并规避POC阶段未发现的API接口风险(通过手动改数据库临时修复),未影响测试和上线进度。

stellar底层集成(京东) 2019.01 – 2019.02

开发工具: JetBrains、Golang
责任描述: 负责stellar网络的部署集成与API封装。

  • 编写Helm Chart完成stellar网络的一键启动,解决多节点编排与配置管理问题。
  • 封装stellar API为rtmc模块提供统一接口,支持发行资产、转账等业务操作,屏蔽底层链路细节。

Baas上京东云一期(京东) 2018.10 – 2018.12

开发工具: JetBrains、Golang
项目简介: Baas支持混合云,利用京东云作为公有云部分融合进公司私有云服务。
责任描述: 上云主要包括账户打通、服务迁移适配(Helm Chart及Kubernetes相关功能适配)、京东云资源及Kubernetes API调用。

  • 主要负责调用API对京东云资源及Kubernetes集群进行统一管理,屏蔽公有云与私有云的差异。

由于安全合规需要,实现验证码功能,增强用户身份校验。

Baas平台存储模块(京东) 2018.06 – 2018.08

开发工具: JetBrains、Golang
项目背景: Fabric的公用配置文件与区块链数据有共享存储与自动扩容诉求,避免手工同步和存储打满。
责任描述: 带两位同事负责存储模块开发,为区块链服务提供共享存储支持。

  • 将Fabric公用配置文件统一放到共享存储,避免多节点同步之苦。
  • 基于glusterfs及Kubernetes storageclass扩容机制,上层加一层控制层封装存储模块业务语义。
  • 后期发现glusterfs效率较慢,集成rook安装Ceph作为新的后端存储方案,性能显著提升。

Baas平台一期(京东) 2018.01 – 2018.08

开发工具: JetBrains、Golang、Shell
项目简介: Baas平台主要结合Kubernetes及区块链作为底层平台,为上层业务提供服务。
项目背景: 业界当时并无成熟的区块链底层平台,区块链开发部署繁琐、学习成本高,Fabric跟容器天然亲和,Baas平台可以显著降低研发人员及公司接入区块链服务的门槛。
责任描述: 参与Baas架构设计,向团队普及Kubernetes基本套路及用法;平台搭建起来后,参与一键部署及企业组网开发工作。

  • 后端架构:采用 rancher + Kubernetes + Helm + 应用商店 的模式搭建后端服务,快速交付MVP。
  • 前端:仿照rancher页面风格做Baas前端,降低用户学习成本。
  • DevOps:利用 Jenkins + Helm仓库 + Docker仓库 的模式搭建开发/发布环境。
  • Fabric Helm Chart编写完成后,拆分组网操作步骤,抽象出一键部署与企业组网流程,让业务方分钟级上链。

    教育经历

山东科技大学 2009.09 – 2013.06

计算机科学与技术 | 本科