关于我
算法工程师,对大语言模型的训练与优化充满热情。具备基于国产千卡集群的后训练调优经验,负责了多个大模型实际项目的落地。目前正在寻找全职工作机会,base 长三角地区。
感兴趣的方向
大模型 Post-Training
- Supervised Fine-Tuning (SFT):指令微调的数据构建、策略设计与效果评估
- RLHF / DPO:对齐技术的实现与改进
- Reward Modeling:奖励模型的训练与泛化能力研究
- 多模态对齐:视觉语言模型的 post-training 阶段训练策略
更广泛的兴趣
- 大模型训练基础设施与训练效率优化
- 模型评估与评测体系建设
如果您认为我的博客有趣,或者对您有帮助,欢迎您为我介绍相关的工作(* ̄︶ ̄)
联系方式
欢迎交流与推荐机会!