關於我
算法工程師,對大語言模型的訓練與優化充滿熱情。具備基於國產千卡集群的後訓練調優經驗,負責了多個大模型實際項目的落地。目前正在尋找全職工作機會,base 長三角地區。
感興趣的方向
大模型 Post-Training
- Supervised Fine-Tuning (SFT):指令微調的數據構建、策略設計與效果評估
- RLHF / DPO:對齊技術的實現與改進
- Reward Modeling:獎勵模型的訓練與泛化能力研究
- 多模態對齊:視覺語言模型的 post-training 階段訓練策略
更廣泛的興趣
- 大模型訓練基礎設施與訓練效率優化
- 模型評估與評測體系建設
如果您認為我的博客有趣,或者對您有幫助,歡迎您為我介紹相關的工作(* ̄︶ ̄)
聯繫方式
歡迎交流與推薦機會!