教育背景
- 硕士 东北大学 机器视觉
2023/09 - 至今
排名:15%
研究方向
主要研究图像生成、语义分割、目标检测等方向,
对多模态大模型、关键点检测、知识蒸馏等方向也感兴趣。
实习经历
百度 多模态大模型算法工程师
2025年 MEG-搜索内容技术部
主要研究多模态大模型工程化生产图-文内容。在文案填充部分基于数据蒸馏构建训练数据集,微调Qwen2.5并部署替代原产线旧版方案,设计GRPO规则奖励,降低推理成本的同时提升准入率。
设计多模态特征的图文匹配方案。基于 CLIP 算子构建多维特征空间,通过DeepSeek-R1 从文案中提取色系/风格/场景维度特征,结合 GPT-4o 提取图片模板的多维 caption 在联合嵌入空间进行图文特征余弦相似度匹配,并引入色系聚类与长度自适应排序策略优化匹配结果,提升模板适配准确率。Momenta 视觉感知算法工程师
2024年 Mpilot-ICP-OMS
关键点检测:小数据集下确定蒸馏方案。选用学生模型 MobileNetV2,教师模型 HRNetV2-W18(参数量较 ResNet50 减少 61%&指标差异<1.4%);构建两阶段蒸馏方案:对比验证将一阶段蒸馏后主干作为二阶段预训练模型,二阶段仅使用 hard loss 效果最优;simdr 分支&depth 分支&完整网络蒸馏;全量数据评测蒸馏效果:mAP↓2.45%,mAR↓2.15%,MPJPE↑0.11mm 验证方案实际可行性。
3D 点手势分类:模型对比实验,基于 kpt 的 GCN/MLP 模型在静态数据上准确率达 94.30%/94.79%,较 ResNet18 图像模型提升 3%,kpt 模型融合动态数据后指标提升 2%;实验验证 GCN 比 MLP 收敛更快,并通过 GCN 邻接矩阵权重可视化证明其有效学习手势拓扑关系;对比三种 GCN 构建邻接矩阵的方式:uniform/distance/spatial,distance/spatial 较 uniform 在指标和实测上提升显著。
人手目标检测:实现 ResNet 至 RepVGG 系列主干网络迁移,基于 10k 训练集验证最优配置结果:RepVGG-A0 在 AP50 达 0.965(Resnet50 为 0.976)时,实现推理加速 48%(6.02s)与 50%计算量压缩(13.013G FLOPS),RepVGG-A1 则在 AP50 达 0.971 时,推理速度提升 37%,计算量缩减 29%;同步实现 mmyolo 至 mdet 框架的 YOLOV8-s 模型迁移与精度对齐,mAP 达 43.0(原框架 44.2)。
数据处理&模型发版:依托 Mlab 框架开发,针对关键点数据集分析 3D 点空间几何特征(角度/距离约束),制定异常数据清洗策略(剔除率 1%),并通过 IDPL 框架管理数据湖,基于 MPPI 框架完成 ONNX 模型部署,经人机交互实测验证后发版,并支撑 gitlab 代码库文件更新与算法模型长期稳定迭代。
获奖情况
硕士
阿里天池竞赛 CCL2025-Eval: 中文叙事性推理评测(FIE2025)排名:11/218(5%)
校一等奖学金等
本科
国家级大学生创新创业训练计划项目(某种水下机器人)
校优秀学生干部(曾担任院学生会执行主席,两委办公室副主任等职务)
机械创新设计大赛省一等奖
工程综合能力竞赛省特等奖
校一等学业奖学金等若干
政治面貌
中共党员
英语水平
CET6
兴趣爱好
吉他指弹(攻克like a star中)
摄影(尼康z50用户)
联系方式
- 电子邮箱
13124158321@163.com
1061304999@qq.com - 地址
沈阳市和平区文化路三巷,邮编110819 - 微信
mzh13124158321 - QQ
1061304999 - 微信二维码