关于
东北大学 | 硕士 | 计算机视觉 | CV
45 文章
14 分类
6 标签
马证皓
45 文章
14 分类
6 标签
马证皓
东北大学 | 计算机视觉 | CV
我是东北大学计算机视觉方向2023级硕士研究生,研究方向是图像生成与目标分割/检测,MLLMs正在了解学习中。个人爱好是吉他指弹和风光摄影。
  文章统计图
  我的技能
Algorithm
80%
C++
50%
Python
80%
Pytorch
75%
  我的简历

教育背景

  • 硕士 东北大学 机器视觉
    2023/09 - 至今
    排名:15%

研究方向

主要研究图像生成、语义分割、目标检测等方向,
多模态大模型、关键点检测、知识蒸馏等方向也感兴趣。

实习经历

  • 百度 多模态大模型算法工程师
    2025年 MEG-搜索内容技术部
    主要研究多模态大模型工程化生产图-文内容。在文案填充部分基于数据蒸馏构建训练数据集,微调Qwen2.5并部署替代原产线旧版方案,设计GRPO规则奖励,降低推理成本的同时提升准入率。
    设计多模态特征的图文匹配方案。基于 CLIP 算子构建多维特征空间,通过DeepSeek-R1 从文案中提取色系/风格/场景维度特征,结合 GPT-4o 提取图片模板的多维 caption 在联合嵌入空间进行图文特征余弦相似度匹配,并引入色系聚类与长度自适应排序策略优化匹配结果,提升模板适配准确率。

  • Momenta 视觉感知算法工程师
    2024年 Mpilot-ICP-OMS
    关键点检测:小数据集下确定蒸馏方案。选用学生模型 MobileNetV2,教师模型 HRNetV2-W18(参数量较 ResNet50 减少 61%&指标差异<1.4%);构建两阶段蒸馏方案:对比验证将一阶段蒸馏后主干作为二阶段预训练模型,二阶段仅使用 hard loss 效果最优;simdr 分支&depth 分支&完整网络蒸馏;全量数据评测蒸馏效果:mAP↓2.45%,mAR↓2.15%,MPJPE↑0.11mm 验证方案实际可行性。
    3D 点手势分类:模型对比实验,基于 kpt 的 GCN/MLP 模型在静态数据上准确率达 94.30%/94.79%,较 ResNet18 图像模型提升 3%,kpt 模型融合动态数据后指标提升 2%;实验验证 GCN 比 MLP 收敛更快,并通过 GCN 邻接矩阵权重可视化证明其有效学习手势拓扑关系;对比三种 GCN 构建邻接矩阵的方式:uniform/distance/spatial,distance/spatial 较 uniform 在指标和实测上提升显著。
    人手目标检测:实现 ResNet 至 RepVGG 系列主干网络迁移,基于 10k 训练集验证最优配置结果:RepVGG-A0 在 AP50 达 0.965(Resnet50 为 0.976)时,实现推理加速 48%(6.02s)与 50%计算量压缩(13.013G FLOPS),RepVGG-A1 则在 AP50 达 0.971 时,推理速度提升 37%,计算量缩减 29%;同步实现 mmyolo 至 mdet 框架的 YOLOV8-s 模型迁移与精度对齐,mAP 达 43.0(原框架 44.2)。
    数据处理&模型发版:依托 Mlab 框架开发,针对关键点数据集分析 3D 点空间几何特征(角度/距离约束),制定异常数据清洗策略(剔除率 1%),并通过 IDPL 框架管理数据湖,基于 MPPI 框架完成 ONNX 模型部署,经人机交互实测验证后发版,并支撑 gitlab 代码库文件更新与算法模型长期稳定迭代。

获奖情况

硕士

阿里天池竞赛 CCL2025-Eval: 中文叙事性推理评测(FIE2025)排名:11/218(5%)

校一等奖学金等

本科

国家级大学生创新创业训练计划项目(某种水下机器人)

校优秀学生干部(曾担任院学生会执行主席,两委办公室副主任等职务)

机械创新设计大赛省一等奖

工程综合能力竞赛省特等奖

校一等学业奖学金等若干

政治面貌

中共党员

英语水平

CET6

兴趣爱好

吉他指弹(攻克like a star中)
摄影(尼康z50用户)

联系方式