语音多模态大模型算法实习生实习招聘-百融云创实习生招聘-实习僧

语音多模态大模型算法实习生

2025-12-02 18:03:08 刷新

500-800/天北京硕士 3天／周实习4个月

产品AI

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

我们正在招聘一名算法实习生，参与语音大模型与多模态理解方向的算法研发，包括但不限于语音大模型、多模态 VAD（Voice Activity Detection）模型、语音/文本的多模态融合等。你将与团队一起探索下一代语音智能交互技术，在真实业务场景中验证并推动模型落地。


岗位职责
1、参与语音大模型（Speech LLM）交互算法的研究与开发，包括模型结构优化、训练策略设计与性能调优。
2、参与多模态 VAD 模型的设计与实现，提升在复杂场景中的语音活动检测能力。
3、 跟进最新的语音模型相关论文，并在团队中进行验证和复现。
4、参与模型效果评测、实验记录整理与 ablation study 分析。
5、根据业务需求完成模型构建、训练、验证及模型优化落地。


岗位要求（Must Have）
1、熟练使用 Python，具备良好的工程能力，熟悉主流深度学习框架（PyTorch 优先）。
2、理解机器学习、深度学习基础算法，能够阅读常见模型代码实现。
3、具有良好的分析与调试能力，能够独立设计实验并进行结果分析。
4、对语音技术、多模态交互、大模型方向有浓厚兴趣，有学习和探索新技术的热情。


加分项（Nice to Have）
1、有语音相关顶会论文复现经验（ICASSP、Interspeech、NeurIPS 等）。
2、有端到端语音模型训练经验，比如ASR模型、TTS模型或LLM模型的训练或微调经验。
3、有多模态模型（如 Qwen-Omni、Qwen-Audio、Step-Audio等）训练或微调经验。
4、有语音相关的知识基础。

实习要求
每周至少可实习4天，连续实习 3 个月及以上（可长期优先）。
计算机、人工智能、电子信息等相关专业优先。

欢迎热爱语音大模型、多模态技术的同学加入！

投递要求：

简历要求：中文

截止日期：2026-09-29

工作地点：

北京市朝阳区望京街道阜荣街10号首开广场百融云创1层

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介