我们正在招聘一名算法实习生,参与语音大模型与多模态理解方向的算法研发,包括但不限于语音大模型、多模态 VAD(Voice Activity Detection)模型、语音/文本的多模态融合等。你将与团队一起探索下一代语音智能交互技术,在真实业务场景中验证并推动模型落地。
岗位职责
1、参与语音大模型(Speech LLM)交互算法的研究与开发,包括模型结构优化、训练策略设计与性能调优。
2、参与多模态 VAD 模型的设计与实现,提升在复杂场景中的语音活动检测能力。
3、 跟进最新的语音模型相关论文,并在团队中进行验证和复现。
4、参与模型效果评测、实验记录整理与 ablation study 分析。
5、根据业务需求完成模型构建、训练、验证及模型优化落地。
岗位要求(Must Have)
1、熟练使用 Python,具备良好的工程能力,熟悉主流深度学习框架(PyTorch 优先)。
2、理解机器学习、深度学习基础算法,能够阅读常见模型代码实现。
3、具有良好的分析与调试能力,能够独立设计实验并进行结果分析。
4、对语音技术、多模态交互、大模型方向有浓厚兴趣,有学习和探索新技术的热情。
加分项(Nice to Have)
1、有语音相关顶会论文复现经验(ICASSP、Interspeech、NeurIPS 等)。
2、有端到端语音模型训练经验,比如ASR模型、TTS模型或LLM模型的训练或微调经验。
3、有多模态模型(如 Qwen-Omni、Qwen-Audio、Step-Audio等)训练或微调经验。
4、有语音相关的知识基础。
实习要求
每周至少可实习4天,连续实习 3 个月及以上(可长期优先)。
计算机、人工智能、电子信息等相关专业优先。
欢迎热爱语音大模型、多模态技术的同学加入!