语音多模态大模型算法实习生
2025-12-02 18:03:08 刷新
500-800/天 北京 硕士 3天/周 实习4个月
产品AI
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
我们正在招聘一名算法实习生,参与语音大模型与多模态理解方向的算法研发,包括但不限于语音大模型、多模态 VAD(Voice Activity Detection)模型、语音/文本的多模态融合等。你将与团队一起探索下一代语音智能交互技术,在真实业务场景中验证并推动模型落地。 岗位职责 1、参与语音大模型(Speech LLM)交互算法的研究与开发,包括模型结构优化、训练策略设计与性能调优。 2、参与多模态 VAD 模型的设计与实现,提升在复杂场景中的语音活动检测能力。 3、 跟进最新的语音模型相关论文,并在团队中进行验证和复现。 4、参与模型效果评测、实验记录整理与 ablation study 分析。 5、根据业务需求完成模型构建、训练、验证及模型优化落地。 岗位要求(Must Have) 1、熟练使用 Python,具备良好的工程能力,熟悉主流深度学习框架(PyTorch 优先)。 2、理解机器学习、深度学习基础算法,能够阅读常见模型代码实现。 3、具有良好的分析与调试能力,能够独立设计实验并进行结果分析。 4、对语音技术、多模态交互、大模型方向有浓厚兴趣,有学习和探索新技术的热情。 加分项(Nice to Have) 1、有语音相关顶会论文复现经验(ICASSP、Interspeech、NeurIPS 等)。 2、有端到端语音模型训练经验,比如ASR模型、TTS模型或LLM模型的训练或微调经验。 3、有多模态模型(如 Qwen-Omni、Qwen-Audio、Step-Audio等)训练或微调经验。 4、有语音相关的知识基础。 实习要求 每周至少可实习4天,连续实习 3 个月及以上(可长期优先)。 计算机、人工智能、电子信息等相关专业优先。 欢迎热爱语音大模型、多模态技术的同学加入!
投递要求:
简历要求: 中文
截止日期:2026-09-29
工作地点:
北京市朝阳区望京街道阜荣街10号首开广场 百融云创1层
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

产品助理

百科详情

协助产品经理进行产品相关的市场调研、产品策划、部门沟通等工作的人员。