岗位职责(具体工作内容)
1、协助团队进行大模型语音合成(TTS)相关算法研发,包括但不限于:
1)参与基于 Transformer、VITS、扩散模型的语音合成模型训练与优化;
2)协助优化大模型在多风格、多情感、个性化语音生成场景的效果;
3)参与语音合成模型的轻量化部署与推理加速(如模型压缩、TensorRT 优化等);
2、数据处理与模型调优:
1)协助构建和清洗多语种、多场景语音数据集(音频切割、文本标注、质量校验等);
2)参与模型训练过程中的参数调优、损失函数改进,提升合成语音的自然度与相似度;
3)分析模型合成结果,定位问题(如韵律失调、音色偏差)并提出优化方案;
3、技术调研与工具开发:
1)跟踪国内外大模型语音合成领域最新研究;
2)协助开发语音合成效果评测工具(如 MOS 评分自动化脚本、音频特征分析工具);
任职资格(学历、目标院校、语言、技能、性格等要求)
1、在读本科 / 硕士 / 博士,计算机、电子信息、声学、人工智能等相关专业;2、具备扎实的机器学习 / 深度学习基础,了解 Transformer、扩散模型等大模型原理;3、熟练使用 Python,掌握 PyTorch/TensorFlow 框架,有模型训练与调参经验者优先;4、了解语音合成基本原理(如频谱特征、声码器、韵律建模),接触过 VITS、Tacotron 等模型者优先;5、每周可投入 4 天及以上,实习时长不少于 3 个月;