岗位职责
1、参与Omni语音对话大模型的预训练工作,包括模型架构设计、数据清洗、分布式训练及性能优化;
2、探索文本-语音联合建模技术,优化端到端语音生成质量与延迟;
3、跟踪大模型与语音技术前沿进展(如LLM微调、RLHF、跨模态对齐等)。
岗位要求
1、26年毕业生,计算机相关专业硕士优先,有语音合成(如FastSpeech、VITS)或大语言模型(如GPT、LLaMA)研发经验;
2、了解预训练流程熟悉Transformer、RNN等神经网络架构,掌握Deepspeed、Megatron等框架;
3、熟悉Mini-Omni、Freeze-Omini、Minmo、Qwen-Omini等开源语音模型技术栈,具备数据处理、模型训练到部署的全流程经验。
4、团队协作意识强,对AI语音交互领域有热情。