岗位职责:
1.负责基于多模态输入(文本、语音、图像、动作指令等)的智能数字人系统研发;
2.构建端到端的数字人视频生成管线,实现语音驱动口型、表情、肢体动作的自然同步;
3.设计并优化流式语音交互架构,集成低延迟 ASR/TTS 与实时对话能力;
4.开发高并发、低延迟的音视频推流/拉流服务,支持直播、互动客服等场景;
5.探索 AIGC 技术(如扩散模型、NeRF、3D 生成)在数字人形象生成与动态渲染中的应用;
6.与算法、产品团队紧密协作,持续提升数字人的表现力、真实感与交互体验。
职位要求:
1.必备技能
熟悉多模态信息融合技术,有文本、语音、视觉等多源输入协同处理经验;
具备数字人视频生成系统开发能力,了解语音驱动面部动画(如 Wav2Lip、SadTalker、MuseTalk 等)或 2D/3D 数字人驱动技术;
精通流式 ASR/TTS 接入与优化,熟悉 WebSocket、gRPC 等实时通信协议;
掌握音视频推流/拉流技术(RTMP、WebRTC、SRT、HLS 等),能使用 FFmpeg 等工具构建媒体处理链路;
具备高并发后端服务开发经验,熟练掌握 Python。
2.加分项
有虚拟人、AIGC 视频生成相关项目经验;
熟悉大语言模型(LLM)与语音/视觉模型的协同推理。