大模型应用算法实习生-国际化内容安全算法研究-筋斗云人才计划
2025-05-17 00:00:00 刷新
薪资面议 北京 博士 5天/周 实习4个月 提供转正机会
健身瑜伽团队氛围好扁平管理用户过亿大牛带队免费三餐弹性工作租房补贴
微信扫码同步查看
投递方便通知及时
扫码手机查看
当前职位已下线
职位描述:
职位描述: 团队介绍:国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境,通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件,团队同时负责产品基座大模型的研发,我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题,从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规,性能优越的基座模型。 课题介绍: 背景:近年来,大规模语言模型(Large Language Models, LLM)在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力,例如在生成语言、回答问题、翻译文本等任务上表现优异。然而,LLM 的推理能力仍有很大的提升空间。在现有的研究中,通常依赖于大量的监督微调(Supervised Fine-Tuning, SFT)数据来增强模型的推理性能。然而,高质量 SFT 数据的获取成本高昂,这对模型的开发和应用带来了极大的限制。为了提升推理能力,OpenAI 的 o1 系列模型通过增加思维链(Chain-of-Thought, CoT)的推理过程长度取得了一定的成功。这种方法虽然有效,但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型(Process-based Reward Model, PRM)、强化学习(Reinforcement Learning, RL)以及蒙特卡洛树搜索算法(Monte Carlo Tree Search, MCTS)等方法来解决推理问题,然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法,可以使得 LLM 自主发展推理能力,而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 1、Reward模型的设计:在强化学习过程中,设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果,并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准,还要确保reward模型能够在训练过程中动态调整,以适应模型性能的变化和提高; 2、稳定的训练过程:在缺乏高质量SFT数据的情况下,如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错,这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法,以保证模型在训练过程中的稳定性和效果; 3、如何从数学和代码任务上拓展到自然语言任务上:现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而,自然语言任务的开放性和复杂性更高,如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上,要求对数据处理和RL方法进行深入的研究和创新,以实现跨任务的通用推理能力; 4、推理效率的提升:在保证推理性能的前提下,提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术,将复杂模型的知识传递给较小的模型,以减少计算资源消耗。另外,使用长思维链(Long Chain-of-Thought, Long-CoT)技术来改进短思维链(Short-CoT)模型,也是一种潜在的方法,以在保证推理质量的同时提升推理速度。 职位要求: 1、2026届及之后毕业,博士在读,计算机、电子等相关专业优先; 2、丰富的ML/CV/NLP/推荐经验,包括但不限于: 1)机器学习/数据挖掘/CV/NLP/多模态等相关竞赛或行业经验; 2)机器学习/数据挖掘/人工智能/大模型相关领域的会议论文(KDD/WWW/NIPS/ICML/CVPR/ACL/AAAI...); 3)有大模型/强化学习相关的研究经历和创新探索;动手快,在开源社区有大模型相关的贡献记录;在业务场景有大模型落地经验; 3、扎实的编程功底,熟悉Python/C++等编程语言; 4、优秀的分析问题和解决问题的能力,并热衷于解决具有挑战性的问题; 5、对技术充满热情,良好的沟通能力和团队合作精神。
投递要求:
简历要求: 不限
截止日期:2025-05-16
工作地点:
中国大陆北京市海淀区北三环西路27号北京方恒中心,邮编:100098
求职中若出现虚假宣传,收取财物等违法情况。请立即举报

当前职位已下线

公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

算法工程师

百科详情

利用算法原理处理事物的人员。