岗位职责(具体工作内容)
我们正在寻找一位充满激情的实习生加入我们的团队,共同致力于利用海量自动驾驶数据来训练和优化多模态大模型。该模型将作为数据闭环中的关键组成部分,用于更好地理解和预测自动驾驶场景。主要职责包括但不限于:
前沿技术研发:深入研究视觉语言模型 (VLM) 和多模态大语言模型 (MLLM) 等先进技术;紧跟多模态 AI 领域的最新进展,不断优化和改进现有技术和系统。
高效模型训练:探索和开发多模态模型的训练方法,提高模型效率,并有机会将研究成果发表于高水平学术会议或期刊。
数据利用创新:研究多模态数据的有效利用策略,特别是在图文对、图文交错等方面的数据处理方法。
任职资格(学历、目标院校、语言、技能、性格等要求)
教育背景:计算机科学、数学、统计学等相关专业在读硕士研究生或博士研究生。
技术技能:熟练掌握 Python、Linux 和 PyTorch 等工具;具备扎实的深度学习、机器学习和计算机视觉基础。
研究经历:有在国际顶级会议和期刊上发表相关工作的优先考虑。
专业知识:了解预训练算法的发展历程,了解对比学习、掩码自编码 (MAE) 等技术;具有 Visual-Language Model 和大规模语言模型 (LLMs) 实践经验者优先。
个人素质:具备良好的团队协作精神和沟通技巧;具有强烈的自我驱动力、抗压能力和求知欲;拥有出色的数据分析能力和逻辑思维能力。
独立见解:对如何通过多模态模型增强语言模型的能力有独到的理解和见解。