工作职责:参与商汤深度学习训练框架的计算库和通信库的完善及其性能优化
主要工作:
1. 向框架中添加新的算子
2. 对已有的算子进行速度和显存占用优化(主要为CUDA)
3. 自动求导机制的性能优化,高阶求导的支持
4. 参与优化大规模训练时候使用的进程间/设备间通信机制
5. 稀疏运算和不同layout运算的支持
任职要求:
希望你可以:
1. 熟练使用c++,有python开发经验更佳
2. 每周至少4天(含周末)的实习时间,至少实习6个月以上
3. 熟悉linux和git更佳
4. 虚心,勤奋,务实,有良好的人际关系
有cuda编程经验是一个不错的加分项