浦江实验室AI训练与计算研究中心|全球招聘

2023-07-11   


某学霸上岸笔记经验分享[火]

包括上岸学霸笔记、128个高频考点、手写三色笔记、速记口诀、材料作文30例、公基思维导图,扫码左侧二维码回复学霸笔记即可免费下载,仅限本周!



浦江实验室是国家级新型科研机构,是人工智能领域国家战略科技力量的重要组成部分。实验室开展战略性、前瞻性、基础性重大科学问题研究和关键核心技术攻关,凝聚和培养高水平人才,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。实验室总部位于上海,并在北京、粤港澳大湾区和杭州等地设立基地。

AI训练与计算研究中心致力于定义并引领新一代AI大训练系统。打破单一硬件平台限制,发挥不同算力特性,打造软硬件一体的国产化AI训练系统;探索超大模型训练极限,突破当前大模型算法与算力限制,让AI训练系统赋能大模型与新场景;定位新一代模型生产工作范式,最大化模型生产效能,探索通用模型生产性能极限。

现针对以下岗位招募人才(滑动可查看具体岗位描述):



算法&研究类


大规模训练青年研究员

岗位职责:

1. 参与大规模可扩展训练系统的技术创新与技术突破;

2. 参与大规模可扩展训练前沿技术的原型开发,辅助技术原型落地;

3. 发现和解决有挑战的技术问题,推动技术进步;

4. 开发及维护技术前沿的开源项目,并在社区构建技术影响力。

任职要求:

1. 拥有设计和构建高性能计算系统技术背景,包括但不限于在cache/内存优化、GPU编程、细粒度并行库及运行时系统、并行及分布式系统其中某一方面持续深入研究超过两年;

2. 计算机科学或相关领域硕士研究生及以上学历,或具备对等技能、经历;

3. 熟练掌握C++、Python等至少一门语言,熟悉Linux编程环境;

4. 具备较强的编程能力,能编写简洁高效、鲁棒性强的代码;

5. 具备较强的自我驱动力,沟通能力及良好的团队协作精神;

6. 具备优秀的英文阅读理解能力;

7. 有AI system方面的工作经验,熟悉现有的AI计算框架,如TF、 PyTorch者优先;

8. 有CPU、GPU性能分析及优化经验、HPC领域网络通信优化经验者优先;

9. 曾参与有影响力的开源项目者优先;

10. 在OSDI、SOSP、PPoPP、ASPLOS等计算机系统结构顶级刊物上发表过论文者优先。


深度学习编译器青年研究员

岗位职责:

1. 参与AI Compiler的技术创新与技术突破;

2. 参与AI Compiler前沿技术的原型开发,辅助技术原型落地;

3. 发现和解决有挑战的技术难题,推动技术进步;

4. 开发及维护技术前沿的开源项目,并在社区构建技术影响力。

任职要求:

1. 拥有DL计算图优化技术背景,包括但不限于在自动微分、自动并行化、图算融合、auto tune其中某一方面持续深入研究超过两年;

2. 计算机科学或相关领域的硕士研究生及以上学历,或具备对等技能、经历;

3. 熟练掌握C++、Python等至少一门语言,熟悉Linux编程环境;

4. 具备较强的编程能力,能编写简洁高效、鲁棒性强的代码;

5. 自我驱动力强、擅长团队合作;

6. 具备优秀的英文阅读理解能力;

7.有AI system方面的工作经验,熟悉现有的AI Compiler,如PyTorch JIT、XLA、TVM、MLIR者优先;

8. 有迭代编译实践经验者优先;曾参与有影响力的开源项目者优先;

9. 在OSDI、SOSP、ASPLOS、PLDI等计算机系统结构顶级刊物上发表过论文者优先。



定点训练青年研究员

岗位职责:

参与定点训练方面的研究,并辅助将研究成果落地到具体产品中。

任职要求:

1.熟悉混合精度训练的业界概貌及定点训练的前沿进展;

2.计算机科学或相关领域本科及以上学历,或具备对等技能、经历;

3.熟练掌握C++、Python等至少一门语言,熟悉Linux编程环境;

4.自我驱动力强、擅长团队合作;

5.具备优秀的英文阅读理解能力;

6.有量化、稀疏化算法研究背景者优先;

7.在AAAI、ICML、NeurIPS等AI顶级刊物上发表过论文者优先。



模型训练青年研究员

岗位职责:

1.跟踪业界有影响力的新型深度学习模型;

2.重现文章中的精度和性能;

3.分析性能瓶颈;

4.构建模型训练benchmark。

任职要求:

1.熟悉常见模型的训练及Finetune方式;

2.熟练使用PyTorch和DeepSpeed,以及GPU的性能分析工具;

3.计算机科学或相关领域本科及以上学历,或具备对等技能、经历;

4.熟练掌握Python、熟悉Linux编程环境;

5.自我驱动力强、擅长团队合作;

6.具备优秀的英文阅读理解能力;

7.有AI算法背景,熟悉常见模型的模型结构,有实际搭建分布式训练环境的经验者优先;

8.有HPC背景,了解各种并行训练策略,如数据并行、模型并行及pipeline并行者优先。


超大模型预训练算法青年研究员

岗位职责:

1.深入研究超大规模神经网络在海量数据上的训练精度问题,实现超大规模神经网络的高精度训练;
2.训练维护和评估预训练大模型,突破各类视觉任务的精度瓶颈,包括但不限于:检测、分割、生成、多任务学习等;

3.负责超大规模神经网络训练技术在实际场景中的落地使用;

4.负责研发通用模型,探索使用高精度Teacher进行知识蒸馏;

5.大模型Finetune策略设计与应用,在多个下游应用场景下达到目标精度。

任职要求:

1.有较扎实的计算机理论基础,熟练使用Python/C++编程;

2.有计算机视觉或深度学习基础,熟悉计算机视觉中的常见问题与算法,了解模型训练的原理,熟悉任一深度学习框架;

3.具备一定的算法实现能力,有深度学习编码与调试经验;

4.有检测、分割、生成、多任务学习等领域的研究经验;

5.有较强的研究能力,在ICML、NIPS、AAAI、CVPR等CCF-B以上AI会议或期刊上发表过文章;

6.有开源项目经历。

工程&研发类


大模型训练技术研发工程师/分布式AI系统研发工程师(C++)

岗位职责:

1.与资深研究员一同跟进学术界大模型训练技术的前沿发展,推进自研大模型训练技术演进;

2.针对超大规模神经网络训练中的显存不足问题,深入探索显存优化策略;

3.推进分布式训练中的计算和通信优化,充分利用算力,使用大量加速卡探索性能边界;

4.打破视觉模型的参数限制,训练百亿、千亿参数量级别的超大视觉模型。

任职要求:

1.有扎实的计算机理论基础,如数据结构、操作系统等,了解C/C++编程;

2.有深度学习基础,了解模型训练的原理;

3.具备中大型软件的设计开发经验,有良好的代码风格;

4.对于主流深度学习框架原理有所了解;

5.熟悉Linux/Unix开发环境,有一定的debug能力。


AI训练框架C++开发工程师

岗位职责:

1.参与深度学习框架Parrots的研发与优化,对大数据工业级应用条件下的深度学习核心架构进行优化;        

2.适配深度学习最新算法与架构,对框架进行调整、改进和优化;

3.对框架的训练速度进行优化,包括计算和通信及其调度,提高模型训练的效率;

4.扩充深度学习框架的功能和计算能力,完善工具体系。

任职要求:

1.以下要求任意满足一条:

(1)2年以上Linux下的C++和Python开发经验,熟练使用模板编程,有开源代码贡献经验更佳;

(2)2年以上GPU编程经验,熟悉计算机体系结构、并行计算基本技术,以及GPU并行计算基本原理;

2.具备扎实的计算机科学功底和编程能力,熟练使用常见的算法和数据结构,具有良好的编程习惯和代码风格;

3.有良好的文档习惯,及时按要求撰写技术文档和工作进展;

4.熟悉Pytorch、Tensorflow等主流深度学习框架源码者优先。



深度学习框架计算与优化青年研究员

岗位职责:

1.对深度学习前沿算法与架构进行调研,并结合业务线研究员的痛点,不断丰富训练框架的功能;

2.根据需求对业务线的模型在自研的深度学习框架上进行适配和调优,其中调优主要指优化训练时间和显存占用;

3.根据算法落地应用场景需求,对算法框架及相关工具链进行改进和定制。

任职要求:

1.计算机基础扎实,熟练掌握 C/C++,熟练使用设计模式与方法,具备良好的软件工程思想和能力;

2.掌握机器学习、深度学习等人工智能技术的基本原理,有相关从业或研究经历;

3.熟悉计算机体系结构、并行计算基本技术,以及GPU并行计算基本原理,有相关研究经历尤佳;

4.在NVIDIA、AMD等任一GPU体系结构上进行过并行程序开发或性能调优者优先;

5.有代数矩阵运算、计算机视觉及图像处理算法在不同处理器上移植经验者优先;

6.有性能分析与优化经验者优先,包括但不限于系统负载分析、GPU负载分析及内存显存用量分析等。


深度学习训练框架开发工程师

岗位职责:

1.参与大规模可扩展训练前沿技术的原型开发,辅助技术原型落地;

2.参与大规模可扩展训练框架的设计、开发;

3.开发及维护技术前沿的开源项目,并在社区构建技术影响力。

任职要求:

1.拥有设计和构建高性能计算系统技术背景,在以下方向持续深入研发超过两年:cache/内存优化、GPU编程、细粒度并行库及运行时系统、并行及分布式系统等;

2.计算机科学或相关领域硕士研究生及以上学历,或具备对等技能、经历;

3.熟练掌握C++、Python等至少一门语言,熟悉Linux编程环境;

4.具备较强的编程能力,能编写简洁高效、鲁棒性强的代码;

5.具备较强的自我驱动力,沟通能力及良好的团队协作精神;

6.具备优秀的英文阅读理解能力;

7.熟悉PyTorch DDP | Pipe内部实现,或熟悉DeepSpeed内部实现者优先;

8.具有CPU、GPU性能分析及优化经验,或HPC领域网络通信优化经验者优先;

9.曾参与有影响力的开源项目者优先。


深度学习编译研发工程师

岗位职责:

1.负责自动代码生成,研发自动调度技术,实现在更短的时间生成更高效的设备端代码;

2.新型中间表示,能够完备表达长尾算子和动态行为,同时具有和业界流行的IR,包括XLA、MLIR和TVM IR的转化能力;

3.新型芯片后端支持;

4.编译优化,针对新场景中设计新型编译优化技术;

5.通过VM或者其他方式,运行时支持动态行为,以及支持设备端代码灵活调用能力。

任职要求:

1.有扎实的C++开发经验,有复杂系统软件调试和设计能力;

2.熟悉至少一种深度学习框架,如PyTorch/TensorFlow等;

3.熟悉至少一种深度学习编译器,如TVM、XLA、MLIR、JAX、TorchScript等;

4.有2年以上编译器相关工作经验者优先;

5.有机器学习、深度学习经验,有检测、识别、推荐算法相关经验者优先;

6.熟悉GPU硬件架构及CUDA,有设备端代码开发经验者优先。



高性能计算研发工程师

岗位职责:

1.负责开发某一款或多款国产芯片算子;

2.负责算子的持续性能优化 ;

3.负责构建算子优化开发工具以及整理相关优化技巧。

任职要求:

1.有扎实的C++开发经验,有复杂系统软件调试和设计能力;

2.有CUDA开发经验或者国产芯片算子开发经验;

3.熟悉GPU硬件架构或国产人工智能芯片架构;

4.熟悉至少一种深度学习编译器,有TVM、XLA、MLIR、JAX、TorchScript等工作经验者优先;

5.有机器学习、深度学习经验,有检测、识别、推荐算法相关经验者优先。


DevOps开发工程师

岗位职责:

1.关注训练框架研发效率提升,探索研发各环节全周期效能优化方法;

2.负责内部CI/CD建设,落地编译测试发布的自动化;

3.部署和优化开发工具,包括并不限于提升编译速度、部署代码分析工具和性能分析工具等;

4.构建训练框架测试体系,覆盖单元测试、集成测试、回归测试等;

5.建设工具和服务的自动化容器构建流程;

6.异构集群训练案例管理和运行工具开发。

任职要求:

1.本科及以上学历,计算机、通信电子等相关专业,3年以上DevOps相关经验;

2.深刻理解计算机原理,有良好的数据结构和算法基础,扎实的编程能力;

3.熟悉Linux环境下编译、调试、测试、检测、分析工具;熟悉至少一种脚本语言,如Shell、Python 等;

4.对DevOps、CI/CD 有深刻理解,熟练使用相关工具,如Gitlab CI/CD、Jenkins、Travis CI 等;

5.了解至少一种深度学习训练框架,如TensorFlow、PyTorch、Caffe等; 

6.态度务实、责任感强,具有较强的自我驱动、学习能力及良好的沟通协调能力,能自主分析及解决问题;

7. 有并行计算、分布式存储、异构计算等开发使用经验者优先;了解Slurm、LSF、PBS等高性能计算集群作业调度系统者优先;

8. 有Ansible、Saltstack、Puppet等自动化部署工具使用经验者优先;熟悉 Docker、Kubernetes 等容器技术和工具者优先。



测试开发工程师

岗位职责:

1.通过引入现有测试体系或内部开发推进训练框架研发中的测试自动化,提升整体测试效率;

2.构建训练框架测试体系,覆盖单元测试、集成测试、回归测试等;

3.规划性能测试方案,开发性能测试工具;

4.内部测试环境的建设和维护,测试用例管理等。

任职要求:

1.计算机、通信电子等相关专业本科及以上学历,3年以上测试开发相关经验;

2.深刻理解计算机原理,有良好的数据结构和算法基础及扎实的编程能力;

3.熟悉Linux环境下开发工具;熟悉至少一种脚本语言,如Shell、Python等;

4.对软件测试理论有深刻理解,有实际测试平台开发和自动化测试部署经验;

5.知道至少一种深度学习训练框架,如TensorFlow、PyTorch、Caffe等; 

6.务实、自我驱动、自主学习能力强。有较好的问题分析与解决能力、较强的责任感、良好的沟通与协调能力。



测试工程师

岗位职责:

1.定期升级与细化训练框架测试用例并优化测试流程;

2.对开发的新功能和构建的模型进行测试;

3.对发现的bug/问题进行管理和分析,提升项目整体的研发质量。

任职要求:

1.本科及以上学历,计算机、通信电子等相关专业,3年以上软件测试工作经验;

2.深刻理解软件测试基本理论,熟悉相关的测试方法;有代码覆盖测试相关经验者优先;

3.熟悉Linux环境下开发工具;熟悉至少一种脚本语言,如Shell、Python 等;

4.具备一定的算法/模型实现能力,有深度学习编码与调试经验者优先;

5.了解至少一种深度学习训练框架,如TensorFlow、PyTorch、Caffe等; 

6.态度务实、责任感强,具有较强的自我驱动、学习能力及良好的沟通协调能力,能自主分析及解决问题。



容器工程师

岗位职责:

1.推动容器云在产品研发上的实施;

2.维护实验室容器云的稳定和安全;

3.与团队成员协作,优化容器云在分布式计算环境的性能;

4.与团队成员分享经验和新技术,帮助团队不断成长。

任职要求:

1.计算机、通信电子等相关专业本科及以上学历,3年以上容器运维或开发经验;

2.深刻理解计算机原理,有良好的数据结构和算法基础及扎实的编程能力;

3.熟练掌握 Golang 语言,具备 Python、C++或其他语言的开发经验;

4.熟悉容器底层网络解决方案、存储实现机制;具有k8s、Swarm或其他容器集群资源调度平台使用经验;

5.熟悉 DevOps流程,了解开源 CI/CD技术工具;

6.了解至少一种深度学习训练框架,如TensorFlow、PyTorch、Caffe等; 

7.态度务实、责任感强,具有较强的自我驱动、学习能力及良好的沟通协调能力,能自主分析及解决问题。



工作地点

上海、北京

应聘方式

r@pjlab.org.cn;

抄送wangliwei1@pjlab.org.cn

邮件标题请注明:

AI训练与计算应聘-姓名-岗位名称。

方式二

扫码查看岗位,投递简历:





免责声明:
1、本站部分内容来源于网络,若来源标注错误或侵犯了您的合法权益,请及时与我们客服联系,我们将及时更正、删除或依法处理。
2、以培训或任何理由收取费用、索要财物、扣押证照,均涉嫌违法。
3、客服邮箱:lhealth@qq.com



相关招聘:

  1. 招聘.中国电信数字智能科技分公司全球招募AI人才
  2. 浦江实验室视觉传感器团队|全球招聘
  3. 社会招聘 | 蕾奥规划:交通与土地利用仿真实验室&智慧城市创新中心联合招聘计划
  4. AI全职招聘信息——5.25
  5. 300/天!AI独角兽-旷视科技招聘!周末双休不打卡!
  6. 招聘 | 小红书-校招-NLP预训练方向-北京/上海


微信扫一扫:订阅全国新工作!