0%
黄教主演讲
- GPU在各个行业中的应用:游戏,电影,模拟软件,HPC(基因测序),AI…
- Cuda on Arm,加速高性能计算
- AI 复兴: alexnet图像领域, bert NLP领域
- AI引擎-GPU
- 深度推荐系统-互联网的引擎
- TensorRT 5
- TensorRT 7
- CNN and RNN,Transformer
- 1000多种变换
- 低延迟,会话AI成为可能
- 为智能云提供支持
- 万物智能革命,边缘计算
- 边缘智能,AI靠近作用点
- 机器人平台,4种SDK
- 自动驾驶
- 医疗
- 非结构化环境导航和关节控制
- 通用机器人
GPU虚拟化
- vGPU10.0发布
- vGPU性能比GPU损耗10%左右
- GPU虚拟化的价值:适配多种场景需求
- GPU虚拟化下的产品形态
- 云上的实践:弹性容器服务
- vGPU价值:安全性,故障监测,热迁移,粒度更细,池化
- vGPU在云上可以做到算力细化和算力多样化,算力匹配可以降低客户成本。灵活性,可用性,安全性
美团案例分享
腾讯如何构建AI+强化学习平台
- 算力挖掘:CPU, GPU虚拟化: 人->物理机-》人->卡-》任务->卡
- 并行强化框架
- 训练加速
- 通信优化:NCCL2+ RDMA,梯度融合(多次梯度传输合并为一次),混合层次算法
- IO优化:IO隐藏,多线程+无锁队列+共享内存
- fp16数据输入
- GPU推理加速
- 性能
- 使用GPU TensorRT
- Refit
- tensorflow model -> tensorrt model
- 流量
飞浆并行训练与应用
- 同步算法,任务特点:通信密集,延迟敏感,显存瓶颈
- 基础组件:Collective Operators
- MPI原语封装为高级api,提高易用性。Fleet API
- 低配网络环境下的GPU并行
- 变频通信。降低通信次数,每块卡训练多步通信一次。
- 稀疏通信,梯度稀疏化
- 有限显存下提升batch的方式
- 显存回收,删除中间变量,需要用到时重新计算(重新计算时与通信进行overlap,减少计算时间)。时间换空间
- 基于模型并行的超大规模分类
- item过多,最后一层全连接层太大,内存装不下——模型并行:分治策略+模型并行训练。
阿里云飞天AI加速解决方案
- AI三大要素:数据,算法,算力
- 飞天AI加速器(一个库?),统一加速各种训练框架。加速器有个接入层,接入到各个框架。IaaS层面优化,计算,通信,存储等。
- 即刻构建——AI工作流:省时,省钱,易用
- K8s容器AI解决方案
- 分布式训练加速性能优化
- 通信计算重叠 异步通信梯度
- 延迟优化 去中心化方式聚合梯度
- 带宽优化 拓扑结构分级通信,混合精度传输梯度,多梯度融合通信,动态分片通信,融合粒度分片通信动态调整
GPU云计算平台给AI实现真正普惠
- AI产业价值:物流,城市,金融。。。
- AI开放平台
- 京东云解决方案
- 技术能力对外输出:AI,区块链,大数据,物联网,安全,云计算