0%

GTC会议纪要

黄教主演讲

  • GPU在各个行业中的应用:游戏,电影,模拟软件,HPC(基因测序),AI…
  • Cuda on Arm,加速高性能计算
  • AI 复兴: alexnet图像领域, bert NLP领域
  • AI引擎-GPU
  • 深度推荐系统-互联网的引擎
    • 百度
    • 阿里
  • TensorRT 5
    • CNN
    • 30多种变换
    • 自动混合精度
  • TensorRT 7
    • CNN and RNN,Transformer
    • 1000多种变换
    • 低延迟,会话AI成为可能
  • 为智能云提供支持
  • 万物智能革命,边缘计算
  • 边缘智能,AI靠近作用点
  • 机器人平台,4种SDK
    • 自动驾驶
      • 迁移学习
      • 联邦学习,共享模型,不共享数据
    • 医疗
    • 非结构化环境导航和关节控制
    • 通用机器人

GPU虚拟化

  • vGPU10.0发布
  • vGPU性能比GPU损耗10%左右
  • GPU虚拟化的价值:适配多种场景需求
  • GPU虚拟化下的产品形态
    • IaaS产品:云桌面,云电脑
    • 行业产品:云游戏
  • 云上的实践:弹性容器服务
  • vGPU价值:安全性,故障监测,热迁移,粒度更细,池化
  • vGPU在云上可以做到算力细化和算力多样化,算力匹配可以降低客户成本。灵活性,可用性,安全性

美团案例分享

  • TF-serving应用

腾讯如何构建AI+强化学习平台

  • 算力挖掘:CPU, GPU虚拟化: 人->物理机-》人->卡-》任务->卡
  • 并行强化框架
  • 训练加速
    • 通信优化:NCCL2+ RDMA,梯度融合(多次梯度传输合并为一次),混合层次算法
    • IO优化:IO隐藏,多线程+无锁队列+共享内存
    • fp16数据输入
  • GPU推理加速
    • 性能
      • 使用GPU TensorRT
      • Refit
      • tensorflow model -> tensorrt model
    • 流量
      • GPU推理和训练机器在同一IDC机房

飞浆并行训练与应用

  • 同步算法,任务特点:通信密集,延迟敏感,显存瓶颈
  • 基础组件:Collective Operators
  • MPI原语封装为高级api,提高易用性。Fleet API
  • 低配网络环境下的GPU并行
    • 变频通信。降低通信次数,每块卡训练多步通信一次。
    • 稀疏通信,梯度稀疏化
  • 有限显存下提升batch的方式
    • 显存回收,删除中间变量,需要用到时重新计算(重新计算时与通信进行overlap,减少计算时间)。时间换空间
  • 基于模型并行的超大规模分类
    • item过多,最后一层全连接层太大,内存装不下——模型并行:分治策略+模型并行训练。

阿里云飞天AI加速解决方案

  • AI三大要素:数据,算法,算力
  • 飞天AI加速器(一个库?),统一加速各种训练框架。加速器有个接入层,接入到各个框架。IaaS层面优化,计算,通信,存储等。
  • 即刻构建——AI工作流:省时,省钱,易用
  • K8s容器AI解决方案
  • 分布式训练加速性能优化
    • 通信计算重叠 异步通信梯度
    • 延迟优化 去中心化方式聚合梯度
    • 带宽优化 拓扑结构分级通信,混合精度传输梯度,多梯度融合通信,动态分片通信,融合粒度分片通信动态调整

GPU云计算平台给AI实现真正普惠

  • AI产业价值:物流,城市,金融。。。
  • AI开放平台
  • 京东云解决方案
  • 技术能力对外输出:AI,区块链,大数据,物联网,安全,云计算