当前位置:首页 >> 人工智能 >> 正文

All in深度学习!辉达黄仁勋于GTC宣布软硬体全面升级

来源:481134x资讯网 2020-05-25 02:57:37 
All in深度学习!辉达黄仁勋于GTC宣布软硬体全面升级 三年内营业额成长一倍,拼命把人工智慧贴在自己招牌上的NVIDIA,股价也当然跟着水涨船高。这10 个月来,深度学习市场又有哪些进展,黄仁勋又看到些什么? 由NVIDIA 辉达(NASDAQ:NVDA)所主导、赞助支持之2018 年GPU Technology Comference (图形处理器技术研讨会,后简称GTC),在美西时间2018 年3 月26 日起于美国旧金山湾区南湾的圣荷西会议中心展开。第二天一早的重头戏为台裔美籍、 NVIDIA 创办人兼执行长黄仁勋(Jensen Huang)的主题演说。 延续去年开场的I am ai 系列,NVIDIA 今年介绍更多深度学习的相关应用,例如医疗影像切片、智慧制造领域机器手臂控制、影像辨识用于捡货、品质管制、机场或公众场所影像辨识供安全或公众利益需求等方面的应用,演讲伊始,黄仁勋首先介绍GPU 已经广泛被设计、建筑、影像工作室(studio)等领域,用在模拟运算实际影像,例如光影反射与呈现等领域。 从1979 年发展,到早期只能够在数小时计算、描绘出一张以假乱真的模拟图片,到现在GPU 已经可以支援解析度高达4K,每秒60 张的即时影像输出。透过动作捕捉,电影工作者甚至可以在短时间模拟拍出即时场景影像呈现。 黄仁勋于GTC 2018 专题演说 ▲黄仁勋于GTC 2018 专题演说 NVIDIA 也顺势推出以Volta 为基础的新一代显示卡Quadro GV100,除可支援32GB 记忆体,也可透过NVLINK 2.0 支援多GPU,并最高可扩充至64GB。以显示卡为主体支援的图像描绘领域应用非常广泛,主要包含游戏、媒体与娱乐、产品设计与建筑等领域,每年透过GPU 描绘的影像以数十亿帧计算。 基于Volta 微架构的硬体再升级!同时推出NVSwitch 支援更多GPU 平行运算 NVIDIA 延续去年推出的Volta 微架构、引入为人工智慧特化的Tensor Core 的TESLA V100,在市场对人工智慧运算的强劲需求下,持续推升架构周遭的硬体效能。首先,由于市场对人工智慧运算模型的总处理资料量持续放大, Tesla V100 GPU 可以支援去年两倍的记忆体容量达32 GB,来缓解对记忆体有高度限制的高效能运算。除DGX 系统可立即全面支援,主要的伺服器生产商IBM、Supermicro、HPE、联想、Cray 与Tyan 预计也将在2018 年Q2 推出相应产品,甲骨文云端基础设施(Oracle Cloud Infrastructure)也预计将在下半年推出相应服务。 NVIDIA也针对支援CPU分配GPU工作,并让GPU与GPU间可以联络,拥有300 GB/s传输速度的NVLink 2.0协定(主要支援厂商有IBM Power与NVIDIA GPU)进行升级。其方法并不仅是在协定上增加更多频宽,而是模仿网际网路或主机上常见的多汇流排交换解决方案,提供一个新的选项:交换器(Switch)。很没创意,让人一看命名就知道在干什么的 NVSwitch延伸拓展了NVLink协定的应用。以台积电12奈米FFN制程工艺的新交换器装置,容许16颗GPU以2.4 TB/s的速度同时进行资料交换,因此允许开发者在伺服器上平行训练更多神经网络。目前拥有82万开发者,相较去年成长接近一倍的CUDA运算平台也随硬体同步更新支援NVSwitch。 黄仁勋于GTC 2018 专题演说 ▲黄仁勋于GTC 2018 专题演说 辉达强调,去年结合Volta 架构,针对深度学习、人工智慧应用推出的DGX 系列大获好评,因此推出主要供资料中心使用的DGX-2,透过NVSwitch 搭载16 组TESLA V100(恰巧是DGX 1 的两倍)。在NVIDIA 的技术报告中,针对Facebook Research 所推出,使用以列对列学习、基于Torch 架构的神经机器翻译(英法、英德、英文对罗马尼亚文翻译)工具集fairseq 上,甚至可以测得10 倍于DGX-1 的效能表现。据此,今年NVIDIA 自身的DGX 产品线将包含DGX-2(定价399,000 美金,约合1200 万台币)、DGX-1(定价:149,000 美金) 与DGX Station(定价:68,000 美金)。相较于透过纯CPU 主机构建资料中心而言,「买越多(GPU),省越多!(The more you buy, the more you save!)」 软体跟上!主流云端运算服务皆支援,搭配绵密布局、方便各类开发者生态系 让辉达足以跨云端平台与资料中心,建立GPU as a service (GPUaaS)的NVIDIA GPU Cloud 也在近日做出更新,除全面支援kubernetes 外,也正式横跨AWS(Amazon Web Service)、GCP(Google Cloud Platform)、阿里云与Oracle 云。支援更多深度学习、高效能运算等框架。 黄仁勋发明一套PLASTER 理论,用以评估深度学习或机器学习系统整合是否足以支援商业应用。包含: 可程式化能力,Program ability 服务反应速度,Latency 模型应用精确度,Accuracy 神经网络模型大小,Size 生产总量,在此指资料中心运算力,Throughput 能量消耗程度,Energy Efficiency 深度/机器学习模型的训练、推论、布署速度,Rate of Learning 黄仁勋于GTC 2018 专题演说 ▲黄仁勋于GTC 2018 专题演说 黄仁勋认为,人工智慧应用中,训练模型所需要的仅仅是运算力,但需要布署模型快速运算的推论端最显复杂。虽然有许多企业强调可透过FPGA 或特制ASIC 来加速特定深度或机器学习应用,但黄仁勋强调,资料中心非常复杂,一点都不简单。对大型资料中心,好开发易维护才是重点,是否容易程式化、方便开发者快速布署,是人工智慧应用的关键。 NVIDIA 今日也同步宣布可在资料中心、嵌入式系统与车用终端运作,可快速最佳化、验证与布署多GPU 神经网络训练的TensorRT 4 的更新;除与Google 合作,整合TensorFlow 1.7 之外(相比未最佳化GPU 运算可高达8 倍速),也家务更多深度学习推论应用领域,例如神经机器翻译(neural machine translation)、自动语音辨识(automatic speec recognition)、语音合成(speech synthesis)与推荐系统(recommendation systems)等。 为了方便神经网络训练的资料快速交换,NVIDIA 也与Amazon(MXNet)、Facebook(Caffe 2) 与微软合作,TensorRT 4 也宣布支援ONNX 框架,帮助使用MXNet、PyTorch、Caffe 2 等主流深度学习开发框架的使用者可以快速交换模型训练数据。透过TensorRT 4,开发者也可以快速将最新的深度学习运算应用推论,以16 位元半精确度(FP16)、或8 位元整数(INT8)精度,快速布署至终端自动驾驶系统,如NVIDIA DRIVE 或NVIDIA Jetson 上。

除特别注明外,本站所有文章均为原创,转载请注明出处来自