南海镇| 黎平| 仁化| 钦州| 广汉| 云集镇| 澄江| 台中县| 青海| 确山| 砀山| 务川| 德安| 宜城| 曹县| 和静| 科尔沁左翼后旗| 罗甸| 乾安| 禹州| 比如| 镇原| 张家川| 高阳| 珠穆朗玛峰| 桂东| 绍兴市| 田阳| 八宿| 铜仁| 从江| 福泉| 宁城| 株洲市| 雷山| 金坛| 鹰手营子矿区| 武当山| 丹凤| 宜兴| 濮阳| 汉南| 代县| 洮南| 雷波| 苍溪| 正宁| 武安| 个旧| 连山| 泗县| 张家界| 武山| 保康| 霍山| 德化| 泾川| 南昌市| 井陉矿| 乌当| 桑日| 潮南| 衡阳市| 朗县| 花溪| 怀仁| 新河| 萨迦| 鄂州| 永泰| 鄱阳| 德兴| 山东| 赣榆| 兴和| 九台| 绥棱| 滴道| 富顺| 凌海| 翁源| 单县| 武进| 孝义| 石台| 乐东| 曹县| 唐县| 蒙城| 龙泉| 凤山| 乡城| 勉县| 丹阳| 溆浦| 霍邱| 宁强| 叶城| 灌南| 莎车| 阿克苏| 平塘| 绥化| 大方| 乐亭| 台前| 博乐| 个旧| 赣榆| 大理| 昌平| 正安| 无为| 萨迦| 库伦旗| 汉川| 西乌珠穆沁旗| 大荔| 湾里| 利辛| 乐清| 衡阳市| 城固| 平邑| 塘沽| 崇信| 犍为| 永安| 丁青| 吉安市| 松江| 青浦| 韶关| 上海| 龙岩| 关岭| 石林| 滑县| 襄城| 梅州| 赣县| 博山| 漠河| 依兰| 海沧| 贞丰| 保亭| 海门| 滦南| 新田| 防城区| 平定| 台中市| 颍上| 镇安| 文昌| 饶平| 曲水| 马山| 祁门| 乐陵| 凤县| 新郑| 内蒙古| 沧州| 三台| 黄龙| 宿松| 衡山| 饶阳| 武功| 丰镇| 穆棱| 双牌| 阿荣旗| 惠安| 灌南| 锦屏| 连州| 涟水| 广宁| 苍南| 镇赉| 常山| 叶县| 蒙自| 霍山| 沧源| 礼县| 察哈尔右翼中旗| 桂阳| 睢县| 崇义| 三水| 保康| 昆明| 疏附| 安县| 徽县| 龙里| 南浔| 全州| 宁德| 涞水| 九龙| 定兴| 新丰| 融安| 金沙| 崇州| 伊金霍洛旗| 乐清| 围场| 德清| 顺义| 花溪| 吴起| 潮州| 宽城| 新泰| 儋州| 范县| 连州| 屏南| 申扎| 通化县| 广水| 察哈尔右翼前旗| 青白江| 林芝县| 茂港| 高密| 忻州| 景谷| 长子| 平川| 柘荣| 南芬| 札达| 霍州| 宁县| 郓城| 谷城| 覃塘| 阿克陶| 徽县| 南山| 武乡| 富拉尔基| 个旧| 嘉黎| 赣县| 杭锦后旗| 新平| 文安| 那曲| 开县| 柳城| 石阡| 宜秀| 彭州| 峨边| 德保|

全国政协副主席万钢当选中国科协第九届全委会主...

2019-08-24 04:22 来源:甘肃新闻网

   全国政协副主席万钢当选中国科协第九届全委会主...

    以他为核心的团队的研究成果标志着中国能够以空前绿色的方式分离高纯稀土,根据需求灵活稳定控制分离产品的质量,发展了我国稀土绿色高效的分离流程和产业。自蓄水以来,三峡工程防洪、发电、航运、补水、生态等巨大综合效益全面充分发挥,有力推动了长江经济带高质量发展。

密不透风的高科技监狱,在机器人的管理下似乎没有一丝破绽,然而一场越狱行动正有条不紊地进行着,终极交锋即将拉开帷幕!硬汉准备就绪,观众屏住呼吸,结局究竟如何,尽在6月29日影院内揭晓!  好莱坞越狱动作巨制《金蝉脱壳2》由史蒂文·C·米勒执导,西尔维斯特·史泰龙(《敢死队》系列)、黄晓明(《无问西东》)、戴夫·巴蒂斯塔(《银河护卫队》)、杰米·金(《罪恶之城2》)、柯蒂斯·杰克逊(《金蝉脱壳》)等联袂主演,奚梦瑶(《喜欢你》)客串,将于2018年6月29日在全国正式上映。  1月12日,美国贸易代表办公室发布《2017年恶名市场非定期回顾报告》,将中国纳入恶名市场名单。

  3、“国际在线”自有版权信息(包括但不限于“国际在线专稿”、“国际在线消息”、“国际在线XX消息”“国际在线报道”“国际在线XX报道”等信息内容,但明确标注为第三方版权的内容除外)均由国广国际在线网络(北京)有限公司统一管理和销售。  在强化合规经营方面,《通知》还明确规定了7种违规吸储和虚增存款行为。

    通常的建模过程,是由建模师针对这些数据和样本的结果,去进行调优,非常费时,可能一个模型从有数据,到最终模型建成,要消耗几个月的时间。绚烂精致的造型是《扶摇》此前一直被点赞的部分,从预告片中即可见杨幂扮演的扶摇多种造型出镜,女侠装、皇后装、男装、妃子装目不暇接,英气美艳霸气应有尽有,可以想象正片将是一场养眼的视觉盛宴。

郑元畅也坦言,沈世钧这个角色会与以往有些不同,更加天真烂漫,但在开化教育背景之下却有些十分传统的思想,作为中西方文化交融产物的他也将折射出许多时代的缩影,自己将抛开经典翻拍的压力,为观众呈现一个不一样的沈世钧。

    项目达产后,将带动中国石化产业实现技术和产业附加值全面提升,预计年综合税收将实现150亿元,拉动上下游产业,吸纳5万人以上就业。

    省环保督察工作动员会后,我们坚决落实省环保督察组和市委、市政府部署要求,成立了信访办理组,下设综合组、初审组、复审组,全面负责督察联络信访工作的组织领导、统筹协调和上传下达等工作。  央广网北京6月11日消息据中国之声《全球华语广播网》报道,由于5月12日国民议会选举持续陷入造假、舞弊的争议,本月6日,伊拉克国民议会投票通过议会选举法第三修正案,要求使用人工计票方式重新统计新一届国民议会选举全部选票。

  不管写的是警察、医生,还是留学生,都要写得像生活中的人。

  中国品牌日的设立有利于激发企业创新创造活力,提升产品品质,实现价值链升级,增加有效供给,提高供给体系的力量和效率。不过根据英国媒体报道,小镇四周甚是荒凉,想必喜欢热闹的英格兰球员需要多去圣彼得堡散心。

  据悉,黄子韬此次作为某国际知名品牌代言人受邀出席纽约男装周,更是他与纽约男装周的第一次浪漫携手。

  作为北京冬奥会延庆赛区总设计师,中国建筑设计研究院有限公司总建筑师李兴钢一周有四分之三的时间在延庆赛区忙碌着。

    《人民日报》(2018年06月11日15版)  同时,上海移动紧紧把握新时代信息通信发展脉搏,在全国率先启动NB-IoT物联网络建设和大规模无线网替换升级,积极培育网络能力、平台能力、大数据能力、团队能力、产业链能力、网络运维能力六大核心能力,提前储备未来网络演进能力,持续提升连接管理能力。

  

   全国政协副主席万钢当选中国科协第九届全委会主...

 
责编:
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷锋网 读懂智能&未来
人工智能 正文
发私信给程弢
发送

0

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

本文作者:程弢 2019-08-24 14:03
导语:从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。
加强生态文明建设,是满足人民美好生活追求的现实需要。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

在谷歌发布TPU一年后,这款机器学习定制芯片的神秘面纱终于被揭开了。

昨日,谷歌资深硬件工程师Norman Jouppi刊文表示,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU快15-30倍(和TPU对比的是英特尔Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。

从这次发布的测试结果来看,TPU似乎已经超出了业界的预期,但是藏在这一芯片背后的内部架构究竟有什么秘密呢,我们从Jouppi此前发布的论文当中,可以找到答案。

据雷锋网(公众号:雷锋网)了解,早在四年前,谷歌内部就开始使用消耗大量计算资源的深度学习模型,这对CPU、GPU组合而言是一个巨大的挑战,谷歌深知如果基于现有硬件,他们将不得不将数据中心数量翻一番来支持这些复杂的计算任务。

所以谷歌开始研发一种新的架构,Jouppi称之为“下一个平台”。Jouppi曾是MIPS处理器的首席架构师之一,他开创了内存系统中的新技术。三年前他加入谷歌的时候,公司上下正在用CPU、GPU混合架构上来进行深度学习的训练。

Jouppi表示,谷歌的硬件工程团队在转向定制ASIC之前,早期还曾用FPGA来解决廉价、高效和高性能推理的问题。但他指出,FPGA的性能和每瓦性能相比ASIC都有很大的差距。他解释说,“TPU可以像CPU或GPU一样可编程,它可以在不同的网络(卷积神经网络,LSTM模型和大规模完全连接的模型)上执行CISC指令,而不是为某个专用的神经网络模型设计的。一言以蔽之,TPU兼具了CPU和ASIC的有点,它不仅是可编程的,而且比CPU、GPU和FPGA拥有更高的效率和更低的能耗。

TPU的内部架构

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

该图显示了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。指令从主机发送到队列中(没有循环)。这些激活控制逻辑可以根据指令多次运行相同的指令。

TPU并非一款复杂的硬件,它看起来像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,尽管它有众多的矩阵乘法单元,但是它GPU更精于浮点单元的协处理。另外,需要注意的是,TPU没有任何存储的程序,它可以直接从主机发送指令。

TPU上的DRAM作为一个单元并行运行,因为需要获取更多的权重以馈送到矩阵乘法单元(算下来,吞吐量达到了64,000)。Jouppi并没有提到是他们是如何缩放(systolic)数据流的,但他表示,使用主机软件加速器都将成为瓶颈。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

256×256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出

从第二张图片可以看出,TPU有两个内存单元,以及一个用于模型中参数的外部DDR3 DRAM。参数进来后,可从顶部加载到矩阵乘法单元中。同时,可以从左边加载激活(或从“神经元”输出)。那些以收缩的方式进入矩阵单元以产生矩阵乘法,它可以在每个周期中进行64,000次累加。

毋庸置疑,谷歌可能使用了一些新的技巧和技术来加快TPU的性能和效率。例如,使用高带宽内存或混合3D内存。然而,谷歌的问题在于保持分布式硬件的一致性。

TPU对比Haswell处理器

在和英特尔“Haswell”Xeon E5 v3处理器来的对比中,我们可以看到,TPU各方面的表现都要强于前者。

在Google的测试中,使用64位浮点数学运算器的18核心运行在2.3 GHz的Haswell Xeon E5-2699 v3处理器能够处理每秒1.3 TOPS的运算,并提供51GB/秒的内存带宽;Haswell芯片功耗为145瓦,其系统(拥有256 GB内存)满载时消耗455瓦特。

相比之下,TPU使用8位整数数学运算器,拥有256GB的主机内存以及32GB的内存,能够实现34GB/秒的内存带宽,处理速度高达92 TOPS ,这比Haswell提升了71倍,此外,TPU服务器的热功率只有384瓦。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

除此之外,谷歌还测试了CPU、GPU和TPU处理不同批量大小的每秒推断的吞吐量。

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?

如上图所示,在小批量任务中(16),Haswell CPU的响应时间接近7毫秒,其每秒提供5482次推断(IPS),其可以实现的最大批量任务(64)每秒则可以完成13194次推断,但其响应时间为21.3毫秒。相比之下,TPU可以做到批量大小为200,而响应时间低于7毫秒,并提供225000个IPS运行推理基准,是其峰值性能的80%,当批量大小为250,响应时间为10毫秒。

不过需要注意的是,谷歌所测试的Haswell Xeon处理器似乎也不能完全说明问题,英特尔Broadwell Xeon E5 v4处理器和最新的“Skylake”Xeon E5,每核心时钟(IPC)的指令比这款处理器提升了约5%。在Skylake是28核,而Haswell为18核,所以Xeon的总体吞吐量可能会上升80%。当然,这样的提升与TPU相比仍有差距。

最后雷锋网需要强调的是,TPU是一个推理芯片,它并非是要取代GPU,可以确定的是,TPU与CPU一起使用对训练分析更加有益。但对于CPU制造商而言,如何研发出像ASIC一样兼顾性能和能效的芯片是现在以及未来要做的。

可以确定的是,谷歌已经逐渐在自己的数据中心部署TPU,但是上述测试数据只是理论结果,实际应用表现如何?我们还不得而知。

Via nextplatform,雷锋网编译

雷锋网版权文章,未经授权禁止转载。详情见转载须知

谷歌硬件工程师揭秘,TPU为何会比CPU、GPU快30倍?
分享:
相关文章

文章点评:

表情

略懂技术的小编

关注一切有未来感的产品及技术!
当月热门文章
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
后内 太平桥路 镇郊村 东外社区 军供站
三秀路 仙人畲 白泥池 古楼子乡 凉水井