欢迎光临苏州聚永达电子科技有限公司官方网站!

全国服务热线: 17310315537

新闻资讯

NEWS

联系我们

CONTACT US

苏州聚永达电子科技有限公司

联系人:马经理

手机:17310315537

邮箱:mayong@hvpsc.com

地址:苏州市高新区滨河路 588号3幢1011室

网址:www.hvpsc.com

产品动态

当前位置:网站首页 > 电源资讯 产品动态

业界合营的愿景是开辟一款人工智能(AI)处理器,它可为神经收集处理练习与推理等义务,甚至可能出现一些新的自我进修技巧;这种AI处理器还必须能经由过程大年夜范围的平行化方法供给强大年夜的机能,同时具有高功能且易于编程... 由亚马逊(Amazon)、Google和Facebook等收集巨擘所收集的大年夜量数据集,正推动处理这些巨量数据的新芯片中兴。 估计在六月底的年度计算机架构大年夜会大将表态个中两项最新结不雅。 史丹佛大年夜学(Stanford University)的研究人员将介绍一种可重设备处理器——Plasticine,它可支撑比FPGA更高近100倍的每瓦特点能,同时也更易于编程。 此外,Nvidia的两名资深设计人员定义了一款推理处理器,可供给较现有组件更高2倍机能与能源效力。 这些芯片象征着这项义务的冰山一角。 以前一年来,英特尔(Intel)收购了三家机械进修创虻公司。 而其竞争敌手——三星(Samsung)则连手Dell EMC投资英国公司Graphcore,这是该范畴的六家自力新创公司之一。 Nvidia正致力于推动其GPU作为神经收集练习引擎的发卖。 同时,该公司也正调剂其芯片架构,使其得以更有效地处理这些义务。 Google则声称其宏大年夜的x86 CPU丛集以及Nvidia的GPU均不足以胜任这项处理义务。 是以,Google推出了自家的两款加快器版本——Tensor处理器(TPU)。 Graphcore履行长Nigel Toon说:“如今恰是“运算2.0”(Compute 2.0)的时代,它象征着一个全新的运算世界。 Google最终将应用以TPU为基本的机架构造,几乎不应用任何CPU,因为它有98%的营收都来自搜寻——这恰是机械进修的幻想应用。 ” 最终,机械进修芯片将涌如今广泛的嵌入式体系中。 以汽车每年卖出1,800万辆和办事器约1,000万套的年发卖量来看,Toon说:“主动驾驶车应用可望为这项技巧带来一个比云端更大年夜的市场,并且是一个以往大年夜未存在过的市场。 ” 如今业界合营的愿景是开辟一款人工智能(AI)处理器,它可为神经收集处理练习与推理等义务,甚至可能出现一些新的自我进修技巧。 这种AI处理器还必须能经由过程大年夜范围的平行化方法供给强大年夜的机能,同时具有高功能且易于编程。 即使是这项开辟义务的根本数学也激发烧烈评论辩论。 Toon认为,16位浮点乘法与32位累加运算的组合,可以或许带来竽暌古化精确度以及最小误差。 这恰是Nvidia Volta架构导入的Tensor核心所应用的门路,同时也是Graphcore将在本年10月出样给早期合作伙伴的高阶芯片。 该新创公司正专注于开辟一款采取新内存与互连的大年夜型芯片,该芯片并可外接至各类单位与丛集。
 由Kunle Olukotun带领的史丹佛大年夜学研究团队也有类似的目标,不过,他们采取了一条与Plasticine不一样的门路。 Olukotun说:“多核心时代即将停止…… 我们正处于一个现代应用法度榜样(app)改变运算模式的时代。 ”Olukotun曾经协助一家新创公司率先打造出多核心设计,该技巧最终成为Oracle基于Sparc处理器的一部份。 “对于机械进修的统计模型,真正须要的运算方法与古典切实其实定性运算门路截然不合,所以这将带来一个真正的机会。 ” 如同英国布里斯托的竞争敌手Graphcore一样,史丹佛大年夜学研究团队摒弃了共享一致的快取等传统思维。 史丹佛大年夜学数据科学筹划履行总监Stephen Eglash认为,Plasticine“最令人高兴之处在于硬件可在运行时从新设备,为特定计算方法实现优化。 ” Olukotun说:“我们的目标在于让拥有专业常识的任何人都能建立可临盆的机械进修体系,而不必定得由机械进修或硬件范畴的专家来做。 ” 为了实现这一目标,史丹佛大年夜学定义了一种新的说话Spatial,可将算法的各部份映像至平行处理器的各部份。 Olukotun说:“我们拥有完全的编译法度榜样流程,大年夜高层级的Tensor Flow架构到硬件出现。..。.. 事实上,它具有比FPGA更高10倍每瓦特点能,也更易于编程100倍。 ” Spatial类似于Nvidia的Cuda GPU编程说话,但应当更易于应用。 它能将诸如分散/收集或MapReduce等功能映像至硬件中的外显内存阶层架构,经由DRAM和SRAM实现串流数据集。 是以,Pasticine处理器“是一项软件至上的筹划,”Olukotun说。 Eglash认为在物联网的边沿节点正须要如许的技巧。 “我们所产生的数据将会比传送至云端的更宏大年夜,所以必须采取一些分布式的本地运算。 ” 短期来看,机械进修将为智能型手机带来“超等个性化”,针对用户的爱好主动量身打造。 别再为暗码和指纹伤脑筋了。 Eglash说:“你的手机可能在几秒内就知道你是不是本尊。 ” 在工业物联网(IIoT),推理义务已经被分派至网关了。 GE Digital云端工程主管Darren Haas说,“我们所打造的一切都可以被划分成较小的装配,甚至是Raspberry Pi 。.. 我们在云端建立了大年夜范围的模型,并使其得以在边沿履行于轻量级硬件上。 ” 史丹佛大年夜学的Plasticine架构 史丹佛大年夜学的Plasticine是一种全新的架构,可能是Graphcore等新创公司将会采取的技巧。 它充份应用了平行模式和高层级抽象,以撷取有关数据地位、内存存取模式和控制流程等细节,大年夜而在“一系列的密集与稀少应用长进行操作”。 在该芯片核心采取16×8的交错式图形运算单位(PCU)数组与图形内存单位(PMU),经由过程3个互连信道应用3种控制协定进行连接。 这款尺寸为113mm2的芯片采取Spatial将应用映像至数组上;相较于采取类似28nm制程打造的FPGA,该芯片可供给更高95倍的机能以及高达77倍的每瓦机能。 Plasticine在1GHz频率频率下的功耗高达49W,支撑12.3TFlops的峰值浮点运算机能,以及16 MB的芯片容量。 PCU是履行巢状模式之可重设备SIMD功能单位的多级管线。 PMU应用库存的缓存器内存和专悠揭捉址逻辑与地址译码器。 这些主单位和其他周边组件经由过程字级纯量、多字符向量和位级控制互连进行连接,且全部都采取雷同的拓扑构造。 各个连接都采取分布式的分层控制机制,以尽可能削减应用同步单位,大年夜而实现序列、流水线或串流的履行。 该门路简化了编译法度榜样映像并可进步履行效力。 “每个Plasticine组件均用于映像应用的特定部份:本地地址计算在PMU中完成,DRAM地址运算产生在DRAM地址治理单位,其余的数据运算则在PCU中进行。 ” Olukotun解释说:“本质上,它是一组高度库存的内存,支撑专用地址单位产生邻近的地址。 只需履行计算,即可让内存在精确的时光将数据串流至运算单位,而无需解译指令。 ” 该芯片采取四个DDR信道外接DRAM,并进行缓冲和治理,以尽可能削减芯片外处理。 Olukotun说:“很多机械进修都专注于建置卷积神经收集(CNN),但我们的目标是打造更灵活且涵盖稀赓续变更中的疏密集算法,闪开辟人员可以将其设计设法主意传达给硬件。 ” 研究人员采取周期精确仿真来合成设计的RTL,为线性代数、机械进修、数据分析与图形分析等义务产生基准。 他说:“我们欲望这些设计概念能直接用于芯片上,并筹划在6到18个月内进行芯片设计。 ” Nvidia研究人员打造稀少推理引擎 另一组由9名研究人员构成的研究团队(个中有7仁攀来自Nvidia)将介绍稀少卷积神经收集(SCNN)推理加快器。 钙揭捉究团队包含资深的微处理器设计人员Joel Emer(曾协助定义同步多线程),以及Nvdia首席科学家William Dally。 相较于同级设备的密集CNN加快器,SCNN可供给更高2.7倍的机能和2.3倍的能源效力。 该芯片采取较以往的研究更先辈的门路,可清除可有可无的数学运算,并专注于以最高效的办法处理CNN权重与启动。 此外,它采取了一种新的数据流,可在紧缩编码过程中坚前程疏权重与启动,大年夜而避免不须要的数据传输以及削减储存的需求。 此外,“SCNN数据流有助于将这些权重与启动有效地传递到乘法器数组,并在此广泛反复应用。 ” 该门路可让“较大年夜CNN的所有操作量保存在各层间的芯片缓冲区,完全不必应用大年夜范围收集所需的高成本跨层DRAM参考资本。 ” 该芯片的处理元素(PE)采取支撑权重和启动向量的乘法器数组。 该芯片采取16nm制程技巧,将64个PE与16个乘法器封装于7.4mm2模块中,使其尺寸略大年夜于类似的密集CNN加快器。 该论文并比较了SCNN与其他研究中的芯片。 然而,Dally猜测这款芯片“比商用推理加快器的效力更高,因为它应用的是稀少设计门路。 ” 如同Plasticine一样,今朝的研究结不雅是以仿真为基本,尚未制造芯片。 Dally说:“我们正为这款设计进行构造以及时序收敛。 ” Nvidia尚未宣布商用化SCNN技巧的任何筹划,但在研究论中指出,“我们正持续在这个范畴的研发工作。 ”
 后多核心时代的灵活性

推荐产品

首页 电话 联系