【aicon】硅谷视野 中国实践,汇聚全球顶尖技术的 ai 科技盛会 >>>
写点什么

英伟达发布基于深度增强学习的电路设计方法prefixrl-金马国际

作者:claudio masolo

  • 2022-08-08
  • 本文字数:1247 字

    阅读完需:约 4 分钟

英伟达发布基于深度增强学习的电路设计方法prefixrl

英伟达发布,一种基于强化学习(rl)的方法,用它设计的并行前缀电路比用最先进的电子设计自动化(eda)工具设计的并行前缀电路更小、更快。

 

gpu 中各种重要的电路,如加算器、递增器和编码器被称为并行前缀电路。这些电路是高性能数字设计的基础,可以在更高的级别上被定义为前缀图。prefixrl 专注于这类运算电路,其主要目标是了解 ai 代理是否可以设计出一个好的前缀图,因为这个问题的状态空间是 o(2^n^n),所以不能使用暴力破解的方法解决。

 

理想的电路应该体积小、速度快、耗电少。英伟达发现,功耗与电路的面积密切相关,但电路面积和延迟往往是相互竞争的特性。prefixrl 的目标是找到面积和延迟之间的有效权衡:在更小的面积上安装更多的电路,减少芯片的延迟,以提高性能和减少功耗。

 

是英伟达最新的架构,有近 13000 个电路是由 ai 设计的。

 

prefixrl 代理是用全卷积神经网络(q-learning 代理)进行训练的。q 网络的输入和输出都有一个前缀图的网格表示,网格中的每一个元素都唯一地映射到一个前缀节点。输入网格中的每一个元素表示节点是否存在。在输出端,每个元素表示用于添加或删除节点的 q 值。prefixrl 代理分别预测面积和延迟的值,因为这些属性在训练时是分开观察的。

 


前缀图表示(左)和完全卷积 q-learning 代理架构(右)

 

rl 代理可以在前缀图中添加或删除节点,在强化学习任务的每一个步骤中,代理都会收到相应电路面积的改进和延迟作为奖励。在其他步骤中,设计过程是这样的:合法化前缀图,始终保持正确的前缀和计算,然后根据合法化前缀图生成一个电路。最后,用物理合成工具对电路进行优化,设计过程的最后一步是测量电路的面积和延迟特性。

 

面积和延迟之间的最佳权衡,即设计的帕累托边界,是通过训练大量不同权重(从 0 到 1)的代理来获得的。因此,在 rl 环境下的物理综合优化可以产生各种各样的金马国际的解决方案。这个合成过程很慢(64 位加算器大约需要 35 秒),计算量也很高,物理模拟每个 gpu 对应 256 个 cpu,64 位的训练需要超过 32000 个 gpu 小时。

 

对于这种 rl 任务,英伟达开发了 raptor,一个内部分布式强化学习平台,利用了英伟达的硬件优势。提高这类 rl 任务可伸缩性和训练速度的核心特性是:作业调度、gpu 感知的数据结构和自定义网络。为了提高网络性能,raptor 能够在(用于点对点传输,直接从学习 gpu 传输模型参数到推断 gpu)、redis(用于异步操作和较小的消息传输,如奖励或统计)和 jit 编译的 rpc(用于处理高容量和低延迟的请求,如上传经验数据)之间切换。

 


英伟达的框架支持并行训练和数据收集

 

raptor 提高了训练速度,让代理无需等待通过环境的步骤,这要归功于 cpu worker 池并行执行物理合成。为了避免相同状态下的冗余计算,当 cpu worker 返回奖励时,转换被插入到重放缓冲区中,奖励被缓存下来。

 

在相同的延迟条件下,rl 加算器比 eda 加算器面积小 25%,而且结构不规则。这一成绩是通过 rl 代理学习利用合成电路特性的反馈从头设计电路来实现的。

 

原文链接


 

公众号推荐:

跳进 ai 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 ai 如何成为产业创新的新引擎?好奇哪些城市正成为 ai 人才的新磁场?《中国生成式 ai 开发者洞察 2024》由 infoq 研究中心精心打造,为你深度解锁生成式 ai 领域的最新开发者动态。无论你是资深研发者,还是对生成式 ai 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「ai前线」公众号,回复「开发者洞察」领取。

2022-08-08 10:293786

评论

发布
暂无评论
  • 这款框架不仅适用于高级研究人员,而且还能让初学者实现颇为简单的算法——这和对初学者与专家都很友好的tensorflow和pytorch差不多。

  • 谷歌在芯片领域又一新进展。

  • 追求更小、更快、更高效

  • gpu 能否保住人工智能世界“cpu”的宝座?

  • 以感官神经元为转换器:用于强化学习的置换不变神经网络

    相比人类,大多数的神经网络完全无法适应感官的替换。

  • 微软和谷歌于近日发布了各自的新型分布式深度学习模型训练框架,本文基于其研究论文做概要解读。

  • 要构建出能够实现图像分类的cnn,我们通常需要把“卷积 池化”的组合重复搭建几次,形成深度卷积网络。

    2021-09-22

  • 这些新进展不仅将深度学习训练推向极致,而且还为更多人实现了深度学习训练自由

  • 今天我们会重点学习opengl es的渲染管线,以及渲染管线中留给开发者书写的顶点着色器和片元着色器两个阶段

    2022-08-01

  • 2023-02-15

  • deepmind新项目的目标是创建“一个人工代理,其行为可以超越它所训练的游戏集,提供更强的泛化能力”。

  • 人工智能为人工智能设计芯片的良性循环似乎刚刚起步。

  • 谷歌如何使用人工智能来推进定制芯片的内部开发,从而加快软件开发

  • 今天我就来为你解读unet的核心知识。搞懂了这些,在你的日常工作中,便可以根据实际需求对预测噪声的模型做各种魔改了,也会为我们之后训练扩散模型的实战课打好基础。

    2023-08-02

  • 大规模训练ai模型并非易事。

  • mit 的研究者提出了激励软件代理(agent)以探索其所处环境,以及修剪算法来提升 ai 应用程序性能的新方法。

  • 如果你想购买一块新gpu,主要看哪些特性呢?gpu内存、内核、张量核?如何做出有成本效益的选择?

  • soundstream是改进机器学习驱动的音频编解码器的重要一步。

  • risc-v遵循的是大道至简的原则,今天我们聊聊risc-v到底在cpu设计上有哪些优势?

    2022-08-05

  • 先睹为快,看看我们最后做出的迷你cpu长什么样子。

    2022-09-29

发现更多内容
金马国际
网站地图