大模型参数跨越千亿的时代,人们对算力的需求也在一路飙涨。以OpenAI GPT系列的版本演进为例,从GPT-1(2018.06)到GPT-2(2019.02)、GPT-3(2020.05)、GPT-3.5(2022.11)、GPT-4(2023.03),参数量和语料库持续升级。目前AI超大模型的参数已经达到千亿,甚至万亿数量级。海量数据在对训练场景下的算力和显存提出高要求的同时,也对芯片接口的性能提出新的挑战。因为AI算力的提升方式,除了依靠单体GPU卡的算力迭代,还需要高速的芯片互联技术作为支撑,从而实现多颗GPU之间的高效聚合、提升GPU算力的可扩展性,进而形成强大的集群算力。为提升异构并行处理超大数据量的效率,板上芯片间互联、片内Die间互联总线均需升级。
近日,在ICCAD 2023大会上,上海合见工业软件集团子公司北京诺苪集成电路总经理杨凯就此话题发表了演讲,探讨如何应对访存带宽和容量的高速增长,以及在提供更高互联带宽、支持大规模组网中,接口IP厂商所能发挥的作用。
大算力芯片:性能和规模要求越来越高
半导体IP与EDA相同,均属集成电路的上游核心产业,对IP核的开发和复用极大促进了芯片设计的快速发展。半导体IP研究机构IPnest报告显示,2022年设计IP市场规模66.7亿美元,但从市场价值来看,却撬动了5000多亿美元的半导体产业不断发展。
接口IP作为半导体IP的重要组成,近年来受HPC、异构计算等兴起的推动,市场快速发展。根据杨凯的介绍,近期大热的大模型和AIGC也在催生接口IP的市场需求。有消息称,ChatGPT的训练就使用了1万张英伟达的高端GPU。数量庞大的GPU需要集群在一起进行训练。同时,AI训练、推理所面对的数据量呈指数增长,使得无论单服务器中多GPU、CPU间C2C通信,还是在多服务器间组网,数据传输总体都呈现出高带宽、低延迟的技术需求。这对于IO吞吐的要求也会提高,对高速接口IP带来了多方面影响。
正是由于接口芯片与接口IP重要性不断提高,合见工软对于高性能接口IP领域作了布局。2023年5月,上海合见工业软件集团有限公司完成对北京诺芮集成电路设计有限公司的收购,进入设计IP市场,并大大加速了诺芮原有IP在头部企业的商业拓展和新产品推出进程,不到一年时间即推出首款自主知识产权的全国产PCIe Gen5完整解决方案UniVista PCIe Gen5 IP。
杨凯强调,合见工软成立以来,除数字芯片全流程EDA工具以外,在设计IP领域也深入布局,就是希望在接口IP方面提供优质高效的产品,帮助国内AI芯片企业,在组网能力、访存能力上更进一步,实现更好的性能。
Ethernet:低延迟性能国内领先
Ethernet芯片有着广泛的应用,包括信号调制解调、数据传输接口的驱动和接收等,其在人工智能中也有着重要的作用。AI技术需要处理的大量数据通常来自于网络或云计算中心的数据中心,这些数据需要通过高速、稳定的网络传输来实现,而以太网是一个被广泛应用的网络传输标准,以太网物理层芯片也是保证以太网传输质量的一个重要组成部分。
根据杨凯的介绍,合见工软子公司北京诺芮从2018年开始就在设计Ethernet IP。目前公司的产品已经大量应用于数据中心当中,国内主流的交换机芯片、GPU芯片、OTN芯片供应商等几乎都有采用。合见工软的Ethernet IP有着优越的性能,包括集成低延迟的以太网控制器(<100ns@400G),支持1G至800G各种接口类型的以太网控制器,支持OIF定义的完整FlexE解决方案,支持1ns精度的1588时戳产生,提供AXI-S、General FIFO、TDM等多种用户侧接口,提供基于Descriptor的DMA功能等。
支持低延迟对于数据中心来说非常重要,尤其是将其使用在访存应用当中时。传统上,处理单元的访存操作大多通过SRAM、DDR等,延迟都很低,几乎是几纳秒到几十纳秒数量级。如果以太网、交换机的访存延迟太高,内部的执行效率就会大幅下降,影响AI系统的性能。合见工软以太网控制器的延迟在400G的速率下可以小于100纳秒。
其他几个方面也很有特色,比如1588的时间戳是业内能提供的最高对时精度方案;可以提供多种用户侧的接口类型,包括AXI-S、General FIFO、TDM等多种用户侧接口;可以支持OIF定义的完整FlexE解决方案,这是一个可以把以太网的端口切到更小程度的解决方案。
随着AI技术的不断推广和发展,通过以太网物理层芯片实现的高速、稳定的数据传输变得更加重要。在AI模型训练和推理过程中,网络通讯的效率和延迟都可以影响AI系统的性能,而以太网物理层芯片正是一个能够从物理层面保证网络通讯质量的技术。
RDMA芯片:解决网络拥塞具优势
RDMA IP是合见工软另一个重要的系列产品。RDMA可以解决网络传输中服务器端数据处理的延迟,通过网络把资料直接传入计算机的存储区,不对操作系统造成影响。随着计算机视觉、自然语言处理、自动驾驶等场景人工智能应用的落地和快速增长,应用对海量算力的需求以指数级别增长,这对基础设施提出了大规模、分布式、高性能的挑战。通过RDMA消除多GPU跨节点通信的网络瓶颈,显著降低了训练任务整个周期中的通信耗时占比,提高了GPU集群计算资源利用率和训练效率,也为集群横向扩展到更大规模时的线性加速比提供了保证。
合见工软根据用户需要,推出完整的RDMA解决方案。除了支持现在标准的RDMA RoCeV2解决方案之外,还形成一些自身特色。比如在解决误码方面就形成了差异化优势,现在的网络在连接时往往会产生误码,一旦出现误码就会产生错误重传,而重传则会降低整个链路的效率,甚至形成拥塞的场景。
之所以英伟达的NVLink协议具有较高的传输效率,重要原因之一是它在解决拥塞的时候有一套完整的方案。而RDMA协议的RoCeV2方案在解决拥塞问题上能力较弱。针对这个问题,合见工软提出了一套针对AI应用,支持无损传输的L1 Retry/L2 Retry功能解决方案,通过这套解决方案可以提供一套无损的网络连接给到AI芯片去组网。大模型的训练需要用到上千张计算卡,难免会出现丢包现象。一旦出现丢包,整个系统的处理数据效率就会受到极大影响。如果有无损网络的支加持,整个模型的训练效率将会大幅提高。
PCIe与Chiplet:IP产品各具特色
杨凯还介绍了新推出的PCIe&CXL接口IP解决方案。在多GPU系统内部,GPU间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈。合见工软推出的全国产解决方案,设计了一个支持CXL和PCIe协议的Combo架构,支持CXL2.0的协议栈;PIPE接口可支持多版本协议,包括v4.4,v5.2等;提供UCIeV1.1 FDI Protocol Interface;支持标准的TLP接口或者AXI接口等。
目前,CXL技术的应用场景非常广泛,包括数据中心、人工智能和处理器互联等领域。通过合见工软相关产品的助力,芯片厂商将在处理器互联方面,提升不同处理器之间的互联能力,提高系统的整体性能和灵活性。
Chiplet同样是当前业界热点。随着Chiplet市场的升温,把芯片切分成不同的小芯片并互联,推动了相关接口IP市场的新需求。特别是在布局Chiplet的Die to Die接口方面,通过Die to Die互联和Fabric互联网络,能够将更多算力单元高密度、高效率、低功耗地连接在一起,实现超大规模计算。
杨凯表示,目前合见工软的Chiplet IP,已经有多家国内用户在使用或者评估当中。之所以能够得到用户的青睐,得益于良好的适用性和差异化优势。合见工软的方案创新性地将内部划分成算力Die和I/O Die两部分,I/O Die集成以太网、PCIe,DDR等高速接口的协议栈,通过低功耗的UCIe接口与算力Die进行超低延迟的互联。而算力Die则是一个相对纯粹的逻辑Die,可以在更先进工艺上获得更好的算力。同时,合见工软还通过HBM3子系统设计和相关封装设计,结合Silicon Interposer,封装厂和HBM3颗粒厂商,为客户提供端到端的HBM3整合方案。
通过将CPU、GPU、NPU高速连接在同一个系统中,实现芯片级异构,Chiplet可以极大提高异构核之间的传输速率,满足大模型参数需求。相关接口IP也展现出越来越强的市场发展潜力。
关于合见工软
上海合见工业软件集团有限公司(简称“合见工软”)作为自主创新的高性能工业软件及解决方案提供商,以EDA(电子设计自动化,Electronic Design Automation)领域为首先突破方向,致力于帮助半导体芯片企业解决在创新与发展过程中所面临的严峻挑战和关键问题,并成为他们值得信赖的合作伙伴。
了解更多详情,请访问www.univista-isg.com。