710公海寰宇(中国)有限公司- 哪家中国芯片公司能「吃下」大模型？

导语：中国AI芯片公司的天花板，多是AMD。

哪家中国芯片公司能「吃下」大模型？

作者｜包永刚

编纂｜王亚峰

ChatGPT火爆时，浩然被两股抵牾的情绪夹于漏洞：一壁是高兴，一壁是哀痛。

作为一位AI芯片公司的高级软件工程师，ChatGPT年夜发作前夕，浩然对于本身介入研发的年夜算力AI芯片布满决定信念，他信赖为特定AI算法研发的专用芯片，比拟英伟达通用的GPGPU于划一功耗下可以有2倍的机能上风，价格可以做到50%甚至更低，只要软件体验不太差，客户必然会买单。

可ChatGPT掀起的年夜模子热潮，让浩然及偕行们都最先思索，AI算法是否有从百家争鸣走向年夜一统的可能。

这象征着，已往为特定范畴AI算法研发的专用AI芯片，因为计较负载特征的急巨变化，以前的性价比上风会被较着减弱，英伟达兼具高带宽、高互联特征的通用GPU上风将会进一步扩展，想要及英伟达竞争的难度更年夜了，这让浩然有些灰心。

但从本身事情的角度，AI算法的年夜一统可让硬件工程师及软件工程师事情的方针都更清楚，事情会难度降低，这是浩然欢呼的理由。

“我不信赖英伟达能一直连结领先。”芯片架构师宇阳连结决定信念，“GPU不见患上是年夜模子的最好解，中国AI芯片公司里必然会有能及英伟达掰手段的公司。

海内浩繁的AI年夜芯片公司，谁能吃下年夜模子市场？

芯片公司想喝口年夜模子的汤也不易

就算是英伟达恒久以来的竞争敌手AMD，于英伟达年夜口吃AI年夜模子肥肉的时辰，AMD也没喝上几多汤。综合实力不和AMD的海内草创公司们，就算嘴上高呼赶超英伟达，心里也清晰能做互联网公司的第二供给商，喝上年夜模子的汤就是巨年夜的乐成。

年夜模子火爆，全球的公司都于找英伟达买GPU。原先售价3万多美元的最新款H800 GPU，就算终端售价加价1万多美元依旧一卡难求。这类求过于供的盛况直接将英伟达的市值推向1万亿美元，创造了全世界半导体公司市值的新纪录。

“客户很希奇，就算AMD有机能不错的GPU现货，很多想要采办H800 GPU的人依旧不为所动。”一家AI芯片公司的高管道出想要逾越英伟达的难度。

技能身世，如今已经是芯片公司高管的洪杰深谙此中的原理，“客户对于AMD的要乞降对于英伟达产物的要求同样，有的时辰甚至更苛刻，客户愿意买单的替换产物是比英伟达的GPU自制，体验还有要差未几。”

“采购英伟达GPU量最年夜的公司还有没有第二供给商。”洪杰感叹，“不能不认可英伟达的强盛，现阶段不要说逾越英伟达，成为二供都很难。”

坚苦的工作往往收益很高，像是字节跳动这种年夜客户，每一年采购英伟达GPU的定单金额就靠近百亿元。只要能从英伟达嘴里分到几十亿的市场份额，就充足养活几家海内的AI芯片公司。

脱离AMD创业的人成为二供的几率会更年夜吗？接待添加文章作者微信BENSONEIT聊聊脱离AMD的人。

「跟随派」及「立异派」争抢年夜模子

海内AI年夜芯片草创公司很是尤其，有追随英伟达线路做GPGPU的草创公司，可以叫他们“跟随派”。也有另辟蹊径，设计AI专用芯片（也就是DSA，Domain Specific Architecture，范畴专用架构）的“立异派”。

这是一个很是有趣的征象，由于于外洋只有立异派没有跟随派，也就是没人选择走GPGPU的技能线路创业。

“所有人都知道，沿着英伟达的路径不成能逾越英伟达，这险些是不证自明的工作。而且，西方的创业者更喜欢做倾覆式立异。”洪杰阐发，“追求倾覆式立异的架构师们对于AI计较问题的理解与界说差别，天然也计出了各类差别的AI芯片架构。”

google界说的TPU专用性很强，是一个典型的范畴专用芯片DSA。被誉为全世界AI芯片独角兽的SambaNova Systems选择了可重构架构。Cerebras Systems走了一条直接用晶圆做芯片的路。英国AI芯片独角兽Graphcore创造了怪异的IPU架构。

海内也有多家走DSA路径创业的AI年夜芯片公司，好比寒武纪、昆仑芯、燧原科技、瀚博半导体、墨芯人工智能。

“选择DSA路径创业还有有一个上风，焦点IP设计门坎相对于较低。”芯片编译器专家德辉打了个比喻，

用搭乐高来理解设计GPGPU及DSA的难度，设计GPGPU就是面向18岁以上玩家的乐高，有很多邃密的小模块，拼起来难度年夜但作品很精良。设计DSA就像是面向5岁的乐高，模块更年夜拼起来更易。

“DSA的门坎可以很低，上限也能够很高。”宇阳说，“ GPU也是一个DSA。最初的GPU图形专用加快芯片，没有可编程性，厥后英伟达为其增长了通用性以后才酿成了GPGPU。”

英伟达将GPU变为公共认知里的通用芯片，也是经由过程了近20年的努力，从成立CUDA软件生态到成熟，让GPGPU能做图形加快，AI计较，科学计较。

“从技能维度，区分CPU及DSA可以看其是否能运行Windows、Linux如许的操作体系。”宇阳增补，“从这个角度看GPU依旧是DSA。”

只是于年夜部门人眼里，英伟达的GPGPU已经然成了一颗通用芯片，于当下最为火热的AI市场里求过于供。

早已经看到英伟达GPGPU强盛的中国创业者，直接选择了GPGPU架构举行创业，就像天数智芯、登临科技、壁仞科技、海飞科。

“选择GPGPU的路径虽然不克不及逾越英伟达，但有国产替换的刚需，并且这条线路可以经由过程多种技能方案做到‘兼容CUDA’，降低用户的软件切换成本。”浩然直言，“有了国产替换的需求，让中国年夜芯片创业公司有时机与英伟达竞争，而且终极必然会留下几家AI年夜芯片的公司。”

这时候谁能吃下年夜模子的问题就酿成了跟随派及立异派的时机谁更年夜？

两派相争，立异派已经死？

一个很是犀利的不雅点是，DSA已经死。这是一个极具争议性的话题，切磋这个话题可以添加作者微信BENSONEIT。

这类论调焦点的逻辑是英伟达编程性很强的GPGPU已经经经由过程了AI年夜模子的验证，于Transformer让AI算法趋在收敛的近况下，英伟达可以经由过程手工优化底层代码，高效调理底层硬件得到连续的机能晋升，让已经经流片量产的DSA再也不拥有设计之初的巨年夜机能上风。

“算法不确定的时辰，英伟达没有动力针对于某个算法做手工优化。这让针对于某类算法（好比CNN）的DSA可以有2倍甚至更多的机能上风。”浩然对于DSA的将来有些灰心，“此刻算法及模子收敛，英伟达举行手工优化可以充实开释出硬件的机能，每一一代CUDA进级城市带来10-20%的机能晋升。而经由过程底层硬件固化实现性价比上风的DSA要连续经由过程软件优化晋升机能的难度很年夜，极度的环境软件甚至没有多年夜的晋升空间。”

德辉从他擅长的编译角度注释，FlashAttention系列事情于年夜模子上的冷艳效果，恰是申明针对于特定模子（好比CNN类收集）的手工交融年夜算子是一种典型手腕，素质是经由过程手工将特定的模子子布局从存储受限（memory bound）转化成为了计较受限（compute bound），最年夜水平阐扬出了GPU的计较机能。

“这类方式只是做了局部的优化，手工成本比力高，也难以泛化到整个模子或者者新的模子。”德辉不认为DSA已经死，“只有拥有一个可以或许主动天生交融算子的编译器，GPU才能最年夜水平阐扬出机能上风。但英伟达的软件颠末十多年迭代，也还有没有如许的编译器，这是一个业界难题。”

比编译器更底层的芯片架构，也决议着计较AI年夜模子使命的效率。

宇阳也指出了GPU架构的局限性，GPU为了包管很强的编程性，于架构上借鉴了CPU的设计，芯片上没有缓冲器（Buffer），每一次操作的对于象只能是寄放器，典型寄放器巨细是个很短的向量，好比64字节，这是包管编程矫捷性的最佳设计，但数据要不停于芯片内部及外部存储之间搬运，效率不高。

“AI年夜模子动辄就是上百亿个参数，要晋升计较效率需要只管即便削减数据的搬移。DSA可以为年夜模子设计很年夜的片上缓存，一次可以操作64字节的上千倍，比拟GPGPU有较着上风。”宇阳指出。

二者的不同很是较着，GPGPU计较 AI模子时计较单位的使用率一般环境下只有30%-40%，而DSA一般都能做到计较单位的使用率到达80%-90%。

“很多人没看到DSA的焦点价值——数据流优化。”德辉的经验告诉他，“经由过程充实阐扬DSA片上有的年夜存储器（SRAM）上风，使用编译器举行完全优化，实现抱负的图编译，每一一层都把年夜模子计较的存储受限转化为计较受限，可以或许最年夜化DSA的上风。”

而DSA的上风没被充实挖掘出来，还有是由于很多DSA芯片公司都于用英伟达的思绪设计软件。

“用英伟达GPGPU的要领设计软件既是一个思维定式，也是一个颠末验证乐成的路，危害更低。而且，要针对于DSA的上风用别的的思绪设计编译器，也有技能上的挑战，好比打破算子界限带来的繁杂性。”这是德辉的心患上。

即便再看好DSA，宇阳及德辉都没有否定将来的趋向是混淆DSA。

专用及通用交融才是年夜模子的最优解

“一个完善的AI年夜模子处置惩罚器应该是用T4 GPU的计较焦点，用H100 GPU的显存。”洪杰用一个形象的说法道出年夜模子的真实需求。

而兼具通用性及专用性的混淆DSA芯片才是满意年夜模子需求的抱负产物，将来AI芯片公司的比拼是混淆DSA。

6年前，英伟达的Volta架构初次为深度进修插手了Tensor Core，今后的每一代架构都不停优化Tensor Core，加强GPU的AI机能。

2022年发布的H100 GPU，又增长了软硬联合的Transformer Engine，目的是加快AI年夜模子计较。

Tensor Core及Transformer引擎，都是为AI事情流设计的专用计较单位。也就是说，英伟达早就于“通用”的GPGPU上增长了“专用”的AI加快单位，这类交融设计统筹了GPGPU的通用性，又能阐扬专用加快单位的能效比上风，更像是年夜模子的最优解。

这里有一个会让人费解的问题，既然AI模子都不变了，为何不是设计一个Transformer专用的加快芯片，还有需要通用性？

“算法的种别虽然从几千种酿成几百种，但还有于不停优化，只有具有充足的通用性，才能最年夜化芯片的价值。”宇阳注释。

“从芯片的设计纪律看，设计一个Transformer专用加快芯片，去‘赌’将来三至五年内不会有新的模子布局倾覆性的替代失Transformer，也是一个很是疯狂的设法。”浩然增补。

那混淆DSA的线路明确以后，各家芯片的差异会怎样表现？

“混淆DSA实在就是于通用的CPU及纯粹专用的DSA之间找一个均衡点。差别的架构师选择的点会彻底纷歧样，但到底谁的设计更好，需要时间的查验。由于架构的设计不是一个纯粹的技能问题，还有与其时所处的时间，情况有很年夜瓜葛。”宇阳如许认为。

此中有赌的部门，浩然说，“混淆DSA的片上存储（SRAM）很是贵，由于需要占用的芯单方面积很是年夜，以是到底设计多年夜的SRAM，需要赌。”

终极混淆DSA芯片之间差异将会很小。

“就像如今安卓体系及iOS体系愈来愈像同样，末了可以或许留下来的混淆DSA架构的AI芯片，可能也是80%不异，只有20%差别。”洪杰做出了如许的判定。

但于走到这一天以前，混淆DSA还有有一个巨年夜的难题——比GPGPU及DSA都更繁杂的软件栈。这很轻易理解，既然是将两种架构交融，体系就越发繁杂，难度天然也更年夜。

固然，更明确的算法又能降低软件开发及优化的难度。

此时，就能够回到最初的问题，中国芯片公司谁能喝到年夜模子的汤？

谁能更快吃上年夜模子？

贸易的乐成不是纯真的技能线路“优劣”就能够决议，此刻可以看到的是，追随派转向混淆DSA的技能难度相对于低一些，立异派有RISC-V CPU可选，堪称各有好坏。详细到每一一家公司的时辰，环境又各不不异。

“GPU的众核（Many Core）设计，比拟DSA的设计难度更年夜，以是已经经设计出GPGPU的草创公司，再增长一个DSA，比DSA增长一个GPGPU的难度小一些。”浩然从众核设计的难度判定各家芯片公司面对的挑战巨细。

“GPU的一致性节制确凿很难。”宇阳部门认同浩然的不雅点，“但增长可编程性其实不必然就是要做一个GPGPU，有许多路径可选。”

德辉就很是看好RISC-V CPU加之DSA的混淆DSA，“RISC-V CPU可以提供向量计较，而且有充足的通用性，与DSA混淆是一个不错的选择。”

这类混淆DSA方式要本身成立软件生态，需要投入的资源巨年夜。

“芯片要落地很是要害的是要接管客户的攻讦及质疑，然后务实的迭代。”洪杰的设法是，“芯片公司要把客户不肯做的活都做了，好比迁徙芯片的年夜量事情，让客户可以无感迁徙，但这需要极年夜的人力及时间的投入。”

比拟之下，DSA路径的公司想兼容CUDA生态的难度比GPGPU路径的公司难度更年夜。

但对于在走GPGPU路径创业的公司也不是一件轻易的工作，要兼容英伟达的CUDA生态，硬件设计及软件都要只管即便靠近英伟达，才能实现靠近英伟达GPU的机能。

“AMD就是走兼容英伟达的路，海内公司走这条路的天花板就是AMD。”德辉指出，“于部门场景做到英伟达80%的体验没有问题，但逾越不了英伟达。”

再年夜致看看各家的环境，跟随派里天数智芯及登临科技具备先发上风，壁仞科技也被多位内工程师视作黑马。

立异派里的寒武纪遭到美国禁令的限定未定之天；燧原科技每一一代产物都采用了HBM（高带宽存储器）合适年夜模子，但及其它公司同样，软件是个不小的挑战。

留意一个时间点，2025年英特尔规划推出交融其GPU及DSA的新一代AI芯片，那时辰AI芯片的竞争将会越发激烈。

你看好哪家AI芯片公司？接待添加本文作者微信BENSONEIT交流。

注文中浩然、宇阳、洪杰、德辉均为假名雷峰网

福利票上线，免费抢500新币/张的年夜会通票

为答谢雷峰网(公家号：雷峰网)忠厚读者，咱们提供20张GAIR SUMMIT 2023免费门票，扫码下方二维码，便可有时机获取，先到先患上。

哪家中国芯片公司能「吃下」大模型？

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-710公海寰宇(中国)有限公司

下一篇【产品推荐】超小型高频同轴连接器u.fl系列

分享到: 1210

新闻动态

710公海寰宇(中国)有限公司- 哪家中国芯片公司能「吃下」大模型？