讲个大家耳熟能详的例子,当年著名围棋界人机大战:阿尔法狗战胜柯洁就是用的谷歌TPU芯片。
它能加速其第二代人工智能系统TensorFlow的运行,而且效率也超过GPU――Google的深层神经网络就是由TensorFlow引擎驱动的。TPU是专为机器学习量身定做的,执行每个操作所需的晶体管数量更少,自然效率更高。
TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。
TPU每瓦能为机器学习提供比所有商用GPU和FPGA更高的量级指令,这基本相当于7年后的科技水平。TPU是为机器学习应用特别开发,以使芯片在计算精度降低的情况下更耐用,这意味每一个操作只需要更少的晶体管,用更多精密且大功率的机器学习模型,并快速应用这些模型,因此用户便能得到更正确的结果。
而这次谷歌发布的TPU v5p,这是谷歌迄今为止最强大、最高效的TPU芯片。TPU v5p的设计旨在提高性能、规模和灵活性,其训练性能比TPU v4快2.8倍,训练嵌入密集模型的速度快1.9倍。同时,与TPU v4相比,TPUv5p提高了两倍的FLOPS和三倍的内存带宽。
A股谷歌产业链核心标的梳理(建议收藏):
中际旭创:谷歌核心供应链,带环形器的VFR8光模块盈利能力强,份额优势大。谷歌数据中心光模块的核心供应商,受益于谷歌的云基础设施投入。
腾景科技:目前正在给谷歌光模块的供应商Cloudlight送样环形器
博创科技:收购了长兴盛,成为谷歌数据中心的核心供应商,有望受益于谷歌的光交换机需求。
太辰光:给谷歌提供连接器产品。客户主要来自谷歌,开始在谷歌进行布局,受益于谷歌的数据中心光模块需求。
除了谷歌,最近AMD也推出了重磅AI芯片——MI300系列芯片
MI300X拥有超过1500亿个晶体管,内存是英伟达H100芯片的2.4倍,据称在训练大型语言模型方面与H100芯片相当,但在推理方面表现更好。MI300A则能提供更高性能的计算、更快的模型训练以及30倍的能效提升,其内存容量是H100芯片的1.6倍。Instinct MI300X加速器从发布会之日起开始发货,Instinct MI300A加速器也已经进入量产阶段。
虽然整个AI芯片市场竞争相当激烈,AMD在周三对未来市场规模给出了大胆惊人的预测,认为AI芯片市场将迅猛扩张。具体来说,预计人工智能(AI)芯片市场的规模到2027年将达到超过4000亿美元,这较其8月时预计的1500亿美元上调将近两倍,凸显人们对人工智能硬件的期望正在快速变化。
A股AMD产业链核心标的梳理(建议收藏):
通富微电:AMD最大的封装测试供应商,公司通过并购与AMD形成了“合资+合作”的强强联合模式,有涉及AMDInstinctMI300、Rx7900mGPU的封测项目。
芯原股份:2022年4月公司正式加入UCIe产业联盟(由AMD等十家企业于2022年3月共同成立,提出了一种开放的Chiplet互连规范),公司持续推进Chiplet技术产业化,有望进入Chiplet核心产业链
锐捷网络:联合AMD开发GPU方案
中电港:分销AMD EPYC系列cpu
奥士康:AMD的PCB供应商
胜宏科技:AMD的PCB供应商
国际上还有几个AI芯片老大哥——英伟达、微软、亚马逊
英伟达AI芯片—A100和H100(市场主流),以及近期发布的新一代H200芯片
相比上一代A100和H100,H200主要变化在于内存,成为首款采用HBM3e(高频宽存储器)的GPU,使得带宽从H100的每秒3.35TB提高至4.8TB,提高1.4倍,存储器总容量从H100的80GB提高至141GB,容量提高1.8倍,同时推理能耗大幅降低。
微软——Maia 100 、Cobalt 100 Arm系列芯片
11月15日,微软在西雅图召开的 Ignite 大会上发布了两款芯片,一款面向 AI,一款面向云计算。微软发布的这款名为 Maia 100的人工智能芯片,旨在与英伟达备受追捧的 AI 图形处理单元展开竞争。第二款则是 Cobalt 100 Arm 芯片,面向通用计算任务并将与英特尔处理器争夺市场。
亚马逊:训练芯片Trainium、推理芯片Inferentia
在亚马逊、微软和谷歌这三家中,亚马逊是唯一一家在服务器中提供训练和推理两种类型芯片的云提供商。亚马逊云科技目前有三条自研芯片生产线,分别是通用芯片Graviton、专用AI芯片Trainium(训练)和Inferentia(推理)以及Nitro。
接下来看看咱们中国主流AI芯片:
华为昇腾芯片无疑是最有实力一家
目前主要包括了昇腾910(用于训练)和昇腾310(用于推理)两款处理器,采用自家的达芬奇架构。这里就不展开了....
海光信息——海光系列、深算系列AI芯片
2023年上半年,海光CPU系列产品海光三号为主力销售产品,海光四号、海光五号处于研发阶段。
公司AI芯片深算二号已经于三季度发布,实现了在大数据、人工智能、商业计算等领域的商用。深算二号具有全精度浮点数据和各种常见整型数据计算能力,性能相对于深算一号性能提升100%以上。海光DCU属于GPGPU的一种,采用“类CUDA”通用并行计算架构,能够较好地适配、适应国际主流商业计算软件和人工智能软件。(中科院背景)
寒武纪——思元系列Ai芯片
思元370是寒武纪第三代云端产品,采用7nm制程工艺,是寒武纪首款采用Chiplet技术的AI芯片,最大算力高达256TOPS(INT8)。寒武纪新一代云端智能训练新品思元590芯片还没发布,但已经受到很多关注和讨论,特别是寄予在大模型训练和推理任务中一定程度上替代A100的厚望。
据悉寒武纪主要是ASIC架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比GPU更高;有测试结果显示,590性能接近A100 90%的性能;590基本支持主流的模型,综合性能接近A100 80%的水平。
龙芯中科——龙芯系列芯片
11月28日,龙芯中科在北京发布新一代国产CPU——龙芯3A6000。
据介绍,龙芯3A6000采用我国自主设计的指令系统和架构,是我国自主研发、自主可控的新一代通用处理器,可运行多种类的跨平台应用,满足各类大型复杂桌面应用场景。
龙芯中科在2023年半年度报告中披露,龙芯3A6000片内集成双通道DDR4-3200控制器,集成安全可信模块,可提供安全启动方案和国密应用支持。与上一代龙芯3A5000桌面CPU相比,龙芯3A6000在相同工艺下单线程性能提升60%以上,全芯片多线程性能成倍提升。
在处理器及配套芯片产品方面,龙芯中科研制的芯片包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片。其中基于LA架构CPU已形成了由1C102、1C103、2K0500、2K1000LA、2K1500、2K2000、3A5000、3C5000、3D5000组成的性能由低到高的完整系列。
燧原——邃思系列芯片
邃思系列芯片、云燧训练和推理加速卡以及云燧智算机的全系列算力产品线。目前燧原已经为大型科研机构部署了千卡规模的AI训练算力集群,并成功落地;燧原还与腾讯合作,在OCR文字识别,智能交互,智能会议等方面发挥作用,性能达到了业界同类产品两倍以上,性价比上具有很高优势。(腾讯背景)
对应A股上市公司——弘信电子
公司与燧原科技签订战略合作协议后,进行了多层次深入协同推进合作。双方将以燧原科技算力卡为基础,共同打造高端国产AI算力服务器,服务于东数西算重要枢纽、大型互联网公司、三大运营商的算力需求。公司与燧原科技拟联合推出的国产Ai训练及推理服务器目前已完成样机开发制造,接下来交由燧原科技进行联合调试,联合调试完成后即可交付商用,双方将就此打开和分享Ai算力国产化的巨大机遇。
其余中国本土AI芯片公司百度昆仑芯片、壁仞科技、天数智芯、沐曦等等也都陆续有产品推出,也值得大家期待!