Cerebras:自2015年成立后,不断迭代晶圆级芯片产品,目前已推出第三代晶圆级芯片WSE-3。该芯片采用台积电5nm工艺,晶体管数量达4万亿个,AI核心数量90万个,缓存容量44GB,可支持高达1.2PB的片外内存,能训练比GPT-4和Gemini大10倍的下一代前沿大模型,四颗并联一天内可完成700亿参数的调教,支持最多2048路互连,一天便可完成Llama 700亿参数的训练。
特斯拉:其在2021年就开始尝试晶圆级芯片,推出了Dojo。Dojo采用Chiplet路线,在晶圆尺寸的基板上集成25颗专有D1芯粒。单个D1芯粒有500亿个晶体管,能提供362 TFlops BF16/CFP8的计算能力,单个Dojo拥有9Petaflops的算力和每秒36TB的带宽。
Dojo系统针对全自动驾驶模型训练定制,可组成ExaPOD超算系统,提供1.1EFlops的计算性能。
在性能方面,以Cerebras WSE-3为例,其FP16训练峰值性能达125 PFLOPS,支持训练高达24万亿参数的AI模型且无需模型分区,2048个WSE-3系统组成的集群训练700亿参数的Llama 2 LLM仅需1天,速度比传统集群提升30倍。
特斯拉Dojo的单个训练瓦等组成的系统也有强大计算性能,能处理大量视频流数据。
相同算力下,晶圆级芯片构建的算力集群占地面积比GPU集群缩小10-20倍以上,可有效节省空间。功耗能降低30%以上,减少能源消耗和成本。
WSE-3的单片架构避免多芯片数据传输,显著降低延迟,将实时GenAI推理延迟降低10倍以上;Dojo也能大幅降低通信开销,芯片间延迟达100纳秒。WSE-3内存带宽达21 PB/s,远超传统GPU,能快速处理大量数据。
CPU是计算机的中央处理器,主要负责处理通用计算任务,注重串行处理能力和指令执行的灵活性。而晶圆级芯片更侧重于高性能计算,尤其是针对AI大模型训练等特定场景。
计算能力:晶圆级芯片在并行计算能力上远超CPU。例如Cerebras WSE-3有90万个核心,特斯拉Dojo的训练瓦有8850个核心,能同时进行大量计算操作,而CPU核心数量相对较少,难以应对大规模并行计算任务。
适用场景:CPU适用于操作系统运行、各类应用程序处理等通用场景;晶圆级芯片则专为AI训练、自动驾驶模型训练等对算力需求极高的特定场景设计,如Cerebras WSE-3擅长超大型模型训练,特斯拉Dojo针对全自动驾驶模型训练优化。
架构设计:CPU架构强调指令集的完整性和通用性,以满足不同任务需求;晶圆级芯片则采用更集中、高效的架构,如Cerebras的monolithic架构和特斯拉Dojo的modular架构,通过紧密集成提升算力和效率,减少数据传输延迟。
在全球积极探索先进芯片技术的浪潮下,各国各地区也纷纷出台相关政策,为包括晶圆级芯片在内的先进芯片技术发展提供有力支持。
我国自十三五规划起,就将人工智能产业技术研发和标准制定提上日程,《“十三五”国家战略性新兴产业发展规划》《新一代人工智能发展规划》等一系列政策的出台,为人工智能产业发展奠定基础,也为晶圆级芯片这类人工智能关键硬件技术的发展提供了广阔空间 。
2024年,工信部等部门出台《关于推动未来产业创新发展的实施意见》,明确利用人工智能、先进计算等技术精准识别和培育高潜能未来产业,支撑推进新型工业化,这无疑为致力于提升算力的晶圆级芯片发展提供了政策东风,激励企业和科研机构在该领域加大研发投入,促进技术突破与产业应用。
北京、上海、深圳、杭州等地针对人工智能产业发展,在算力设施建设、模型开放生态打造等维度出台政策,其中对算力技术的支持,涵盖高性能计算芯片,晶圆级芯片作为算力提升的重要方向,有望在这些政策推动下,加快技术研发与产业落地。
例如,北京市经信局印发的《北京市关于支持信息软件企业加强人工智能应用服务能力行动方案(2025年)》中,对符合要求的相关企业给予高额支持奖励,若涉及晶圆级芯片相关的算力部署、研发等项目,极有可能被纳入支持范畴,助力企业攻克技术难题,推动产业发展。
晶圆级芯片凭借其独特优势在算力需求爆发的时代脱颖而出,头部企业的积极探索为产业发展积累经验,而政策的大力支持则为其发展保驾护航,随着技术的不断成熟和产业生态的完善,晶圆级芯片有望在未来算力市场中占据重要地位,为人工智能等领域的发展注入强大动力,成为推动新一轮科技革命和产业变革的关键力量。
内容来源于:半导体产业纵横:晶圆级芯片,是未来;半导体产业纵横:晶圆级芯片迎来重磅玩家,未来可期;腾讯新闻:算力节点集成密度最高,晶圆级芯片有望重构AI算力格局
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。三牛注册