在油管的 The Tesla Space 频道,一位博主分享了Tesla 超5000亿美元的“大饼”Dojo超级计算机项目内容以及他的见解。The Tesla Space 是一个专门分享、介绍有关与特斯拉最新的相关新闻、业内传闻以及行业洞察的视频频道。以下是根据视频内容整理的文字版本:
特斯拉的人工智能部门开发了一种新型超级计算机,名为Dojo。这个项目在特斯拉内部默默发展多年,现在已经成为可能彻底改变超级计算机概念的存在。随着人工智能逐渐成为我们日常生活的一部分,无论好坏,它都引发了对计算资源的急剧需求。AI与传统软件不同,它需要模型、数据,并通过一种通常称之为“训练”的技术将两者结合,但我们主要讨论的是训练过程中使用的机器——超级计算机。
超级计算机历来用于高端科学研究,比如人类基因组测序、天气预报、疾病和病毒功能的理解。因此,超级计算机的需求相对有限,是一个小众产品。但现在,随着全球科技公司纷纷投身于构建自己的超级计算机集群,用于人工智能开发,这种情况已不再存在。
让我们来理解一下超级计算机的工作原理,可以想象它不是一台巨大的计算机,而是一组可以协同工作的小型计算机。这里常用的术语是“并行计算”,就像F1赛车队的维修站,当多人同时从不同角度解决问题时,工作可以非常迅速地完成。因此,选择的设备通常是图形处理单元(GPU),它们不仅适合玩视频游戏和渲染数字视频,而且非常适合进行并行计算。这使得Nvidia迅速成为过去一年中最炙手可热的科技公司。Nvidia已经是GPU技术的行业领导者,他们所需做的只是优化现有设计,以适应超级计算机集群和AI训练应用。
虽然我不是股票分析师,但如果你要找一个AI计算爆炸的案例,只需看看Nvidia股票的5年走势图。即使你在2021年疫情泡沫的高峰期买入,投资也已经翻了三倍。而如果你投资了特斯拉股票,现在可能已经损失了一半。所以特斯拉才会投身于超级计算机的竞争。
回到五年前,只有硬核PC游戏玩家真正关心Nvidia,他们正在寻找下一个图形升级。但随着AI行业的兴起,Nvidia很快发现了一个庞大的新市场,他们所需做的只是制造一个更大、更强大的版本,所以 2020年A100 GPU横空出世,它迅速成为AI训练的基准设备。到2021年夏季,特斯拉在公司的数据中心安装了近6000个A100 GPU,以帮助训练全自动驾驶beta AI模型。每个起价为10000美元,仅GPU硬件就花费了特斯拉约1亿美元。因此,大约在这个时候,特斯拉已经在开发一个计划,设计和构建自己的超级计算机。与Nvidia不同,特斯拉并没有投资于任何现有的计算机芯片架构,所以他们可以自由地设计任何他们能想象的芯片和计算机系统,一个从一开始就专门为下一代高性能计算优化的系统。
特斯拉在其业务发展中一直采用两个非常重要的策略:垂直整合和第一原理思维。两者都适用于Dojo项目。垂直整合本质上是尽可能将你的供应链置于自己的屋顶下。例如,特斯拉汽车拥有自己的窗户,制造自己的许多电池单元和电池模块,制造自己的电机。这样,他们永远不会受制于供应商,不会在组件上支付加价,而且特斯拉总是能得到他们想要的每个组件的确切东西。他们为特定目的而建造它。建立一个垂直整合公司需要大量的前期成本,这不是一夜之间发生的,但从长远来看,它更加可持续。
第一原理思维是关于从零开始构建一个独特的解决方案,这不是大多数人解决问题的方式。人们使用的最常见的推理系统是通过类比,比如拿一些已经类似于你想要的结果的东西,然后进行修改。第一辆特斯拉跑车是一个原型。拿一辆现有的运动车,然后将其修改成一辆新的电动运动车,这作为技术演示是好的,但它不是一个可持续的产品。特斯拉模型从轮子开始就被设计成一辆电动车,这辆车至今仍然在售。所以,Dojo是一个定制的硬件平台,由特斯拉的AI部门从头开始设计,专门用于辅助计算机视觉、基于视频的全自动驾驶网络,目标是创建一个数字副本的人类视觉皮层和大脑功能。然后使用它来自动驾驶汽车。这涉及到处理大量的视觉数据,在这个案例中,是车辆摄像头捕获的视频。所有这些信息,来自数十亿帧的数字视频,需要被转换,以便AI模型可以理解。这正是它听起来的样子。你只是给像素分配一个标签,以便AI知道它在看什么。网络需要绘制的标签越多,它就越能更好地识别模式并建立联系。
图:特斯拉Dojo超级计算机
Dojo在其基础层面上是一种称为片上系统的东西,这是一台完整的计算机组装在一块单一的硅片上。这并不新鲜。这是运行你的智能手机的相同系统。这种方法有惊人的效率水平,因为不是有所有这些PCI端口和电线和主板等都连接在一起,每次信号通过连接器时都会减慢并失去能量。现在,每个必要的组件都位于同一块半导体材料的小方块上,这意味着计算机系统的关键组件之间没有瓶颈。
Dojo芯片大约是手掌大小,这比A100 GPU小得多,但Dojo不应该只作为一个单独的芯片存在。Dojo真正开始发挥作用的地方是多个芯片融合在一起作为一个系统工作。这就是我们获得并行计算方面,使这成为一台真正的超级计算机。有了Dojo头衔,特斯拉集成了25个Dojo芯片来创建一个统一的计算机系统,可以在分散的单个处理芯片网络上分配计算,每个头衔都包含所有必要的硬件。
冷却和数据传输都可以自行解决,由25台较小的计算机组成,然后上升到一个级别,他们将六个瓦片集成到一个单一的机架单元中,然后要制作一个柜子,他们将两个机架集成到一个机箱中。这只是Dojo版本1。TSMC在过去两年中为特斯拉生产了D1芯片,并在公司的数据中心运行,他们刚刚为D2芯片展示了一个新设计,采用了Dojo概念。所以D1是关于辅助的,适合将所有组件放在一个硅片上,然后将25个这样的方块链接在一起形成一个瓦片。但我们知道,任何时候将不同的芯片连接在一起,都会有瓶颈,减慢信息的流动。所以D1解决方案是好的,但它是有缺陷的。D2是这个概念的演变,它将整个Dojo瓦片放在一个硅片上。通常的做法是在单个晶圆上尽可能多地组装芯片,然后将每个芯片像饼干一样切出来。这样,你可以最大化每个硅片的产量,你有能力丢弃或标记任何失败或没有完全功能的芯片。制造芯片很难。有时它们不起作用,而且很多时候它们只部分工作。在某些情况下,如果买的不是顶级CPU,那么你可能得到的是他们不想扔掉的部分损坏的版本。这就是为什么大多数公司不做晶圆级系统的原因。事实上,除了特斯拉,只有另一个芯片设计师在做晶圆级处理,那就是Cerebrus,他们声称他们的第三代芯片现在是地球上最快的AI处理器。Cerebrus芯片有超过46000平方毫米的表面积,包含4万亿个晶体管。是一个巨大的芯片,它可以利用25个处理器的力量。它们都可以在没有瓶颈的情况下相互通信,表现得像一个超级处理器,这意味着非常高的带宽,非常低的延迟,并且比D1瓦片或同时世界上任何其他计算机系统都有更好的能效。
就在他们展示新的Dojo晶圆系统的同时,TSMC利用这个机会暗示了他们接下来雄心勃勃的计划。这家芯片制造商将在未来三年内扩大他们的技术规模,提供更先进的晶圆级系统,表示到2027年,他们将能够提供比系统多40倍的计算能力。到这里可能大家都以为特斯拉已经赢了,但其实设计一个芯片甚至制造一个芯片与在大型超级计算机中实际部署该芯片并使其按预期工作之间有很大的区别。这部分很难,这就是为什么特斯拉仍在购买Nvidia芯片来训练他们的自动驾驶汽车AI的原因。特斯拉从未停止购买Nvidia硬件,也没有计划很快停止。特斯拉激活了一个新的训练集群,有10000个最新的H-100 GPU,每个价值约3万美元。最近有说法称,截至2024年5月,特斯拉拥有多达35000个H-100,并且计划在今年单独花费数十亿美元购买Nvidia硬件。所以Dojo是一个长期赌注。即使是埃隆·马斯克也承认,Dojo不是一个确定的事情。它有可能带来数百亿美元的回报,但也容易失败。
相关视频:https://www.youtube.com/watch?v=A5wQsSHBUUM&t=631s