这是一个被星溯内部称为“深渊”的地方,一个恒温恒湿、与世隔绝的金属与硅晶世界。空气里弥漫着新服务器开箱后特有的、混合着松香与臭氧的冰冷气息。这里,便是昨天刚刚挂牌的“未来计算联合实验室”——星溯与英伟达(NVIDIA)共同的、赌上了未来的“熔炉”。
清晨八点,当大多数人还在享受劳动节假期的最后一天时,一支由五十名顶尖工程师组成的、来自硅谷的“特殊空勤团”已经在这里集结。他们的领队,正是英伟达的创始人兼CEO,黄仁勋(Jen-Hsun Huang)。他没有带任何公关或行政人员,只带着他最宝贵、也是最核心的财富——一群定义了过去十年图形计算世界的“巫师”。
这些平均年龄超过四十岁、个个在业界声名显赫的GPU架构师们,此刻正带着一种复杂的情绪,打量着这个全新的战场。他们的对面,是以赵小刀和陈静为首的、星溯最年轻、也最锐利的技术团队。这群中国工程师的平均年龄不到三十岁,眼神里闪烁着一种不加掩饰的、对技术和未来的饥渴。
两种截然不同的工程师文化,在这里发生了第一次无声的碰撞。
“黄先生,各位专家,欢迎来到深渊。”赵小刀没有说任何客套话,他直接将主屏幕点亮,上面出现的是昨天那张名为“昆仑(Kunlun)”的次世代图形API架构图。
“昨天,我们谈了构想。今天,我们来谈实现。”赵小刀的语气冷静而直接,带着一种不容置疑的自信,“我们的‘昆仑’API,核心是想解决一个问题:如何把GPU从一个单纯的‘画图工具’,变成一个通用的‘并行计算引擎’。我们知道,CUDA已经做到了,但在移动端,在功耗和内存都极度受限的环境下,我们必须找到一条新的路。”
他调出一段代码,那是由“星云着色语言(NSL)”编写的一段AI路径规划算法。
“传统的做法是,这段代码在CPU上运行,计算出成百上千个AI单位的移动路径,然后把结果交给GPU去渲染。但在我们的设想中,这段代码应该直接在GPU的数千个流处理器上并行执行。CPU只负责下达一个宏观指令,比如‘全体向山头发起冲锋’,而每一个士兵该怎么跑、怎么躲避障碍,都由GPU自己去实时计算。”
“我们称之为‘群体智能的硬件加速’。”
英伟达的首席科学家,大卫·柯克(David Kirk),一位被誉为“GPU之父”的传奇人物,看着那段优雅而激进的代码,眉头紧锁:“赵先生,想法很好。但你们忽略了一个核心问题——调度开销(Scheduling Overhead)。在GPU上执行如此细碎的通用计算任务,线程的创建、销毁和同步所带来的开销,可能会完全抵消并行计算带来的优势。这在我们的费米架构(Fermi Architecture)上已经验证过,得不偿失。”
“没错。所以,我们不能用你们现有的调度器。”赵小刀似乎早就料到他会这么问。他打了个响指,屏幕上出现了另一张更底层的、布满了逻辑门的硬件设计图。
“我们需要的,不是一个由软件驱动的调度器,而是一个硬件级的‘任务分发单元(Task Distribution Unit)’。我们设想在GPU内部,植入一个专门的、可编程的微型协处理器。它的唯一任务,就是以纳秒级的速度,将这些通用计算任务,动态地分配给空闲的计算单元,并处理它们之间的依赖关系。”
“它就像GPU内部的一个智能交通警察,而不需要CPU那个远在天边的‘交管局’来发号施令。”
“这……这不就是‘异步计算(Asynchronous Compute)’的硬件化实现吗?”柯克博士的瞳孔猛地收缩,他感觉自己不是在听一个产品介绍,而是在旁听一场来自未来的技术发布会。这个构想,比他们英伟达内部最激进的预研方案,还要再往前走了一大步。
“林先生把它称为‘上帝的骰子’。”赵小刀的脸上露出一丝狂热的微笑,“因为任务的分配是动态的、实时的、近乎随机的,但最终的结果,却是最优的。”
黄仁勋在一旁静静地听着,他没有插话,但握着矿泉水瓶的手,却不自觉地越收越紧。他终于明白,林溯要的不仅仅是CUDA,他是在逼迫英伟达,和他一起,去重新定义GPU的底层架构。
他以为自己是来“扶贫”的,没想到对方直接掏出了一张“星际殖民”的蓝图。
“好!太好了!”黄仁勋猛地一拍大腿,眼中爆发出骇人的光芒,他冲到白板前,抢过赵小刀手里的笔,“这个‘任务分发单元’,它的微码指令集该如何设计?我们必须考虑与现有渲染管线的兼容性问题……来,我们来推演一下……”
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢重生1997:我的商娱帝国请大家收藏:(m.xtyxsw.org)重生1997:我的商娱帝国天悦小说网更新速度全网最快。