第896章 天问

    第896章 天问 (第2/3页)

学?”

    “对。”

    “规模准备做多大?”

    “第一阶段,一亿五千万。”顾屿竖起一根手指,

    “先证明这条路能走通。等框架和管线成熟了,第二阶段直接拉到十五亿。”

    安德烈倒吸了口气。

    十五亿参数,按照现在的算力水平,这个数字几乎是在挑战物理极限。

    楼天城从他那三块屏幕后面探出半个脑袋,推了推眼镜。

    “一亿五千万倒是轻松。”楼天城语速很快,

    “就外面那一千两百张K80,如果火力全开,算上分布式通信的损耗,跑一个一亿五千万参数的模型顶多一到两周就能出结果,现有的数据并行完全吃得消。但十五亿这个量级,单卡显存绝对会当场撑爆。我得把张量并行那套东西从论文阶段直接拉到工程化落地,把巨大的矩阵计算硬切分到不同显卡上。”

    “你有多久能搞定张量并行?”顾屿问。

    “给我四个月。”

    “三个月。”

    楼天城嘴唇动了动,最终没反驳。

    顾屿看着他紧绷的脸,语气稍缓:

    “K80的显存墙确实是物理硬伤,这三个月你权当是用极限环境做系统演习。我已经让人带着现金飞去硅谷,跟黄仁勋签明年PaSCal架构超算卡的独家包销协议了。等你框架写完,我保证有更暴力的玩具送到你手上。”

    听到下一代超算卡,楼天城镜片后的眼睛亮了一下,但他紧接着提出了另一个问题。

    “模型架构不是最难的部分。”他站起来,走到白板前,抄起一支马克笔画了个简单的流程图,

    “一亿五千万参数的模型,至少需要几百亿TOken的高质量语料来喂。十五亿参数那个,可能需要上千亿TOken。”

    他在“数据”两个字下面重重画了一道线。

    “我们现在有什么?西红柿小说和引力的内部数据虽然多,但现在的简易脚本根本算不上成体系的清洗管线。”

    楼天城皱着眉头敲了敲白板,

    “咱们这套1.0版本的管线洗出几百GB的语料勉强能用,如果要喂出十五亿参数,重复数据、低质内容全混在里面……直接拿去训练,模型学出来的东西会非常糟糕。”

    “还有一点。”楼天城又补了一笔,

    “如果未来想让模型具备多模态理解能力,光靠文本远不够。图像数据、图文配对数据,这些东西目前完全是空白。”

    他转过身看着顾屿:

    “千亿TOken级别的现代清洗管线、人工标注人力、图像语料来源。这三个缺口,任何一个解决不了,十五亿参数的模型就只是个空壳。”

    顾屿没有回答。

    他看着白板上楼天城画的那个流程图。

    “不急。”

    “数据的事情我已经在安排了。”顾屿语气云淡风轻。

    楼天城点了点头。

    “你现在要做的事情只有一件。”顾屿重新看向楼天城,

    “利用你手上的并行训练框架,在最短时间内把大语言模型的底层架构搭起来。数据接口、分布式训练管线、混合精度支持,全部打通。等语料灌进来的那一天,我不想再等哪怕一个小时。”

    “明白。”楼天城应了一声,已经在脑子里开始拆解任务了。

    “项目从今天起正式立项。既然是改变技术路线的终极兵

    (本章未完,请点击下一页继续阅读)