第896章 天问
第896章 天问 (第2/3页)
学?”
“对。”
“规模准备做多大?”
“第一阶段,一亿五千万。”顾屿竖起一根手指,
“先证明这条路能走通。等框架和管线成熟了,第二阶段直接拉到十五亿。”
安德烈倒吸了口气。
十五亿参数,按照现在的算力水平,这个数字几乎是在挑战物理极限。
楼天城从他那三块屏幕后面探出半个脑袋,推了推眼镜。
“一亿五千万倒是轻松。”楼天城语速很快,
“就外面那一千两百张K80,如果火力全开,算上分布式通信的损耗,跑一个一亿五千万参数的模型顶多一到两周就能出结果,现有的数据并行完全吃得消。但十五亿这个量级,单卡显存绝对会当场撑爆。我得把张量并行那套东西从论文阶段直接拉到工程化落地,把巨大的矩阵计算硬切分到不同显卡上。”
“你有多久能搞定张量并行?”顾屿问。
“给我四个月。”
“三个月。”
楼天城嘴唇动了动,最终没反驳。
顾屿看着他紧绷的脸,语气稍缓:
“K80的显存墙确实是物理硬伤,这三个月你权当是用极限环境做系统演习。我已经让人带着现金飞去硅谷,跟黄仁勋签明年PaSCal架构超算卡的独家包销协议了。等你框架写完,我保证有更暴力的玩具送到你手上。”
听到下一代超算卡,楼天城镜片后的眼睛亮了一下,但他紧接着提出了另一个问题。
“模型架构不是最难的部分。”他站起来,走到白板前,抄起一支马克笔画了个简单的流程图,
“一亿五千万参数的模型,至少需要几百亿TOken的高质量语料来喂。十五亿参数那个,可能需要上千亿TOken。”
他在“数据”两个字下面重重画了一道线。
“我们现在有什么?西红柿小说和引力的内部数据虽然多,但现在的简易脚本根本算不上成体系的清洗管线。”
楼天城皱着眉头敲了敲白板,
“咱们这套1.0版本的管线洗出几百GB的语料勉强能用,如果要喂出十五亿参数,重复数据、低质内容全混在里面……直接拿去训练,模型学出来的东西会非常糟糕。”
“还有一点。”楼天城又补了一笔,
“如果未来想让模型具备多模态理解能力,光靠文本远不够。图像数据、图文配对数据,这些东西目前完全是空白。”
他转过身看着顾屿:
“千亿TOken级别的现代清洗管线、人工标注人力、图像语料来源。这三个缺口,任何一个解决不了,十五亿参数的模型就只是个空壳。”
顾屿没有回答。
他看着白板上楼天城画的那个流程图。
“不急。”
“数据的事情我已经在安排了。”顾屿语气云淡风轻。
楼天城点了点头。
“你现在要做的事情只有一件。”顾屿重新看向楼天城,
“利用你手上的并行训练框架,在最短时间内把大语言模型的底层架构搭起来。数据接口、分布式训练管线、混合精度支持,全部打通。等语料灌进来的那一天,我不想再等哪怕一个小时。”
“明白。”楼天城应了一声,已经在脑子里开始拆解任务了。
“项目从今天起正式立项。既然是改变技术路线的终极兵
(本章未完,请点击下一页继续阅读)