做大：世界上速度最快的计算机采用大型语言建模

由能源部橡树岭国家实验室的研究人员领导的一个团队在世界上最快的超级计算机的帮助下，探索了迄今为止最大的人工智能模型之一的训练策略

这些发现可能有助于指导新一代人工智能科学研究模型的训练

ORNL的Sajal Dash、Feiyi Wang和Prasanna Balaprakash领导的这项研究使用了世界上第一台六进制超级计算机Frontier，在类似于OpenAI的ChatGPT的大型语言模型上运行训练的初始阶段。研究团队使用一组测试数据来预测具有220亿、1750亿和1万亿参数或变量的模型如何在Frontier的9400多个节点中的128个节点以及之后的384个节点上运行。该团队没有试图训练一个完整的模型

该作品发布在arXiv预印本服务器上

该团队将在5月于德国汉堡举行的2024年国际超级计算大会高性能会议上介绍这项研究。ORNL的科学家Isaac Lyngaas、Yin Junqi、Xiao Wang和Guojing Cong以及巴黎萨克雷大学的Romaine Egele也参与了这项研究

这项研究关注的不是模型开发，而是找出最有效的方法来利用为Frontier和类似超级计算机提供动力的图形处理单元或GPU，并将其用于训练人工智能。Frontier的每个节点都依赖于四个AMD MI250X GPU，总计超过75000个GPU

培训持续了几个小时，使用了约1亿个代币&mdash；文字的基本单位，如单词和字符&mdash；的测试数据。这大约是训练万亿参数模型完成所需数据的万分之一，而所需时间的一小部分

研究团队使用这些运行的数据来计算万亿参数模型在Frontier上训练完成后的表现

大型语言模型在学习和识别单词和数字模式的能力方面大致模仿了人脑，并通过额外的训练随着时间的推移提高了学习能力。目标：设计一个模型，能够吸收和调整从训练数据中吸取的经验教训，并将这些知识一致准确地应用于新的、不熟悉的数据和任务

此类培训所需的庞大数据集和强大的处理器大多是学者无法获得的，而且归私营公司所有，这些公司往往将这些资源视为专有资源并设定严格的使用条件。这些条件通常限制了研究机会，也不允许轻易验证结果

但像Frontier这样的领导级超级计算机，通过美国能源部的创新和新颖的计算对理论和实验的影响计划，将计算时间奖励给科学研究人员，如果科学家找到正确的方法，可以更快地训练新一代人工智能模型

ORNL人工智能项目主管Balaprakash表示：“传统上，这一过程依赖于专家知识或试错。”。“我们在这项研究中的工作亮点之一是在大量选项中自动识别高性能策略。我们利用开源可扩展调整软件DeepHyper自动确定最佳设置。

”我们计划将这种自动化方法扩展到微调系统级性能，并在极端规模上提高效率。此外，为了科学界的利益，我们已经使我们的方法和软件民主化。这一策略确保了我们的见解能够广泛用于未来在科学领域训练大型人工智能基础模型的研究。“

模型及其训练数据集越大，其性能越好，但对计算能力的要求也越高。即使以Frontier世界领先的速度，从初始阶段到完成一个万亿参数的大型语言模型而不进行优化，也需要数月的时间。

ORNL的研究考察了数据并行的方法，即Frontier等超级计算机用来将大问题分解为小问题以更快地找到解决方案的过程，即训练人工智能，以及如何将训练移植到竞争供应商制造的GPU的专有框架中。

“例如，我们不能在单个GPU或单个节点上训练这样大小的模型，每次我们跨越节点之间需要更多通信的障碍时，都会消耗更多的时间。我们如何在GPU之间划分模型，以便在不损失太多节点间通信时间和精力的情况下拟合和训练模型？”

研究人员发现，当针对计算平台进行定制时，混合并行策略效果最好，但他们表示，他们的工作远未完成

“我们实现的效率

"We can't train a model this size on a single GPU or a single node, for example, and every time we cross the barrier between nodes that requires more communication that consumes more time. How do we slice up the model across GPUs so that we can fit and train the model without losing too much time and energy communicating between nodes?"

The researchers found a blend of parallelism strategies worked best when tailored to the computing platform but said their work's far from finished.

"The efficiency we achieved on Frontier with this model was decent but not decent enough," Wang said. "At extreme scale, we achieved 30% efficiency—which means we left about 70% of Frontier's computing power on the floor. We need much more optimization to make the machine more efficient at this scale."

The team's next steps include training a model further with peer-reviewed scientific data across more nodes.

想要了解更多关于脑机接口技术的内容，请关注脑机网，我们将定期发布最新的研究成果和应用案例，让您第一时间了解脑机接口技术的最新进展。