斯坦福发布Sophia，可显著缩短大模型训练时间

2024/08/02

近日，据美国科技媒体Techexplore报道，美国斯坦福大学的一个团队开发了新型优化器Sophia，这是一种优化大型语言模型预训练的新方法，其速度是此前模型速度的两倍。

ChatGPT和其他依赖于大型语言模型（LLM）的应用程序如今正在获得广泛使用，并引起媒体的广泛关注。但少数几家大型科技公司主导着LLM领域，因为对这些模型进行预训练极其昂贵，成本估计从1000万美元开始，可能达到这个数字的几十倍或数百倍。

“大型语言模型对于较小的组织或学术团体来说不是很容易获得。”斯坦福大学计算机科学研究员刘洪（音译）说道。

为了改变这种情况，刘洪和他的同事着手改进当前的LLM优化方法。结果是：一种叫做Sophia的方法将预训练时间缩短了一半。这种方法的详细信息发布在arXiv预印本服务器上。

优化不能停

为了更好地优化LLM预训练模式，刘洪和他的同事，包括斯坦福大学博士后李致远（音译）、斯坦福大学研究工程师David Hall、计算机科学助理教授马腾宇和副教授Percy Liang，使用了两个技巧。第一种被称为曲率估计（curvature estimation），即指是指对模型损失函数的曲率进行估计的过程。这种技术并不前沿，但斯坦福大学的团队找到了一种提高效率的方法。

举个例子，如工厂装配线那般，为了有效运作，工厂经理需要优化，将原材料转化为最终产品所需的生产步骤，并需要了解并适当安排生产线每一步的工作量。

LLM的预训练也是如此。这些模型有数百万甚至数十亿个参数，斯坦福大学团队把这些参数比作为了提高工作效率的工厂工人。这些参数的一个特性是它们的曲率，团队认为这是它们朝着预训练LLM的最终目标前进时，达到的最快可实现速度。在工厂的比喻中，曲率类似于工厂工人的工作量。

如果优化程序能够估计曲率（工作量），则可以使LLM预训练更加高效。问题是：用现有的方法估计曲率是非常困难且昂贵。“事实上，这比不做曲率预测的工作更昂贵，”刘洪说。这就是当前优化LLM预训练的最先进方法（Adam及其变体）放弃曲率估计步骤的部分原因。

尽管如此，刘洪和他的同事们注意到，使用参数曲率估计的先验方法可能效率低下：先验研究人员在优化的每一步都更新了他们的曲率估计。斯坦福大学的团队想知道他们是否可以通过减少更新次数来提高这一过程的效率。

为了验证这一想法，斯坦福大学的团队设计Sophia仅每10步估计一次参数的曲率。“结果证明这是一个巨大的胜利，”刘洪说道。

该团队的第二个优化技巧，称为剪裁（clipping），这个技术解决了一个问题：曲率估计不准确的问题。斯坦福大学团队认为，“如果估计是错误的，那就好比给那些做艰苦工作的人更多的工作要做。这比没有估计的情况更糟。”

剪裁通过设置阈值或最大曲率估计来防止这种情况发生。刘洪说：“在博鱼·综合体育的工厂比喻中，这就像为所有员工设定了工作量限制。”另一个常用于优化的比喻是山丘和山谷的景观，其目标是最终到达最低的山谷。刘洪认为如果不进行修剪，就有可能在两座山之间的马鞍上着陆。

Sophia将扩大应用范围

刘洪和他的同事使用Sophia预训练了一个相对较小的LLM，使用了与创建OpenAI的GPT-2相同的模型大小和配置。

Sophia将曲率估计和裁剪相结合，使得LLM预训练优化能够在Adam所需的一半步数和一半时间内顺利地进行到最低谷。

刘洪说：“Sophia的适应能力使它与Adam不同。”Adam很难处理曲率不均匀的参数，因为它无法提前预测。”

此外，刘洪还表示，这也是九年来第一次有人在语言模型预训练方面比Adam有任何实质性的进步。“这可能意味着训练现实世界中的大型模型的成本将大幅降低。”他说，随着模型的扩大，Sophia的优势只会增加。

接下来，斯坦福大学研究团队希望利用Sophia开发一个更大的LLM。他还希望看到Sophia应用于机器人的其他领域。

上一篇 : OpenAI隐藏检测ChatGPT作弊工具,准确率高达 99.9% 下一篇 : AI 驱动的法律公司DecoverAI筹集数百万美元种子资金

预约演示

斯坦福发布Sophia，可显著缩短大模型训练时间