吸引了全世界的目光,而在它的背后,是一个鲜为人知的分布式框架,正暗中推动这场新的生成式人工智能革命,那就是下一代分布式开发框架Ray。蚂蚁集团Ray团队翻译了这篇来自 的相关文章,为大家提供关于Ray的更多信息参考。

Ray是由伯克利大学实验室发起的一个开源分布式计算框架,蚂蚁集团从2018年起就共同参与项目的开发,深度参与了Ray内核的开发,这些年里为Ray社区贡献了大量的核心功能和架构改进,并积极推动Ray社区的发展。截止2022年8月,蚂蚁在Ray开源社区产生8位,在TOP 中占12席,内核代码贡献量26.3%,仅次于稳居开源社区第二。

蚂蚁内部将Ray定性为高性能计算的分布式计算框架,已成为蚂蚁事实上的计算基础设施底盘,支持隐私计算和联邦学习、图计算、视频处理、在线训练推理等等。在AI领域,蚂蚁基于Ray研发了一套面向在线、融合以及AI场景的实时训练推理引擎和科学计算引擎,目前已开源至社区。在超过四年的积累下,实时训练推理引擎一直长期支持了支付宝 APP 首页、财富以及数字金融的在线学习业务,打通了大量分布式架构下的训练和推理引擎(原生tf、paitf、、、alps、);并以此为基础成功支持超大模型的在线训练和推理,构建的 CTR、CVR模型高达1.2T,参数规模量级大约为5000亿。

以下内容翻译自

在火爆的背后

一个价值 10 亿美元的分布式计算框架

正在悄然推动AI新时代

一个新的人工智能工具在互联网上引起了轩然大波: 一个名为的聊天机器人,它可以对你能想象的几乎所有问题提供非常详细、近乎逼真的回应。尽管和其他流行的工具 (例如 labs的Lensa) 一样吸引了所有目光,但背后是一个鲜为人知的分布式框架正在暗中推动这场新的生成式人工智能革命。

由A16z投资支持的初创公司开发的分布式框架Ray,是能够增强其训练和其他类似模型的关键能力。Ray是最近的所有大型语言模型训练的底层框架,这意味着它可能也是备受期待的下一步行动 (通常称为GPT-4) 背后的框架。业内人士认为,通过产生近乎人类回应的内容,可能会创造一轮数十亿美元价值的商业浪潮。

Ray已经成为是这一领域的领头羊。总裁Greg 在今年早些时候的Ray峰会说,在使用Ray之前,使用了大量的自定义工具来开发早期的模型和产品。但是,随着自定义工具的弱点逐变得明显,他们决定转向使用Ray。

主流的开源框架_开源框架靠什么赚钱_chatgpt的所有训练框架开源

首席执行官 告诉 :“人工智能的发展速度非常快,而且大家一直在尝试新方法,就比如将以前投入在大型语言模型上的许多工作与强化学习结合在一起。在此基础上,你必须拥有一个能够快速创新、支持这种灵活性、扩展多种算法和方式的基础架构。而Ray通过在中同时使用Task和Actor的能力提供了许多这样的灵活性。”

由于像这样的时髦新工具需要越来越庞大的模型,业内公司不得不从底层重新考虑如何开发这些模型。Ray填补了这一空白,使得训练这些包括数千亿个数据点的庞大的模型成为可能,也更加容易,这才造就了一条条逼真的回复。

Ray 如何成为机器学习的首选工具

Ray提供了一套基础架构,用来管理和分发训练机器学习模型中的复杂任务。机器学习专家通常可以在自己的笔记本电脑上运行使用有限数据集的小型模型,例如,用于预测客户是否会停止购买产品的模型。然而,对于像这样的模型,单台笔记本电脑是不够的,我们需要更多的服务器来支撑大型模型的训练。

但在这其中,最大的挑战之一是在所有这些不同的硬件上怎么去协调整个训练过程。Ray 为开发者提供了一种将不同的硬件作为一个计算单元来管理的机制,用户可以决定什么数据去什么硬件上进行计算,如何处理故障等等。Ray 将其他语言中的一个关键编程概念“actor”扩展到 这个机器学习首选语言。有时它甚至不是相同的硬件,并且可以包含云、AWS 和其他同类产品的组合。

在引入Ray之前, 使用了一套“大杂烩”的工具来训练NPI模型。 总裁说,随着公司规模的扩大,它发现自己不得不对其公司的开发工具和基础设施进行新的定制和调整。

选择使用Ray,可以屏蔽底层系统的复杂性,为像 这样的公司腾出更多时间和精力专注于他们的关键能力。

总体来看,Ray只是众多迅速兴起的下一代机器学习工具中的一个,这些工具正在颠覆AI开发的方式。例如, 的 JAX 框架也获得了巨大的关注。很多开发者认为,JAX 会成为谷歌核心机器学习工具的支柱,因为它已经在其 和 Brain部门得到广泛应用。

Ray也不是唯一一个专注解决此类问题的工具。另一家由 和 支持的初创公司 开发了一个名为 Dask 的框架。

所有这些工具,包括 Ray 和 JAX,都可以成为大语言模型的新一代“内燃机”。这些训练自数十亿个数据点的模型,尝试预测语句和回应的结构,并针对输入的询问生成逼真的文本响应。多家公司,包括初创公司和巨头,都在构建自己的大语言模型,包括 Meta、 Face、 和 。

AI 芯片初创公司 的首席执行官 告诉 :“将大模型的工作负载分解并将其分发成很多小的部分是非常困难的,这一点非常重要。”

原文: