这就是 ,以及为什么它可能是自现代搜索引擎以来最重要的工具

引入了一种名为 的长格式问答 AI,它可以对话式回答复杂的问题。

这是一项革命性的技术,因为它经过训练可以了解人类提出问题时的意思。

许多用户对它提供人类质量响应的能力感到敬畏,激发了一种感觉,即它最终可能有能力破坏人类与计算机的交互方式并改变信息的检索方式。

什么是聊天 GPT?

是基于GPT-3.5开发的大型语言模型聊天机器人。它具有以会话对话形式进行交互并提供令人惊讶的人性化响应的非凡能力。

大型语言模型执行预测一系列单词中的下一个单词的任务。

with Human (RLHF) 是一个额外的训练层,它使用人类反馈来帮助 学习遵循指示并生成人类满意的响应的能力。

谁建立了 ?

由总部位于旧金山的人工智能公司 创建。 Inc. 是营利性 LP 的非营利性母公司。

以其著名的 DALL·E 而闻名,这是一种深度学习模型,可根据称为提示的文本指令生成图像。

首席执行官是 Sam ,他之前是 Y 的总裁。

微软是10 亿美元的合作伙伴和投资者。他们共同开发了Azure AI 平台。

大型语言模型

是一种大型语言模型 (LLM)。大型语言模型 (LLM) 使用大量数据进行训练,以准确预测句子中接下来出现的单词。

人们发现,增加数据量可以提高语言模型做更多事情的能力。

根据斯坦福大学的说法:

“GPT-3 有 1750 亿个参数,并接受了 570 GB 文本的训练。相比之下,其前身 GPT-2 的参数量为 15 亿个,小了 100 多倍。

这种规模的增加极大地改变了模型的行为——GPT-3 能够执行它没有明确接受过训练的任务,比如将句子从英语翻译成法语,几乎没有训练示例。

这种行为在 GPT-2 中几乎不存在。此外,对于某些任务,GPT-3 优于经过明确训练以解决这些任务的模型,尽管在其他任务中它不尽如人意。”

LLM 预测一个句子中一系列单词中的下一个单词和下一个句子——有点像自动完成,但在一个令人费解的范围内。

这种能力使他们能够编写段落和整页内容。

但法学硕士的局限性在于他们并不总是能准确理解人类的需求。

这就是 通过上述人类反馈强化学习 (RLHF) 培训改进现有技术的地方。

是如何训练的?

GPT-3.5 接受了来自互联网的大量代码和信息数据的训练,包括 讨论等来源,以帮助 学习对话并获得人性化的回应方式。

还使用人类反馈(一种称为人类反馈强化学习的技术)进行训练,以便 AI 了解人类在提出问题时的期望。以这种方式训练 LLM 是革命性的,因为它不仅仅是训练 LLM 预测下一个单词。

2022 年 3 月的一篇题为“训练语言模型以遵循人类反馈的指令”的研究论文解释了为什么这是一种突破性的方法:

“这项工作的动机是我们的目标是通过训练大型语言模型去做一组给定的人类希望他们做的事情来增加大型语言模型的积极影响。

默认情况下,语言模型会优化下一个单词预测目标,这只是我们希望这些模型执行的操作的代理。

我们的结果表明,我们的技术有望使语言模型更有用、更真实、更无害。

使语言模型更大并不能从本质上使它们更好地遵循用户的意图。

例如,大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。

换句话说,这些模型与他们的用户不一致。”

构建 的工程师聘请了承包商(称为贴标机)对 GPT-3 和新的 ( 的“兄弟模型”)这两个系统的输出进行评级。

根据评级,研究人员得出以下结论:

“与 GPT-3 的输出相比,标记者更喜欢 输出。

模型在真实性方面比 GPT-3 有所改进。

显示毒性比 GPT-3 略有改善,但没有偏差。”

该研究论文得出结论, 的结果是积极的。不过,它也指出还有改进的余地。

“总的来说,我们的结果表明,使用人类偏好微调大型语言模型可以显着改善它们在广泛任务中的行为,尽管要提高它们的安全性和可靠性还有很多工作要做。”

与简单的聊天机器人的不同之处在于,它经过专门训练,可以理解问题中的人类意图,并提供有用、真实且无害的答案

由于该培训, 可能会挑战某些问题并丢弃问题中没有意义的部分。

另一篇与 相关的研究论文展示了他们如何训练人工智能来预测人类的偏好。

研究人员注意到,用于评估自然语言处理 AI 输出的指标导致机器在指标上得分很高,但与人类的预期不符。

以下是研究人员如何解释这个问题:

“许多机器学习应用程序优化简单的指标,这些指标只是设计者意图的粗略代表。这可能会导致问题,例如 推荐宣传点击诱饵。”

因此,他们设计的解决方案是创建一个人工智能,该人工智能可以输出针对人类偏好进行优化的答案。

为此,他们使用人类对不同答案进行比较的数据集对 AI 进行了训练,以便机器能够更好地预测人类认为令人满意的答案。

该论文分享了培训是通过总结 帖子完成的,并在总结新闻时进行了测试。

2022 年 2 月的研究论文名为 to from Human 。

研究人员写道:

“在这项工作中,我们表明可以通过训练模型来优化人类偏好来显着提高摘要质量。

我们收集了一个大型、高质量的人类比较摘要数据集,训练一个模型来预测人类偏好的摘要,并将该模型用作奖励函数,以使用强化学习微调摘要策略。”

如何用chatgpt训练模型_模型训练用3080行吗_模型训练用什么显卡

的局限性是什么?

毒性反应的局限性

经过专门编程,不会提供有毒或有害的响应。所以它会避免回答这类问题。

答案的质量取决于方向的质量

的一个重要限制是输出质量取决于输入质量。换句话说,专家指导(提示)会产生更好的答案。

答案并不总是正确的

另一个限制是,因为它经过训练可以提供人类感觉正确的答案,所以这些答案可能会欺骗人类输出是正确的。

许多用户发现 可以提供不正确的答案,包括一些非常不正确的答案。

编码问答网站 Stack 的版主可能发现了人类认为正确的答案的意外后果。

Stack 充斥着从 生成的用户回复,这些回复看起来是正确的,但很多都是错误的答案。

数以千计的答案让志愿者主持人团队不堪重负,促使管理员对发布由 生成的答案的任何用户颁布禁令。

的大量回答导致了一篇题为:临时政策: 被禁止的帖子:

“这是一项临时政策,旨在减缓使用 创建的答案和其他内容的涌入。

……主要问题是,虽然 产生的答案有很高的错误率,但它们通常“看起来”“可能”不错……”

Stack 版主使用看似正确的错误 答案的经历是 的制造商 在其新技术公告中意识到并警告的事情。

解释了 的局限性

公告提出了这个警告:

“ 有时会写出看似合理但不正确或荒谬的答案。

解决此问题具有挑战性,因为:

(1) 在 RL 训练期间,目前没有真实来源;

(2) 训练模型更加谨慎导致它拒绝可以正确回答的问题;和

(3) 监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。”

可以免费使用吗?

目前在“研究预览”期间免费使用。

该聊天机器人目前已开放供用户试用并提供有关响应的反馈,以便 AI 能够更好地回答问题并从错误中吸取教训。

官方公告称, 渴望收到有关错误的反馈:

“虽然我们努力让模型拒绝不适当的请求,但它有时会响应有害指令或表现出有偏见的行为。

我们正在使用 API 来警告或阻止某些类型的不安全内容,但我们预计它目前会有一些漏报和漏报。

我们渴望收集用户反馈,以帮助我们正在进行的改进该系统的工作。”

目前有一场比赛,奖金为 500 美元的 积分,以鼓励公众对回复进行评分。

“鼓励用户通过 UI 提供有关有问题的模型输出的反馈,以及来自外部内容过滤器(也是界面的一部分)的误报/否定。

我们对有关在现实世界、非对抗性条件下可能发生的有害输出的反馈,以及帮助我们发现和理解新风险和可能的缓解措施的反馈特别感兴趣。

您可以选择参加 反馈竞赛3,有机会赢取高达 500 美元的 API 积分。

可以通过 界面中链接的反馈表提交参赛作品。”

目前正在进行的比赛将于 2022 年 12 月 31 日太平洋标准时间晚上 11:59 结束。

语言模型会取代谷歌搜索吗?

谷歌本身已经创建了一个名为LaMDA的 AI 聊天机器人。谷歌聊天机器人的性能非常接近人类对话,以至于一位谷歌工程师声称LaMDA 具有感知能力。

鉴于这些大型语言模型如何能够回答如此多的问题,像 、谷歌或微软这样的公司有一天会用 AI 聊天机器人取代传统搜索,这是否牵强附会?

上的一些人已经宣布 将成为下一个谷歌。

问答聊天机器人有朝一日可能会取代谷歌的场景让那些以搜索营销专业人士为生的人感到恐惧。

它引发了在线搜索营销社区的讨论,例如流行的 Lab,有人问搜索是否可能从搜索引擎转向聊天机器人。

测试过 后,我不得不承认,担心搜索被聊天机器人取代并非没有根据。

该技术还有很长的路要走,但可以设想混合搜索和聊天机器人的未来搜索。

但目前 的实施似乎是一种工具,在某些时候需要购买积分才能使用。

如何使用 ?

可以以特定作者的风格编写代码、诗歌、歌曲,甚至短篇小说。

遵循以下方向的专业知识将 从信息源提升为可以用来完成任务的工具。

这使得它对于撰写几乎任何主题的文章都很有用。

可以作为生成文章甚至整部小说大纲的工具。

它几乎可以回答任何可以用书面文本回答的任务。

遵循以下方向的专业知识将 从信息源提升为可以用来完成任务的工具。

这使得它对于撰写几乎任何主题的文章都很有用。

可以作为生成文章甚至整部小说大纲的工具。

它几乎可以回答任何可以用书面文本回答的任务。