chatgpt是软件还是机器人 chatgpt是如何训练出来的？它最难的点不是技术

【是如何训练出来的？它最难的点不是技术】

现在非常火爆，根源在于它的聊天水平号称超过了90%的人类。

在这以前，所谓的小冰、siri、小艺、小度、小Q这类科技巨头公司推出的聊天机器人，都是傻瓜式的聊天机器人，胡言乱语，答非所问，插诨打科，跟智能几乎是不挨边。

不同，人工智能大为提高，美国的大学生几乎人人在用，用它写作业，考试与写论文，关键是，居然过关了，甚至论文的水平达到教授级别，这不是普通的智能，这是硕士博士级别的智能啊。

等于是成为人工智能设备的大脑，人类终于将AI的大脑创造出来了，并且让它迅速迭代，这是火爆的原因。5天用户超过百万级别，2个月，用户达到1亿，这是互联网产品吸引用户最快的产品。

称它为现象级的应用，没有夸赞它的意思。

那么，是如何训练出来的呢？它最难的地方是哪个环节？

有些人会以为最难的地方是技术，其实并不是的，的技术并不难，百度、华为、阿里等技术团队都掌握了的技术。就是算法模型NLP，智能型的算法模型难，什么意思呢？

原来我们跟聊天机器人比如小艺聊天时，没办法追问，只能一问一答，一答一个问题，前后风马牛不相及，现在呢？可以追问，并且在追问中，在刨根究底的过程中，最终获得了自己需要的内容。也就是说，机器人能看懂持续追问的内容，并且不断根据追问的要求提供更精准、更科学、更人性化的内容。

依靠什么做到的呢？依靠对聊天机器人算法模型（NLP）的训练，不断给它喂数据，让它成长起来，变得更加智能。而由于人类各个领域内的对话聊天互动太过复杂，就需要在训练过程中不断地修正NLP的参数，有多少个参数呢？

的参数是千亿级别的，达到1750亿个参数，以应对无数个意外；而华为算法模型参数也是千亿级别的；

为什么会有这么多参数？因为训练的内容太多了，的训练内容有多少？45TB，1TB=，1GB=，1MB=，1KB-1024字节，一个英文字母是1个字节，一个汉字是2个字节。

那么，45TB大概等于5兆亿字节，等于2.5兆亿汉字的内容，如果一本书是10万字来算的话，那么，2.5兆亿汉字相当于2.5亿册书，中国最大的图书馆是北京图书馆，藏书1500万册，45TB相当于17个北京图书馆的数量。

因此，要通过千亿级别的参数对45TB的数据进行训练，一天的成本，是460万美元。

所以说，最难不是技术，而是算力，就是芯片的计算速度，动用了28.5万个CPU与1万个高端GPU来进行训练的。CPU负责NLP模型的代码运行，浮点计算与控制，GPU负责图形处理。

如此庞大的训练数据来自于哪儿？不可能是训练人员输入的，而是通过蛛蛛爬虫在网络上抓取，当然不排除电子扫描一些专业的文档。

由于互联网已经发展了20多年，在2018年时，每天产生的数据就有175ZB，ZB可比TB大多了！1ZB=1024*1024*。

chatgpt是软件还是机器人_软件机器人怎么做的_机器人的软件系统包括什么

互联网中有天文数字的数据，训练数量非常多，只需要抓取就可以了。

所以，的训练步骤分为三步：

第一步，通过蜘蛛爬虫从互联网里抓取需要的数据，目前来看，主要抓取的是问答类、代码类、数据库表格类、专业科技文档类、医学类、学校课本知识类、法律类等等类别的数据，其中问答类数据基本上占了互联网数据的80%。

这也是为什么人工智能时代的现象级产品是的原因，聊天问专家嘛。

将这些内容抓取出来，喂给，训练它，使它具备一定的智能。

第二步，由专家级别的人工向提问，让提供3个最佳答案，再由专家判断其中一个为唯一答案，这是第二步，为什么比以前的聊天机器人小度siri更智能？原因在于此。围棋阿尔法狗就是这样训练出来打败世界冠军的。

知道中国的聊天机器人是招什么人在训练吗？招普通的客服，因为它在开发客服机器人嘛，不是专家在训练，所以，这也是中国聊天机器人比较傻的原因之一吧。

第三步，再不断地喂数据给，再通过参数与专家对答案进行微调，使之趋向于完善。

当有1亿人，甚至更多人在使用它时，等于是在免费帮它训练，虽然有偏差，但是总体上来讲，会通过参数控制答案的科学性与合理性，它会越来越智能。

那么，如此不断地训练下去，就会越来越智能，因为它不像人类，会忘记掉训练的知识，它不会忘记，所以它会越来越强大，越来越智能，最终变成一个全能超人，除了未来，除了创造性思维，它无所不知，无所不能。

比如，它精通世界上所有菜的炒制，如果开发一个机器实体，引进作为它的大脑，那么，它就成为世界上最厉害的厨师，没有任何其他厨师比它厉害，因为，所有的炒菜的细节参数与时间温度它都知道，不会有丝毫的失误。

这个现象什么时候到来？第三次工业革命，人工智能时代，它来了，你准备好了吗？

商机可以说是非常多，我在上一篇文章中就列举了3个商机，小科技公司如果拿去用，就可以小团队创业了。

This article was published on ChatGPT中文版官网 by xieguijun88

Article via URL: https://chatgpt.319ai.com/2613.html

抓取智能聊天训练追问