【是如何训练出来的?它最难的点不是技术】
现在非常火爆,根源在于它的聊天水平号称超过了90%的人类。
在这以前,所谓的小冰、siri、小艺、小度、小Q这类科技巨头公司推出的聊天机器人,都是傻瓜式的聊天机器人,胡言乱语,答非所问,插诨打科,跟智能几乎是不挨边。
不同,人工智能大为提高,美国的大学生几乎人人在用,用它写作业,考试与写论文,关键是,居然过关了,甚至论文的水平达到教授级别,这不是普通的智能,这是硕士博士级别的智能啊。
等于是成为人工智能设备的大脑,人类终于将AI的大脑创造出来了,并且让它迅速迭代,这是火爆的原因。5天用户超过百万级别,2个月,用户达到1亿,这是互联网产品吸引用户最快的产品。
称它为现象级的应用,没有夸赞它的意思。
那么,是如何训练出来的呢?它最难的地方是哪个环节?
有些人会以为最难的地方是技术,其实并不是的,的技术并不难,百度、华为、阿里等技术团队都掌握了的技术。就是算法模型NLP,智能型的算法模型难,什么意思呢?
原来我们跟聊天机器人比如小艺聊天时,没办法追问,只能一问一答,一答一个问题,前后风马牛不相及,现在呢?可以追问,并且在追问中,在刨根究底的过程中,最终获得了自己需要的内容。也就是说,机器人能看懂持续追问的内容,并且不断根据追问的要求提供更精准、更科学、更人性化的内容。
依靠什么做到的呢?依靠对聊天机器人算法模型(NLP)的训练,不断给它喂数据,让它成长起来,变得更加智能。而由于人类各个领域内的对话聊天互动太过复杂,就需要在训练过程中不断地修正NLP的参数,有多少个参数呢?
的参数是千亿级别的,达到1750亿个参数,以应对无数个意外;而华为算法模型参数也是千亿级别的;
为什么会有这么多参数?因为训练的内容太多了,的训练内容有多少?45TB,1TB=,1GB=,1MB=,1KB-1024字节,一个英文字母是1个字节,一个汉字是2个字节。
那么,45TB大概等于5兆亿字节,等于2.5兆亿汉字的内容,如果一本书是10万字来算的话,那么,2.5兆亿汉字相当于2.5亿册书,中国最大的图书馆是北京图书馆,藏书1500万册,45TB相当于17个北京图书馆的数量。
因此,要通过千亿级别的参数对45TB的数据进行训练,一天的成本,是460万美元。
所以说,最难不是技术,而是算力,就是芯片的计算速度,动用了28.5万个CPU与1万个高端GPU来进行训练的。CPU负责NLP模型的代码运行,浮点计算与控制,GPU负责图形处理。
如此庞大的训练数据来自于哪儿?不可能是训练人员输入的,而是通过蛛蛛爬虫在网络上抓取,当然不排除电子扫描一些专业的文档。
由于互联网已经发展了20多年,在2018年时,每天产生的数据就有175ZB,ZB可比TB大多了!1ZB=1024*1024*。
互联网中有天文数字的数据,训练数量非常多,只需要抓取就可以了。
所以,的训练步骤分为三步:
第一步,通过蜘蛛爬虫从互联网里抓取需要的数据,目前来看,主要抓取的是问答类、代码类、数据库表格类、专业科技文档类、医学类、学校课本知识类、法律类等等类别的数据,其中问答类数据基本上占了互联网数据的80%。
这也是为什么人工智能时代的现象级产品是的原因,聊天问专家嘛。
将这些内容抓取出来,喂给,训练它,使它具备一定的智能。
第二步,由专家级别的人工向提问,让提供3个最佳答案,再由专家判断其中一个为唯一答案,这是第二步,为什么比以前的聊天机器人小度siri更智能?原因在于此。围棋阿尔法狗就是这样训练出来打败世界冠军的。
知道中国的聊天机器人是招什么人在训练吗?招普通的客服,因为它在开发客服机器人嘛,不是专家在训练,所以,这也是中国聊天机器人比较傻的原因之一吧。
第三步,再不断地喂数据给,再通过参数与专家对答案进行微调,使之趋向于完善。
当有1亿人,甚至更多人在使用它时,等于是在免费帮它训练,虽然有偏差,但是总体上来讲,会通过参数控制答案的科学性与合理性,它会越来越智能。
那么,如此不断地训练下去,就会越来越智能,因为它不像人类,会忘记掉训练的知识,它不会忘记,所以它会越来越强大,越来越智能,最终变成一个全能超人,除了未来,除了创造性思维,它无所不知,无所不能。
比如,它精通世界上所有菜的炒制,如果开发一个机器实体,引进作为它的大脑,那么,它就成为世界上最厉害的厨师,没有任何其他厨师比它厉害,因为,所有的炒菜的细节参数与时间温度它都知道,不会有丝毫的失误。
这个现象什么时候到来?第三次工业革命,人工智能时代,它来了,你准备好了吗?
商机可以说是非常多,我在上一篇文章中就列举了3个商机,小科技公司如果拿去用,就可以小团队创业了。
发表回复