设为“星标”,和你一起掌握更多数据库知识 

本文首发于我的知乎,终端研发部!

说起,我们都知道非常的火爆,作为程序员,我们更要知其然,知其所以然!

而在这个领域,最为重要的核心技术之一就是大语言模型。而在大语言模型中,就是备受关注的代表之一,几天我就给大家说说背后的那些事情。

其实它是由开放人工智能研究院()开发的一种大型自然语言生成模型。其前身为GPT,经过不断的迭代和升级,已经发展成为了目前最为先进的自然语言处理技术之一。

主要是针对智能客服、聊天机器人等领域的人机交互应用而设计的。该模型不仅可以实现对话交互,还可以根据输入的信息进行推理,生成符合语义逻辑的文本,从而大大提高了对话的质量和效率。

so,我来补充一下什么是 语言模型

语言模型( model):把语言输出看作一个符号序列,通过定义在词序列上的概率模型,计算一个词序列的概率。

2020年5月,推出GPT-3模型( pre- -3),其参数大小175亿参数,是上图第二大参数的 10 倍。

2022年11 月 30 日, 发布了针对对话进行优化的语言模型 ,该模型采用对话模式进行交互,不仅能回答问题,还能承认错误、质疑不正确的前提和拒绝不恰当的请求。

文本语言模型chatgpt_文本语言模型chatgpt_文本语言模型chatgpt

作为一款先进的大语言模型,拥有着很强的文本生成能力,可以模拟人类的思维过程,理解和处理自然语言。该模型使用了网络结构,并且训练了数百亿个单词级别的语言模型参数,从而可以对多种任务进行预测和生成。同时,该模型还集成了对话管理、情感识别、知识图谱等多种先进技术,使其更加智能化、人性化。

然而我不得不说一下大语言模型(LLM)的技术的重要性!

简单说,它的思路就是把尽可能大量大量大量大量的数据通过 架构做机器学习,就能从数据中学到很多很多很多很多能力,多到超出原始设计者的想象。

比方说,它在翻译方面的能力,不输于,甚至超过了专业的机器翻译系统。

本文开头机翻的比尔盖茨的话,我觉得 就比 翻译得要好上一个层次。唯一瑕疵是用了比较生僻「元界」,而不是更常用的「元宇宙」。但当我告诉它「元宇宙」更常用后,它立刻就能修正翻译:

这个LLM模型规模必然非常巨大,是目前最接近理想LLM的技术方案,而理想中的LLM应该是以一个几乎无所不能的基础通用大模型作为依托,来支持各种各样的上层任务类型。目前看,支持越来越多的任务类型,主要是通过增加LLM预训练数据的多样性来达成的,数据多样性越好,LLM能够支持的任务类型就越丰富。所以,应该重视通过增加数据多样性来增加LLM新能力的思路。

这要以大模型成功的四个核心要素来分析。这四个要素是:

算法

数据

工程技巧