<返回更多

大模型(LLM)最新趋势总结

2023-07-11  企鹅号   鹤啸九天的科技思考
加入收藏

引言  

又几个月过去了,大模型(LLM)行业有什么新进展、新趋势?

(0)总结——太长不看

关键结论:

开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down

GPT-4模型信息:采用MoE架构,16个experts,800b参数

如何减少幻觉 hallucination?scaling/retrieval/reward model

指令遵循的开源小模型被过度炒作,已经到达瓶颈,突破方向是更强的 Base Model 和更进一步的反馈数据

用不了多久,大家会把80%算力从 TrAIning 转向 Serving

预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本,中间有无数次小版本迭代;

中期来看,RLHF 不应该是 Alignment 的唯一手段, Direct Preference Optimization 和 Stable Alignment 是新路径

长期来看,小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding

LLM 的 Context Window 就像电脑内存,向量数据库是 LLM 的硬盘

Robot Learning 已成为学界主流研究路线

(1)上一期报告回顾

3个月前,文章(The Age of AI:拾象大模型及OpenAI投资思考)介绍了拾象投研机构对LLM的调研报告,内容涉及:

① 什么是大模型?LLM是新一代通用计算机,windows 95 级别的计算机平台;

② 从基础模型到 Killer Apps,价值链如何被分配?OpenAI、Anthropic 为代表的基础模型能力边界不断拓宽,占据价值链中最主要的环节;

③ 什么是 AI Native 应用?AI Native 应用不是语言模型的嵌套,而是对现有软件服务的重构;

④ LLM 浪潮下,科技巨头们是如何和 LLM 做结合的?顶级CEO 们对于 LLM 尚未形成共识,未来 6 个月是重要的窗口期;

⑤ OpenAI 为什么能够成为 LLM 最强王者?OpenAI 组织活力来自自上而下对 AGI 的坚定信仰、极高的人才密度,以及自下而上推动创新的实验机制。

具体来说,对于LLM的几个关键判断:

① LLM是计算机,而OpenAI的GPT系列将成为Windows 95级别的计算机平台

② LLM基础模型拿走价值链的大头(60%),其次是AI Infra基础架构、Killer Apps,各占20%。所以,大家纷纷发力训练大模型。

③ 从Mobile到LLM:大模型真正理解语言,数据组织效率和能力继续加强。人机交互方式开始迈入新时代(CUI对话交互)

④ LLM的边界:目前只是空有大脑,身体和感官还在逐步成长。

⑤ 下一步:给大脑装上感官(多模态)以及手脚(插件/AutoGPT之类)

另外,LLM之上的应用会是什么样?全方位的重构:交互、数据信息、服务以及反馈机制,一个可行的路子是AI Native软件开发——把已有应用按照LLM的能力图谱重新设计一遍,对话式交互(CUI)走到前台。

相对于应用层,未来3-5年,AI-Infra的确定性机会更多,体现在模型层和工具层的各类应用。

(2)最新报告:State of LLM

6月29日,时隔3个月,拾象投研团队再次发布LLM调研报告:State of LLM

精简总结如下(原始报告获取方式见尾部附录)

继续看好LLM,如火如荼、大动干戈的“千模大赛”到底在争什么?下一代超级入口!

目前,OpenAI、Anthropic和google处于第一梯队。

报告甚至将LLM训练复杂度比作“造原子弹”,每次发布堪称“登月”,有些夸张,但LLM训练确实不容易。

过去的几个月时间,已经很多家公司发布自己的大模型,各有特色,灿若繁星:

开源系列羊驼大家族最为耀眼,英文名已经“售罄”。

更多介绍见前文:ChatGPT复现: 三步走+大模型进化图谱

其中不少LLM宣称达到或趋近ChatGPT/GPT-4的80-90%,大家也都体验过,可圈可点

上次的有偏评测(约120道题)中,初步探了探底:

详见文章:千模大赛哪家强?大语言模型中文评测实践。

报告里关于LLM训练的事实和观点:

预训练:GPT系列的成功主要源自于小创新,训练数据远超过其他大模型。

微调:GPT并非采用预训练一体的模型结构。

奖励模型:OpenAI 数据飞轮效应有限,外部数据标注分散给多家公司。

至于稳坐神坛的GPT-4,这次报告明确指出:GPT-4采用MoE架构,16个experts,800b参数,“吃掉”30T数据,训练消耗5万张A100,推理用了3-4万A100。而这只是开始,下一代模型重点是多模态,消耗的资源将更大更多,10万张H100!

至于业界普遍看好的开源模型,这次报告波了盆冷水:开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down

同时,报告还指出:指令遵循的开源小模型被过度炒作,已经到达瓶颈,突破方向是更强的Base Model 和更进一步的反馈数据。

LLaMA+指令微调≠GPT 3.5

怎么办?开源社区开始“分工协作”,转向 pre-train环节。

至于,盛传的“开源大模型才是未来的赢家”,大家态度截然相反,客户坚信,而研究者悲观,算力、数据、时间差以及全栈产品链,不是一般开源组织玩得起的。

千模大赛还在继续,热潮还会持续多久?过于关注训练会不会浪费资源?

跟风而上的浪潮终究会退下,到时候,少数人成为弄潮儿,而多数人被淹死,成为他人谈资。

大模型训练尘埃落定后,新的浪潮是什么?大模型应用,其中 Serving 是个难题。

报告里分析了什么时候80%算力从 Training 转向 Serving?要看用户群体,B/C/G 时间点各不相同。

B/G:私有化部署和小语种模型

C:终端推理解决隐私问题

产品上,目前主要简单辅助,多模态、复杂推理问题解决后,才会带来质的飞跃。

成熟期时间轴上的刻度依次是 长程窗口、多模态、小模型天花板、模型压缩等,B/C/G侧应用随之逐步展开,Serving时刻到来。

预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本,中间有无数次小版本迭代;

中期来看,RLHF 不应该是 Alignment 的唯一手段, Direct Preference Optimization 和 Stable Alignment 是新路径

长期来看,小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding

LLM 的 Context Window 就像电脑内存,向量数据库是 LLM 的硬盘;因而,向量数据库成为LLM领域应用的必备工具,大量vector store厂商成为投资热门。

LLM应用新趋势:LLM扮演system 1,负责快思考,而LLM的Agent助手扮演system 2,负责慢思考(理性推导)

报告还提到了经典的幻觉问题:

幻觉原因:模型学习了错误信息,模型只善于模仿语言风格,而不能良好地判断正确的信息

如何减少幻觉(hallucination)?

方法有:scaling/retrieval/reward model

① scaling:大模型小型化,降低幻觉频率

② retrieval:通过检索融入事实信息,纠正幻觉

③ reward model:用奖励模型来鉴别幻觉

有了大模型的加持,学术界已经把Robot Learning 做为主流研究路线

LLM+Robotics=?

软件上,机器人大脑大幅升级;

硬件上,人形机器人热度再起。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>