<返回更多

周鸿祎的AI大模型方法论

2023-06-14    正和岛
加入收藏

作 者:于启章

来 源:正和岛(ID:zhenghedao)

“所有行业都值得被重做一遍。”

上一次这句话无限风靡的时候,我们还在互联网时代。

那一场浪潮之下,我们目光所及的生活方方面面的确都被颠覆了,通讯、支付、购物、点餐、打车、社交……

如今这句话再被提起,我们知道,人工智能来了。

而在对于人工智能应用的无限想象中,ChatGPT的“横空出世”让生成式AI成为整个世界关注人工智能的抓手。

大模型作为生成式AI的“基建”,更是成为了兵家必争之地。

百模大战,打“疯”了

很多人或许注意到,前不久的高考期间,大模型“卷”到了台前。

ChatGPT、360智脑、文心一言、通义千问等大模型纷纷参与到押题、模拟答题、模拟写作文等环节,在“线上考场”赚足眼球。

当前,“模型热”经久不散,业内普遍认为,“这是人类历史上距离实现通用人工智能最近的时刻”。

也正因如此,国内“百模大战”愈演愈烈,其中10亿以上参数规模大模型已达到79个,在数量上进入了世界范围内的第一梯队。

来源:中国人工智能大模型地图研究报告

锦上添花的是,5月底短短一天内,北上深三地接连发布关于支持人工智能产业的政策文件,作为国内城市发展极具代表的超一线城市,这三地政府的表态为产业发展带来极大的鼓舞作用。

可纵然前景无限,我们依然要客观认识到“多而不强”的中国大模型现状。

中国大模型,“命门”何在?

中国科学院计算技术研究所研究员张云泉有过这样一个感慨:

“之前,无论从AI论文发布数量、引用量、专利数,还是从人工智能企业、独角兽数量来看,我们对中国在人工智能方向上的发展还是非常乐观。但在ChatGPT发布之后,大家突然发现中国人工智能的发展还有很多问题待解决。”

确实,与国际同行相比,我们在模型、数据和算力方面的劣势都客观存在,讨论度也很高。但复旦大学教授、上海市数据科学重点实验室主任肖仰华认为,我们大多数人忽视了一个绝对核心的问题:

那就是我国没有完全掌握对大模型的“炼制”工艺,包括数据配方、数据清洗和参数设置等。

360创始人周鸿祎也有类似的观点,在昨天的360智脑大模型应用发布会上,他提到:“大家谈发展大模型,最早的三大要素是算力、算法、数据,我今天改成了算力、数据和训练。”

怎么理解训练和清洗?

今时今日,训练大模型有几个关键步骤,首先是找一个跟GPT结构一样的多层次Transformer模型。

Transformer模型的功用在于把所有的文字都看成一个序列,当我们给它前面一个序列之后,它永远在猜测后面的序列是什么。

这种算法未来不仅仅在语言、符号体系上,很有可能在自动驾驶、机器人动作控制、蛋白质分析、人类基因组分析甚至物理、化学、数学等很多科学问题上有重要的应用。

不过,因为有开源和公开的技术,找到一个Transformer模型的门槛已经非常低。

真正的难度在于给模型灌进很多知识,所谓无监督学习或者叫预训练的知识,这种数据的选择和清理非常重要。

因为给模型灌什么样的能力和数据,就预示着它未来有多大的能力,好比一个小朋友从小没培养好思维能力,灌再多的知识也很难形成逻辑。

灌完知识之后最重要的一步就是做题,用技术词汇叫“有监督的微调”,实际上就是用人工或者用更高级别的GPT模型标注问题和答案做出对比。

周鸿祎毫不讳言,“今天很多大模型的能力其实就是靠刷题刷出来的。”

而今天的挑战就在于,大模型的开发者用什么样的数据做预训练,用什么样的题海战术做有监督的微调。

作为老牌搜索引擎厂商,360多年来积累下最大的能力就在于数据获取和清洗的能力。

他们每天在全球抓取1.4亿网站的数据,2.8亿的专业文献,1.2亿的行业数据,规模非常大,只有经过训练和清洗才能精准反馈给用户,留存有10T级优质的规模数据。

而这些,直接决定了一个模型的底层逻辑是否足够清晰。

5月23日,JioNLP大语言模型评测发布最新测试结果,360版GPT——认知智能通用大模型“360智慧大脑”(简称“360智脑”)成为“国内大语言模型目前最好的”。

来源:JioNLP

此前,360智脑在中文通用大模型基准(SuperCLUE)评测结果中,多项能力也是位列国产大模型第一。

JioNLP对360智脑表现评价为超出预期,“相比其它国内模型,优势主要体现在客观题回答准确率相对较高,问答类题型准确性较好,说明模型训练的文本数据分布较广,最值得一提的是模型对于编程题目的准确性较高,测试题中共3道程序题目,全部答对,没有出现明显的偏离和瞎答。”

专业人士分析,作为搜索引擎厂商,360做大模型有天然优势,其海量多样高质量的训练语料和工程化的调度能力,是很多厂商不具备的。同时,搜索引擎数据实时更新、知识校对准确,而大模型能自动剔除垃圾信息,因此两者融合相互增强,形成良性循环。

不难发现,360在“炼制”大模型方面具有很强的前瞻性和技术优势。

而这,正是中国通用大模型的“命门”。

走出自己的路,很关键

对于通用大模型,我们既是在追赶,也是在探索,“如何走出一条自己的路”成为不可避免的论题。

当ChatGPT是采用集中式算力来推动的,未来我们或许可以换一条路,比如走下一代分布式路线,通过更先进的互联技术将国内的一些算力基础设施更好地连接起来,挖掘更强的计算能力。

中国工程院院士郑纬民就建议,可以多方合作打造一个共同的通用大模型,并让这个模型成为新的基础设施。

但要实现这个目标还有很多问题待解决,比如怎么才能把不同的模型连接起来,怎么实现传输,怎样才能既满足对算力的要求,又比较节省成本等。

中国工程院院士廖湘科也认同未来真正具备国际竞争力的通用大模型可能只有少数的一到两个,其他参与者将基于通用大模型进行微调和推理,提供行业定制化的模型服务。

应用场景,成为倒逼技术发展的动力,这对我们来说绝不陌生。

回顾互联网时代,电商、移动支付、即时通讯甚至二维码的最初应用都并非诞生于我国,可正是在庞大的市场和多样的应用场景助推下,我们的应用技术水平指数级增长,为中国社会生活带来了一场升维浪潮。

周鸿祎对此有很深的感触,正基于此,他将360的人工智能发展战略定位“两翼齐飞”, 一方面加强核心技术自研,另一方面结合优势场景,抢占人工智能发展先机。

自2015年成立人工智能研究院后,360一直在深入研究自然语言处理、机器视觉等方向的人工智能技术,并将技术应用于搜索、智能硬件、安全大数据等场景中,积累了行业领先的经验,尤其在多模态技术上积累深厚。

周鸿祎认为,从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预言,多模态大模型与物联网的结合将会成为下一个风口。

“如果我们只是模仿ChatGPT,做了一个搜索对话框,做了一个聊天机器人,指望这个东西带来工业革命是不现实的。”

这一点,已经成为业界共识。

谷歌发布的大模型策略里面,有四种大小尺寸不一样的大模型。

Facebook发布的以“LLaMA羊驼”为首的开源大模型里面,有一种方式是把大模型越做越大,参数越大,训练的语料越大,还有一种方式是把大模型做小,也即用在垂直领域,使其甚至可以部署安装在一台电脑或者手机上。

而如果能装在手机上,就意味着大模型将来可以部署在边缘技术设备,甚至部署在IoT设备上。

在场景布局上,360也坚持着“四路并发”,围绕消费者、中小微企业、企业&政府&城市、行业的不同需求,打造不同的大模型产品及服务。

To C的场景下,搜索引擎+浏览器和桌面,中国几亿用户的桌面上都能有一个AI助手。

面向中小企业时,则可以结合他们的痛点和刚需,把一个大语言模型的通用能力变成很多面向中小企业不同办公场景、不同需求具体的AI工具,大有机会。

对于政府、大型企业来说,他们涉及很多专有数据、私有保密数据、独有的行业知识,不可能把这些知识训练到一个公有的GPT大脑里,所以需要专有的GPT。360在安全方面积累深厚,从世界范围来看,这方面都蕴含着巨大的增量市场机会。

最后是面向行业的GPT,周鸿祎提到,现在360的GPT能力不仅能够满足自己的需求,还要提供出来,跟有行业数据的合作伙伴相结合。

他举了一个案例:

“前两天我遇到一帮创业的小伙子,他们要做一个修车的GPT。

我才知道,原来中国有1000万修车工,他们在修车的时候如果没有经验丰富的老师傅带,就很容易面临知识上的匮乏。

所以这几个小伙子收集了很多修车的案例和知识,找到360问能不能提供通用大模型的能力基础,训练一个修车行业的大模型出来。

这样每个修车工只要订阅一个公众号,在给客户修车的时候把型号、症状告诉修车GPT,就能得到很多案例和经验的启发。

让新入行修车的年轻人能够轻松复用20年老师傅的经验,我觉得这就是一个典型的助推行业的能力。”

未来,在城市端打造城市智能中枢,赋能城市数字化转型;推出专有大模型,打造政府和企业级的GPT;在中小微企业端推出SaaS化垂直应用,打造生产力工具;在消费者端,结合搜索引擎和浏览器,推出用户个人AI助理,都将成为“360智脑”的落地场景。

“两翼齐飞,四路并发”,中国大模型之路,技术与应用场景缺一不可。

360的预判和实践正加速推动着中国走出自己的人工智能之路。

与其谈弯道超车,不如谈厚积薄发

大模型的到来颠覆了人机、人人乃至机器与机器、技术领域与技术领域之间的交互协同机制,但同时也带来了更多的复杂性挑战。

与其谈“弯道超车”,不如谈“厚积薄发”。

搜索引擎先天需要发展NLP(自然语言处理)技术,以更好地理解搜索意图,做搜索结果排序等。作为国内第二大搜索引擎厂商,360发展大模型具有天然技术基因优势。

同时,搜索增强优势还可以补足GPT实时性、准确性不足的能力短板,使大模型和搜索引擎相互增强,形成双向循环。

前不久,作为AI领域龙头股360集团的创始人,周鸿祎在“2023跃迁•黑马AIGC峰会”上首次以“数字分身”形式参会。数字人一经亮相便引发现场观众兴趣。

昨天的360智脑大模型应用发布会上,周鸿祎的“数字分身”再度登台。

周鸿祎本尊甚至调侃:“以后就让数字人‘周鸿祎’作为我们公司的新闻发言人,说对了算我的,说错了算他的。”

几番演示过后,我们不难发现玩笑背后,360对于数字人的极度认真。

实际上,360在大模型上的核心创新就在AI数字人,数字人是未来人工智能大模型最重要的应用入口。

区别于传统数字人只能按既定脚本输出内容,360AI数字人的特点在于有记忆、有人设和性格,能够复刻思维方式和人生经历。

据了解,360AI数字人目前拥有200多个角色,分为数字名人和数字员工两类。

数字名人包括历史人物、偶像明星、文学形象等,诸葛亮和孙悟空就在发布会现场实时互动,表现精彩。

数字员工则可成为企业员⼯的知识助⼿和办公助手,提升企业运营效能。

依托于360AI数字人的定制功能,未来每个人都能通过上传私人知识库,低成本生成自己的专属数字人,如数字分身、数字助理、数字偶像等。

周鸿祎始终认为:“AI的进化要以人为本,大模型应该成为人类的朋友和助手。”

就像“数字分身”首次露面后他自己发微博说的:

数字分身“挺受欢迎,让我多少有点危机感,我可不想被数字人干掉。但这就是趋势,相信用不了多久数字人演讲就会变成主流。”

面对现实,同时秉持用户至上。人工智能的时代,未来已来。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>