<返回更多

从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

2024-01-09    新智元
加入收藏

新智元报道

来源:专知

【新智元导读】这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向,并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域的实际应用。

近日,来自澳大拉西亚理工学院、梅西大学和皇家墨尔本理工大学等机构的研究人员进行了一项全面的综述,深入探讨了生成式AI不断演变的格局。

研究特别关注了混合专家模型(MoE)、多模态学习的变革性影响,以及对通用人工智能(AGI)的推测进展。

论文地址:https://arxiv.org/abs/2312.10868

- 严格审视了生成式人工智能(AI)的当前状态和未来轨迹,探索了像谷歌的Gemini和期待中的OpenAI Q*项目这样的创新是如何重塑研究优先事项和在各个领域的应用,包括对生成式AI研究分类法的影响分析。

- 评估了这些技术的计算挑战、可扩展性和现实世界的影响,同时强调了它们在推动像医疗健康金融和教育等领域显著进展的潜力。

- 讨论了由AI主题和AI生成的预印本的扩散所带来的新兴学术挑战,检查了它们对同行评审过程和学术交流的影响。

- 强调了在AI发展中融入伦理和以人为本的方法的重要性,确保与社会规范和福祉的一致,并概述了一个未来AI研究的战略,该战略聚焦于MoE、多模态和AGI在生成式AI中的平衡和审慎使用。

人工智能(AI)的历史背景可以追溯到艾伦·图灵的「模仿游戏」、早期的计算理论,以及第一批神经网络和机器学习的发展,这为今天的高级模型奠定了基础。

这种演变,被像深度学习和强化学习的兴起这样的关键时刻突出地表现出来,对塑造当代AI的趋势至关重要,包括复杂的混合专家模型(MoE)和多模态AI系统,展示了该领域的动态和不断演进的特性。这些进展证明了AI技术的动态和不断发展的本质。

人工智能(AI)的演化在大语言模型(LLM)的出现,特别是由OpenAI开发的ChatGPT,以及最近google的Gemini的揭幕,见证了一个关键的转折点。这项技术不仅彻底改变了行业和学术界,还重新点燃了关于AI意识及其对人类潜在威胁的关键讨论。

这样的先进AI系统的发展,包括像Anthropic的Claude和现在的Gemini这样的重要竞争者,它们展示了对比GPT-3和Google自己的LaMDA的几项进步,重塑了研究格局。

Gemini具有通过双向对话学习的能力,以及其「spike-and-slab」注意力方法,使其能够在多轮对话中专注于上下文的相关部分,代表了在开发更适合多领域对话应用的模型方面的重大飞跃。这些在LLM中的创新,包括Gemini所采用的混合专家方法,标志着向能够处理多样输入并促进多模态方法的模型的转变。

在这种背景下,OpenAI被称为Q*(Q-Star)的项目的猜测已经浮出水面,据称结合了LLM的强大能力和像Q学习和A*(A-Star算法)这样的复杂算法,进一步促进了动态的研究环境。

人工智能研究热度的变化

随着大语言模型(LLM)领域的不断发展,由Gemini和Q*等创新所体现,大量研究浮现出来,旨在描绘未来研究的道路,这些研究从识别新兴趋势到强调快速进展的领域各不相同。

已建立方法和早期采纳的二分法很明显,LLM研究中的「热门话题」正日益转向多模态能力和由对话驱动的学习,正如Gemini所展示的那样。

预印本的传播加速了知识共享,但也带来了降低学术审查的风险。Retraction Watch指出的固有偏见问题,以及关于剽窃和伪造的担忧,构成了重大障碍。

因此,学术界站在一个十字路口,需要统一努力,以根据该领域快速发展的背景来完善研究方向,这种变化似乎可以通过随时间变化的不同研究关键词的流行程度来部分追踪。

像GPT这样的生成式模型的发布和ChatGPT的广泛商业成功具有影响力。

如图1所示,某些关键词的兴衰似乎与重要的行业里程碑有关,例如2017年「Transformer」模型的发布、2018年GPT模型的发布,以及2022年12月商业化的ChatGPT-3.5。

例如,与神经网络应用的突破相一致的是对「深度学习」的搜索高峰,而随着像GPT和LLaMA这样的模型重新定义了语言理解和生成的可能性,「自然语言处理」的兴趣激增。

尽管有些波动,对AI研究中的「伦理/道德」持续关注反映了对AI道德维度的持续和根深蒂固的关切,强调道德考虑不仅仅是一种反应措施,而是AI讨论中不可分割和持久的对话。

从学术角度来看,假设这些趋势是否意味着一种因果关系,即技术进步驱动研究重点,或者蓬勃发展的研究本身推动了技术发展,这是相当有趣的。

本文还探讨了AI进步的深远社会和经济影响。作者检查了AI技术如何重塑各个行业,改变就业格局,并影响社会经济结构。这一分析突出了AI在现代世界中所提出的机遇和挑战,强调了其在推动创新和经济增长方面的作用,同时也考虑了伦理影响和对社会的潜在破坏性。

未来的研究可能会提供更明确的见解,但创新与学术好奇心之间的同步互动仍然是AI进步的标志。

与此同时,如图2所示,在arXiv上发布的计算机科学>人工智能(cs.AI)类别下的预印本数量的指数增长,似乎标志着AI社区内研究传播的范式转变。

尽管快速分发研究成果使知识交流迅速,但它也引发了对信息验证的担忧。

预印本的激增可能导致未经验证或有偏见的信息的传播,因为这些研究没有经过同行评审出版物典型的严格审查和可能的撤回。

这一趋势强调了学术界需要谨慎考虑和批判,特别是考虑到这些未经审核的研究可能被引用和它们的发现被传播的潜力。

研究目标

这篇综述的动力是Gemini的正式揭幕和围绕Q项目的推测性讨论,这促使对生成式人工智能(AI)研究的主流趋势进行及时审视。

论文具体贡献于理解混合专家模型(MoE)、多模态和人工通用智能(AGI)如何影响生成式AI模型,为这三个关键领域提供详细的分析和未来方向。

论文旨在批判性地评估现有研究主题中过时或无关紧要的可能性,同时深入探讨在快速变化的LLM格局中新兴的前景。

预期AI的进步不仅会在语言分析和知识合成方面提高能力,还将在混合专家模型(MoE)、多模态和人工通用智能(AGI)等领域开创先河,并已经宣告了传统的、以统计为驱动的自然语言处理技术在许多领域的过时。

然而,AI与人类伦理和价值观保持一致的永恒要求仍然是一个基本原则,而推测性的Q-Star计划提供了一个前所未有的机会,来引发关于这些进步如何重塑LLM研究地形的讨论。

在这种环境中,NVIDIA高级研究科学家Jim Fan对Q的见解,尤其是关于学习和搜索算法的融合,为这种努力的潜在技术构建和能力提供了宝贵的视角。

论文的研究方法涉及使用「大型语言模型」和「生成式AI」等关键词进行结构化文献搜索。

作者在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等几个学术数据库中使用过滤器,以识别2017年(Transformer模型发布)到2023年(本文撰写时间)期间发表的相关文章。

本文旨在剖析Gemini和Q的技术影响,探讨它们(以及类似技术的不可避免出现)如何改变研究轨迹并在AI领域开辟新视野。

在此过程中,我们确定了三个新兴的研究领域——MoE、多模态和AGI——它们将深刻地重塑生成式AI研究格局。

本次调查采用综述式方法,系统地绘制了一幅综合并分析生成式AI当前和新兴趋势的研究路线图。

本研究的主要贡献如下:

1) 对生成式AI不断演变的格局进行了详细考察,强调了像Gemini和Q这样的技术的进步和创新及其在AI领域的广泛影响。

2) 分析了先进生成式AI系统对学术研究的转型效应,探讨了这些发展如何改变研究方法、设立新趋势,并可能导致传统方法的过时。

3) 全面评估了生成式AI在学术界整合中引起的伦理、社会和技术挑战,强调了将这些技术与伦理规范保持一致的重要性,确保数据隐私,并制定全面的治理框架

当前生成式AI研究分类法生成式人工智能(AI)领域正在迅速发展,这需要一个全面的分类法,涵盖该领域内研究的广度和深度。

如表I所详述,这个分类法将生成式AI的主要研究和创新领域进行了分类,并作为理解该领域当前状态的基础框架,指导我们穿越不断发展的模型架构、先进训练方法、多样的应用领域、伦理含义和新兴技术前沿的复杂性。

生成式AI模型架构经历了显著的发展,其中四个关键领域尤为突出:

生成式AI研究中的新兴趋势正在塑造技术和人类互动的未来,并表明了一个向更集成、交互和智能化的AI系统的动态转变,推动AI领域可能性的边界向前发展。这一领域的关键发展包括:

Q*的推理能力

在蓬勃发展的AI领域中,备受期待的Q项目被视为潜在突破的灯塔,预示着可能重新定义AI能力格局的进步(见图5)。

A. 增强的通用智能

Q在通用智能领域的发展代表了从专业化到整体化AI的范式转变,表明了模型认知能力类似于人类智能的扩展。这种高级形式的通用智能涉及整合多种神经网络架构和机器学习技术,使AI能够无缝地处理和综合多方面的信息。通用适配器方法,模仿像T0这样的模型,可能赋予Q快速吸收来自各个领域知识的能力。这种方法允许Q*学习适应性模块插件,增强其处理新数据类型的能力,同时保留现有技能,从而形成一个将狭窄专业化结合成为全面、适应性和多功能推理系统的AI模型。

B. 高级自学与探索

在高级人工智能(AI)开发领域,Q*预计将代表自学习和探索能力的显著进化。有人猜测它将使用复杂的策略神经网络(NNs),类似于AlphaGo中的那些,但对于处理语言和推理任务的复杂性进行了实质性的增强。预计这些网络将采用高级的强化学习技术,如近端策略优化(PPO),这稳定了策略更新并提高了样本效率,这是自主学习中的一个关键因素。将这些NNs与尖端搜索算法结合,可能包括思维树或思维图的新型迭代版本,被预测为使Q能够自主导航和吸收复杂信息。这种方法可能会利用图神经网络来增强元学习能力,使Q能够迅速适应新任务和环境,同时保留先前获得的知识。

C. 卓越的人类水平理解

有人猜测,Q实现卓越的人类水平理解的愿望可能依赖于多个神经网络的高级集成,其中包括价值神经网络(VNN),与AlphaGo等系统中的评估组件相似。这个网络将不仅仅限于评估语言和推理过程中的准确性和相关性,还会深入探讨人类沟通的微妙之处。该模型的深度理解能力可以通过先进的自然语言处理算法和技术来增强,比如在DeBERTa等Transformer架构中找到的那些。这些算法将使Q能够解释不仅仅是文本,还包括意图、情感和潜在含义等微妙的社交情感方面。通过结合情感分析和自然语言推理,Q*可以浏览各种社交情感洞察,包括共情、讽刺和态度。

D. 高级常识推理

有人预测,Q在高级常识推理方面的发展将整合复杂的逻辑和决策算法,可能结合了符号AI和概率推理的元素。这种整合旨在赋予Q对日常逻辑的直观理解,以及与人类常识类似的理解,从而弥合人工智能和自然智能之间的重要差距。Q推理能力的增强可能涉及到图结构化的世界知识,包括物理和社交引擎,类似于CogSKR模型中的引擎。这种以物理现实为基础的方法预计能够捕捉并解释当代人工智能系统经常缺乏的日常逻辑。通过利用大规模知识库和语义网络,Q可以有效地应对复杂的社交和实际场景,使其推理和决策更贴近人类的经验和期望。

E. 广泛的现实世界知识整合

有人猜测,Q整合广泛的现实世界知识的方法可能涉及使用先进的形式验证系统,这将为验证其逻辑和事实推理提供坚实的基础。当与复杂的神经网络架构和动态学习算法相结合时,这种方法将使Q能够深入参与现实世界的复杂性,超越传统人工智能的限制。此外,Q*可能会使用数学定理证明技术进行验证,确保其推理和输出不仅准确,而且在伦理上有基础。在这个过程中加入伦理分类器进一步增强了其能力,以提供可靠和负责任的对现实世界情景的理解和互动。

结论

这份综述调查着手探索了生成式AI研究中的变革性趋势,特别关注了像Q*这样的推测性进展以及向人工通用智能(AGI)的进步步伐。

论文的分析突出了一个关键的范式转变,由混合专家模型(MoE)、多模态学习和对AGI的追求等创新所驱动。这些进步预示了一个未来,AI系统在推理、上下文理解和创造性问题解决方面的能力可能显著提升。

尽管有这些进步,仍然存在一些未解决的问题和研究空白。

这些包括确保先进AI系统与人类价值观和社会规范的伦理一致性,这一挑战因它们日益增长的自主性而变得更为复杂。

在多样化环境中AGI系统的安全性和健壮性也仍是一个重大研究空白。应对这些挑战需要多学科方法,融合伦理、社会和哲学视角。

这项调研强调了AI未来跨学科研究的关键领域,强调伦理、社会和技术视角的整合。这种方法将促进协作研究,弥合技术进步与社会需求之间的差距,确保AI发展与人类价值观和全球福祉保持一致。

在我们继续前进时,AI进步与人类创造力之间的平衡不仅是一个目标,而且是一个必要性,确保AI的作用是一个补充力量,增强我们创新和解决复杂挑战的能力。

我们的责任是引导这些进步,丰富人类体验,使技术进步与伦理标准和社会福祉保持一致。

参考资料:

https://arxiv.org/abs/2312.10868

关键词:Google Gemini      点击(11)
声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多Google Gemini相关>>>