破解大模型中文语料不足问题，并非毫无办法

2024-03-12 新京报评论

加入收藏

更为严谨的并获得反复验证的百科全书式知识信息，才是大语言模型最为可靠的语料库。

文| 张田勘

在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。

截至2023年底，我国从事研发10亿参数规模以上的大模型厂商以及高校院所超过200家，目前已有20多个大模型产品获批向公众开放提供服务。但在一定程度上，高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。

ChatGPT训练中文语料占比低

AI大语言模型（LLM，简称大模型），是由具有许多参数（通常数十亿个或更多）的人工神经网络组成。其基础是人类已经产生的各类知识产品，包括各类公开发表的或在网上出现的文章、著作，以及各类网文、帖子等。

目前，大模型最大的语料库来自于用户生成内容（UGC），但更为严谨的并获得反复验证的百科全书式知识信息，才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物，包括在报纸、期刊文章和著作。

ChatGPT作为大模型能先领风骚，主要依赖于英文语料库；如果中国的大模型AI发展要获得突破，必然要依赖于中文。全球目前最有科学性和经过验证的语料来自于学术资料库，包括期刊和文化、出版物，但遗憾的是，在这些载体上发表文章的语言绝大部分都是英语。

当前，全球有三大出版物权威数据库，分别是科学引文数据库（SCI）、社会科学引文数据库（SSCI）和人文艺术引文索引数据库（A&HCI）。一项研究显示，从1900-2015年，收录于SCI的有3000多万篇文章，其中，92.5%的文章是以英语发表的；SSCI出版的400多万篇文章中，93%的文章是用英语发表。

这些情况表明，由于英文语料库的占比最大，因而依赖英语训练的大模型也更具有可信性和权威性。因此，目前世界上一流的大模型都是靠英文语料库来训练和生成大模型。以ChatGPT为例，训练数据中，中文语料比重不足千分之一，而英文语料占比超过92.6%。

补齐优质中文语料数据短板

这对中国的人工智能发展显然是一个挑战。中国要研发更多更可靠和更实用的大模型AI，必须依赖中文语料，或建立中文语料库。然而，中国目前欠缺系统化、优质的中文语料，中文语料的不足会极大地限制中国AI的发展。

但值得注意的是，这并非没有解决办法。比如，在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料就显示，尽管中国的报纸出版有波动，但2019年中国报纸出版种类为1851种。

中文社会科学引文索引（cssCI）和中国科学引文数据库（CSCD）是国内具有较高知名度的两大学术引文索引数据库。CSSCI（2021-2022）共收录613种来源期刊、229种扩展版来源期刊及2种报纸理论版。CSCD（2021-2022）共收录1262种来源期刊，包括926种核心库来源期刊和336种扩展库来源期刊，其中大多数都为中文期刊。

此外，中国期刊全文数据库的中文语料更丰富，收录国内各类期刊7400种。中国国家图书馆是亚洲最大图书馆，藏书3700万册，主要是中文图书。

中国国内还有大量的各类网站。截至2023年6月，中国网站数量有383万个，国内市场上监测到活跃的App数量有260万款。这些载体上不乏大量的真知灼见。

这些情况表明，中国国内的中文语料极为丰富，是研发中文大模型AI的坚实基础。只不过，现在中国国内的中文语料数据挖掘不足，有很多公开出版物还无法上网，或没有网络版。

此外，一些中文语料因为年代久远等因素也难以在市场上自由流通，因而导致目前中文优质数据稀缺。

就此来看，不妨如有的委员所建议的，从建立数据合规监管机制、加强数据安全和知识产权的保护、加快高质量中文数据集的开发与利用层面，补齐优质中文语料数据短板。

建设多元化和多模式的语料库

更具体来说，加快中文语料的开发，首先在于提高语料库的质量，如此才能进一步共享和利用。

中国目前的中文语料库国家标准有《信息处理用现代汉语分词规范》《信息处理用现代汉语词类标记规范》等，但这些只是作为推荐性标准，行业采用率并不高。由此也形成了语料库之间的异构性，资源之间难以相互转换，同时导致重复建设。

因此，不妨根据国际标准、中文标准和行业认同，建立统一的语料库编码规范标准。现在，研究人员认为，元数据规范化是中文语料库标注规范中最有条件、最容易实行的规范。所以，不妨根据上述规范，打造元数据规范化的中文语料库。

其次，要注重建设多元化和多模式的中文语料库。现实情况是，中文语料中的文本语料库占大多数，口语、方言的语料库较少，难以形成多模态语料库，也无法给AI深度学习提供丰富的中文语料。此外，中文语料库的共享难度，成为阻碍AI发展的瓶颈。

对此，一些研究人员提出应当建立Web检索，由此推动语料库共享进程。也有人建议搭建由国家、省市图书馆和各高校图书馆主导的中文语料库资源共享平台。

目前，语料库的Web检索已成为语言学研究领域的主要共享方式，但是对于语言信息处理研究和AI使用，也还存在一定难度，往往需要语料库全文或子库。因此，需要在Web检索的基础上，建立更为广泛和容易使用的中文语料库。

当然，所有建立中文语料库的方式都需要资金、人力和场地，因此需要国家预算投入更多的资金。而保护中文语料原作者的知识产权自然也需要纳入相关的设想方案中。

如此，才能推动中国大模型产业快速和高质量发展。

撰稿 / 张田勘（专栏作者）

编辑 / 马小龙

校对 / 陈荻雁