自然语言处理打破了语言障碍,增强了人与机器之间的互动和交流。
自然语言处理(NLP)因其在各行业产生的大规模影响而引起了相当大的关注。其催生了许多变革性的应用,使计算机能够理解自然语言或书面的人类语言。从Siri和Alexa等个人人工智能助手,到语音到文本和文本到语音转换器等辅助工具,NLP应用为改善人机交互铺平了道路。其使用户能够用日常语言提出有关产品、服务的问题,或希望提出的任何其他问题。然而,世界上有7139种语言,其中联合国承认6种语言为官方语言。
这里的主要障碍是NLP的研究高度偏向英语,因为英语是全球学术和商业目的最广泛首选和使用的语言。迫切需要多语言NLP来打破高资源语言和低资源语言之间的障碍。NLP还需要理解语言中的上下文单词和歧义。为了克服这些挑战,研究人员对多语言NLP表现出越来越大的兴趣。简单地说,多语言NLP是NLP的一种,其使用机器学习来理解不同语言的命令。
最近在构建模型方面取得了进展,这将有助于满足不同语言的需求,帮助研究人员克服语言障碍的最大原因。
google推出了BERT算法,强调了其对于理解查询和内容中的上下文语言的重要性。其用途是用于对话式搜索。BERT可以处理11种不同的自然语言任务,还有助于文本分类和下一句预测,并且可以自动扫描整篇文章,并对文章中提到的组织、地点和重要人物进行分类,也称为命名实体识别。
BERT是NLP机器学习的开源框架。其旨在帮助计算机理解和识别句子中模糊或隐藏的单词和语言的上下文。其经过下一句预测和掩码语言建模(MLM)的预训练。多语言BERT是该模型的扩展,并接受104种语言的训练。其用于回答问题、生成自动响应以及摘要总结。
AfriBERTa是一个基于Transformer的多语言应用模型,经过训练可以分析和理解11种非洲(资源匮乏)语言。其被用于文本分类和回答资源匮乏的非洲语言的问题。
Facebook推出的AI M2M-100(多对多)是第一个不依赖英语数据的多语言机器翻译模型,其可以在100种语言中的任意切换进行翻译。其接受了2200种语言方向和以英语为中心的多语言模型的训练。在M2M出现之前,将数据从西班牙语翻译成德语,需要对模型进行西班牙语训练英语,英语再训练德语,要经过大量英语训练。Facebook引入的新人工智能直接将西班牙语数据训练为德语数据,以提供增强的含义。
作为人工智能的一个关键分支,NLP使计算机能够通过复制人类处理自然语言的能力来阅读和响应。从语法检查到语音到文本识别,以及在搜索引擎上搜索信息,NLP已被证明在许多日常应用中非常有用。在日益全球化的世界中,多语言NLP的应用将产生越来越大的影响。