人工智能使非洲语言成为神经网络模型的前沿

图片来源:Adrian Ionut Virgil Pop/ dreamtime

发表2021年11月9日，星期二

研究人员开发了一种人工智能模型，帮助计算机在更广泛的语言中更有效地工作——将自然语言处理(NLP)能力扩展到人工智能中严重不足的非洲语言。

非洲语言很少受到计算机科学家的关注，因此非洲大陆的大部分地区几乎没有NLP能力。但是由加拿大滑铁卢大学的研究人员开发的一种新的语言模型填补了这一空白，它使计算机能够分析非洲语言的文本，以完成许多有用的任务。

研究人员将这种新的神经网络模型称为AfriBERTa，该模型使用深度学习技术，对低资源语言实现了“最先进的”结果。

研究人员说，它特别适用于包括阿姆哈拉语、豪萨语和斯瓦希里语在内的11种非洲语言，这些语言共有4亿多人使用。尽管只学习1g的文本，但它的输出质量可与现有最好的模型媲美，而其他模型则需要数千倍的数据。

滑铁卢大学计算机科学硕士Kelechi Ogueji表示:“经过预先训练的语言模型已经改变了计算机处理和分析文本数据的方式，用于从机器翻译到问题回答等一系列任务。”“遗憾的是，非洲语言很少受到研究界的关注。

“一个挑战是，神经网络的构建需要大量的文本和计算机。与拥有大量可用文本的英语不同，在全球使用的约7000种语言中，大多数都可以被描述为低资源语言，即缺乏可用数据来满足渴求数据的神经网络。”

据研究人员称，这些模型中的大多数都使用了一种被称为预训练的技术。为了实现这一点，研究人员向模型展示了一些被掩盖或掩盖的文字。

然后，模特必须猜出戴面具的单词。通过数十亿次的重复这个过程，该模型学会了单词之间的统计关联，这模仿了人类对语言的认知。

Cheriton计算机科学学院的院长Jimmy Lin说:“能够对某些下游任务进行同样精确的模型预训练，但使用的数据量要小得多，这有很多优势。”

他补充说:“训练语言模型所需的数据更少，意味着所需的计算量更少，从而降低了与运行大型数据中心相关的碳排放。”“更小的数据集也使数据管理更实用，这是减少模型中存在偏差的一种方法。”

林认为，该研究和模型迈出了“微小但重要的一步”，将自然语言处理能力带给非洲大陆超过13亿人。

报名参加E&T新闻电子邮件每天都能收到像这样的好故事。

我们的办公室