蒙古语言文字是蒙古族人民的主要交流工具,大部分使用人群分布在我国、蒙古国和俄罗斯境内的两个加盟共和国。在中国使用的是传统蒙古文,在蒙古国使用的是新蒙古文,它们语同文不同。不同于汉文和英文,蒙古文具有黏着特性,存在构词形态复杂、词汇量巨大、字母相连竖向书写、语言资源稀缺等难点问题,严重制约了蒙古文信息化的发展和应用。内蒙古大学经过多年联合技术攻关,采用深度学习前沿技术解决了上述难点问题,突破了高质量蒙古文数据资源库构建、融合蒙古文形态学知识的混合神经网络蒙古语语音识别、混合粒度与强化及对抗学习相结合的蒙汉神经机器翻译、先验语言知识指导的神经网络蒙古文文字识别等一系列关键技术,形成了面向黏着特性和稀疏资源语言的智能系统解决方案,将蒙古文印刷体文字识别正确率从不足50%提升到了99%,蒙古语语音识别正确率从65%提高到了97%,蒙古文与汉文互译的BLEU值从24提高到了43,并构建了总量达到6TB的全球最大蒙古文文本、图像、语音资源库,使得蒙古文智能信息处理技术达到了实用化水平。依托上述关键技术,项目团队研发了蒙古文智能信息处理云平台,包括蒙古语语音识别、汉蒙机器翻译、蒙古文文字识别、蒙古文智能输入法等8套行业应用软件和通用软件,填补了民族语言智能信息处理领域多项空白。本项目解决了广大少数民族群众的智能交互需求,提升了我国民族语言文字智能化水平。本平台和相关软件产品已经在新闻出版、政务服务、公共安全、文化教育、智慧司法等行业和领域实现了大规模应用,产生了上亿元的经济价值,并取得了良好的社会效益。