交易价格: 面议
类型: 非专利
交易方式: 资料待完善
联系人:
所在地:
一、项目概述 在跨语言信息处理领域通常都需要使用对齐的平行语料库。北京大学计算语言学研究所很早就致力于汉英双语平行语料库的建设工作,初期的目标是服务于汉英双语机器翻译系统的自动评测,在机器翻译自动评测任务中充当测试集,规模较小。2001年北京大学计算语言学研究所承担了国家973子课题“面向新闻领域的汉英机器翻译系统”,为了提供对统计机器翻译方法以及基于实例的机器翻译方法的支持,展开了大规模的汉英双语平行语料库建设。在该项目结项后,北京大学汉英双语平行语料库持续发展,并另行建立了汉日双语平行语料库,目前北京大学汉英双语平行语料库的规模已达100万对对齐的汉英双语句对,汉日对齐语料库的规模为3万对对齐汉日句对。 二、应用范围 双语平行语料库主要可以用于支持机器翻译系统的开发,目前许多机器翻译系统基于统计策略完成翻译任务,统计机器翻译系统的核心是建立概率化或者参数化的翻译模型,求解或者训练这样的翻译模型需要使用对齐的双语平行语料库,此外对基于实例的机器翻译系统而言,双语平行语料库也是其核心资源“翻译实例库”的主要来源。除在机器翻译系统中使用之外,双语平行语料库也可用于语言教学、双语词典编纂以及翻译对比研究等非信息技术领域,为这些领域的教学和研究提供资源支持。 汉英双语平行语料库是北大计算语言所综合型语言知识库一个重要组成部分。是综合型语言知识库从单语信息向多语信息延伸的结果。 三、项目所处阶段 目前,北京大学计算语言学研究所的汉英双语平行语料库尚在持续发展之中,目前包含句子级对齐的汉英双语对齐语料约100万句对、句子级对齐的汉日双语对齐语料3万句对。除资源建设之外,北京大学计算语言学研究所也研制了用于加工和使用双语平行语料库的软件工具集,基于这些工具,可以以更加有效的方式加工双语对齐语料库以及辅助提取双语语料库中的语言统计信息。 四、合作方式 技术转让。
Copyright © 2018 宁夏回族自治区生产力促进中心 版权所有 宁ICP备11000235号-3 宁公网安备 64010402000776号