X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
欢迎来到宁夏技术市场,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
 常见问题  关于我们
成果
成果 专家 院校 需求
微信公众号
当前位置: 首页 >  科技成果  > 详细页

[00281779]一种基于区间的文本相似搜索方法

交易价格: 面议

类型: 发明专利

技术成熟度: 正在研发

专利所属地:中国

专利号:CN201710055119.2

交易方式: 完全转让 许可转让 技术入股

联系人: 南京大学

所在地:江苏南京市

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
分享
|
收藏
|

技术详细介绍

一种基于区间的文本相似搜索方法,包括以下步骤(1)输入文档集合和查询文本,建立区间模型;(2)遍历输入查询文本中的每一个词汇,利用步骤(1)的输入文档集合索引结构中的位置信息进行逐步匹配,利用滑动窗口技术进行合并,查找在文档集合中与输入文本相似的片段。(3)当无法继续匹配,判断已匹配的文档集合中的区间文本是否满足长度阈值要求,如果满足,则作为一个最终结果输出;本发明可以对文档中的不定长文本片段做自动化的相似搜索,而不需要预先对文档进行如段落切分、主题相关性分析等处理,有助于提高文本搜索、清洗、分类、挖掘等任务的工作效率,可以满足特定用户的档案清洗、论文查重、相似基因序列查找等处理需求。

Copyright © 2018    宁夏回族自治区生产力促进中心    版权所有    宁ICP备11000235号-3    宁公网安备 64010402000776号

联系电话:0951-5064080              网站访问量:               网站在线人数:0              技术支持:科易网