交易价格: 面议
类型: 发明专利
技术成熟度: 正在研发
专利所属地:中国
专利号:基于文本结构权重的主题区域识别方法
交易方式: 完全转让
联系人: 武汉大学苏州研究院
所在地:江苏苏州市
本发明提出了基于文本结构权重的主题区域识别方法,该方法基于树结构,将Web网页解析为标签树,在树匹配基础上,改进了数据区域挖掘和语义链接块识别技术,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点实现了主题区域去噪,得到准确的主题内容。应用本发明技术方案能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。
Copyright © 2018 宁夏回族自治区生产力促进中心 版权所有 宁ICP备11000235号-3 宁公网安备 64010402000776号