[00300025]一种针对网页结构变化的不间断爬虫系统构建方法
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:201410190386.7
交易方式:
完全转让
联系人:
武汉大学
所在地:湖北武汉市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法,本发明在数据抽取的过程中,并不依赖于具体的标签节点,而是通过计算的方法来寻找目标节点;利用节点剪枝和相似哈希的方法锁定标题节点;然后,迭代计算相关节点的上下文主题相关度值 TTR,得到目标抽取模块的节点;最后,使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取,在库匹配的过程中,使用了库动态增长的方法;同时,在目标抽取节点下的剩余节点中,过滤掉所有噪声节点,便得到网页文本的正文信息;本发明提供的技术方法主要应用于舆情监测系统中,对其他用途的网络爬虫具有一定参考价值。