[00287540]一种基于关键字的定向网页采集方法
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201710224022.X
交易方式:
完全转让
许可转让
技术入股
联系人:
南京邮电大学
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明涉及一种基于关键字的定向网页采集方法,引入了文本加权算法为关键词设置权重,结合空间向量模型算法计算网页主题相关度,并且利用网页链接结构与主题相关度来评判网页的重要性。根据文本聚类算法将相关主题网页文档聚集在一起,利用朴素贝叶斯算法计算出待抓取的网页属于主题文档的概率。设置适应度函数筛选与主题相关的网页,依据网页的实时抓取情况动态的调整系统模型。本文基于分布式平台,结合开源网络采集架构,利用自适应主题算法实现对主题网页的定向抓取。采用分布式技术实现并行化抓取网页,充分利用各个节点计算资源,提高了网页的抓取速率。