交易价格: 面议
类型: 发明专利
技术成熟度: 正在研发
专利所属地:中国
专利号:201210060805.6
交易方式: 完全转让
联系人: 武汉大学苏州研究院
所在地:江苏苏州市
一种主题相关的分布式网络爬虫系统,包括:主题链接存储器,用于存放系统未完成抓取的超链接;控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;网页数据库,用于存放爬行节点抓取的网页;网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。
Copyright © 2018 宁夏回族自治区生产力促进中心 版权所有 宁ICP备11000235号-3 宁公网安备 64010402000776号