X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
欢迎来到宁夏技术市场,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
 常见问题  关于我们
成果
成果 专家 院校 需求
微信公众号
当前位置: 首页 >  科技成果  > 详细页

[00287469]云环境下分布式网络信息采集方法

交易价格: 面议

类型: 发明专利

技术成熟度: 正在研发

专利所属地:中国

专利号:CN201510020854.0

交易方式: 完全转让 许可转让 技术入股

联系人: 南京邮电大学

所在地:江苏南京市

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
分享
|
收藏
|

技术详细介绍

本发明提供了云环境下分布式网络信息采集方法。其主要包括:对于页面信息的采集,采用星型的分布式采集模型,页面信息采集服务器只负责通过异步的方式采集相关网页的页面信息,并将最终的采集结果返回给云服务器,页面信息的处理则在云端进行;关于待采集的URL的分配方式,云服务器根据不同的采集服务器的历史采集效率,动态地为不同的页面采集服务器分配不同的任务个数,从而尽可能地使各个页面采集服务器达到负载均衡的效果。本发明提出的分布式网络信息采集方法,对于通用网络爬虫和主题网络爬虫都适用,可以很好地提高网络爬虫的爬行效率以及解决在分布式环境中网络爬虫的负载均衡问题。

Copyright © 2018    宁夏回族自治区生产力促进中心    版权所有    宁ICP备11000235号-3    宁公网安备 64010402000776号

网站访问量:               网站在线人数:0              技术支持:科易网