[00287467]基于分类管理的多线程网络爬虫方法和信息实时更新系统
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201410633279.7
交易方式:
完全转让
许可转让
技术入股
联系人:
南京邮电大学
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了基于分类管理的多线程网络爬虫方法的信息实时更新系统,该系统包括页面获取模块,页面处理模块,模块化机制模块,多线程循环模块,标记队列管理模块,存储模块。系统采用多线程网络爬虫并加以改进,引入标记思想,对已经爬取结束的线程使用队列方式进行标记,解决一般多线程方法中循环爬虫时产生的相互干扰的问题。系统采用模块化机制实现各个不同信息的采集,以便于动态的增加、减少目标文件,方便整个系统的维护修改。本发明方法很好地利用了网络带宽资源,提高了网络信息采集的效率,并减少了多线程爬虫时的干扰,特别适用于信息实时更新系统的网络爬虫问题。