[00287553]一种基于Spark的并行关联规则增量更新方法
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201710547080.6
交易方式:
完全转让
许可转让
技术入股
联系人:
南京邮电大学
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于Spark的并行关联规则增量更新方法,主要针对现有增量更新方法在海量数据环境下运行效率低下的问题。该方法的实现步骤为获取数据集;数据预处理;划分原始数据集与新增数据集;挖掘原始数据集;挖掘新增数据集,整合挖掘结果,获取更新后数据的候选集;挖掘更新后数据集,获取增量更新后的频繁项。本发明相较于传统的关联规则增量方法,更加充分地利用了原始数据集的挖掘结果,大大减少了数据扫描次数,和基于内存的Spark并行计算框架结合,具有良好的挖掘效率和可扩展性。