[00287860]一种基于Spark计算模型的K‑Means算法优化方法

交易价格： 面议

类型： 发明专利

技术成熟度： 正在研发

专利所属地：中国

专利号：CN201710575225.3

交易方式： 完全转让许可转让技术入股

联系人：南京邮电大学

所在地：江苏南京市

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

登录后向技术服务商咨询

咨询平台客服试试在线客服吧发布技术需求服务免费

技术详细介绍

本发明公开了一种基于Spark计算模型的K‑Means算法优化方法，主要解决现有K‑means算法对初始中心选取依赖性强、分类数K未必总是已知及算法频繁迭代资源开销大等问题。该方法实现步骤是对数据源进行数据预处理；采用Canopy算法选取合适K值；采用基于欧氏距离的最大最小距离算法选取初始中心；对数据集进行Map操作，得到样本到中心点的距离和相似度最高的中心点；对同一中心点下的RDD对象进行Reduce操作，反复迭代最终得到聚类结果。本发明相较其他K‑Means改进的算法，能够充分利用Canopy的粗聚类结果和最大最小距离算法的合理初始点，通过Spark计算模型实现了海量数据中的并行运算，能够大大减少处理海量数据的时间，具有良好的收敛速度、准确性以及较强的实用价值。

成果推荐需求推荐评估专家推荐评估机构推荐

更多>

上海平正评估有限公司

服务分类：资产评估、无形资产评...

进入主页
连城资产评估有限公司

服务分类：资产评估、无形资产评...

进入主页

更多>