[00287860]一种基于Spark计算模型的K‑Means算法优化方法
交易价格:
面议
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201710575225.3
交易方式:
完全转让
许可转让
技术入股
联系人:
南京邮电大学
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于Spark计算模型的K‑Means算法优化方法,主要解决现有K‑means算法对初始中心选取依赖性强、分类数K未必总是已知及算法频繁迭代资源开销大等问题。该方法实现步骤是对数据源进行数据预处理;采用Canopy算法选取合适K值;采用基于欧氏距离的最大最小距离算法选取初始中心;对数据集进行Map操作,得到样本到中心点的距离和相似度最高的中心点;对同一中心点下的RDD对象进行Reduce操作,反复迭代最终得到聚类结果。本发明相较其他K‑Means改进的算法,能够充分利用Canopy的粗聚类结果和最大最小距离算法的合理初始点,通过Spark计算模型实现了海量数据中的并行运算,能够大大减少处理海量数据的时间,具有良好的收敛速度、准确性以及较强的实用价值。