摘要: 针对K均值聚类算法(K-means)初始聚类中心选择的随机性问题,提出一种基于高斯赛德尔(Gauss-Seidel)迭代的网页排名(PageRank)重要性度量算法对K-means进行改进。首先,通过PageRank将聚类数据模拟为有向图上随机游走模型,即一阶马尔可夫链。随机游走遍历节点,建立聚类数据线性方程组。引入Gauss-Seidel,利用其在线性方程组求解过程持续更新未知变量特性,保证节点PageRank值的精准性,进而选择前k个节点作为初始聚类中心。接着,基于最小化损失函数反复迭代优化目标函数值,以精准划分各节点至最佳所属簇。最后,在加州大学欧文分校(UCI)数据集和经典图像上进行系列对比实验,结果表明,对于离散数据,改进K-means的兰德指数、调整兰德指数、标准互信息等性能评价指标均优于原始K-means;对于经典图像,改进K-means能够解决原始K-means边缘分割模糊问题,有效分割目标图像主体与背景。
中图分类号: