当前位置:网站首页 > 探索 > 基于SparkR的分类算法并行化研究

基于SparkR的分类算法并行化研究

基于SparkR的分类算法并行化研究摘要: 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为SparkR的编程接口

摘要: 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为SparkR的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于SparkR设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于SparkR的并行化分类算法与Hadoop MapReduce的方案相比,速度上提升了8倍左右。

引用本文

刘志强,顾荣,袁春风,黄宜华. 基于SparkR的分类算法并行化研究[J]. 计算机科学与探索, 2015, 9(11): 1281-1294.

LIU Zhiqiang, GU Rong, YUAN Chunfeng, HUANG Yihua. Parallelization of Classification Algorithms Based on SparkR[J]. Journal of Frontiers of Computer Science and Technology, 2015, 9(11): 1281-1294.

使用本文

上一篇: 太空探索的成果
下一篇: 中国科技大学创建“英才班”的教育探索

为您推荐

发表评论