科研成果
部门简介
数据的基础算法研究主要是解决大数据环境下发展分析与处理算法所必须依赖的基础算法及其理论问题,提出适应于大数据处理的统计分析、机器学习等基础计算方法与模型,为大数据分析、应用与生态提供基础计算理论支撑。根据美国科学委员会2013年的报告(Committee of NRC of USA: Frontiers in Massive Data Analysis(2013)”),统计计算、线性代数计算、广义多体计算、图计算、优化算法、高维数值积分和比对等7个“巨人”问题(Seven Giant Problems)是大数据基础问题。
依据实验室现有大数据平台,秉承时间复杂性、空间复杂性、I/O复杂性和通信复杂性均衡原则,通过数据并行、随机访问、在线处理以及众包处理等大数据算法设计方案,完成了大数据基础算法库建设,涵盖了基本统计计算、线性代数问题、面向大数据的优化算法、广义N体问题等多方面,提供了单机版(Python)与分布式版(Spark)两种类型的三十余种大数据基础算法,目前分别部署在大数据分析平台与大数据科研平台中供用户使用,一方面解决了海量样本、维度巨大的数据集不能处理的问题,另一方面大数据基础算法库的建设为大数据的分析与处理的各种应用提供了底层支撑算法与分布式思路,奠定了大数据核心算法的基石。