大数据分析核心算法通过复杂的模型和分析方法来实现对大数据中潜在有用信息的分析挖掘,进而解决包括因果关系挖掘(分类与回归分析)、共性结构挖掘(聚类分析)、特征提取与数据约简(隐变量分析)等的典型任务。值得注意的是,不同于传统的数据分析算法(如统计计算方法、机器学习方法、最优化计算方法等),大数据分析核心算法无论是设计、分析、还是实现,都面临重大技术挑战(因而是一个全新的领域),这些技术挑战主要来自数据特征的改变、计算平台/模式的改变、算法形态的改变和分析方法的改变等。从时间复杂性上来说,大数据自身的大样本和高维度特征,使得原来传统的计算复杂度较高(O(n2)或更高)的算法无法适用,这也要求大数据分析算法需要从设计思维和设计方法的创新,从而在保证算法性能的前提下,降低算法时间复杂度为线性或亚线性。
面相大数据典型分析问题,依托实验室自主研发的大数据分析平台、大数据算法研发与评测平台,我们提出了一套涵盖国内外优秀分析算法的分析算法库,并在此基础上集成实验室自主研发的核心算法,可为相关行业领域的应用提供有力地技术支持。目前算法库提供了单机并行(Python)与分布式计算(Spark)两种框架下的上百个大数据分析算子,已分别部署在大数据分析平台与大数据科研平台中供用户使用。