数据挖掘,说得通俗一点,就是在一定范围的数据中,经过分析处理,获得对自己有用的信息。说到数据挖掘,就不得不提现在非常热门的“大数据”。对于数据挖掘,小量的数据规模没有太高的研究价值,一般都是海量的数据信息,才值得投入大量的时间和精力去研究。
数据挖掘分析的数据有一些特性,基本上可以概括为5V(据说是IBM提出的):Volume(大量的)、Velocity(高速的)、Variety(多样的)、Value(有价值的)Veracity(真实的)。数据挖掘有统计学、机器学习和数据库等学科作为支撑,其它还包含了可视化、信息科学等内容。数据挖掘还纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术,机器学习中的决策树、神经网络等技术,数据库中的关联分析、序列分析等技术。
随着信息科学的飞速发展,数据井喷式的爆发,无论是科学研究的需要还是现实生活的需要,数据挖掘都有非常广阔的研究和应用前景,值得人类在这个领域深入探索。