有关数据挖掘的理论基础研究还没有成熟。坚实系统的理论基础对于数据挖掘非常重要,因为它给数据挖掘技术的开发、评价和实践提供一个一致的框架。数据挖掘的理论基础有很多,比如包括以下内容:
数据归约(
data reduction) 按照这一理论,数据挖掘的基础是减少数据的描述。在大型数据库里,数据归约能换来快速近似查询的准确性。数据归约技术主要包括奇异值分解(在主要组件分析背后的驱动元素),小波,回归,日志线形模型(log-linear model),直方图
(histogram),簇,取样和索引树构造。
数据压缩(data compression) 根据这一理论,数据挖掘的基础是对给定的数据进行压缩,它一般是通过按位、关联规则,
决策树,簇等进行编码实现的。根据最小描述长度原理(minimum description length principle)认为,从一个数据集合中推导出的最好的理论是这样的理论,即它本身的长度和用它作为预测器(predicator)进行编码的长度都最小。编码典型的是按位编码。
模式发现(pattern discovery) 这个理论基础是由于在数据库中发现模式,比如关联规则,分类模型,序列模式,等等。它涉及机器学习,神经网络,关联挖掘,序列模式挖掘,聚类,和其它的子领域。
概率理论(probability theory) 它基于统计理论。依据这一理论,数据挖掘的基础是发现随机变量的联合的可能的分布,例如,贝叶斯置信网络(Bayesian belief network)和层次贝叶斯模型(hierarchical Bayesian models)。
微观经济观点(microeconomic view) 它把数据挖掘看作发现模式的任务,通过数据挖掘来发现那些对企业决策过程(如指定市场策略,产品计划等)有用的并在一定程度上有趣的模式。这个观点认为如果模式能发生作用的话则认为它是有趣的。企业在碰到优化问题的时候最大限度的使用这个对象。在此数据挖掘变成一个
非线性的优化问题。
归纳数据库(inductive databases) 在这个模式中,数据库模式看作是由存储在数据库中的模式和数据组成的,数据挖掘的问题变成了对数据库进行归纳的问题,它的任务是查询数据库中的数据和理论(即模式)。这个观点在数据库系统的许多研究者当中非常流行。
上述理论不是互相排斥的,例如,模式发现可以看作是数据归约和数据压缩的一种形式,一个理想的理论框架应该能够对典型的数据挖掘任务(如关联,分类和聚类)进行建模,有一个概率特性,能够处理不同形式的数据,并且对数据挖掘的反复和交互的本性加以考虑。建立一个能满足这些要求的定义很好的数据挖掘框架是我们进一步
努力的目标。

评论被关闭。