科普：数据挖掘的理论基础

有关数据挖掘的理论基础研究还没有成熟。坚实系统的理论基础对于数据挖掘非常重要，因为它给数据挖掘技术的开发、评价和实践提供一个一致的框架。数据挖掘的理论基础有很多，比如包括以下内容：
数据归约（data reduction）按照这一理论，数据挖掘的基础是减少数据的描述。在大型数据库里，数据归约能换来快速近似查询的准确性。数据归约技术主要包括奇异值分解（在主要组件分析背后的驱动元素），小波，回归，日志线形模型（log-linear model），直方图
(histogram)，簇，取样和索引树构造。
数据压缩（data compression）根据这一理论，数据挖掘的基础是对给定的数据进行压缩，它一般是通过按位、关联规则，决策树，簇等进行编码实现的。根据最小描述长度原理(minimum description length principle)认为，从一个数据集合中推导出的最好的理论是这样的理论，即它本身的长度和用它作为预测器（predicator）进行编码的长度都最小。编码典型的是按位编码。
模式发现（pattern discovery）这个理论基础是由于在数据库中发现模式，比如关联规则，分类模型，序列模式，等等。它涉及机器学习，神经网络，关联挖掘，序列模式挖掘，聚类，和其它的子领域。
概率理论（probability theory）它基于统计理论。依据这一理论，数据挖掘的基础是发现随机变量的联合的可能的分布，例如，贝叶斯置信网络（Bayesian belief network）和层次贝叶斯模型(hierarchical Bayesian models)。
微观经济观点（microeconomic view）它把数据挖掘看作发现模式的任务，通过数据挖掘来发现那些对企业决策过程（如指定市场策略，产品计划等）有用的并在一定程度上有趣的模式。这个观点认为如果模式能发生作用的话则认为它是有趣的。企业在碰到优化问题的时候最大限度的使用这个对象。在此数据挖掘变成一个非线性的优化问题。
归纳数据库（inductive databases）在这个模式中，数据库模式看作是由存储在数据库中的模式和数据组成的，数据挖掘的问题变成了对数据库进行归纳的问题，它的任务是查询数据库中的数据和理论（即模式）。这个观点在数据库系统的许多研究者当中非常流行。
上述理论不是互相排斥的，例如，模式发现可以看作是数据归约和数据压缩的一种形式，一个理想的理论框架应该能够对典型的数据挖掘任务（如关联，分类和聚类）进行建模，有一个概率特性，能够处理不同形式的数据，并且对数据挖掘的反复和交互的本性加以考虑。建立一个能满足这些要求的定义很好的数据挖掘框架是我们进一步努力的目标。

Xushine

484