知识挖掘(Knowledge Discovery in Databases, KDD)是一项旨在从海量数据中发现隐藏规律和潜在价值的技术[1]。这一技术的发展源于全球范围内数据库中存储的数据量急剧增加,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和对发展趋势的预测[2]。 定义与发展
背景定义
数据是指有关事实的集合,记录和事物有关的原始信息。模式是一个用语言来表示的一个表达式,它可用来描述数据集的某个子集,所说的知识,是对数据包涵的信息更抽象的描述。对大量数据进行分析的过程,包括数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性。 起源