数据挖掘是将传统的数据分析方法与处理大量数据的复杂算法相结合的一种技术。
一、数据挖掘产生的背景。
1.这四种主要技术激发了人们对数据挖掘技术开发、应用和研究的兴趣:
(1)商业数据仓库和计算机自动收集数据记录手段等超大规模数据库的出现。
(2)先进的计算机技术,如计算能力更快、计算能力更大、并行结构等。
(3)快速访问海量数据,如应用分布式数据存储系统。
(4)不断深化统计方法在数据处理领域的应用。
2.大量的信息不仅给人们带来了便利,也带来了很多问题:
(1)信息冗余、信息真假难以识别、信息安全难以保证、信息形式不同、处理难以统一等。
(2)数据过剩、信息爆炸、知识匮乏等现象相继出现。
3.在1989年举行的第十一届国际联合人工智能学术会议上,首次出现了数据挖掘。
4.来自机器学习、数据库系统、模式识别和统计的数据挖掘思想。
二、数据挖掘任务和过程。
数据挖掘定义。
从技术和商业两个层面可以定义数据挖掘。
从技术角度来看,数据挖掘是从大量数据中提取潜在有用的信息和知识的过程。
从商业层面来看,数据挖掘是一种商业信息处理技术。其主要特点是对大量业务数据进行提取、转换、分析和建模,提取关键数据,辅助业务决策。
2.数据挖掘与传统数据分析方法的区别:
在没有明确假设的情况下,数据挖掘就是挖掘信息,发现知识。
从数据挖掘中获得的信息应具有三个特征:未知、有效和实用。其主要目标是提高决策能力,根据过去的经验预测未来趋势。
3.数据挖掘对象。
(1)关系数据库。
关系数据库是基于关系数据库模型的数据库。数据库中的数据是通过收集代数的概念和方法来处理的。关系数据库广泛应用于各行各业,是数据挖掘中最常见、最丰富的数据源。
(2)数据仓库。
数据仓库是一个从多个数据源中收集的信息存储库,以一致的模式存储。数据仓库是一个面向多元数据集,用于支持管理决策。数据仓库适用于在线分析和处理。在银行、电信和其他行业,数据通常需要保存在数据仓库中。
(3)事务数据库。
在交易数据库中,每个记录代表一个交易。通常,交易包含唯一的交易标识号和构成交易项目的清单(例如在超市购买的商品)。超市的销售数据是典型的交易数据。交易数据库可能有一些附加表,包括其他有关销售的信息:交易日期、客户ID号、卖方ID号、连锁分支机构ID号等。
(4)空间数据库。
空间数据库是指地理信息在关系数据库中的物理存储。存储在空间数据库中的大量数据包括对象的空间拓扑特征、非空间属性特征和对象的时间变化。常见的空间数据库数据类型包括:地理信息系统、遥感图像数据、医学图像数据。空间数据库具有数据量大、空间数据模型复杂、属性数据和空间数据联合管理等共同特点,应用范围广泛。
(5)时态数据库和时间序列数据库。
时态数据库和时间序列数据库都存储与时间相关的数据。时态数据库通常存储与时间相关的属性值,如与时间相关的职位、工资和其他个人信息数据,以及个人简历信息数据,属于时态数据库数据。时间序列数据库存储随时间变化的值序列,如产品销售数据、股票数据、零售行业气象观测数据等,都是时间序列数据。时态数据库和时间序列数据库的数据挖掘有助于通过研究事物的发生和发展过程来揭示事物发展的基本规律,并可以发现数据对象的演化特征或对象的变化趋势。
(6)流数据。
与传统数据库中的静态数据不同,流量数据是连续的、有序的、可变的、快速的和大量的输入数据。主要应用场合包括:网络监控、网络点击流、股票市场、流媒体等。与传统数据库相比,流量数据在存储、查询、访问和实时要求方面存在很大差异。
流量数据具有以下特点数据实时到达;数据到达顺序是独立的,不受应用系统的控制;数据规模大,无法预测其最大值;一旦处理了数据,除非特别保存,否则无法再次删除或再次提取数据。
(7)多媒体数据库。
主要包括图形、图像、音频、视频等储和检索技术。
主要方法包括:
构建基于相似性的多媒体数据立方体和多媒体数据库的多特征提取和模式匹配。
(8)文本数据库。
文本数据库是一种常用的数据库,也是最简单的数据库。文本数据库存储对对象的书面描述。
以上就是对数据挖掘的基本解释,如有兴趣欢迎咨询我们的轻腾聚点网络科技有限公司,我们将有专人为您解疑问题。