收藏主页 | 加入我们

服务电话

0756-6953188

珠海市轻腾聚点网络科技有限公司

聚点客引流系统团队

引流获客

___

 精心打磨的全网引流获客技术,互联网客流缔造绝活

五大核心系统

《截流猎客系统》《流量商战系统》《全网获客系统》

《短视频SEO智排系统》《全网在线成交系统》

阅读排行榜

推荐阅读

引流获客

什么是数据挖掘?你真的抓住数据挖掘这块金砖了吗?
来源: | 作者:富哥 | 发布时间: 816天前 | 368 次浏览 | 分享到:

什么是数据挖掘?

数据挖掘应该是每个人都听说过的一门课程,但不容易解释清楚。在数据科学领域,甚至在更大的计算机科学领域,数据挖掘就像山东蓝翔。我们不一定知道如何打开挖掘机,但我们都知道哪种挖掘机更熟练。


然而,高人气并不一定是一件好事,尤其是啤酒尿布的故事太经典了,但它会让每个人都认为这种生活非常高端,离自己太远,不能使用或不使用。事实上,许多人可能没有学习数据挖掘,甚至可能没有听到这四个词,但他们已经开始挖掘数据。


很多人说今年的市场很有希望,学会炒股。学习股票就是学习股票市场的数据挖掘。许多学校,如技术分析流,认为K线图或其他图表与股票市场趋势密切相关;价值投资流认为,通过一套完整的指标体系,我们可以更好地推断股票的未来价值;当然,左边也有一些人,比如阿姨,他们看到阿姨开始谈论股票,市场达到顶峰,很快就退出了。无论你喜欢哪种方法,你所要做的都是非常相似的,也就是说,整理和分析从不同地方收集的信息,即数据,以找出你关心的目标关系。

有许多这样的例子,例如非常非常常见的数据挖掘异常检测。


数据挖掘不是一本名为《数据挖掘》的书。相反,在各种数据挖掘的实践中,每个人都形成了一些方法和工具。每个人都认为它很容易使用。研究人员收集整理,组织清晰,形成一个系统,最终开设了数据挖掘课程。

数据挖掘、机器学习和模式识别。


当你真正开始学习数据挖掘时,你遇到的第一个问题可能是困惑。在数据科学领域有三朵金花,即数据挖掘、机器学习和模式识别。数据挖掘的知识系统与同一流行的机器学习和模式识别高度一致。这种感觉不是在同一条轨道上有三球员,而是在三条轨道上看到同一名球员。当然,在我看来,这三个术语是什么?我心中有你,你心中有一个复杂的三角关系。事实上,这根本不影响学习。毕竟,一位红帽子和白胡子的祖父曾经说过,孩子们只是做出选择。当然,所有成年人都学会了。三角关系越复杂,你想学的东西就越难区分你和我,学习的总成本就越低。


然而,这个问题确实存在。不管它们看起来有多相似,毕竟有三个词。此外,我应该学习哪一个等等。这个问题一年四季都在问题列表中。我还是想先回答。首先,数据挖掘、机器学习和模式识别之间没有不可逾越的差距。算法经常到处客串,边界越来越模糊,这是肉眼可见的总体趋势。就核心内容而言,机器学习主要包括工具集、数据挖掘和模式识别,这是工具集的两个部分。因此,你不必对学习数据挖掘和模式识别课程感到惊讶。无论你选择什么教科书,你都会看到许多机器学习的老面孔。


此外,模式识别。模式识别的重点是两个词,识别,因此一般的应用形式称为XX识别。例如,现在每个人都非常熟悉人脸识别,更大的是图像识别。除了图像之外,模式识别还研究了其他各种数据形式,如音频语音识别和文本自然语言识别。当然,它更习惯于被称为自然语言理解。


最后,让我们回到今天的主角,数据挖掘。在写作时,我真的很想找到一个正式的数据挖掘定义,这样你就可以有一些具体的感觉,阅读很多信息,最后宣布放弃。然而,尽管没有这些数据,让我们进行交叉。结论可能是所谓的数据挖掘,即通过某些方法和工具挖掘各种数据中感兴趣的知识。


综上所述,数据挖掘就是解决三个问题:在哪里挖,挖什么,怎么挖。让我们分三个部分来介绍数据挖掘是如何思考这三个问题的。


1去哪里挖。


数据挖掘要解决的第一个问题自然是数据问题,即在哪里挖掘。很多人可能会认为这是什么问题?当然,数据挖掘是在有数据的地方进行的。我听说过一些数据挖掘课程,也参加过一些数据挖掘比赛,这给了我一种深刻的感觉,数据是现成的,可见的,触摸的,你必须做的就是减少它。


这是真的吗?错了。数据在哪里是一个值得花时间仔细思考的问题。许多书称数据挖掘为数据挖掘。这个比喻恰到好处。无论是挖数据还是金子,你能找到一个盘腿坐下的地方吗?只要一套组合技术在高水平上展示,金子就能跳出地面吗?绝对不是。要挖金子,首先要有金子。如果你在没有金子的地方挖金子,不管你怎么努力,不管你用什么方法和工具,你都不能挖金子,因为这叫木头钓鱼。


许多书不太喜欢这个问题。事实上,数据挖掘类似于哈姆雷特。1000个挖掘项目有1000个挖掘需求,因此很难避免一个错过。然而,当我们之前谈到数据挖掘时,我们举了一个学习股票投机的例子。我们不妨多说几句话,这可能会给你带来一些想法。


我们说炒股有很多流派,包括技术分析流、有价值的投资流和门口的阿姨流。这些学校需要解决同样的问题和未来的趋势。然而,什么与未来趋势密切相关?不同的学校有不同的观点。因此,我们选择挖掘不同的数据。技术分析取决于K线图,价值投资取决于公司的运营。门口的阿姨选择看门口的阿姨。让我们假设一个极端的情况。假设K线图真的像一些人说的那样准确,最好找到猴子扔飞镖。换句话说,K线图与未来趋势无关。无论花多少时间研究牛,最终都无法从K线图中找到真正有价值的信息。


去哪儿挖?去有金子的地方挖。


2挖什么。


数据挖掘,挖掘当然是数据。然而,有许多形式的数据。根据数据类型,数据挖掘主要处理非依赖数据和依赖数据。非依赖数据相对简单。我们通常称之为多维数据。一个记录包括多个项目。这可能更抽象。事实上,我们已经看到并回忆了各种表格,如注册表格。我们需要填写姓名、性别、年龄和其他信息。这是一个典型的多维数据。


然而,我也知道这些不同的项目有不同的数据格式。例如,在文本中填写姓名时,性别通常是两种选择中的一种,年龄是一个数字。在数据挖掘中,这些不同的格式也应区别对待。我读过一些数据挖掘教科书,很好地划分了这些类型,这充分反映了学术的严谨性。但有些类型的名字太学术化了,无法解释名字本身,所以文章的长度很长。在这里,我可以根据经验大致分为以下三类:


连续数据。连续数据首先是数值数据,与离散数据相比,连续数据不在数值序列中,例如年龄和温度。


离散数据。离散数据也是数值数据,简单来说就是不连续数据。

文本数据。我们一直强调数值数据,但文本数据在自然环境中也很常见。众所周知,文本数据不能直接计算,通常需要转换成向量进行分析。


非依赖数据最大的特点是每个数据项都是独立的,彼此之间没有依赖关系,不会影响全身。

在非依赖数据之后,让我们谈谈依赖数据。所谓依赖是指数据项之间存在一定的相关性变化。数据挖掘将这种关系分为隐性依赖和显示依赖。两者的区别在于前者的依赖是隐性的,后者是红色的。但我认为两者之间的界限非常模糊。这里只是关于依赖的问题。


数据挖掘将依赖数据分为以下三类:


序列数据。


序列数据可以重新细分,包括连续序列数据和离散序列数据,但它们的特点是明显依赖于上下文,如最常见的时间序列数据,即时间序列数据。这是一个连续的序列数据,最后一个时间片和下一个时间片之间有一个显式或隐藏的依赖关系。

前面介绍了一个序列数据,K线图。K线图是一个典型的时间序列数据,一般认为当前的市场趋势和未来的趋势有一定的依赖关系。细分为隐藏的依赖关系。


空间数据。


空间数据通常是坐标数据,最容易想到地理坐标,即经纬度,但坐标被广泛使用,如各种宏观经济指标,不同的国家也可以通过逻辑编码形成坐标。根据我的经验,空间数据通常与时间密切相关,形成一些跟踪图像,也被称为时间和空间数据,可能与时间数据相交。


图表数据。

图表是计算机科学中常用的数据结构。它通常用来表示几个节点之间的关系。在我们的生活中,我们经常可以看到各种各样的关系图。因此,图形数据自然是一种典型的依赖数据,通常表示依赖关系。


3怎么挖。


如何挖掘是数据挖掘的关键内容。有许多过程,每个过程都可以是一个完整的方法系统。一般来说,数据挖掘有三个过程:数据收集、数据预处理和数据分析。


让我们从这个数据收集开始。在许多人的直觉中,数据是一个文件,它静静地躺在那里,你写程序阅读,许多数据游戏也增强了这种印象。但事实上,数据可能会在许多不同的地方生成,比如完全不同类型的传感器,以及从网站开始的不同网站的大数据。web数据最大的特点是大。不要问我几秒钟内生成了多少T数据,但它有多大。如何收集大量数据,如何存储,如何分析流量数据,每一步都是一个问题,你需要找到一种方法。完成数据收集,将各种所需的数据存储到数据库中,形成一个数据仓库。这是数据挖掘的基础。


数据预处理主要包括特征提取和数据清理,包括原始数据类型转换、缺失值填充、文本数据量化、缩放标准化等。数据预处理将直接决定数据的最终质量,并对挖掘结果产生重大影响。有很多经验和技能,你可以再写一篇文章。


最后是数据分析。当我第一次学习时,我认为数据挖掘是数据分析。我相信很多朋友也有同样的误解。现在我知道我需要经历以前的山脉和河流。然而,尽管数据分析是这个过程的最后一步,但这是核心步骤。最后,我们必须依靠这一步来挖掘黄金或钻石。另一方面,在数据分析阶段,任务背景相对稀释,问题的共性显著增加,根据不同问题积累的工具和方法更容易形成常规。因此,数据分析自然是数据挖掘作为一门课程的关键一章。


数据挖掘总结了哪些问题?


它主要包括四类:分类问题、聚类问题、相关模式挖掘、相关模式和异常检测。了解机器学习的朋友必须非常友好。分类问题和聚类问题是机器学习中最经典的两种问题,这就是为什么数据挖掘可以看到机器学习的内容。