什么是数据挖掘？

2019-09-16

前言

在大数据时代，数据的来源有很多，但是我们不能直接拿来就用，我们需要深度挖掘数据潜在的价值和意义，下面是我在之前的学习中总结的一些概念和方法，现在分享给大家，供大家参考，如有不全之处，希望大家不吝赐教。

数据挖掘的含义

数据挖掘（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘是一种从大量数据中发现信息的过程，其大量依赖自动算法的特质，使得用户难以对数据和算法过程本身直观地进行理解、探索和优化。近年来，随着可视化领域的蓬勃发展，有很多工作开始探究如何使用可视化方法辅助数据挖掘过程，使用户更加直观地理解数据，并对数据和算法和进行探索。

数据挖掘（data mining）又称为数据库中的知识发现（KDD），是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的过程。近年来为了推动数据挖掘在实际中的应用，许多研究者对数据挖掘系统的体系结构做了大量的研究工作. 一个结构合理的数据挖掘系统应该具有以下几个特点：1）系统功能和辅助工具的完备性；2）系统的可扩展性；3）支持多种数据源；4）对大数据量的处理能力；5）良好的用户界面和结果展示能力。当前出现的数据挖掘系统主要包括集中式的和分布式的数据挖掘系统，而每种系统的具体结构及其各个组成部分却有多种不同的实现技术和实现方式。

数据挖掘的概念

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程+其出现于20世纪80年代后期，是数据库研究中一个很有应用价值的新领域，是一门交叉性学科，融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术!数据挖掘作为一种技术，它的生命周期正处于沟坎（chasm）阶段，需要时间和精力去研究、开发和逐步成熟，并最终为人们所接受。由于数据挖掘是数据库中知识发现（knowledge discovery in databases，KDD）的核心步骤（如图1所示），发现了隐藏的模式，所以从模式处理的角度，许多人认为两者是等同的。

数据挖掘综述

数据挖掘的任务就是发现隐藏在数据中的模式!其可以发现的模式一般分为两大类：描述型（descriptive）模式和预测型（predictive）模式，描述型模式是对当前数据中存在的事实做规范描述，刻画当前数据的一般特性；预测型模式则是以时间为关键参数，对于时间序列型数据，根据其历史和当前的值去预测其未来的值。

聚类分析

聚类分析（Cluster Analysis）是研究“物以类聚”的一种多元统计方法。

聚类（簇）：数据对象的集合

在同一个聚类（簇）中的对象彼此相似，不同簇中的对象相异。

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类是一种没有指导的学习：没有预定义的编号。

聚类分析的数据挖掘功能

作为一个独立的工具来获得数据分布的情况，作为其他算法（如：特征和分类）的预处理步骤。

聚类分析的基本思想是认为我们所研究的样本或指标（变量）之间存在着程度不同的相似性（亲疏关系）。于是根据一批样本的多个观测指标，具体找出一些彼此之间相似程度较大的样本（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样本（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有样本（或指标）都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图，用它把所有样本（或指标）间的亲疏关系表示出来。这种方法是最常用的、最基本的一种，称为系统聚类分析。

欢迎关注公众号，访问更多精彩：数据之魅。