大数据概论学习笔记

tech2022-08-18  121

文章目录

1. 第一章1.1 大数据定义1.2 大数据结构类型1.3 大数据的应用和挑战 2. 大数据采集与预处理2.1 大数据采集2.2 大数据预处理 3. 大数据存储3.1 传统存储3.2 云存储与大数据存储3.3 数据中心与数据仓库 4. 云计算与云计算平台4.1 云计算4.2 云计算平台4.3 `MapReduce`平台4.3.1 数据存储技术4.3.2 数据管理技术4.3.3 编程模型 4.4 `Hadoop`平台4.5 `Spark`平台 5. 大数据分析5.1 传统数据分析方法5.1.1 聚类分析5.1.2 因子分析5.1.3 相关分析5.1.4 回归分析5.1.5 A/B测试5.1.6 统计分析5.1.7 数据挖掘 5.2 大数据分析方法5.2.1 布隆过滤器5.2.2 散列法5.2.3 索引法5.2.4 字典树5.2.5 并行计算 5.3 大数据分析架构5.3.1 实时分析与离线分析5.3.2 不同层次的分析5.3.3 不同复杂度的分析 5.4 大数据分析应用 6. 大数据分析算法6.1 特征选择和分类6.2 大数据分类6.3 大数据聚类6.4 大数据关联分析6.5 大数据并行算法 7. 大数据可视化7.1 大数据可视化之美7.2 大数据可视化技术7.3 大数据可视化工具7.4 案例


1. 第一章

1.1 大数据定义

大数据问题

数据规模大数据处理工具的变更

大数据特征

volume 数据量大velocity 高速性、实时性variety 数据类型多样value 存在潜在价值veracity 数据准确性

定义 大数据是新兴的,能够高速捕获、分析、处理大容量多种类数据,并从中得到相应价值的技术和架构。

大数据处理流程

数据采集 { 二 维 码 扫 描 技 术 传 感 器 互 联 网 \begin{cases} 二维码扫描技术\\ 传感器\\ 互联网 \end{cases}

数据预处理 { 数 据 抽 取 ( 找 出 需 要 的 部 分 ) 数 据 清 洗 ( 缺 省 值 处 理 、 噪 声 数 据 处 理 、 数 据 不 一 致 问 题 ) 数 据 集 成 ( 将 多 个 数 据 合 并 到 一 致 的 内 存 存 储 ) 数 据 转 换 ( 将 原 始 数 据 转 换 为 适 合 于 数 据 挖 掘 的 数 据 形 式 ) 数 据 泛 化 、 数 据 规 范 化 、 新 属 性 构 造 数 据 归 约 ( 最 大 限 度 精 简 数 据 量 ) : 属 性 归 约 、 数 据 采 样 \begin{cases} 数据抽取(找出需要的部分)\\ 数据清洗(缺省值处理、噪声数据处理、数据不一致问题)\\ 数据集成(将多个数据合并到一致的内存存储)\\ 数据转换(将原始数据转换为适合于数据挖掘的数据形式)数据泛化、数据规范化、新属性构造\\ 数据归约(最大限度精简数据量):属性归约、数据采样\\ \end{cases} ()()()()():

数据存储 R D B M S N o S Q L H T F S RDBMS\\ NoSQL\\ HTFS\\ RDBMSNoSQLHTFS

分析和挖掘 { 数 据 分 析 : 预 测 性 分 析 、 关 联 分 析 、 可 视 化 分 析 数 学 模 型 统 计 学 方 法 数 据 挖 掘 机 器 学 习 人 工 智 能 \begin{cases} 数据分析:预测性分析、关联分析、可视化分析\\ 数学模型\\ 统计学方法\\ 数据挖掘\\ 机器学习\\ 人工智能 \end{cases} :

应用

1.2 大数据结构类型

按数据结构化分类 { 结 构 化 数 据 半 结 构 化 数 据 非 结 构 化 数 据 其 他 分 类 方 式 下 的 数 据 类 型 \begin{cases} 结构化数据\\ 半结构化数据\\ 非结构化数据\\ 其他分类方式下的数据类型\\ \end{cases} 结构化数据 基于关系型数据库的数据

半结构化数据 介于完全结构化数据和完全无结构化数据之间

邮件、HTML、报表、XML、json文档

非结构化数据 非纯文本数据,没有标准格式

Web 网页、即时消息、富文本、富媒体、实时多媒体

按生产主体分类 { 少 量 企 业 产 生 的 数 据 大 量 用 户 产 生 的 数 据 巨 型 机 器 产 生 的 数 据 \begin{cases} 少量企业产生的数据\\ 大量用户产生的数据\\ 巨型机器产生的数据 \end{cases}

按作用方式分类 { 交 互 数 据 , 人 与 机 器 交 互 交 易 数 据 , 电 子 商 务 和 企 业 应 用 \begin{cases} 交互数据,人与机器交互\\ 交易数据,电子商务和企业应用\\ \end{cases} {,

to C 单价金额小、复购相对高、决策流程短、冲动消费多

to B 单价金额大、复购相对低、决策流程长、冲动消费少

p2p 互联网金融点对点借贷平台

1.3 大数据的应用和挑战

应用

大数据在社交网络中的应用大数据在交通中的应用大数据在医疗中的应用大数据在金融中的应用大数据在教育中的应用

挑战

数据隐私和安全数据存取和共享机制 存取速度不同职位存取内容不同导致不同的共享模式 数据存储和处理问题数据分析方面的挑战发展需求 学术界与工业相结合技术的挑战 容错性;可扩展性;数据质量;异构数据处理

2. 大数据采集与预处理

2.1 大数据采集

大数据的来源

来自人类活动,大多数为非结构化数据 社交活动经济活动生产活动 来自计算机信息系统,反应用户使用习惯和兴趣爱好 系统日志访问记录错误报告 来自物理世界(专业性强,目的性强,具有较好的结构) 科研数据地理信息环境信息

大数据采集设备

科研大数据采集: 高精密设备

网络大数据采集: 数据中心和服务器 爬虫技术

系统日志采集方法 { S c r i b e   从 各 种 日 志 源 收 集 日 志 , 存 储 到 中 央 存 储 系 统 C h u k w a   开 源 的 用 于 监 控 大 型 分 布 式 系 统 的 数 据 收 集 系 统 \begin{cases}Scribe\ 从各种日志源收集日志,存储到中央存储系统\\Chukwa\ 开源的用于监控大型分布式系统的数据收集系统\end{cases} {Scribe Chukwa 

2.2 大数据预处理

大数据预处理技术包括数据清洗、数据集成、数据规约、数据变换、数据离散化。

数据清洗—缺失值

忽略元组人工填写缺失值使用一个全局常量填充缺失值使用属性的中心度量(如均值或者中位数)填充缺失值使用与给定元组属同一类的所有样本的属性均值或者中位数填充缺失值使用最可能的值填充缺失值

数据清洗-噪声数据

数据光滑的分箱方法

分箱方法通过考察数据的“近邻”来光滑有序数据值,将有序的值被分布到一些箱中,由于分箱法考虑临近的值,因此它进行局部光滑。

回归

使用函数拟合数据来光滑数据成为回归

离群点分析

可以通过聚类将类似的值组织成群或者“簇”,落在“簇”集合之外的值被视为离群点,将离群点拉倒簇之内,用临近簇的均值或者中位数来平滑

数据清洗的主要过程

数据预处理确定清理方法校验清理方法执行清理工具数据归档

数据集成-实体识别

在集成期间,**当一个数据库的属性与另一个数据库的属性匹配时,必须注意数据结构。**旨在确保原系统中的函数依赖和参照约束与目标系统中的匹配。比如如何确定在一个关系中的customer_id和另外一个关系中的cust_number指的是相同属性。

数据集成-冗余和相关分析

一个属性如果能由另一个属性导出,则这个属性可能是冗余的。属性或者维名的不一致也可能导致结果数据集中的数据冗余。有些冗余可以被相关分析检测到。一般用相关系数 或者协方差

数据集成-数据冲突的检测与处理方法

对于来自同一世界的某一实体,在不同数据库中可能有不同的属性值,比如单位不同。可以根据需要修改某一数据库的属性值以使来自不同数据库但为同一实体的属性值统一起来。

数据规约

维规约

减少所考虑的随机变量或者属性的个数

方法 小波变换或者主成分分析,把原数据变换或者投影到较小的空间

属性子集选择,数据中不相关、弱相关或冗余的属性或者维被检测和删除

数量规约

数量归约的回归和对数线性模型

数据变换与数据离散化 X = [ x 11 ⋯ x 1 n ⋯ ⋯ ⋯ x n 1 ⋯ x n n ] X=\begin{bmatrix} x_{11}&\cdots&x_{1n}\\ \cdots&\cdots&\cdots\\ x_{n1}&\cdots&x_{nn}\\ \end{bmatrix} X=x11xn1x1nxnn

中心化变换

是一种坐标轴平移的处理方法

求出每个变量的样本平均值从原始数据中减去该变量的均值

x i j ∗ = x i j − x ‾ j ( i = 1 , 2 , ⋯   , n ; j = 1 , 2 , ⋯   , n ) x_{ij}^* =x_{ij}-\overline x_j(i=1,2,\cdots,n;j=1,2,\cdots,n) xij=xijxj(i=1,2,,n;j=1,2,,n)

极差规格化变换

x i j ′ = x i j − m i n ( x i j ) m a x ( x i j ) − m i n ( x i j ) \displaystyle x_{ij}\prime=\frac{x_{ij}-min(x_{ij})}{max(x_{ij})-min(x_{ij})} xij=max(xij)min(xij)xijmin(xij)

标准化变换

S j = 1 n − 1 ∑ i = 1 n ( x i j − X ‾ j ) 2 S_j=\displaystyle \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_{ij}-\overline X_j)^2} Sj=n11i=1n(xijXj)2

x i j ∗ = x i j − x ‾ j S j \displaystyle x_{ij}^*=\frac{x_{ij}-\overline x_j}{S_j} xij=Sjxijxj

经过标准化处理之后,每个变量中每列数据均值为0,方差为1

对数变换

将各个原始数据取对数,将原始数据的对数值作为变换后的新值

作用 是服从对数正态分布的资料正态化;使方差不齐且各族的接近的资料达到方差齐的效果;使曲线直线化,常用于曲线拟合

连续数据离散化

算法需要。比如决策树,朴素贝叶斯有效克服数据中隐藏的缺陷,使模型结果更加稳定有利于对非线性关系进行诊断和描述

数据离散化的规则

等距等频优化离散

3. 大数据存储

3.1 传统存储

物理模式数据存储的发展历史

打孔纸卡 → \rightarrow 穿孔纸带 → \rightarrow 计数电子管 → \rightarrow 盘式磁带 → \rightarrow 盒式磁带 → \rightarrow 磁鼓 → \rightarrow 软磁盘 → \rightarrow 光盘 → \rightarrow 硬盘机 → \rightarrow 硬盘 → \rightarrow 磁盘阵列 R A I D RAID RAID

逻辑模式 传统关系型数据库

应用场景的局限性关系模型束缚对大数据的快速访问的能力对非结构化数据的处理能力低扩展性差

3.2 云存储与大数据存储

云存储通过集群应用、网络技术或者分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。

云存储的特点

可靠性可用性安全性规范性低成本

云存储的架构

云存储的技术

存储虚拟化 全局命名空间多租户技术 租户之间物理隔离,同一租户下子租户逻辑隔离,通过权限访问等技术分享存储资源基于主机虚拟化基于存储设备虚拟化基于存储网络的虚拟化 分布式存储 分布式块存储分布式对象存储 key-value分布式文件系统 数据缩减 自动精简配置自动存储分层 把活跃数据保留在快速存储上,把不活跃数据迁移到低速层上重复数据删除 负载均衡 具有结点扩展能力的负载均衡机制

大数据存储的特点与挑战

容量问题延迟问题安全问题成本问题数据的积累灵活性

存储系统架构

DAS Direct Attached Storage 直连式存储

应用服务器直接与存储设备连接

NAS Network Attached Storage 网络附加存储

应用服务器通过IP网络与存储设备连接

SAN Storage Area Network 存储区域网络

{ 接 口 ( 光 纤 ) 连 接 设 备 ( 交 换 设 备 ) 通 信 控 制 协 议 ( I P 和 S C S I ) \begin{cases}接口(光纤)\\连接设备(交换设备)\\通信控制协议(IP和SCSI)\end{cases} ()()(IPSCSI)

{ F C   S A N I P   S A N \begin{cases}FC\ SAN\\IP\ SAN\end{cases} {FC SANIP SAN

FC SAN 应用服务器通过光纤通道和ISCSI协议与SAN相连

IP SAN 通过高速以太网连接服务器和后端存储系统

新兴数据库技术

NoSQL Not Only SQL 泛指非关系型数据库

简单数据模型元数据和应用数据的分离弱一致性

New SQL 提供SQL数据库的质量保证也能提供NoSQL数据库的可扩展性

3.3 数据中心与数据仓库

数据中心 Data Center 具有大规模的软件基础设施、数据存储资源和硬件平台

数据中心特点

数据中心注重性价比数据中心是许多服务器的集合,作为统一的计算单元运行程序一个数据中心还是多个数据中心

数据中心体系结构

计 算 机 中 心 体 系 结 构 { 存 储 网 络 结 构 数 据 层 次 能 源 利 用 故 障 处 理 计算机中心体系结构\begin{cases} 存储\\ 网络结构\\ 数据层次\\ 能源利用\\ 故障处理\\ \end{cases} 数据仓库 Data Warehouse 数据仓库作为一种信息管理技术,能够将分布在企业的各种数据进行再加工,从而形成一个综合的、面向分析的环境,以更好为决策者提供各种有效的数据分析,起到决策支持的作用。并减轻系统负担,简化日常维护和管理,改进数据的完整性,还为用户提供了简单统一的查询和报表机制。

基本特性

面向主题集成的相对稳定的反应历史变化的用于支持管理决策

数据仓库中数据分为四个级别

早期细节级当前细节级轻度综合级高度综合级

元数据 主要记录程序员所熟知的数据结构、决策支持系统分析员所熟知的数据结构、数据仓库的数据源、数据加入数据仓库时的转换、数据模型、数据模型和数据仓库的关系、抽取数据的历史记录。

4. 云计算与云计算平台

4.1 云计算

云计算(Cloud Computing) 是一种分布在大规模数据中心、能动态的提供各种服务器资源以满足科研、电子商务等领域需求的计算平台。云计算是分布式计算、并行计算和网络计算的发展,是虚拟化、效用计算、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。

云计算特点

超大规模高可靠性虚拟化高扩展性按需服务廉价

云计算体系架构

核心服务。将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、可用性高、规模可伸缩等特点。服务管理。为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全性。用户访问接口。实现端到云的访问。

云计算核心服务 { 基 础 设 施 即 服 务 I a a S 平 台 即 服 务 P a a S 软 件 即 服 务 S a a S \begin{cases} 基础设施即服务 IaaS\\ 平台即服务 PaaS\\ 软件即服务 SaaS\\ \end{cases} IaaSPaaSSaaS

基础设施即服务 IaaS

消费者通过Internet可从完善计算机基础设施获得服务

如HDFS,cStor

平台即服务 PaaS

将软件研发平台作为一种服务

MapReduce,JobKeeper,HBase,数据立方

软件即服务 SaaS

租用基于Web的软件

例如 Mahout

服务管理层

服务质量保证安全管理

用户访问接口

命令行Web服务Web门户

云计算及相关计算形式

云计算是分布式计算、网格计算、并行计算的最新发展。

分布式计算。使用一个硬件和软件系统处理任务,系统包含多个处理单元或者存储单元、多个并发的过程、多个程序。网格计算。一个由多机构组成的虚拟组织,多个机构的不同服务器构成一个虚拟组织为用户提供一个强大的计算资源。并行计算。在并行计算机上所做的计算。效用计算。基于计算资源使用量付费的商业模式,用户从计算资源供应商获取和使用计算资源并基于实际使用的资源付费。

云计算的机遇与挑战

云计算和移动互联网的结合云计算与科学计算的结合端到云的海量数据传输大规模应用的部署与调试

4.2 云计算平台

云计算平台的起源

MapReduce 分布式计算框架GFS 分布式文件系统BigTable 基于GFS的数据存储系统

主流分布式平台

Hadoop 离线复杂大数据处理Spark 离线快速大数据处理Storm 在线实时大数据处理

4.3 MapReduce平台

除了少量负责特定管理功能的结点,所有结点都是同构的,即同时运行BigTable Server、GFS chunkserver、MapReduce Job 等核心功能模块,与之对应的则是数据存储、数据管理、编程模型等3项技术。

4.3.1 数据存储技术

GFS 分布式文件系统

基于以下假设开发的GFS

硬件故障是常态支持大数据集一次写入、多次读取的处理模式高并发性

4.3.2 数据管理技术

Google开发了弱一致性要求的大规模数据库系统big table。采用基于列存储的分布式数据管理模式提高数据读取效率。big table基本元素是行、列、记录板和时间戳。

4.3.3 编程模型

MapReduce执行过程

Map先进行排序,然后将中间所有具有相同key值的value集合在一起传递给reduce函数,使用用户自定义的reduce函数合并所有具有相同key值的value形成一个较小的value值集合。

4.4 Hadoop平台

Hadoop框架中最核心设计是MapReduce和HDFS

Hadoop的3个主要功能模块

模块管理功能job trackerjob管理和操作task trackertask的管理和操作application应用程序接口

Hadoop分布式文件系统HDFS

高容错性的系统,适合部署在廉价的计算机上提供高吞吐量的数据访问,部署在大规模数据集上的应用

HDFS设计是基于以下前提和目标

硬件错误是常态而非异常、数据流式访问、大规模数据集、简单的一致性模型、移动计算比移动数据更划算、异构软硬件平台间的可移植性一个HDFS集群是由一个名字结点和一定数目的数据结点组成,名字结点是一个中心服务器,负责管理文件系统的名字空间以及客户端对文件的访问

Hadoop中的MapReduce

Hadoop模块设计

由一个单独的master JobTracker和每个集群结点一个slave Tasktracker共同组成

master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上,master负责监控他们的执行,并且重新执行已失败的任务slave负责执行由master指派的任务

4.5 Spark平台

广义的Spark平台的架构

应用层数据处理层数据管理层资源管理层

狭义的spark是指数据处理层的计算框架

核心计算部分是引入了RDD的基于内存的MapReduce底层依赖有HDFS和YARN、Mesos上层有SparkStreaming、GraphX、MLBase、Shark

核心思想与编程模型

利用内存承载工作集

Spark有两个抽象 { 弹 性 分 布 式 数 据 集 R D D 共 享 变 量 \begin{cases}弹性分布式数据集RDD\\共享变量\end{cases} {RDD

RDD 弹性分布式数据

一种自定义的可并行数据容器,可存放任意数据类型的数据 S p a r k 数 据 空 间 { 存 储 系 统 原 生 数 据 空 间 R D D 空 间 Spark数据空间 \begin{cases} 存储系统\\ 原生数据空间\\ RDD空间 \end{cases} SparkRDD

数据空间的转化

共享变量

广播变量。广义的全局变量累加器。可高效并行化并且支持加法操作的变量

工作原理

Spark的每个application都有一套自己的运行时环境,避免了应用程序之间的相互影响。Spark的运行时环境有四种过程,初始化、转换、调度执行、终止。

平台优势

内存管理中间结果优化数据格式优化执行策略提高任务调度速率通用性强

5. 大数据分析

目的是挖掘数据中潜在的价值以提供相应的建议或决策

5.1 传统数据分析方法

使用适当的统计方法来分析大量的原始数据和经过初步处理的数据

目的

集中、提取、改进隐藏在一系列混乱数据中的有用数据识别课题的内在规律,从而在最大程度上开发数据的功能并使数据价值最大化。

5.1.1 聚类分析

区分具有某些特征的对象,并根据这些特征将它们分成不同的类别。统一类别中的对象具有高同质性,不同类别中对象具有高异质性。传统的聚类算法 划分方法层次方法基于密度方法基于网格方法基于模型方法

5.1.2 因子分析

通过少数几个因子,来描述大量指标或元素之间的关系。

探索性因子分析验证性因子分析

因子分解模型

主成分分析规范因子分析共同因素分析图像因子分解

5.1.3 相关分析

用于确定观测现象之间的相关规律,从而进行预测和控制的分析方法。相关分析就是利用现有数据研究关系的强度的过程。比如软件开发者收入和教育程度相关性分析。

5.1.4 回归分析

揭示一个变量和其他几个变量之间的相关性,识别随机隐藏的变量之间的依赖关系。

5.1.5 A/B测试

通过比较测试组,指定能改善目标变量的计划。在软件快速上线的过程中,A/B测试能帮我们快速试错,并进行针对性修改;能够帮我们了解对产品的改动。

5.1.6 统计分析

基于复杂多变量统计分析的数据分析技术,如回归分析、因子分析、聚类分析和识别分析。

5.1.7 数据挖掘

从大量不完全、杂乱、模糊和随机的数据中,提取隐藏的、未知的、但可能有用的信息和知识的过程。数据挖掘也通常称为数据分析、数据融合和决策支持。

主要作用

分类估计预测关联分组或关联规则聚类描述和可视化

挖掘方法一般分为

机器学习方法神经网络方法数据库方法

5.2 大数据分析方法

5.2.1 布隆过滤器

布隆过滤器由一个位数组和一系列的哈希函数组成

布隆过滤器的原理是通过利用位数组来存储数据本身之外的数据的哈希值。

位数组本质是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。

核心思想是利用多个不同的哈希函数来解决冲突。

位数组添加元素判断元素是否属于集合

5.2.2 散列法

将数据变换为较短的固定长度数值或索引值。

冲突主要取决于

散列函数处理冲突方法负载因子大小

解决冲突的办法

线性探查双散列函数法

5.2.3 索引法

减少磁盘读取和写入成本的有效方法,提高插入、删除、修改、查询速度。

索引一般分为两类:聚集索引和非聚集索引

聚集的作用就是将某一列或者多列的物理顺序改变为和逻辑顺序一致

聚集索引 B树的叶子直接存储聚集索引的数据

非聚集索引 额外生成一个聚集索引的B树结构

5.2.4 字典树

单词查找树,用于快速检索和字频统计。

主要思想 利用字符串的常见前缀最大限度的减少字符串的比较,提高查询效率。

字典树可以利用字符串的公共前缀来节约存储空间

字典树的基本性质

根节点不包含字符,每条边对应一个字符从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符每个节点的所有子节点包含的字符串不相同

简单应用

字符串检索字符串最长公共前缀排序最为其他数据结构和算法的辅助结构

5.2.5 并行计算

基本思想 分解一个问题并将其分配给几个独立的进程,以便独立完成,实现协同处理。

MPIMapReduceDryad

5.3 大数据分析架构

5.3.1 实时分析与离线分析

实时分析,要求系统在数秒之内返回亿级数据分析,如storm离线分析,对相应时间没有较高要求的应用,如机器学习、统计分析、推荐算法。常用的离线分析架构是HDFS做存储,MapReduce做计算框架,Hive做计算工作流。

5.3.2 不同层次的分析

内存级分析 MongoDBBI包括 { 数 据 层 业 务 层 应 用 层 \begin{cases}数据层\\业务层\\应用层\\ \end{cases} 大规模分析。

5.3.3 不同复杂度的分析

对于适合于并行处理的应用或者易并行问题计算可以分解成完全独立的部分,改造出分布式算法,比如大规模人脸识别,图形渲染等。目前MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。

5.4 大数据分析应用

R语言Excel、SQLrapidminderknimeweka、Pentaho

6. 大数据分析算法

6.1 特征选择和分类

大规模数据集

样本数量大特征维数高

特征选择主要有两个功能

减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征集合特征值之间的理解

特征选择方法

去掉取值变化小的特征。可以作为特征选择的预处理,先去掉那些取值变化小的特征。

单变量特征选择,衡量特征和响应变量之间的关系,扔掉得分不高的特征

pearson相关系数衡量变量之间的线性相关性 [ − 1 , 1 ] [-1,1] [1,1]互信息和最大信息系数,信息论距离相关系数(平方,绝对离差等等)基于学习模型的特征排序,回归,决策树,随机森林或者扩展的线性模型

线性模型和正则化

L1正则化Lasso。L1正则化使弱特征所对应的系数变为0,因此L1正则化学习到的模型很稀疏。使L1正则化称为一种很好的特征选择方法。L2正则化Ridge regression。L2正则化会使系数的取值变得平均,表示能力强的特征对应的系数非零,对于特征的理解更加有用。

随机森林

平均不纯度减少,利用不纯度确定节点,每个特征减少了多少树的不纯度,对于具有多种类别的变量会更有利,一旦某个特征被选择之后,其他特征的额重要度就会急剧下降;实际特征重要度高的特征可能计算的很低,偏向具有更多类别的变量

平均精度率减少,直接度量每个特征对模型精确率的影响

顶层特征选择算法

在不同子集上建立模型,然后汇总最终确定特征得分

稳定性选择 在不同的数据子集和特征子集上运行特征选择算法递归 特征被消除的次序就是特征的排序

6.2 大数据分类

决策树分类 每个非叶结点表示一个特征属性的测试,每个分支代表特征属性在值域上的输出,每个叶结点存放一个类别。

ID3 选择分裂后信息增益最大的属性进行分裂C4.5

朴素贝叶斯分类

当特征为X时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别,分类假设是条件独立性

确定属性特征,并对每个特征属性进行适当划分计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计

贝叶斯网络

概率图模型

支持向量机SVM

首先将数据预处理。如果线性可分,那么直接找到超平面;否则将数据映射到n+1维然后继续找超平面

最近邻分类器

KNN

a r g m a x x   f ( x ) = { x ∣ x ∈ X   a n d   f ( x ) m a x } argmax_x\ f(x)=\{x|x\in X\ and\ f(x)_{max}\} argmaxx f(x)={xxX and f(x)max}

6.3 大数据聚类

K-MEANS算法

基于距离的聚类算法,认为两个对象距离越近,相似度越大。认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为终极目标,普适性好,只能发现球形的簇。

质心,样本点

距离,相似性度量。设 X = { x 1 , x 2 , ⋯   , x n } , Y = { y 1 , y 2 , ⋯   , y n } X=\{x_1,x_2,\cdots,x_n\},Y=\{y_1,y_2,\cdots,y_n\} X={x1,x2,,xn},Y={y1,y2,,yn}

欧式距离 d ( X , Y ) = ∑ i = 1 n ( x i − y i ) 2 d(X,Y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} d(X,Y)=i=1n(xiyi)2

曼哈顿距离 d ( X , Y ) = ∑ i = 1 n ∣ x i − y i ∣ \displaystyle d(X,Y)=\sum_{i=1}^n\vert x_i-y_i\vert d(X,Y)=i=1nxiyi

明科夫斯基距离

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oIiuVLq8-1599993768432)(C:\Users\Chaoxu Lv\AppData\Roaming\Typora\typora-user-images\image-20200903094246593.png)]

DBSCAN算法

具有噪声的基于密度的聚类算法

对于一类中的每个对象,在其给定半径的领域包含的对象不能少于某一个给定的最小数目,能较好的处理高维数据,能够发现任意形状的簇

层次聚类算法

BIRCH算法CURE

聚类评估与应用

估计聚簇的趋势,数据必须存在非随机结构,聚类分析才有意义确定数据集中的簇数。簇数太多小簇会太多,簇数太小样本没被分开,没有意义测试聚类的质量,可以用量化方法来测试聚类的质量

6.4 大数据关联分析

在大规模数据集中寻找物品间的隐含关系被称作关联分析

有趣的关系

频繁项集,经常出现在一块的物品的集合关联规则,暗示两种物品之间可能存在很强的关系

度量有趣关系标准

支持度,数据集中包含该项集的记录所占的比例置信度,规则 { A } → { B } \{A\}\rightarrow\{B\} {A}{B}的支持度定义为 支 持 度 ( { A , B } ) 支 持 度 ( { A } ) \frac{支持度(\{A,B\})}{支持度(\{A\})} ({A})({A,B})

关联分析算法

Apriori算法,每次增加频繁项集的大小都会重新扫描整个数据集FP-growth算法,只需对数据库扫描两遍数据集

6.5 大数据并行算法

基于MapReduce的并行算法

MapReduce作业流程

超越MapReduce的并行算法

计算图

7. 大数据可视化

7.1 大数据可视化之美

可视化过程 数据预处理绘制显示和交互 可视化数据 一维、二维、三维、高维数据时态数据层次数据 结点链接图树图 网络数据

数据可视化基本概念

数据空间。由n维属性、m个元素共同组成的数据集构成的多维信息空间数据开发。利用一定的工具及算法对数据进行定量推演及计算数据分析。对多维数据进行切片、块、旋转等动作剖析数据,从而可以多角度多侧面观察数据数据可视化。将大型数据集中的数据通过图像方式表示,并利用数据分析和开发工具来发现未知信息

可视化技术

直观化关联性艺术性交互性

数据可视化表现格式

地图极区图

7.2 大数据可视化技术

基于图像的可视化技术 树状图 思维导图桑基图弦图散点图折线图条形图和柱形图分布图箱式图饼图 基于平行坐标法的可视化技术基于图标技术面向像素基于层次的可视化技术

7.3 大数据可视化工具

数据可视化必须具有以下特征

实时性简单操作更丰富的展现多种数据集成支持方式

可视化工具

RD3 基于JavaScriptpythonExcelGoolge chartBPizza Pie Charts 饼图图标 动态分层图表GephiLeaflet地图visual.ly 允许从Twitter,Facebook,Google plus采取数据

7.4 案例

波士顿地铁数据可视化

实时风场可视化

Gap Minder

死亡率与税收

My Map

挑战

视觉噪声信息丢失大型图像感知高速图像变换高性能要求

发展方向

可视化技术与数据挖掘可视化技术与人机交互可视化技术与大规模、高维度、非结构化数据
最新回复(0)