课程笔记第二篇
本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。
第二章第四节-数据描述与可视化:
由于很多数据本来是没有单位,所以要进行数据的标准化,比如把数据映射到0-1之间。
标准化的方法有0-1标准化即min-max标准化(Min-max normalization),z-score 标准化(zero-meannormalization)
z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。它是将原始分数与团体的平均数之差除以标准差所得的商数
均值、中位数、众数、方差(mean、median、mode、variance)
可视化:一维到多维
citespace、gephi 两个软件。