统计学习的对象为数据,从数据出发,提取数据的特征(特征工程),抽象出数据的模型(建立模型),发现数据中的知识,又回到对数据的分析与预测中去(回归/分类)
用于对数据的预测与分析
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析(即整合对象和用途),统计学习主要由监督学习,无监督学习,半监督学习,强化学习等组成。
监督学习的目的在于根据有标识数据学习一个从输入到输出的映射,通常分为学习和预测两个过程,由学习系统和预测系统完成。在学习过程中,学习系统利用给定的有标识数据的数据集,通过学习(或训练)得到一个model,表示为条件概率分布/决策函数(二者描述输入与输出变量之间的映射关系)
数学化 实例化
无监督学习是从无标注数据中学习预测模型的机器学习问题(无标注数据是自然得到的数据),旨在从假设空间中选出在给定评价下得最优模型,事实上,监督模型也是如此。预测模型可以表示数据的类别、转换或概率,并且可实现对数据得聚类、降维或概率估计。
无监督学习进行预测的流程类似于监督学习,由学习系统和预测系统组成
数学化 实例化
强化学习是智能体(Agent)以“试错”的 方式进行学习,通过与环境进行交互获得的奖励指导行为,目标是使智能体获得最大的奖励。 强化学习所定义的智能体(Agent)正如人一般,在不断犯错与反思中进步成长,最终站上食物链的顶端。 关于强化学习,知识盲区较多,具体知识放置到后期博客中。
半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据和大量未标注数据,因标注数据的构建往往需要人工,成本较高,未标注的数据的收集不需要太多的成本。半监督学习旨在利用未标注数据的信息,进行监督学习,以较低的成本达到较好的学习效果。
主动学习是指不断给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,可以看作是“被动学习”,主动学习的目标是找出对学习最优帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
事实上,半监督学习和主动学习更接近监督学习。
关于二者的区别请戳这里
方法 = 模型 + 策略 + 算法
经验风险最小化最优模型
当样本容量很小时,经验风险最小化学习的效果未必很好,会产生过拟合 结构风险最小化 为防止过拟合提出的策略,等价于正则化,加入正则化项(罚项)
未完待续…看官先瞅瞅其他滴blog~~