k近邻法:判别模型模型:
y
=
arg
max
c
j
∑
x
i
∈
N
k
(
x
)
I
(
y
i
=
c
j
)
,
i
=
1
,
2
,
⋯
,
N
;
j
=
1
,
2
,
⋯
,
K
y=\arg \max _{c_{j}} \sum_{x_{i} \in N_{k}(x)} I\left(y_{i}=c_{j}\right), \quad i=1,2, \cdots, N ; \quad j=1,2, \cdots, K
y=argmaxcj∑xi∈Nk(x)I(yi=cj),i=1,2,⋯,N;j=1,2,⋯,K。
I
I
I为指示函数,即当
y
i
=
c
j
y_{i}=c_{j}
yi=cj 时
I
I
I 为
1
,
1,
1, 否则
I
I
I 为 $0 $。基本思想:在要预测的点画一个圈(也就是离该点距离最近的K个点作为一个邻域),然后看这个邻域中K个点属于哪个类别的多就判断该预测点为哪个类。三要素:k值的选择、距离度量、分类决策规则k值的选择:
当k=1时,称为最近邻法。 较小的k值:
优:只有与实例相近的训练实例才会对预测结果起作用。近似误差会减小。缺:预测结果会对邻近的实力点敏感。估计误差会变大。 较大的k值:
优:减少了估计误差。缺:与输入实例较远的(不相关的)点也会起作用。近似误差会变大。 距离度量:对两点之间的距离,度量方式有多种,如平时常用的欧式距离,还有曼哈顿距离(直接坐标减,不平方)等。分类决策规则:多数表决规则,也就是圈子里哪个类别多,就预测为该类。