K近邻算法（KNN）

KNN的基本思想

K近邻算法（K-Nearest Neighbors）的核心思想非常简单：物以类聚。

要判断一个新样本的类别，就看它周围最近的K个邻居大多数属于哪个类别，新样本就归为哪个类别。

假设要判断一部电影是"动作片"还是"爱情片"。已知数据中，打斗场景多的是动作片，接吻场景多的是爱情片。对于一部新电影，找到与它最相似的5部电影（K=5），如果其中4部是动作片，1部是爱情片，那就把它归类为动作片。

最常用的是欧氏距离：

两个点 (x₁, y₁) 和 (x₂, y₂) 之间的距离 = √((x₁-x₂)² + (y₁-y₂)²)

虽然KNN没有显式的训练过程（不需要学习参数），但它依赖有标签的训练数据进行预测，因此属于监督学习。

KNN基于距离做分类或回归，不适合发现商品之间的关联关系。例如"买了鸡蛋的人是否会买西红柿"这类问题，应该用关联规则挖掘算法（如Apriori），而不是KNN。