Exercise Requirements

一、假设我们有一个简化的二维空间数据集，用于对地块类型进行分类。已知有5个样本点及其分类（A代表“建设用地”，B代表“林地”）：

ID	Location	Category
P1	(1,1)	A
P2	(2,2)	A
P3	(0,2)	A
P4	(4,4)	B
P5	(5,3)	B

现在有一个未知分类的新地块点 X: (3, 2)。

请使用欧式距离（保留两位小数），计算点X到所有已知样本点的距离。
当K=1时，点X被分类为什么类别？
当K=3时，点X被分类为什么类别？
简述在实际工程中，如果K值取值过小（例如K=1）或过大（例如接近样本总数），分别会导致模型出现什么问题？

二、下表是一个关于“是否适合开展户外测绘作业”的简化数据集：

ID	天气	风力	是否适合作业
1	晴朗	弱	适合
2	晴朗	强	不适合
3	阴天	弱	适合
4	雨天	弱	适合
5	雨天	强	不适合

请计算该数据集在未划分前，目标变量“是否适合作业”的系统信息熵H(Play)。（注：公式中对数底数取 2）
请分别计算以“天气状况”和“风力”作为划分特征时的条件熵H(Play Weather) 和H(Play Wind)。
根据计算结果，求出哪个特征的信息增益更大？在构建决策树的根节点时，应该选择哪个特征？