Exercise Requirements

一、假设我们有一个简化的二维空间数据集,用于对地块类型进行分类。已知有5个样本点及其分类(A代表“建设用地”,B代表“林地”):

ID Location Category
P1 (1,1) A
P2 (2,2) A
P3 (0,2) A
P4 (4,4) B
P5 (5,3) B

现在有一个未知分类的新地块点 X: (3, 2)。

  1. 请使用欧式距离(保留两位小数),计算点X到所有已知样本点的距离。
  2. 当K=1时,点X被分类为什么类别?
  3. 当K=3时,点X被分类为什么类别?
  4. 简述在实际工程中,如果K值取值过小(例如K=1)或过大(例如接近样本总数),分别会导致模型出现什么问题?

二、下表是一个关于“是否适合开展户外测绘作业”的简化数据集:

ID 天气 风力 是否适合作业
1 晴朗 适合
2 晴朗 不适合
3 阴天 适合
4 雨天 适合
5 雨天 不适合
  1. 请计算该数据集在未划分前,目标变量“是否适合作业”的系统信息熵H(Play)。(注:公式中对数底数取 2)
  2. 请分别计算以“天气状况”和“风力”作为划分特征时的条件熵H(Play Weather) 和H(Play Wind)。
  3. 根据计算结果,求出哪个特征的信息增益更大?在构建决策树的根节点时,应该选择哪个特征?