Exercise Requirements
一、假设我们有一个简化的二维空间数据集,用于对地块类型进行分类。已知有5个样本点及其分类(A代表“建设用地”,B代表“林地”):
| ID |
Location |
Category |
| P1 |
(1,1) |
A |
| P2 |
(2,2) |
A |
| P3 |
(0,2) |
A |
| P4 |
(4,4) |
B |
| P5 |
(5,3) |
B |
现在有一个未知分类的新地块点 X: (3, 2)。
- 请使用欧式距离(保留两位小数),计算点X到所有已知样本点的距离。
- 当K=1时,点X被分类为什么类别?
- 当K=3时,点X被分类为什么类别?
- 简述在实际工程中,如果K值取值过小(例如K=1)或过大(例如接近样本总数),分别会导致模型出现什么问题?
二、下表是一个关于“是否适合开展户外测绘作业”的简化数据集:
| ID |
天气 |
风力 |
是否适合作业 |
| 1 |
晴朗 |
弱 |
适合 |
| 2 |
晴朗 |
强 |
不适合 |
| 3 |
阴天 |
弱 |
适合 |
| 4 |
雨天 |
弱 |
适合 |
| 5 |
雨天 |
强 |
不适合 |
- 请计算该数据集在未划分前,目标变量“是否适合作业”的系统信息熵H(Play)。(注:公式中对数底数取 2)
-
| 请分别计算以“天气状况”和“风力”作为划分特征时的条件熵H(Play |
Weather) 和H(Play |
Wind)。 |
- 根据计算结果,求出哪个特征的信息增益更大?在构建决策树的根节点时,应该选择哪个特征?