Exercise Requirements

1. 遥感影像中的不同地物(如水体、植被、建筑)在多光谱波段上的反射率呈现不同特征,但往往由于“同谱异物”现象,其边界在特征空间中是非线性的。

  1. 数据准备: 假设给定的一组多光谱样点数据(包含波段 1-4 的反射率数值)。
  2. 模型构建: 分别使用 线性核函数 (Linear Kernel) 和 高斯核函数 (RBF Kernel) 训练 SVM 模型。
  3. 对比分析:
    1. 统计并对比两种核函数在测试集上的准确率(Accuracy)和 F1-score。
    2. 思考题: 观察参数 C(惩罚系数)和 $\gamma$(Gamma)的变化对分类边界的影响。如果 $C$ 设置得无穷大,模型会倾向于欠拟合还是过拟合?
  4. 横向测评: 将 SVM 的结果与 GaussianNB(高斯朴素贝叶斯)进行对比,分析哪种模型在处理这种连续型、特征间存在相关性的空间数据时表现更好。

2. 假设我们收集了一批匿名用户的移动轨迹,并提取了每个用户在不同类型 POI(如写字楼、商场、公园、住宅)停留的频次。我们要通过这些特征判断用户身份(如:上班族、游客、自由职业者)。

  1. 特征工程: 将原始频次数据进行归一化或标准化处理(思考:为什么 SVM 对特征量纲比朴素贝叶斯更敏感?)。
  2. 模型优化:使用交叉验证 (Cross-Validation) 方法来寻找最优的超参数组合(C 和核函数类型)。绘制混淆矩阵 (Confusion Matrix),观察哪些类别最容易被错误分类。
  3. 理论推导:
    1. 简述 SVM 的“最大间隔(Max Margin)”原理。
    2. 思考题: 在本案例中,如果特征维度(POI 类型)远大于样本量(用户数量),你应该优先选择线性核还是 RBF 核?为什么?
  4. 模型对比: 将结果与 MultinomialNB(多项式朴素贝叶斯)进行对比,讨论 SVM 处理这类高维稀疏特征数据的优劣。