Loading... # 2021.8.30 周记 ## 上一周的学习内容 ### 1. 领域自适应 领域自适应学习是迁移学习的一个子集. 迁移学习是将在一个任务中学习到的知识应用在另一个不同但相关的任务上. #### 定义 - Domain: 不同风格的数据集 - Task: 要进行的任务 #### 领域移植 - 意义 有一些领域的数据很容易获取, 而另一些领域的数据很难获取. 在一个领域的数据上训练出来的模型不一定可以在另一个领域上获得较好的结果. - 进行领域移植 对于分类任务, 一个分类模型由特征提取器和分类层组成. 在原领域训练好一个高质量的模型后, 将他迁移至目标领域上, 模型的分类提取器往往会阻碍模型的性能. 因为目标领域的数据分布和源领域差距很大, 所以对于相同标签的输入, 特征提取器提取的特征往往也是差距十分巨大. 因此对于领域移植, 通常实在分类提取器上进行一些处理, 使得特征空间和目标领域的特征空间尽可能相近. - 方法 - Discrepancy-based: 通过某些统计量, 缩小源领域的特征空间和目标领域的特征空间之间的差距 - Adversarial-based: 通过对抗学习的思想, 设置一个 Discriminator 去分辨当前样本输入的特征抽取结果来自于哪个领域, 让特征提取器尽可能地从源领域数据和目标领域数据中抽取相似的特征 - Reconstruction-based: 对目标领域和源领域的数据, 使用特征抽取器抽取特征, 接着对这些特征进行一个分解操作, 分解为领域特定的特征和领域无关的特征 ### 2. 特征学习与稀疏学习 #### 子集搜索与评价 - 特征选择 特征选择重要的数据预处理过程. 在实际的机器学习训练任务中, 获得数据后会先进行特征选择, 随后才会训练学习器, 目的是: 1. 避免造成维数灾难 2. 去除不相关的特征, 降低训练难度 特征选择时应当确保不丢失重要的特征, 否则会因为丢失重要数据而无法获得好的性能. - 冗余特征 一些信息能够从其余的信息中推演出来. - 选择特征子集的方法 - 遍历所有可能的特征子集 - 产生一个候选子集,评价它的好坏,基于评价结果产生下一个候选子集,继续,直到无法产生更好的候选子集 #### 过滤式选择 先对数据集进行特征选择, 然后再训练模型, 特征选择过程与后续模型无关. 即先对特征进行过滤, 通过过滤后的数据训练模型. 常见的过滤特征选择方法: Relief, 设计了一个相关统计量来度量特征的重要性. 一个重要的属性应该使得样本在这个属性上与自己同一分类的样本尽可能接近, 而与不同分类的样本尽可能的远. #### 包裹式特征选择 包裹式特征选择直接把最终要使用的学习器性能作为特征子集的评价标准, 根据学习器选择最有利于性能的特征子集. 因为包裹式特征选择直接针对学习器进行优化, 从性能而言比过滤式选择要好. 同时因为需要多次训练学习器, 计算开销比前者要大的多. 常见的包裹式特征选择方法: LVW, 实在拉斯维加斯算法框架下使用随机策略进行子集搜索, 以最终分类器的误差作为特征子集评价标准. #### 嵌入式特征选择 嵌入式特征选择将特征选择过程和模型训练过程合在了一起, 两者在同一个优化中完成. #### 稀疏表示与字典学习 数据集可以使用矩阵表示, 行表示样本, 列表示属性. 特征选择考虑矩阵中的许多列与当前学习任务无关, 需要通过特征选择去除这些列. 当样本具有稀疏表示时, 对学习有很多好处, 比如使数据变得更容易线性可分, 存储负担更小. 因此可以将数据转化为`恰当稀疏`的形式以简化学习任务. 这种过程称为字典学习(稀疏编码). #### 压缩感知 现实任务中, 希望能够根据已知的一些信息, 推算出一个值以替代丢失的一部分信息. 存在丢失有很多原因: 数据压缩存在损失, 运输出现损失. 压缩感知的核心是: 丢失部分信息的数据无法恢复为原始数据, 但是原始数据通过字典学习表示成稀疏表示时, 却可以比较好的进行复原. 压缩感知关注的是如何利用信号本身的稀疏性, 从部分观测样本中恢复原信号. 压缩感知分为 `感知测量` 和 `重构恢复` 这两个阶段 ### 3. 代码实现 1. 补习了一下python的语法 2. 学习了pandas库的一些常用用法 3. 学习了数据预处理的一些手段 4. 代码实现了weight-decay在模型中的用法 ## 本周学习计划 1. 周志华 《机器学习》 Ch.12 计算理论学习 2. 李宏毅2021春机器学习课程 强化学习 3. 看1篇论文 4. 试着写一写Kaggle的比赛: https://www.kaggle.com/c/california-house-prices/overview 最后修改:2021 年 09 月 06 日 © 允许规范转载 赞 0 如果觉得我的文章对你有用,请随意赞赏