你的位置:亚洲日韩欧美人成黄瓜_好嗨呦直播app下载_大胆西西人体gogo_美女下面直流白水视频_人妻中出无码一区二区_最新婬乱小说午夜视频_无码艳妇乳肉豪妇荡乳 > 在线看Av免费无码 >


久久精品国产午夜噜噜种种各样的自监督学习门径不断浮现

发布日期:2022-09-23 05:47    点击次数:182


欧美洲性开放性裸交久久精品国产午夜噜噜

 

当下,自监督学习在无需人工标注的情况下展示出苍劲的视觉特征索取才气,在多个下贱视觉任务上都获取了逾越监督学习的性能,这种学习范式也因此被人们平日关心。

在这股高涨中,种种各样的自监督学习门径不断浮现,天然它们大多都弃取了孪生网罗的架构,然而管制问题的角度却各异广泛,这些门径大致可以分为三类:以 MoCo、SimCLR 为代表的对比学习门径,以 BYOL、SimSiam 为代表的非对称网罗门径,和以 Barlow Twins、VICReg 为代表的特征解耦门径。这些门径在对待若何学习特征示意这个问题上思绪迥异,同期由于执行兑刻下弃取了不同的网罗结构和试验确立,斟酌者们也无法平允地对比它们的性能。

因此,人们天然会产生一些问题:这些门径之间是否存在一些斟酌?它们背后的责任机理又有什么关系?更进一步的,具体是什么要素会导致不同门径之间的性能各异?

为此,来自清华大学、商汤科技等机构的斟酌者们残忍一个谐和的框架来解说这些门径。相较于平直去相比它们的耗费函数,他们从梯度分析的角度启程,发现这些门径都具有相配相似的梯度结构,这个梯度由三部分组成:正梯度、负梯度和一个均衡总共。其中,正负梯度的作用和对比学习中的正负样本相配相似,这标明之前提到的三类门径的责任机理其实大同小异。更进一步,由于梯度的具体样貌存在各异,斟酌者通过详备的对比实验分析了它们带来的影响。成果标明,梯度的具体样貌对性能的影响相配小,而要道要素在于 momentum encoder 的使用。

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

论文勾搭:https://arxiv.org/pdf/2112.05141.pdf

在这个谐和框架的基础上,斟酌者们残忍了一种轻松而有用的梯度样貌——UniGrad。UniGrad 不需要复杂的 memory bank 或者 predictor 网罗想象,也能给出 SOTA 的性能流露。在多个下贱任务中,UniGrad 都获取了可以的挪动性能,而且可以相配简便地加入其它增强妙技来进一步训导性能。

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

图 1 三类自监督门径与 UniGrad 的对比

谐和框架

本节将分析不同门径的梯度样貌,最初给出三类门径各自的梯度样貌,然后归纳其中的共性结构。从梯度的角度读者也可以更好地领会不同类型的门径是若何责任的。为了便捷表述,作家用u示意当前样本特征, v示意其它样本特征,添加下标 ,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

示意不同的 augmented view,添加上标 ,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

示意孪生网罗中 online 或者 target 分支产生的特征。

对比学习门径

对比学习门径但愿当前样本

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

拉近与正样本

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

的距离,训导与负样本

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

的距离,一般会使用以下的 InfoNCE Loss:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

具体兑刻下,两类代表性门径 MoCo 和 SimCLR 有很多各异:MoCo 使用了 momentum encoder 动作 target branch 的编码器,而 SimCLR 让 target branch 与 online branch 分享参数;MoCo 使用 memory bank 来存储负样本,而 SimCLR 使用当前 batch 中其它样本动作负样本。

通过对 SimCLR 梯度的稍许化简(关闭 target branch 的梯度反传,不会影响最终性能),对比学习门径的梯度可以谐和成底下的样貌:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

在这个式子中,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

的作用是将正样本拉近,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

的作用是将负样本推离,因此作家将这两项分一名为正梯度和负梯度。

非对称网罗门径

非对称网罗门径只使用正样原本学习特征,何况通过非对称网罗的想象来幸免庸碌解。这类门径一般会在 online branch 后加多一个 predictor 网罗

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

,同期关闭 target branch 的梯度反传,最终使用底下的耗费函数

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

这类门径中, 这里动作代表的 BYOL 和 SimSiam 相配相似,独一的各异即是是否使用 momentum encoder。天然这类门径流露出相配优异的性能,人们对它们的责任旨趣却所知甚少。最近 DirectPred 这篇著作从网罗优化的动态进程启程对它们做了初步的解说,这篇责任明察到 predictor 网罗的特征空间会渐渐与特征的联系性矩阵的特征空间对齐,基于此,DirectPred 残忍了 predictor 网罗的一种说明解。在此责任的基础上,作家进一步展示出非对称网罗门径与其它门径的斟酌,至极地,它们的梯度可以推导为

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

其中

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是 predictor 网罗的说明解。可以看到,上式相似主要有两个部分:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是正梯度,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是负梯度。

粗看起来这个成果相配反直观:耗费函数中莫得使用负样本,然而梯度中却出现了负梯度。执行上,这些负样原本自于 predictor 在优化进程中学习到的信息。笔据 DirectPred 的论断,predictor 的特征空间会和联系性矩阵的特征空间渐渐对齐,因此 predictor 在试验进程中很可能会将联系性矩阵的信息编码到网罗参数中,在反传时,这些信息就会以负样本的样貌出当今梯度中。

特征解耦门径

特征解耦门径旨在减小各特征维度之间的联系性来幸免庸碌解。由于不同责任弃取的耗费函数在样貌上各异很大,作家对它们永别进行斟酌。

Barlow Twins 弃取如下耗费函数:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

其中

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是两个 augmented view 之间的联系性矩阵。该耗费函数但愿联系性矩阵上的对角线元素接近 1,而非对角线元素接近 0。

该耗费函数的梯度样貌为:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

作家最初将第一项替换为

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

,同期,原始的 Barlow Twins 对特征弃取了 batch normalization,作家将其替换为

一个框架谐和Siamese自监督学习,<a href=岳叫我弄进去A片清华、商汤残忍有用梯度样貌">

normalization,这些变换都不会影响到最终性能。

VICReg 在 Barlow Twins 的基础上做了一些篡改,为了去掉加在特征上的 batch normalization,它弃取了如下耗费函数:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

其对应的梯度样貌为

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

通过对特征施加

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

normalization,作家可以去掉临了一项而不影响其性能。这么,特征解耦门径的梯度样貌就能谐和为:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

该梯度样貌依然包含两项:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是正梯度,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

组成负梯度,它们永别来自联系性矩阵中的对角线和非对角线元素。因此,特征解耦门径内容上和其它两类门径相配相似,它们仅仅在耗费函数中将正负样本用不同的样貌组合起来了。

谐和样貌

对比以上三类门径的梯度样貌,作家发现它们都具有相似的结构:

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

其中,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

对应正样本的特征,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是负样本特征的加权平均,

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是均衡两者的总共,这种相似的结构诠释三类门径的责任机理相配接近。

性能对比

尽管结构相似,不同门径的具体梯度样貌依然存在区别,而且 target branch 的类型、负样本聚合的组成也都不一样,本节将通过对比实验来探究对最终性能的主要影响要素。

梯度样貌

为了便捷对比,作家最初在种种门径里面进行化简和对比,最终再对比不同门径。完好的实验成果如表 1 所示。

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

表 1 不同类型门径性能相比

表 1(ab) 展示了对比学习门径的成果。为了保持平允相比,SimCLR 弃取了 momentum encoder,在这么的情况下流露出了和 MoCo 疏通的性能。在这里,SimCLR 只用了当前 batch 动作负样本聚合,MoCo 弃取了 memory bank 动作负样本聚合,这诠释在符合的试验确立下,普遍的负样本并不是必须的。

表 1(c-e) 展示了非对称网罗门径的成果。由于带有 momentum encoder 的 SimSiam 即是 BYOL,这里只展示了 BYOL 的成果。表 1(cd) 永别是原始的 BYOL 和 DirectPred 样貌的 BYOL,两者的性能相配,这也和 DirectPred 的论断一致。表 1(e) 将正样本梯度中的

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

替换为单元阵而莫得影响性能,因此,非对称网罗门径的梯度样貌可以谐和成表 1(e) 中的样貌。

表 1(f-j) 展示了特征解耦门径的成果。对 Barlow Twins 来说,表 1(g) 将正梯度中的矩阵 A 替换为单元阵,表 1(h) 将特征的 batch normalization 替换为

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

normalization,这些替换都不会导致性能下跌;对 VICReg 来说,表 1(j) 去掉梯度中临了一项,同期加上

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

normalization,这对性能险些莫得影响。临了,相比表 1(hj),它们独一的各异在于负样本总共的贪图方式,然而性能上却各异很小,是以特征解耦门径的梯度样貌可以谐和成表 1(j) 中的样貌。

临了,作家对比了三类门径的梯度,即表 1(bej) 的成果。在梯度结构中,正梯度的样貌如故谐和,均衡总共和会过搜索保持最优,独一的各异即是负梯度样貌,实验成果标明不同的负梯度样貌性能相配接近。还值得安宁的是,表 1(ej) 的负样本样貌相配相似,区别在于表 1(e) 使用了之前统统样本组成的负样本聚合,表 1(j) 只使用了当前 batch 聚合,这也诠释了负样本聚合的构建在自监督学习中不是最要道的要素。

Target Branch 类型

之前为了平允对比,作家对种种门径都使用了 momentum encoder,当今来斟酌不同类型的 target branch 对最终成果的影响,实验成果如表 2 所示。

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

表 2 Target branch 类型影响

要是 target branch 弃取 stop-gradient 的类型,三类门径都流露出访佛的性能,这和之前的论断是一致的;要是 target branch 弃取 momentum-encoder 的类型,三类门径都能在之前的基础上训导约莫 2 个点,这诠释 momentum encoder 对不同的门径都能带来训导。

更进一步的,作家明察到一些门径里唯独正梯度运用到了 momentum encoder 的特征,于是他们尝试对三类门径都只在正梯度中弃取 momentum encoder 的特征。实验成果标明这和沿途梯度弃取 momentum encoder 具有访佛的性能流露。这诠释关于自监督学习来说,一个任性更新的一致的更新标的曲直常迫切的。

最终门径

基于上述的谐和框架,作家残忍了一种轻松有用的自监督门径(UniGrad):

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

其中

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

是联系性矩阵的滑动平均。UniGrad 内容上即是表 1(e) 的梯度样貌,这种梯度不需要衰退的 memory bank,也不需要想象衰退的 projector,实验标明不管是 linear evaluation 如故 transfer learning,它都八成获取 SOTA 的实验性能。

图 2 从多个掂量筹商的角度展示了不同门径的优化进程。可以看到,不同门径的优化弧线莫得较着的各异,这也诠释了该门径和之前门径有着访佛的责任机制。

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

表 3 和表 4 展示了 UniGrad 的具体成果。UniGrad 本身八成获取和之前门径相配的性能,何况八成简便地将之前的数据增强方式领会进来,进一步训导性能。在更长轮数的试验中,UniGrad 也能获取可以的性能。

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

表 3 UniGrad 与数据增强门径纠合的性能

一个框架谐和Siamese自监督学习,清华、商汤残忍有用梯度样貌

表 4 长轮数下与之前门径的对比

 



    热点资讯

    相关资讯