存在错误标注的伪标签为什么会帮助训练出更好的模型?

作者&投稿:英索 (若有异议请与网页底部的电邮联系)
一直在关注半监督文本分类方向,说说我个人的想法。欢迎大家讨论。伪标签的本质,其实是熵最小化原则,基于一个假设:模型的性能越好,他的输出就应该越接近one-hot(不知道理解的对不对)。所以,筛选出置信度较高的样本,把他们对应的one-hot向量作为伪标签,然后让模型输出的soft output,去接近hard target,让输出的熵(不确定性)降低,从而达到提高模型训练效果的目的,这是我认为伪标签方法的本质。以上的讨论,需要注意的是,要筛选出较高置信度的样本,也就是说,这些样本模型的预测可以近似认为是正确的,在此前提上再进行伪标签训练。所以题主提到的第一个问题,虽然是存在的,但是往往比例较少。给一个比较直觉的理解就是,一个学生在有答案的习题集上做练习,然后在找一本没有答案的练习题,他只挑选部分自己熟练的习题来做,并把自己做的结果都认为是正确的。这样的结果就是,虽然学生不知道自己做的对错,但是他提到了自己的熟练度,会让他对自己的结果更加确信(就是熵的概念)。其实从上面的讨论,我们可以发现一个问题:模型的性能越好,输出真的越接近one-hot吗?我觉得不是的。例如在情感分类中,有些句子本身情感的极性就不明显,one-hot向量往往会丢失很多“dark knowledge”,这就是知识蒸馏研究的动机,也就是让大模型输出的软标签来替代原来的硬标签。其实,在我刚刚接触半监督学习的时候,很自然的认为模型的性能就是由监督信号决定的。但是其实不然,在有监督样本少的时候,会存在很多问题,例如模型的函数空间不平滑,这使得模型的方差很大(过拟合),然而无监督样本的加入可以平滑函数空间,同时降低方差,提高泛化能力。所以在文本中,现在的主流半监督方法往往都是基于一致性训练的。也就是要求模型对于输入微小的变化,不会导致输出过大的差异。这便对函数的平滑性有了要求。在cv里面,用伪标签比较有名的方法,是flexmatch,可以去看看里面的讨论,对于伪标签的理解会进一步加深。(我不怎么关注cv,欢迎补充)其实我也在想,现在的方法往往是对正确的样本进行熵最小化,也就是在本来预测正确的样本少,进一步提高预测的置信度。但是如果能把不那么确信的样本,提供一个相对正确的标签,这样效果是不是更加明显些?

~

产品条形码信息为什么与产品不一致?
答:有可能是由于人为错误或系统错误导致条形码信息与实际产品不符。在生产、包装或销售过程中,工作人员可能会因疏忽或失误将错误的条形码标签贴在产品上。由于供应链管理系统中的数据输入错误、传输错误或技术故障等问题,也可能导致条形码信息与实际产品不匹配。某些情况下,品牌公司为了应对市场需求变化或推出新品...

怎样粘贴与保存防伪标签?
答:二:防伪标签的最佳贴放位置是什么地方? 1.外包装上(表面平滑)。标签即可以贴在外包装的表面上,也可以贴在外包装的封口处。 2.产品上面(表面平滑)。标签也可以贴在产品表面,但要贴在平的位置处,不要贴在凹凸不平的位置上,标签的胶处不能暴露在空气中,会慢慢失去粘性!注意:如果是特殊粘贴...

同一款产品都有防伪码,但是,防伪标志颜色不一样,会不会是假的
答:我买的玫莉蔻防伪码的防伪标签被刮开了,会不会是假的? 如果被刮开了,你可以试着用上面的防伪方式,一般会有简讯验证或者二维码之类的,你根据官方的验证码对比下 检视就知道真伪了。美瞳没有防伪标志是假的吗? 我一直都是可得眼镜网上买的~一直很不错~你去看看吧~小米note正品背面没有防伪...

“日照绿茶”商标防伪标识启用真假茶叶一目了然
答:17日,“日照绿茶”中国驰名商标防伪标识正式启用。首批使用“日照绿茶”中国驰名商标防伪标识的28家茶叶企业获得授牌。防伪标识的启用会更便于消费者辨别真伪,防止假冒产品的泛滥。防伪标识启用发布会现场 防伪标签贴在茶筒开启处或成品茶最内包装袋上 “日照绿茶”商标及防伪标识 大众网日照9 月17日讯(...

网曝盒马茅台验真伪必须撕标签,这是为什么?
答:有网友表示,在盒马鲜生购买的茅台酒,如果要验真伪,就必须要把标签撕掉,这让很多消费者感到无法理解。盒马鲜生为什么要这样做?一旦打开验真码,验证完之后,商品的外包装就会被破坏,带着这个问题,有顾客就在网上质疑盒马。看到来自顾客的质疑,盒马鲜生表示,这是为了能够保证商品是正品,消费者只有...

你在朋友圈发过假定位吗?为什么有些人朋友圈发假定位?
答:说到底不过是为了满足自己的虚荣心而已,通过这种方式来增加自我价值感,看到别人给自己点赞,说着羡慕你、夸你有钱之类的话,内心就得到了极大的满足,而背地里可能只是在吃泡面,窝在不足20平方的小出租房而已!真的就是人菜瘾还大!二、别有所图 现在还是会有很多人在朋友圈发各种各样的广告,...

如何看待“假定位”现象?
答:“假定位”,顾名思义,就是你在发布朋友圈时,选择了错误或者虚假的地理位置。也许你曾经在分享夜晚的灯火阑珊时,却标注了另一个城市的名称;也许你曾在展示山珍海味时,却标注了一个遥远的郊区餐馆。这些看似无关紧要的细节,实际上却包含了深深的“自我伪装”。为什么我们会选择假定位呢?或许,是...

进口护肤品防伪码有假的吗?防伪码能造假吗?
答:要避免此类问题发生,除了需要政府加强监管外,企业还应当采用先进的防伪手段,帮助消费者快速识别商品真假,破坏假冒商品的生存土壤,从而保护自身利益,从生产源头上防范杜绝他人进行造假生产,假冒产品的流通就能一眼被辨认出来。但随着防伪技术不断发展,造假手段也在逐年翻新。只要拥有同样的设备和材料,...

如何鉴别红酒的真假?
答:鉴别红酒的真假是一项需要经验和专业知识的任务。以下是一些基本的方法,可以帮助你鉴别红酒的真伪:观察瓶身标签:真正的红酒标签通常会包含酒庄名称、产区、年份、葡萄品种等信息。而假酒的标签可能会有明显的拼写错误或者印刷质量较差。检查瓶盖:真正的红酒通常使用软木塞密封,而且瓶盖上会有酒庄的标志。

防伪标识会不会有假的呢
答:有可能。一:防伪标识的各类很多。比如早期的激光防伪标签(就是银白色的亮标)这种最容易被模仿。二:有些防伪公司对消费者不负责任。有可能会为没有正式生产许可证的企业的产品制作防伪标。只能证明某产品是某公司生产的。三:有人会按原厂的防伪标签假冒。解决方法:了解防伪标的鉴别方法。识别真假...