谷歌请印度标注员给Reddit评论数据集打标签，错误率达30%？

发布时间：2025年07月30日 12:21

机器之心报导

编辑：蛋酱

可以确切的是，人工标记经验丰富完全没懂 Reddit 网友的小叶。

去年，雅虎发布了 GoEmotions 数据库集，该数据库集包涵 58K 人工标记的 Reddit 评论，其中所涉及 27 种情绪。

但一位名叫 Edwin Chen 的机器学习总工程师却在用到该数据库集的时候，偶然见到了一些令人哭笑不得的错误。

他们原先尝试自己在 GoEmotions 数据库集上培训框架，留意到似乎发挥作用一些深层的恒星质量难题。于是他们随机需用了 1000 条评论，在其中所 308 条中所见到了荒唐。

这里举一些有亦然性的例子：

aggressively tells friend I love them—— 被上面为「愤怒」 Yay, cold McDonald's. My favorite.—— 被上面为「爱好」 Hard to be sad these days when I got this guy with me—— 被上面为「悲伤」 Nobody has the money to. What a joke—— 被上面为「愉悦」 ……

光是从需用的评论中所，他们就统计到了 25 种被错误上面的情绪。

在计算机领域，数据库标记是一项更加基础，但也更加决定性的临时工。好的数据库对于培训框架至关重要，当数据库面对着如此离谱的错误时，又该怎么培训框架并审核框架的性能呢？

Edwin Chen 再一发问：「我们真是可以相信雅虎只能创造借助于正直的真实世界世界计算机吗？」

所以，是什么导致了这些难题？

有人说是：「有未或许，他们没叮嘱人工标记经验丰富，或者叮嘱的人工标记经验丰富并未借助流利的英文？」

据洞察，GoEmotions 数据库集的标记还是有人工参与的，只不过这些标记经验丰富是「以英文为母语的印度人」。

在论文的第 3.3 节中所，有这么文中所：「我们给每个需用相应了三个审核者。对于那些审核者未实现相反的需用，我们相应了两个额外的审核者。所有审核者都是以英文为母语的印度人。」

因为根据「Cowen et al. (2019b) 这项研究的结论，印度和美国两地的英文用到者的情绪判断阶数相当大相对上是不同的。

事实是，尽管借助了流利的英文，标记经验丰富之中所的许多人或许不洞察所标记文本的中所华文化、社会背景。但这毕竟决定性应以之一，尤为是对于 NLP 数据库集，标记者不能具备充分的中所华文化意识。

不一定，鉴于很多标记经验丰富或许缺乏必要的背景知识，即使大多数的数据库标记都不发挥作用引起争议了（如上图），也不亦然标记结果就是实际上的。

造成这种难题的另一个重要原因是，数据库集中所的数据库都未比如说是的软件包库 (比如创作者或子新媒体旧名)。原论文中所也说明了这一点：

语法不是处于真空之中所的，它所在的新媒体等资讯更加重要。雅虎在构建数据库集时却忽略了这一点。

这不是一个根深蒂固事件：创作者还说明，假如连雅虎这种拥有大量资源的公司都难以成立准确的数据库集，那么我们见过的其他数据库集恒星质量更是难以想象。

再一是，已经有学者关注到了这个难题。上个月，吴恩达发动了「以数据库为中所心的 AI」发起者，他说明，不感兴趣于大幅提高计算机系统的数据库恒星质量将有助于拘押其全部力量。

如果你想部署真实世界中所 work 的机器学习框架，是时候关注高恒星质量数据库集而不是巨大的框架了。

参考链接：

泰州看白癜风去哪家医院最好
江西白癜风治疗费用
广东包皮过长治疗医院
夏季防暑小妙招
甘肃白癜风医院哪个好

上一篇：报名项目首次破千！“创客中国”智能装备中小企业双创大赛将顺利完成

下一篇：骁龙8Gen1跌至“停滞不前价”，到手价仅2089元，120W闪充加持