构建新的云原生系统或是将遗留系统云原生化,如何少走弯路?点击查看
写点什么

难倒全球最强计算机视觉模型,objectnet让识别准确率从90%下降至50%-金马国际

  • 2019 年 12 月 14 日
  • 本文字数:2600 字

    阅读完需:约 9 分钟

在过去的十年里,对象识别模型取得了长足的进步,但在精度方面,还有很长的路要走。如今的计算机视觉模型已经学会如何准确识别出照片中的对象,甚至能够在某些数据集中获得优于人类的识别表现。但是,这类对象检测系统在真实场景中的表现却仍然不够理想。为了解决上述问题,近日,麻省理工学院和 ibm 组成的联合团队发布了一个最新的对象识别数据集—,旨在说明机器学习算法与人类之间的性能差距。


mit 和 ibm 提出最新数据集 objectnet

与许多现有的数据集(现有的数据集往往直接提取 flickr 及其他社交媒体网站上拍摄的照片)不同,objectnet 的数据样本是由自由职业者提供的付费照片。照片中的橘子、香蕉和衣服等物体被倾斜在一边,以奇怪的角度拍摄,并展示在杂乱的房间里。即使是能够在 imagenet 上获得 97%准确率的目前最先进对象检测模型,在“迎战”objectnet 时,准确率也会迅猛下降至 50%— 55%。


objectnet 有一种新型的视觉数据集,它借鉴了其他科学领域的控制思想。它甚至没有培训集,只提供测试集以加快流程。与其他常规图像数据集相比,objectnet 不包含训练图像。大多数数据集将自身素材分为两个部分,分别为模型训练数据,外加性能测试数据。但是,训练集与测试集之间往往具有某种微妙的关联或者说相似之处,在某些情况下无法进行精准的准确性验证。


麻省理工学院计算机科学与人工智能实验室(csail)以及人脑、意识与机器中心(cbmm)研究科学家 boris katz 介绍,整个数据集从设计构思、标准纪数据收入流程外加应用程序开发,总共耗费了三年时间。


研究合著者,麻省理工学院电气工程与计算机科学系研究生 david mayo 表示,“以偏见受控为前提收集数据是一项相当棘手的工作。我们还得不断进行实验,确保我们提供的指示清晰明了,足以引导拍摄者们正确完成拍摄。”


摆在前面的一个根本性难题是,很少有人愿意分享符合 objectnet 要求的照片。为此,研究团队通过 amazon mechanical turk 雇佣了多位自由职业者,这些自由职业者会从应用程序上收到分配的任务,诸如,收到的“动画说明”会告诉他们如何分配物品的摆放位置、拍摄的角度,以及是否将对象摆放在厨房、浴室、卧室、客厅等。在 objectnet 中收集的图像有意地在新的背景上显示来自不同视角的对象(物体)。


通过这种方式,研究人员希望消除三种常见的偏见:正面朝上、在相对统一的位置展示核心对象,以及在相对统一的背景下展示核心对象——比如厨房里堆起的杯盘。


研究论文联合作者,csail 与 cbmm 研究员 andrei barbu 指出,如果希望了解某种算法在现实世界中的表现,最好是利用无偏见且模型以往从未见过的图像进行测试。


数据的实际收集又额外耗费了一年。在数据收集最开始的一年里,因为不满足要求,这些自由职业者提供的照片中有一半不得不被丢弃。一些“错误”包括,照片被人为加上了标签,变幻背景或者调整角度等。


对象识别仍是一个未被攻克的难题

objectnet 建立在今年早些时候由 facebook ai 研究人员发布的一项的基础上,该研究发现,识别家用物品的计算机视觉通常更适合高收入家庭的人。结果显示,六种受欢迎的系统对最富裕家庭的(物品)识别效果比对最贫穷家庭的识别效果好 10%到 20%,且相较北美和欧洲,它们更容易识别北美和欧洲家庭中的物品。


深度学习利用人工“神经元”层从大规模原始数据当中寻找模式。在利用数百甚至数千个示例完成训练之后,深度学习模型即可学会从照片中识别出椅子等物体。但,即使是包含数百万张图像的原有数据集,也不可能从各个角度及方向展示对象的全貌。正因为如此,深度学习模型在现实场景的对象识别当中才会引发种种问题。


“我们创建这套数据集的目的,在于提醒大家对象识别仍是个未被攻克的难题“,。据悉,katz 和他的同事们将在今年 12 月 8 日-14 日举行的神经信息处理系统大会(neurips)上公布 objectnet 项目及其主要成果。


的文章评论称,mit 和 ibm 提出的 objectnet 表明人工智能在现实世界中的对象检测方面仍“苦苦挣扎”。


object net vs imagenet

object net 数据集以众包照片数据库 imagenet 为基础。其样本量为 50,000 个图像测试集,测试集大小与 imagenet 基本持平,具有旋转、背景和视点控制等高级功能。它有 313 个对象类和 113 个重叠的 imagenet。


下图,在 imagenet(左)中,只记录了以下易于理解的照片。另一方面,在 objectnet 中(右图),一张椅子被放置在一个杂乱的房间中,椅子的背面被拍照,或者是一张人类难以判断的照片。



图像识别模型利用数据集通过深度学习来提高图像识别精度。然而,即使是在 imagenet 这样的大型数据集中,所包含的图像也存在盲点,即不存在像上面例子中那样的“椅背”或“椅子倒了”的图像。因此,使用 imagenet 等传统数据集学习的图像识别模型在遇到“椅背”或“倒椅子”等不规则情况时,无法准确识别图像。


在具体的识别成绩方面,研究人员们在 objectnet 上测试各类先进计算机视觉模型发现最终成绩相较于 imagenet 下降了 40%到 45%。研究人员表示,从结果来看,物体检测器仍然未能理解物体的三维属性,特别是能够在新环境下旋转并移动这一前提性事实。研究论文合著者、ibm 公司研究员 dan gutfreund 也提到,“现代物体检测器在架构层面并没有引入这些基本概念。”


为了证明 objectnet 数据集的识别成绩下滑确实来自对特定对象的观看角度与入镜方式,研究人员允许模型训练 objectnet 中一半的数据,然后再对其余的一半进行测试。这种做法往往会提高性能。但 objectnet 用事实证明,这种办法在它身上仍然行不通。模型性能只是稍有改善,这表明对象检测器尚未完全理解物体在现实世界中的存在方式。


但研究人员们指出,进一步提升 objectnet 的体量以及增加视角与方向等因素的数量,并不一定能带来更好的结果。objectnet 项目的目标,在于激励研究人员们开发出下一波革命性技术。


“人们为这些检测器提供越来越多的数据,但收益却在逐渐降低。我们不可能在任意构图形式下,结合任意背景通过任意角度观察对象“。katz 表示,”我们希望这套新的数据集能够催生出更强大的计算机视觉,以确保它们不会在现实世界中犯下令人难以理解的错误。”


论文: : 


下载数据集: 


api::


2019 年 12 月 14 日 14:009755
infoq记者

发布了 843 篇内容, 共 284.3 次阅读, 收获喜欢 1607 次。

关注

评论

发布
暂无评论
  • votenet通过使用纯几何信息而不依赖彩色图像,取得了比以前的方法更好的结果。

  • 计算机视觉称得上是个古老的学科,它的任务是用计算机实现视觉感知功能,代替人眼执行对目标的识别、跟踪、测量和处理等任务,并从数字图像中获取信息。

    2018 年 3 月 3 日

  • 如何使用强化学习方法让机械手臂自己学会识别物体?

  • 本文提出了一个卡通人脸识别的基准数据集icartoonface,并设计了卡通和真人多任务域自适应策略来提高卡通人脸识别的性能。

  • 将计算机视觉与计算机图形技术相结合,使得我们能够以前所未有的方式对大量现成未标记数据加以利用。

  • 我们提到过大画幅、中画幅、全画幅,也提到过非全画幅,每一种幅又有很多代表性的机型,所以咱们就先从这个“幅”说起。

    2020 年 1 月 9 日

  • 3d游戏引擎可以用来制作2d游戏吗?

    2018 年 5 月 29 日

  • 今天我通过文本分类系统的基本框架,来给你讲朴素贝叶斯方法的应用。

    2019 年 2 月 6 日

  • 最近yuille指出,计算机视觉的发展面临瓶颈,不破则不立,但深度学习这时候发挥的作用实际上是有限的。那么在他看来,计算机视觉的突破口在哪里呢?

  • 本文将分享几个新的 facebook ai 研究项目,这些研究项目从不同但互补的几个层面上推动了 3d 图像理解的前沿进展。

  • imagenet 数据集存在“系统注释问题”,当用作基准数据集时,与实际情况或直接观测结果并不一致。

  • 人脸识别是机器学习的直接应用,这项技术已经被消费者、行业和执法机关广泛采用,它可能为我们的日常生活带来了便利,但也有严重的隐私问题。人脸识别已经超过了人类的工作效率,但是,在某些应用中实际实现时还存在问题。

  • 2019年计算机视觉顶会cvpr前不久刚在美国长滩闭幕。robin.ly在大会现场独家采访20多位热点论文作者,为大家解读论文干货。

  • 由于深度学习依靠用于训练它的数据的数量和质量

  • 自我训练对分类和目标检测等下游任务,效果有很大提升。

  • robin.ly在大会现场独家采访20多位热点论文作者,为大家解读论文干货。

  • 这节课是我们数据算法这章的最后一节课了,我们来聊聊到目前为止人工智能领域里的终极算法——深度学习算法。

    2021 年 9 月 13 日

  • ai也是可以被骗过的。

  • 2020 年 5 月 28 日

  • 密歇根大学近日发布的一篇文章表示:该校实验室正在进行一种新型的神经网络研究,这一神经网络可以帮助无人车系统判断行人的下一步运动趋势,从而更好地避免事故的发生。

发现更多内容
网站地图