YOLO-World:实时开放词汇目标检测
2024年07月31日
•
车联网
•
我要评论
Open Vocabulary:开放词汇论文链接:https://arxiv.org/pdf/2401.17270.pdfYou Only Look Once (YOLO) 系列检测器已经确立了自己作为高效和实用工具的地位。然而,它们对预定义和训练过的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这个问题,我们引入了 YOLO-World,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,为 YOLO 增添了开放词汇检测能力。
摘要
open vocabulary:开放词汇
论文链接:https://arxiv.org/pdf/2401.17270.pdf
you only look once (yolo) 系列检测器已经确立了自己作为高效和实用工具的地位。然而,它们对预定义和训练过的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这个问题,我们引入了 yolo-world,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,为 yolo 增添了开放词汇检测能力。具体来说,我们提出了一种新的可重新参数化的视觉语言路径聚合网络(repvl-pan)和区域文本对比损失,以促进视觉和语言信息之间的交互。我们的方法以零样本的方式高效检测各种对象,表现出色。在具有挑战性的 lvis 数据集上,yolo-world 在 v100 上实现了 35.4 ap 和 52.0 fps,在准确性和速度方面都优于许多最先进的方法。此外,经过微调的 yolo-world 在多个下游任务上表现出色,包括目标检测和开放词汇实例分割。
1、引言
目标检测是计算机视觉中长期存在且基础性的挑战,它在图像理解、机器人技术和自动驾驶等领域有着广泛的应用。随着深度神经网络的发展,大量工作[16, 27, 43, 45]在目标检测方面取得了显著的突破。尽管这些方法取得了成功,但它们仍然受到限制,因为它们仅处理具有固定词汇的目标检测,例如 \mathrm{coco}[26] 数据集中的80个类别。一旦定义了目标类别并进行了标注,训练过的检测器只能检测那些特定的类别,从而限制了开放场景下的能力和适用性。
相关文章:
-
目标检测简介
在数字化时代的浪潮中,目标检测技术以其独特的魅力和无可比拟的实用价值,成为计算机视觉领域的璀璨明珠。目标检测技术旨在模仿人类视觉系统的功能,通过算法和模型识别和...
[阅读全文]
-
本体(Ontology)在计算机科学和信息科学中,尤其是在知识图谱领域,扮演着重要的角色。它提供了一种形式化的描述知识领域的方法,由一组表示概念、概念之间关系以及规则的集合组成。在…
-
知识图谱的起源与发展
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管...
[阅读全文]
-
-
总体而言,MindMap通过创新性地融合知识图谱和大型语言模型,克服了单纯依赖LLM处理复杂查询时的多种限制,为用户提供了更精确、可靠、透明和解释性强的解决方案。MindMap 通…
-
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论