试着为北美大约11000种树木中的每一种拍照,你只会得到自然图像数据集中数百万张照片中的一小部分。这些从蝴蝶到座头鲸的大量快照集合是生态学家的一个很好的研究工具,因为它们提供了生物独特行为、罕见条件、迁徙模式以及对污染和其他形式气候变化反应的证据
虽然全面,但自然图像数据集还没有发挥出应有的作用。搜索这些数据库并检索与你的假设最相关的图像是耗时的。你最好有一个自动化的研究助理,或者一个叫做多模态视觉语言模型(VLMs)的人工智能系统。它们在文本和图像上都经过训练,使它们更容易精确地定位更精细的细节,比如照片背景中的特定树木
但是VLMs能在多大程度上帮助自然研究人员进行图像检索呢?来自麻省理工学院计算机科学和人工智能实验室(CSAIL)、伦敦大学学院、iNaturalist、爱丁堡大学和麻省大学阿默斯特分校的一个团队设计了一个性能测试来找出答案。每个VLM的任务是:在团队的“INQUIRE”数据集中定位和重组最相关的结果,该数据集由500万张野生动物图片和来自生态学家和其他生物多样性专家的250个搜索提示组成
在这些评估中,研究人员发现,在更多数据上训练的更大、更先进的VLM有时可以让研究人员得到他们想要的结果。这些模型在关于视觉内容的直接查询中表现得相当不错,比如识别珊瑚礁上的碎片,但在需要专家知识的查询中表现不佳,比如识别特定的生物条件或行为。例如,VLMs在海滩上很容易发现水母的例子,但在更技术性的提示下却举步维艰,比如“绿蛙的轴突性”,这种情况限制了它们使皮肤变黄的能力
在arXiv预印本服务器上发表的一篇文章中,他们的发现表明,模型需要更多特定领域的训练数据来处理困难的查询。麻省理工学院CSAIL博士生Edward Vendrow共同领导了该数据集的工作,他认为,通过熟悉更多信息量的数据,VLM有朝一日可能会成为伟大的研究助理。Vendrow说:“我们希望建立检索系统,找到科学家在监测生物多样性和分析气候变化时所寻求的确切结果。”
“多模态模型还不能完全理解更复杂的科学语言,但我们相信,INQUIRE将成为跟踪它们如何更好地理解科学术语并最终帮助研究人员自动找到所需确切图像的重要基准。”
该团队的实验表明,由于其庞大的训练数据,较大的模型往往对更简单和更复杂的搜索更有效。他们首先使用INQUIRE数据集来测试VLM是否可以将500万张图像缩小到前100个最相关的结果(也称为“排名”)。对于像“有人造结构和碎片的珊瑚礁”这样的简单搜索查询,像“SigLIP”这样的相对较大的模型找到了匹配的图像,而较小的CLIP模型则很难找到。根据Vendrow的说法,较大的VLM在对更难的查询进行排名方面“才刚刚开始有用”
Vendrow和他的同事们还评估了多模态模型对这100个结果进行重新排序的效果,重新组织了哪些图像与搜索最相关。在这些测试中,即使是在GPT-4o等更精心策划的数据上训练的大型LLM也很困难:它的精度得分仅为59.6%,是所有模型中得分最高的研究人员将在12月的神经信息处理系统会议(NeurIPS 2024)上展示这些结果
与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展
查询INQUIREINQUIRE数据集包括基于与生态学家、生物学家、海洋学家和其他专家讨论的图像类型的搜索查询,包括动物独特的物理条件和行为。然后,一组注释者花了180个小时用这些提示搜索iNaturalist数据集,仔细梳理了大约20万个结果,标记了3.3万个符合提示的匹配项
例如,注释者使用“一只寄居蟹使用塑料废物作为外壳”和“一只标有绿色'26'的加州秃鹰”等查询来识别描述这些特定罕见事件的较大图像数据集的子集
然后,研究人员使用相同的搜索查询来查看VLM检索iNaturalist图像的效果。当模型难以理解科学家的关键词时,注释者的标签就暴露了出来,因为他们的结果包括之前标记为与搜索无关的图像。例如,VLMs对“有火痕的红木树”的结果有时包括没有任何标记的树木图像
麻省理工学院Homer a.Burnell职业发展助理教授、CSAIL首席研究员、共同资深作者Sara Beery说:“这是对数据的精心整理,重点是捕捉生态学和环境科学研究领域科学探究的真实例子。”
“事实证明,这对于扩大我们对VLM在这些潜在影响的科学环境中的当前能力的理解至关重要。它还概述了我们现在可以努力解决的当前研究中的差距,特别是对于复杂的成分查询、技术术语,以及描述我们合作者感兴趣的类别的细微差异。”
Vendrow说:“我们的研究结果表明,一些视觉模型已经足够精确,可以帮助野生动物科学家检索一些图像,但即使是最大、性能最好的模型,许多任务仍然太难了。”。“尽管INQUIRE专注于生态和生物多样性监测,但其查询的多样性意味着在INQUIRE上表现良好的VLM可能擅长分析其他观测密集型领域的大型图像集。”
为了进一步推进他们的项目,研究人员正在与iNaturalist合作开发一个查询系统,以更好地帮助科学家和其他好奇的人找到他们真正想看到的图像。他们的工作演示允许用户按物种过滤搜索,从而更快地发现相关结果,例如猫的不同眼睛颜色
Vendrow和共同主要作者Omiros Pantazis最近从伦敦大学学院获得了博士学位,他们也致力于通过增强现有模型来改进重新排名系统,以提供更好的结果
匹兹堡大学副教授Justin Kitzes强调了INQUIRE发现二手数据的能力。“生物多样性数据集正迅速变得太大,任何一位科学家都无法审查,”没有参与这项研究的Kitzes说。“本文提请注意一个困难而未解决的问题,即如何有效地搜索这些数据,而不仅仅是‘谁在这里’,而是询问个体特征、行为和物种相互作用。”能够高效准确地发现生物多样性图像数据中的这些更复杂的现象,对于生态学和保护的基础科学和现实世界的影响至关重要。“哥本哈根大学教授、人工智能先锋中心主任Serge Belongie指出,INQUIRE揭示了多模态模型在理解科学家搜索查询方面的局限性。”Belongie没有参与这篇论文,他说:“这项工作在我们理解科学探究的多模态模型方面迈出了一大步,也清醒地提醒我们,当细节很重要时,文本到图像检索任务仍然是多么困难。”
Journal information: arXiv
Provided by Massachusetts Institute of Technology
2024-12-19
2024-12-19
2024-12-19
2024-12-19
2024-12-19