As agricultural research continues to become more entwined with technology, smart farming—a phrase that encompasses research computing tools that help farmers to better address issues like crop disease, drought and sustainability—has quickly become a ubiq
随着农业研究与技术的联系越来越紧密,智能农业——一个包括研究计算工具的短语,可以帮助农民更好地解决作物病害、干旱和可持续性等问题——很快成为全国各地农业实验室中无处不在的术语。国家和伊利诺伊大学厄巴纳-香槟分校(U.of I.)校园的研究人员都可以使用Delta等NCSA资源,这为农业领域的前沿研究项目培育了温床
Yi Chia Chang是伊利诺伊大学的博士生,他的研究重点是机器学习(ML)和遥感。他最近的研究发表在arXiv预印本服务器上,并被接受在IEEE IGARSS 2025会议上发表,涉及作物制图想象一下,你是一名农民,正在计划这个季节种植什么。你可能想知道哪种作物最有价值。如果你是一名政策制定者,你可能想知道特定作物是否会短缺,并通过补贴激励农民种植。要做到这一点,你必须知道目前正在增长的是什么,才能做出这些决定。这就是作物制图发挥作用的地方
作物制图使用卫星图像创建特定地区所有作物类型的地图。作物地图是监测作物和区域粮食供应的重要工具,这些地图有助于农民规划在生长季节种植哪些作物。这些地图还可以帮助智能农业——使用这些作物地图应用程序可以监测生长、降水条件、产量预测甚至疾病
所有这些工具对农民来说都很好,但它们也有助于更大规模的帮助,帮助政策制定者和组织确定特定地区生产的粮食数量和类型。机器学习是保持这些作物地图最新的重要组成部分
仅在美国,就有数百万英亩的农田需要分析、标记和绘制地图。没有足够的专家来分析和跟上数据,以创建最新、准确的作物地图,因此训练机器扫描卫星图像和标记作物要高效和有用得多
研究人员在训练机器从卫星图像中识别作物和许多其他农业要素方面取得了巨大成功。他们在美国等研究充分的地区创建了精确的作物制图模型。然而,关于这些模型在新的地理区域,特别是在缺乏数据的地区的工作效果,几乎没有研究。这引发了人们对“地理空间偏见”的担忧,这意味着基于发达国家数据训练的模型在欠发达地区可能表现不佳
“我们的研究将使政策制定者和利益相关者能够更好地了解农业系统,以支持全球粮食安全,”伊利诺伊大学的Yi Chia Chang说。
Chang的研究受到了他的团队之前在NeurIPS 2023会议上发表的相关研究的启发,研究了流行的地球观测模型在应用于新地区时的工作原理,特别是在农业领域,农业实践的差异和数据可用性的不平衡使得地区之间的知识转移变得更加困难
与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展
为此,Chang选择了四种主要谷物——玉米、大豆、水稻和小麦,然后测试了三种广泛使用的预训练模型,并比较了它们在以前(分布中)看到的数据和来自新地区(分布外)的数据上的表现
结果表明,在Sentinel-2(SSL4EO-S12)等卫星图像上预先训练的模型比在ImageNet等一般图像数据集上预先训练好的模型表现更好
“通过协调五大洲的作物类型数据集,我们发现在Sentinel-2的全光谱带上预训练的基础模型在作物类型映射方面表现更好,”Chang说。“我们的研究还表明,在分布内数据稀缺的情况下,使用分布外数据进行训练可以提高性能。从长远来看,我们仍然希望获得更大、更平衡的标记数据集,因为这些数据集可以帮助实现最佳的作物类型映射结果。我很高兴看到基础模型和迁移学习如何有利于粮食安全。”Chang的工作已经与TorchGeo完全集成,这是一个用于地理空间机器学习的开源库,因此未来的研究可以很容易地根据他的结果进一步发展。随着他的团队展望未来,他们计划在这项研究的结果的基础上,将他们的方法应用于新的智能农业模式
“我们未来的工作将集中在扩展作物类型数据集和开发针对农业的预训练模型上,”Chang说。“我们还将为基础模型的农业应用建立基准,如作物类型测绘和作物产量预测,弥合GeoAI和粮食安全解决方案之间的差距。”张的工作需要大量的存储和计算能力才能完成。GPU对于及时完成项目的机器学习方面是必要的,但所有这些卫星图像也需要大量空间
“HPC资源显著加速了使用GPU的机器学习工作流程,将模型训练时间从CPU上的数小时缩短到GPU上的数分钟。此外,大数据存储分配使我们能够有效地管理集群中的训练数据集、预训练权重和模型输出,”Chang说
张有使用研究计算的经验。在这个项目之前,他利用了由密歇根大学计算机科学教授Arindam Banerjee领导的一个研究小组主持的校园集群。尽管张之前有高性能计算(HPC)的经验,但他很高兴地报告说,将他的项目转移到德尔塔相对简单
“我使用Delta的体验非常流畅,用户友好。管理人员反应迅速,在几天内批准了GPU小时和存储分配的令牌交换。技术人员有效地帮助进行了故障排除。我特别感谢Brett Bode帮助为卫星图像分配了50 TB以上的存储空间。”