通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 动物植物

新工具以低资源语言监测野生动物保护

本站发布时间:2024-07-19 00:25:00
注:部分名称可能翻译不全,如有问题可联系15163559288@163.com

野生动物保护前线的活动人士经常监控新闻报道,以获取可能威胁高危动物的基础设施项目的信息。但这种监测需要比实地组织更多的工作人员时间

卡内基梅隆大学的研究人员通过与世界自然基金会(WWF)合作开发一种监测和识别与环境保护相关的媒体文章的工具,帮助减轻了这一负担

卡内基梅隆大学计算机科学学院软件与社会系统系(S3D)副教授费芳表示,世界自然基金会印度分会每周需要两名全职工作人员来监控新闻并确定与野生动物保护有关的问题

CMU的研究人员与世界自然基金会合作开发了媒体监测工具,使工作人员能够花更少的时间分析有关基础设施和环境保护的新闻,花更多的时间倡导和保护野生动物

这些工具已经扩展到包括用印地语和尼泊尔语等资源匮乏的语言进行媒体监测,以从野生动物特别危险的社区收集新闻

方说:“我们正试图及时识别与环境保护相关的多语言新闻文章,特别是那些我们没有大量标签数据的低资源语言。”

方于2022年在英国、印度和尼泊尔部署了她的第一个模型NewsPanda。该工具包每周自动检测和分析用英语撰写的描述保护区威胁的新闻和政府文章

一个预训练的大型语言模型(LLM)将这些文章归类为与保护和基础设施相关的文章。NewsPanda团队与世界自然基金会尼泊尔和印度合作创建了他们的数据集,标记了1000多篇文章。除了抓取和分析文章外,NewsPanda还将它们放在地图上,并创建了一个机器人通过社交媒体分享文章

世界自然基金会使用NewsPanda的工作人员问方,她的团队是否可以为用印地语和尼泊尔语等当地语言撰写的文章更新这个工具。但这些组织的工作人员不想再次标记1000篇文章来创建这些语言所需的培训数据

方表示,她的研究团队需要找到一种更有效的方法来协助当地媒体监控。她联系了CMU语言技术学院(LTI)从事多语言自然语言处理的助理教授李磊

李说:“在目前的文本分类和信息提取技术中,自然语言处理工具对高资源语言(如英语、西班牙语、德语、法语和中文)效果很好,因为你需要标记数据来进行监督训练。”

“一旦你想在没有注释数据的地方添加一种新语言,它就不能很好地工作。这正是我们试图解决的问题。我们正试图理解这些文章的文本,并在没有太多人类标记数据的情况下,用另一种语言提取最重要的信息。”

世界自然基金会尼泊尔分会同意帮助研究团队开发这个工具。最初,CMU研究团队尝试了商业上可用的机器翻译工具,但并没有从英语到尼泊尔语的高质量翻译。因此,研究人员创建了NewsSerow,这是一个新闻监控系统,使用LLM对用尼泊尔语撰写的文章进行总结和分类。该工具以尼泊尔发现的一种动物serow命名

方说,用于创建NewsSerow的技术并不新颖,但这些工具的组合方式非常强大。NewsSerow有三个模块:总结、分类和反思。摘要使用GPT-3.5 turbo,一种类似于OpenAI的ChatGPT的LLM,以特定语言(如尼泊尔语)用三句话总结文章中的信息

然后,使用文章的标题和摘要,将文本分类为与保护相关或不相关,并解释这种分类。研究人员在LLM中使用上下文学习来开发分类模块

他们提供了10个例子,其中包括标题、摘要、分类标签以及该领域专家对文章的解释。这一过程意味着世界自然基金会尼泊尔分会的工作人员不必标记1000多篇文章,他们只需标记10篇。

最后,NewsSerow会进行反思,双重检查该工具的相关性分类是否准确。反射模块是可选的,研究人员添加了它来减少误报的数量

研究人员发现,NewsSerow的表现与其他需要更多训练数据的新闻摘要和分类模型相当

“这正是我们想要实现的。我们希望我们为NewsSerow构建的这个工作流程可用于其他低资源语言,”方说,“当你想为一种新语言建立一个工具时,这很困难,但要求领域专家为我们标记300、500或1000篇文章。要求他们标记10篇并不难。这是可行的。“

研究人员正在与世界自然基金会印度分会合作,将该工具扩展到印地语和其他语言的媒体监控,并扩展到社交媒体等其他来源。

arXiv预印本服务器上有一篇详细介绍该系统的论文

More information: Sameer Jain et al, Where It Really Matters: Few-Shot Environmental Conservation Media Monitoring for Low-Resource Languages, arXiv (2024). DOI: 10.48550/arxiv.2402.11818

Journal information: arXiv

Provided by Carnegie Mellon University

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

北前院微信公众号