此类转换以及其他计算过程会产生 CO2 排放。然而,许多用户并未意识到这些技术伴随的巨大碳足迹。如今,德国的研究人员使用一套标准化问题,测量并比较了不同已训练大语言模型(LLM)的 CO2 排放量。
"询问已训练大语言模型对环境的影响很大程度上由其推理方法决定,显式的推理过程会显著推高能耗和碳排放,"该研究的第一作者、慕尼黑应用科技大学研究员 Maximilian Dauner 表示,他也是《传播学前沿》期刊该项研究的第一作者。"我们发现启用推理功能的模型产生的 CO2 排放量是简洁应答模型的 50 倍之多。"
会'思考'的AI造成最多排放
研究人员针对 1,000 个涵盖多学科的基准问题,评估了参数规模从 70 亿到 720 亿不等的 14 个大语言模型。参数决定了大语言模型学习和处理信息的方式。
推理模型平均每个问题生成 543.5 个'思考'标记,而简洁模型每个问题仅需 37.7 个标记。思考标记是推理型大语言模型在生成答案前产生的额外标记。标记足迹越大,总是意味着更高的 CO2 排放。然而,这并不必然导致生成的答案更正确,因为详尽的细节并不总是准确性的必备要素。
最准确的模型是启用推理功能、拥有 700 亿参数的 Cogito 模型,准确率达到 84.9%。该模型产生的 CO2 排放量是生成简洁答案的同规模模型的三倍。"目前我们看到大语言模型技术内在存在明显的准确性与可持续性权衡," Dauner 表示,"在排放量低于 500 克二氧化碳当量的模型中,没有一个能在正确回答这 1,000 个问题上达到超过 80% 的准确率。" 二氧化碳当量是用于衡量各种温室气体气候影响的单位。
主题内容也导致 CO2 排放水平存在显著差异。需要冗长推理过程的问题,例如抽象代数或哲学,产生的排放量比高中历史等更直接的主题高出六倍。
践行审慎使用
研究人员表示,希望他们的工作能促使人们在使用人工智能时做出更明智的决定。"用户可以通过提示AI生成简洁答案,或将高容量模型的使用限制在真正需要其能力的任务上,从而显著减少排放," Dauner 指出。
模型的选择对 CO2 排放量有重大影响。例如,让 DeepSeek R1(700 亿参数)回答 600,000 个问题所产生的 CO2 排放量,相当于一次从伦敦到纽约的往返航班。与此同时,在产生相同排放量的情况下,Qwen 2.5(720 亿参数)能以相近的准确率回答超过三倍数量的问题(约 190 万个)。
研究人员表示,他们的结果可能受到研究中使用的硬件选择(该排放因子可能因地区能源结构不同而异)以及所考察模型的影响。这些因素可能限制研究结果的普适性。
"如果用户了解其AI生成内容(比如随意将自己变成动作玩偶)的确切 CO2 成本,他们可能会更谨慎、更有选择性地决定何时以及如何使用这些技术," Dauner 总结道。
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-06-27
2025-06-27
2025-06-27
2025-06-27
2025-06-27