这一转换过程以及其他计算过程都会产生CO2排放。然而,许多用户并未意识到这些技术背后巨大的碳足迹。如今,德国研究人员使用一组标准化问题,对多个已训练完成的大语言模型(LLMs)的CO2排放量进行了测量和比较。
"经过训练的LLMs在回答问题时的环境影响主要取决于其推理方式,显式的推理过程会显著推高能耗与碳排放,"该研究第一作者、慕尼黑应用科学大学研究员Maximilian Dauner在《传播前沿》(Frontiers in Communication)期刊发表的论文中指出。"我们发现启用推理功能的模型产生的CO2排放量最高可达简洁响应模型的50倍。"
'思考型'AI排放量最大
研究人员针对1,000个跨学科基准问题,评估了14个参数规模从70亿到720亿不等的LLMs。参数决定了LLMs学习和处理信息的方式。
推理模型平均每个问题生成543.5个"思考"令牌,而简洁模型仅需37.7个令牌。思考令牌是推理型LLMs在生成答案前产生的附加令牌。令牌数量越多,必然意味着更高的CO2排放量。但这并不代表由此产生的答案必然更准确,因为详尽细节并非准确性的必备要素。
最精准的是具备推理能力的700亿参数Cogito模型,准确率达84.9%。该模型的CO2排放量是同规模简洁应答模型的三倍。"当前我们看到LLM技术中固有的准确性与可持续性权衡关系,"Dauner表示。"所有排放量控制在500克二氧化碳当量以下的模型,在正确回答1,000个问题时的准确率均未超过80%。"二氧化碳当量是衡量各类温室气体气候影响的单位。
问题主题也会导致CO2排放量显著差异。需要长篇推理的问题(如抽象代数或哲学类)产生的排放量最高可达直述类问题(如高中历史)的六倍。
践行审慎使用原则
研究人员希望其成果能促使人们对AI使用做出更明智的决策。"用户可以通过要求AI生成简洁答案,或将高算力模型的使用限制在真正需要的任务中,从而显著减少排放,"Dauner强调指出。
模型选择对CO2排放量影响显著。例如:让DeepSeek R1(700亿参数)回答60万个问题产生的CO2排放量,相当于伦敦至纽约的往返航班。而同等排放量下,Qwen 2.5(720亿参数)能以相近准确率处理三倍以上的问题(约190万个)。
研究人员表示,其结论可能受研究采用的硬件选择、因地区电网结构差异而变化的排放系数,以及所检测模型的影响。这些因素可能限制研究结果的普适性。
"如果用户能确切知晓自身AI输出(例如随意将照片转成手办形象)的二氧化碳成本,他们可能会更具选择性地审慎运用这些技术,"Dauner总结道。
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-06-21
2025-06-21
2025-06-21
2025-06-21