这种转换以及其他计算过程都会产生CO2排放。然而,许多用户并未意识到这些技术所带来的巨大碳足迹。如今,德国的研究人员通过一套标准化问题测量并比较了不同已训练大语言模型(LLM)的CO2排放量。
"提问已训练LLM对环境的影响主要取决于其推理方式,显式推理过程会显著推高能耗和碳排放,"该研究的第一作者、慕尼黑应用科学大学研究员马克西米利安·道尔表示,他是《传播前沿》研究的首位作者。"我们发现启用推理功能的模型产生的CO2排放量比简洁响应模型高出50倍。"
'思考型'AI产生最多排放
研究人员在涵盖多学科的1,000个基准问题上评估了14个参数量从70亿到720亿不等的LLM。参数量决定了LLM学习和处理信息的方式。
启用推理的模型平均每道问题生成543.5个"思考令牌",而简洁模型每问仅需37.7个令牌。思考令牌是推理型LLM在生成答案前额外产生的令牌。令牌足迹越大总是意味着更高的CO2排放。然而,这并不必然导致答案更正确,因为详尽的细节并非总是准确性的必要条件。
最精准的模型是具备推理能力的700亿参数Cogito模型,准确率达84.9%。该模型产生的CO2排放量是生成简洁答案的同规模模型的三倍。"目前我们看到LLM技术存在固有的准确性-可持续性权衡,"道尔指出,"所有排放量控制在500克二氧化碳当量以下的模型,在正确回答1,000道问题时准确率均未超过80%。"二氧化碳当量是用于衡量各种温室气体气候影响的单位。
问题主题也导致CO2排放水平存在显著差异。例如需要长推理过程的抽象代数或哲学类问题,其排放量比高中历史等直接主题高出六倍。
践行深思熟虑的使用方式
研究人员表示希望其工作能促使人们更明智地决策AI使用。"用户可通过要求AI生成简洁答案,或将大模型使用限制在真正需要其能力的任务中,从而显著减少排放,"道尔强调。
模型选择对CO2排放量影响显著。例如,让DeepSeek R1(700亿参数)回答60万个问题产生的CO2排放量,相当于伦敦至纽约的往返航班。而同等排放量下,Qwen 2.5(720亿参数)能以相近准确率回答超过三倍的问题(约190万道)。
研究人员指出,实验结果可能受研究选用硬件、存在地域差异的电网排放因子以及所检模型的影响,这些因素可能限制结果的普适性。
"如果用户了解AI生成内容的确切二氧化碳成本——例如随意把自己变成动作玩偶这类操作——他们可能会更谨慎地选择使用这些技术的时机和方式,"道尔总结道。
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-06-23
2025-06-23
2025-06-23
2025-06-23