这种转换以及其他计算过程会产生CO2排放。然而,许多用户并未意识到这些技术背后巨大的碳足迹。如今,德国研究人员使用一套标准化问题,测量并比较了不同已训练大型语言模型(LLM)的CO2排放量。
"已训练LLM在回答问题时的环境影响主要取决于其推理方式,显性推理过程会显著推高能耗和碳排放,"研究报告的第一作者、慕尼黑应用科学大学研究员Maximilian Dauner在《Frontiers in Communication》期刊的研究中表示。"我们发现启用推理的模型产生的CO2排放量比简洁响应模型高出50倍。"
'思考型'人工智能产生最多排放
研究人员针对涵盖多元学科的1,000个基准问题,评估了参数量从70亿到720亿不等的14个LLM。参数量决定了LLM学习和处理信息的方式。
平均而言,推理模型每个问题会生成543.5个"推理"标记,而简洁模型每个问题仅需37.7个标记。推理标记是推理型LLM在生成最终答案前产生的额外标记。更高的标记足迹始终意味着更高的CO2排放。但这并不必然导致答案更准确,因为并非所有细节都对答案正确性至关重要。
准确率最高的模型是启用推理的700亿参数Cogito模型,准确率达84.9%。该模型的CO2排放量是生成简洁答案的同规模模型的三倍。"当前我们看到LLM技术中存在明显的准确性-可持续性权衡,"Dauner指出。"所有将排放量控制在500克CO2当量以下的模型,在正确回答这1,000个问题上均未达到80%以上的准确率。"CO2当量是用于衡量各类温室气体气候影响的单位。
问题主题也会导致CO2排放水平的显著差异。需要冗长推理过程的问题(如抽象代数或哲学)产生的排放量比高中历史等直接型主题高出六倍。
践行审慎使用原则
研究人员表示希望其工作能促使人们更明智地决策AI使用方式。"用户可通过要求AI生成简洁答案,或将高容量模型使用限制在真正需要的任务上,显著减少排放量,"Dauner强调。
模型选择对CO2排放量影响巨大。例如,让DeepSeek R1(700亿参数)回答60万个问题产生的CO2排放,相当于伦敦至纽约的往返航班。而同等排放量下,Qwen 2.5(720亿参数)在保持相近准确率的同时可回答超过三倍数量的问题(约190万个)。
研究人员指出,其结论可能受研究硬件选择、因地区电网结构而异的排放因子以及所检测模型的影响,这些因素可能限制研究结果的普适性。
"如果用户知晓其AI生成内容(如随意将自己变成手办形象)的确切CO2成本,他们可能会更审慎地选择使用这些技术的时机和方式,"Dauner总结道。
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-06-26
2025-06-26
2025-06-26
2025-06-26