这种转换以及其他计算过程会产生二氧化碳(CO2)排放。然而,许多用户并未意识到这些技术伴随的巨大碳足迹。目前,德国的研究人员使用一组标准化问题,测量并比较了不同已训练大型语言模型(LLM)的二氧化碳排放量。
"已训练大型语言模型在回答问题时的环境影响主要取决于其推理方法,显式推理过程会显著推高能耗和碳排放,"该研究的第一作者、慕尼黑应用科学大学研究员马克西米利安·道尔表示,他也是《传播前沿》期刊该研究的第一作者。"我们发现启用推理的模型产生的二氧化碳排放量是简洁回答模型的50倍之多。"
'思考型'人工智能排放最多
研究人员在涵盖不同学科的1000个基准问题上评估了14个参数规模从70亿到720亿不等的大型语言模型。参数决定了大型语言模型学习和处理信息的方式。
平均而言,推理模型每道问题会产生543.5个'思考'令牌,而简洁模型每道问题仅需37.7个令牌。思考令牌是推理型大型语言模型在生成答案前产生的额外令牌。令牌足迹越大,总是意味着更高的二氧化碳排放。然而,这并不必然导致答案更准确,因为详尽的细节对正确性并非总是必需。
最准确的模型是启用推理的Cogito模型(700亿参数),准确率达到84.9%。该模型产生的二氧化碳排放量是生成简洁答案的同类规模模型的三倍。"目前,我们看到大型语言模型技术存在明显的准确性-可持续性权衡,"道尔指出。"在1000道问题中,排放量控制在500克二氧化碳当量以下的模型均未能达到80%以上的准确率。"二氧化碳当量是衡量各种温室气体气候影响的单位。
问题主题也导致二氧化碳排放水平显著差异。例如需要冗长推理过程的题目(如抽象代数或哲学),其排放量比更直接的主题(如高中历史)高出六倍。
实践审慎使用
研究人员表示,希望其工作能促使人们更明智地决定自身人工智能使用方式。"用户可以通过提示人工智能生成简洁答案,或将高能力模型的使用限制在真正需要其强大功能的场景,从而显著减少排放,"道尔强调。
模型选择对二氧化碳排放量影响显著。例如,让DeepSeek R1(700亿参数)回答60万个问题所产生的二氧化碳排放量,相当于一次伦敦到纽约的往返航班。而同等排放量下,Qwen 2.5(720亿参数)能以相近的准确率回答超过三倍的问题(约190万个)。
研究人员指出,其研究结果可能受所选硬件、存在地域差异的排放因子(取决于当地能源结构组合)以及所检测模型的影响。这些因素可能限制结果的普适性。
"如果用户知晓其人工智能输出(例如随意将自己变成动作玩偶)的确切二氧化碳成本,他们可能会更审慎地选择使用这些技术的时机和方式,"道尔总结道。
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-08-31
2025-08-31
2025-08-31
2025-08-31
2025-08-31