这种转换以及其他计算过程都会产生二氧化碳(CO2)排放。然而,许多用户并未意识到这些技术相关的巨大碳足迹。如今,德国的研究人员使用一套标准化问题,测量并比较了不同、已训练完成的大型语言模型(LLM)的二氧化碳排放量。
“向已训练的大型语言模型提问所产生的环境影响,在很大程度上由其推理方式决定,显性的推理过程会显著推高能耗和碳排放,”该研究的第一作者、慕尼黑应用科学大学研究员马克西米利安·道尔表示,他也是《传播前沿》研究的第一作者。“我们发现,启用推理功能的模型产生的二氧化碳排放量是简洁响应模型的50倍之多。”
'思考'型人工智能排放最多
研究人员针对涵盖多个学科的1000道基准问题,评估了14个参数量从70亿到720亿不等的大型语言模型。参数决定了模型学习和处理信息的方式。
平均而言,推理模型每道问题会产生543.5个“思考”令牌,而简洁模型每道问题仅需37.7个令牌。思考令牌是推理型大型语言模型在生成答案前所产生的额外令牌。令牌足迹越大,必然意味着更高的二氧化碳排放量。但这并不一定代表最终答案更正确,因为详尽的细节并非总是正确性所必需的。
准确率最高的模型是启用了推理功能、拥有700亿参数的Cogito模型,达到了84.9%的准确率。该模型产生的二氧化碳排放量是生成简洁答案的同等规模模型的三倍。“目前,我们看到大型语言模型技术中存在固有的准确性-可持续性权衡问题,”道尔指出,“在所有排放量保持在500克二氧化碳当量以下的模型中,没有一款能在正确回答1000道问题方面达到超过80%的准确率。”这里所述的二氧化碳当量(CO2 equivalent)是用于衡量各种温室气体气候影响的单位。
问题主题也会导致二氧化碳排放水平出现显著差异。例如,需要冗长推理过程的问题(如抽象代数或哲学),其排放量比更直接的学科(如高中历史)高出六倍。
提倡审慎使用
研究人员表示,希望他们的工作能促使人们对自身使用人工智能的行为做出更明智的决定。“用户可以通过提示人工智能生成简洁答案,或限制高容量模型仅用于真正需要其能力的任务,从而显著减少排放,”道尔强调。
模型的选择也会对二氧化碳排放产生重大影响。例如,让DeepSeek R1(700亿参数)回答60万个问题所产生的二氧化碳排放量,相当于从伦敦到纽约的往返航班。而能力相近的Qwen 2.5(720亿参数)在产生相同排放量的情况下,能以相似的准确率回答超过三倍数量的问题(约190万个)。
研究人员表示,他们的结果可能受到研究中使用的硬件选择、一个可能因地区电网结构不同而变化的排放因子,以及所考察模型的影响。这些因素可能限制研究结果的普遍适用性。
道尔总结道:“如果用户了解其人工智能生成输出(例如随意把自己变成动作玩偶)的确切二氧化碳成本,他们可能会对使用这些技术的时机和方式更加慎重并有选择性。”
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-06-20
2025-06-20
2025-06-20
2025-06-19
2025-06-19