这种转换以及其他计算过程会产生二氧化碳(CO2)排放。然而,许多用户并未意识到这些技术背后巨大的碳足迹。如今,德国的研究人员使用一套标准化问题,测量并比较了不同、已训练完成的大型语言模型(LLM)的二氧化碳排放量。
"已训练大型语言模型回答问题的环境影响在很大程度上由其推理方式决定,显式的推理过程会显著推高能耗和碳排放,"该研究的第一作者、慕尼黑应用技术大学的研究员Maximilian Dauner表示,他是发表在《传播前沿》(Frontiers in Communication)期刊上这项研究的第一作者。"我们发现,具备推理能力的模型产生的二氧化碳排放量是简洁回答模型的50倍之多。"
'思考型'人工智能排放量最高
研究人员针对1000个涵盖不同学科的基准问题,评估了参数规模从70亿到720亿不等的14个大型语言模型。参数决定了大型语言模型学习和处理信息的方式。
平均而言,推理模型每道问题会产生543.5个'思考token',而简洁模型每道问题仅需37.7个token。思考token是推理型大型语言模型在生成最终答案前产生的额外token。token数量的增加总是意味着二氧化碳排放量的上升。然而,这并不必然意味着最终答案更加准确,因为详尽的细节并不总是正确性所必需的。
最准确的模型是具备推理能力的Cogito模型(700亿参数),准确率达到84.9%。该模型的二氧化碳排放量是生成简洁答案的同规模模型的三倍。"目前,我们看到大型语言模型技术中存在固有的准确性与可持续性之间的权衡,"Dauner说。"所有排放量保持在500克二氧化碳当量以下的模型,在正确回答1000个问题上的准确率均未超过80%。"二氧化碳当量是用于衡量各种温室气体气候影响的单位。
问题主题也导致了显著不同的二氧化碳排放水平。例如,需要冗长推理过程的问题(如抽象代数或哲学)产生的排放量比更直接的学科(如高中历史)高出六倍。
践行审慎使用
研究人员表示,他们希望其工作能促使人们对自身的人工智能使用做出更明智的决定。"用户可以通过提示人工智能生成简洁答案,或将高容量模型的使用限制在真正需要其能力的任务上,从而显著减少排放,"Dauner指出。
模型的选择对二氧化碳排放量影响显著。例如,让DeepSeek R1(700亿参数)回答60万个问题所产生的二氧化碳排放量,相当于从伦敦到纽约的往返航班。与此同时,在产生相同排放量的情况下,Qwen 2.5(720亿参数)能回答三倍多的问题(约190万个),并且保持相近的准确率。
研究人员表示,他们的结果可能会受到研究中使用的硬件选择、可能因地区能源结构而异的排放因子以及所考察模型的影响。这些因素可能限制结果的普适性。
"如果用户了解其人工智能生成输出(例如随意将自己变成可动人偶)的确切二氧化碳成本,他们可能会对使用这些技术的时机和方式更加审慎和有选择性,"Dauner总结道。
Story Source:
Materialsprovided byFrontiers.Note: Content may be edited for style and length.
Journal Reference:
Maximilian Dauner, Gudrun Socher.Energy costs of communicating with AI.Frontiers in Communication, 2025; 10 DOI:10.3389/fcomm.2025.1572947
2025-06-21
2025-06-21
2025-06-21
2025-06-21