思考型AI模型的二氧化碳排放量高出50倍——且常常徒劳无功

用户每次向ChatGPT等大型语言模型(LLM)输入查询都会消耗能源并产生二氧化碳排放。研究数据显示,排放量取决于模型类型、问题主题和用户操作方式。研究人员对比14个模型后发现:复杂答案比简单答案的碳排放量更高,提供更准确答案的模型会产生更多排放。但研究同时指出,用户通过调整个人使用方式,可在一定程度上控制AI产生的二氧化碳排放量。

此类转换以及其他计算过程均会产生 CO2 排放。然而许多用户并未意识到这些技术伴随的庞大碳足迹。目前,德国研究人员使用一套标准化问题,测量并比较了不同已训练大型语言模型(LLM)的二氧化碳排放量。

“询问已训练LLM对环境的影响很大程度上取决于其推理方式,显式推理过程会显著推高能耗和碳排放,”第一作者、慕尼黑应用科技大学研究员Maximilian Dauner在《传播学前沿》研究中表示。“我们发现启用推理功能的模型产生的二氧化碳排放量比简洁响应模型高出50倍。”

'思考型'人工智能产生最多排放

研究人员针对涵盖多元学科的1000个基准问题,评估了14个参数规模从70亿到720亿不等的LLM。参数决定了LLM学习和处理信息的方式。

推理模型平均每道问题产生543.5个"思考"标记,而简洁模型仅需37.7个标记。思考标记是推理型LLM在生成答案前产生的额外标记。更高的标记足迹始终意味着更高的二氧化碳排放。然而,这并不必然导致答案更准确,因为详尽的细节并非总是正确性所必需的。

最准确的模型是具备推理能力的700亿参数Cogito模型,准确率达84.9%。该模型产生的二氧化碳排放量是生成简洁答案的同规模模型的三倍。"目前我们看到LLM技术存在明显的准确性与可持续性权衡,"Dauner指出。"在保持二氧化碳当量排放低于500克的模型中,没有任何模型能在1000道问题上实现超过80%的准确率。"二氧化碳当量是衡量各类温室气体气候影响的单位。

 

主题内容也导致二氧化碳排放量存在显著差异。需要冗长推理过程的问题(如抽象代数或哲学),其排放量比高中历史等直接性主题高出六倍。

践行审慎使用原则

研究人员表示希望其工作能促使人们对自身AI使用做出更明智的决策。"用户可通过要求AI生成简洁答案,或限制高容量模型仅用于真正需要其能力的任务,显著减少排放,"Dauner强调。

模型选择对二氧化碳排放量影响显著。例如,让DeepSeek R1(700亿参数)回答60万个问题产生的二氧化碳排放量,相当于伦敦至纽约的往返航班。而同等排放量下,Qwen 2.5(720亿参数)能以相近准确率回答三倍多的问题(约190万个)。

研究人员指出,其结论可能受研究使用的硬件选择、因地区电网结构差异而变化的排放因子,以及所检模型的影响。这些因素可能限制结果的普适性。

"如果用户了解其AI生成内容(例如随意将自身转化为动作玩偶)的确切二氧化碳成本,他们可能会更审慎地选择使用这些技术的时机和方式,"Dauner总结道。