每向大型语言模型(如ChatGPT)输入一次查询,都需要消耗能源并产生二氧化碳排放。然而,排放量取决于模型本身、问题主题及用户行为。研究人员目前比较了14种模型,发现复杂答案比简单答案产生的碳排放更高,且提供更准确答案的模型排放量更大。但研究人员表示,用户可通过调整个人使用技术的方式,在一定程度上控制人工智能产生的二氧化碳排放量。
这种转换以及其他计算过程会产生CO2排放。然而,许多用户并未意识到这些技术背后巨大的碳足迹。如今,德国研究人员使用一套标准化问题,测量并比较了不同已训练大型语言模型(LLM)的CO2排放量。
"已训练LLM在回答问题时的环境影响主要取决于其推理方式,显性推理过程会显著推高能耗和碳排放,"研究报告的第一作者、慕尼黑应用科学大学研究员Maximilian Dauner在《Frontiers in Communication》期刊的研究中表示。"我们发现启用推理的模型产生的CO2排放量比简洁响应模型高出50倍。"
'思考型'人工智能产生最多排放
研究人员针对涵盖多元学科的1,000个基准问题,评估了参数量从70亿到720亿不等的14个LLM。参数量决定了LLM学习和处理信息的方式。
平均而言,推理模型每个问题会生成543.5个"推理"标记,而简洁模型每个问题仅需37.7个标记。推理标记是推理型LLM在生成最终答案前产生的额外标记。更高的标记足迹始终意味着更高的CO2排放。但这并不必然导致答案更准确,因为并非所有细节都对答案正确性至关重要。
准确率最高的模型是启用推理的700亿参数Cogito模型,准确率达84.9%。该模型的CO2排放量是生成简洁答案的同规模模型的三倍。"当前我们看到LLM技术中存在明显的准确性-可持续性权衡,"Dauner指出。"所有将排放量控制在500克CO2当量以下的模型,在正确回答这1,000个问题上均未达到80%以上的准确率。"CO2当量是用于衡量各类温室气体气候影响的单位。
问题主题也会导致CO2排放水平的显著差异。需要冗长推理过程的问题(如抽象代数或哲学)产生的排放量比高中历史等直接型主题高出六倍。
践行审慎使用原则
研究人员表示希望其工作能促使人们更明智地决策AI使用方式。"用户可通过要求AI生成简洁答案,或将高容量模型使用限制在真正需要的任务上,显著减少排放量,"Dauner强调。
模型选择对CO2排放量影响巨大。例如,让DeepSeek R1(700亿参数)回答60万个问题产生的CO2排放,相当于伦敦至纽约的往返航班。而同等排放量下,Qwen 2.5(720亿参数)在保持相近准确率的同时可回答超过三倍数量的问题(约190万个)。
研究人员指出,其结论可能受研究硬件选择、因地区电网结构而异的排放因子以及所检测模型的影响,这些因素可能限制研究结果的普适性。
"如果用户知晓其AI生成内容(如随意将自己变成手办形象)的确切CO2成本,他们可能会更审慎地选择使用这些技术的时机和方式,"Dauner总结道。