AI算力成本失控与编程模型登顶:开源狂飙与商业困局的双重变奏
摘要
本周AI行业呈现开源狂飙与商业困局并行的双重变奏。开源领域,月之暗面发布Kimi K2.6支持300个子Agent协同、阿里发布Qwen3.6-Max-Preview六项编程基准登顶、英伟达发布Nemotron 3 Super。GitHub Copilot因AI代理驱动的长时间并行任务导致算力成本失控,宣布暂停新用户注册并收紧使用限制。Recursive Superintelligence获5亿美元融资押注AI递归自我改进。安全领域,Vercel因员工第三方AI工具被入侵遭勒索。算力供应链持续紧张,英伟达取消2026全年消费级显卡发布。OpenAI推出Codex Chronicle屏幕记忆功能,月之暗面与清华提出PrfaaS跨数据中心推理架构。开源模型的能力突破与商业化困局形成鲜明对比,行业发展正在经历从技术驱动到商业可持续性的深层转型。
一、开源编程模型登顶:Kimi K2.6与Qwen3.6-Max-Preview
开源编程模型领域本周迎来重磅发布。
月之暗面发布并开源Kimi K2.6多模态模型,采用1万亿参数MoE架构(激活32B),支持256K上下文,原生支持图片和视频输入。核心亮点为智能体集群能力,可协调最多300个子Agent执行4000步复杂任务,支持13小时不间断编程。在SWE-Bench Verified上达80.2%,MCPMark从K2.5的29.5提升至55.9。API输入价格约0.95美元/百万token,消费级RTX 4090亦可运行。
阿里通义千问同周发布Qwen3.6-Max-Preview,在智能体编程、世界知识和指令遵循方面较前代Qwen3.6-Plus显著提升。在SWE-bench Pro、Terminal-Bench 2.0、SkillsBench等六项编程基准中均取得最高分,其中SkillsBench提升9.9、SciCode提升10.8%。综合表现优于GLM5.1和MiniMax-M2.7,成为当前最强国产大模型。
开源编程模型的能力突破,正在重新定义行业基准。当Kimi K2.6和Qwen3.6-Max-Preview在编程评测中超越闭源模型时,"开源"与"闭源"的质量差距已从"可接受"走向"已超越"。
二、GitHub Copilot困局:算力成本失控与订阅模式危机
与开源能力狂飙形成对照的,是GitHub Copilot面临的商业化危机。
GitHub于4月20日宣布暂停Copilot Pro、Pro+和学生计划的新用户注册,原因是AI代理驱动的长时间并行化任务导致单次请求计算成本超过用户月费。同时收紧使用限制:Pro计划移除Opus模型访问权限,仅Pro+可使用Opus 4.7;Pro+限额为Pro的5倍以上;Opus 4.5和4.6也将从Pro+中移除。
这个决策背后的核心矛盾在于:当AI编程工具从"辅助补全"演进为"自主代理"时,其消耗的计算资源呈指数级增长,但订阅价格并未相应调整。"用多少付多少"的逻辑尚未建立,"固定月费无限使用"的商业模式正在被长时运行的AI代理颠覆。
受影响用户可在5月20日前申请退款——这个时间窗口,折射出GitHub Copilot在商业可持续性上的紧迫压力。行业普遍面临的算力成本与订阅收入失衡问题,正在从隐忧变为显性危机。
三、Recursive Superintelligence:5亿美元押注递归自我改进
资本层面,Recursive Superintelligence完成5亿美元融资,由谷歌风投GV和英伟达联合领投,估值达40亿美元。
公司由前Google DeepMind和OpenAI工程师创立,致力于构建可自主设计、测试和优化自身代码与架构的AI系统,目标将模型迭代周期从数月缩短至数小时。资金将用于招募顶尖人才及建设大规模计算集群,计划年内启动首次"Level 1"自主训练运行。
值得注意的是,公司成立仅四个月、尚未推出任何产品即获得高额估值。这个"未出世即独角兽"的现象,反映出资本对"递归自我改进"这一技术路线的高度期待,也引发了外界对AI领域资本泡沫的担忧。
四、英伟达的供应链困局:消费级显卡缺席与算力争夺
英伟达本周宣布取消2026全年消费级显卡发布计划,为公司创立以来首次全年无新品。RTX 50 Super系列虽已完成设计,但因显存资源优先供给AI加速器,生产优先级自2025年12月被下调,游戏显卡传统显存供应整体产能或削减最高40%。
这个决定的战略意图在于:在算力紧缺的背景下,将有限产能优先配置给利润率更高、战略价值更大的AI加速器产品线。消费级显卡的缺席,将给AMD和英特尔带来争夺游戏市场的窗口期,但对于英伟达而言,AI算力市场的需求远大于消费级游戏市场。
与此同时,英伟达发布Nemotron 3 Super,一款专为AI代理工作负载设计的1200亿参数开放MoE模型。每次前向传播仅激活127亿参数,可在大幅降低计算成本的同时提供高达7.5倍的性能提升。其开放特性允许开发者在多种场景中部署,标志着英伟达从硬件供应商向软硬件一体化生态扩展。
五、安全警报:Vercel供应链入侵事件
安全领域传来令人警醒的消息。
AI云平台Vercel确认发生安全事件,起因是一名员工使用的第三方AI工具Context.ai遭到攻击,黑客通过接管该员工Google Workspace账户获取了对Vercel有限内部系统的访问权限。威胁组织ShinyHunters正以200万美元价格兜售窃取的数据,包括内部数据库、员工账户和令牌。
这个事件的深层含义在于:当员工的个人AI工具成为企业安全的软肋时,"影子AI"问题变得不可忽视。每个员工可能在不知不觉中为企业引入了一个可以被攻击的入口。
六、OpenAI Codex Chronicle:屏幕记忆与上下文增强
OpenAI为Codex桌面应用推出Chronicle功能,通过后台代理捕获屏幕截图构建本地化记忆,使Codex能理解用户所指的具体内容。数据临时存储于设备本地,用户可随时查看和编辑。该功能目前仅面向Mac Pro订阅用户开放,作为研究预览版提供。
Sam Altman将这一功能比作"心灵感应"——因其具备无缝的上下文召回能力。但OpenAI同时提醒,该功能会快速消耗API调用额度,且其他应用程序可能访问临时存储的截图文件,存在隐私考量。
七、PrfaaS架构:跨数据中心推理的新范式
月之暗面与清华大学联合提出Prefill-as-a-Service(PrfaaS)架构,将LLM推理中计算密集的预填充阶段卸载至专用高算力集群。在使用内部1T参数模型的实测中,PrfaaS较同构基线实现54%吞吐量提升,P90首token延迟降低64%,仅消耗13%可用带宽。
这个架构创新的意义在于:突破了传统RDMA网络对KVCache传输的限制,使得跨数据中心协作成为可能。当模型规模突破万亿参数、推理需求覆盖全球用户时,基础设施架构的创新将成为决定性因素。
结语
回望本周的AI行业图景,"开源狂飙与商业困局的双重变奏"是最核心的主题:
开源模型的能力突破。Kimi K2.6和Qwen3.6-Max-Preview在编程基准上的登顶,标志着开源模型已从"追赶者"转变为"领导者"。当开源与闭源的差距消失时,商业模式将成为新的竞争维度。
商业化困局浮现。GitHub Copilot的订阅调整,折射出AI编程工具从"辅助"到"代理"的转变带来的成本结构重构。"无限使用"的订阅模式,在长时运行的AI代理面前难以为继。
供应链紧张持续。英伟达消费级显卡缺席,Nemotron 3 Super的发布——在算力紧缺背景下,硬件资源正在被重新分配到战略价值更高的AI领域。
安全风险升级。Vercel的供应链入侵事件提醒我们,当AI工具深入企业工作流时,"影子AI"和第三方工具的安全隐患不容忽视。
AI的故事,从来不是单一维度的线性叙事。本周的碎片拼凑出的是一个正在从"技术驱动"转向"技术+商业+安全+供应链"多轮驱动的行业格局。理解这个新世界,需要更多的耐心与敬畏。
标签:开源模型、Kimi K2.6、Qwen3.6-Max-Preview、GitHub Copilot、算力危机、英伟达、AI安全
评论