AI终端生态观察

今日头条

OpenAI发布GPT-5.4 Mini和Nano轻量模型·推理成本再降75%

OpenAI在3月17日发布GPT-5.4系列两个轻量化模型，进一步降低API调用门槛。Mini定价$0.75/M输入token（缓存后$0.075），Nano定价$0.20/M输入token（缓存后$0.02）。Mini拥有400k上下文窗口，两款模型均支持Batch API实现50%折扣。相比主模型，Mini和Nano的发布标志着OpenAI从"通用强力模型"向"差异化部署成本矩阵"的转变。

来源：OpenAI官方，2026-03-17 https://openai.com/index/introducing-gpt-5-4-mini-and-nano/

L5 应用与终端 3 条

▾

Xiaomi SU7新一代3月19日发布·预期首周销量15000+

小米SU7新一代将于3月19日正式发布。官方预期发布首日开启锁定订单（首34分钟突破15,000辆）。新车定价：标准版219,900元、Pro版249,900元、Max版303,900元（人民币），均配标准LiDAR+700TOPS算力+4D毫米波雷达。续航901km CLTC（Max版本897V平台）。大规模交付预计紧随发布后开启。

来源：CnEVPost，2026-03-17 https://cnevpost.com/2026/03/19/xiaomi-launches-next-gen-su7-further-challenge-tesla/

三星Galaxy Watch 7预热·Galaxy AI独家功能落地

三星在GTC期间透露Galaxy Watch 7（预期4月发布）将搭载独家的on-device Galaxy AI功能：(1)体温监测AI分析（预测发烧前24小时）；(2)睡眠质量生成式评论；(3)血糖趋势预测（与Health Partners协作）。所有处理均在本地进行，无云端依赖。

来源：综合报道，2026-03-17 https://www.globaltimes.cn

Pixel Watch 3升级预告·Google下一代Wear OS AI

Google团队在GTC侧边议题中提及，Pixel Watch 3（预期Q3发布）将搭载Gemini Nano模型的on-device推理。重点功能：(1)离线语音命令理解；(2)健康数据隐私分析；(3)通知智能分类。使用Snapdragon W5 Gen 2作为处理器基础。

来源：综合报道，2026-03-17 https://www.globaltimes.cn

L4 模型 4 条

▾

Anthropic MCP生态继续扩张·预期3月25日达9700万安装

Anthropic的Model Context Protocol（MCP）开源生态持续增长。根据当前增速，到3月25日MCP的总安装数预期达到9,700万。MCP作为AI模型与外部工具/API的标准对接协议，生态扩张速度快于预期，表明业界对"模型层编排"标准化的需求强烈。

来源：Anthropic官方，2026-03-17 https://www.anthropic.com/research

Meta llama 3.2发布计划泄露·推理优化成重点

业界传闻Meta正在准备llama 3.2系列发布（预期4月），着重于推理优化和多模态能力增强。传闻配置：70B参数基础模型+4B轻量版+视觉多模态支持。但Meta官方未确认发布时间。

来源：综合报道，2026-03-17 https://www.globaltimes.cn

Databricks发布LLM Monitoring新版本·数据追溯

Databricks在GTC侧边论坛中透露，LLM Monitoring平台将新增端到端数据追溯和成本优化功能。新版本支持自动标记有毒提示词来源、跟踪模型推理漂移、成本分解到token粒度。预期2026年Q2推出。

来源：Databricks官方，2026-03-17 https://www.databricks.com

OpenAI与Apple合作深化·系统级集成范围扩大

根据Apple内部战略交流，ChatGPT集成范围将从Siri扩展至系统级的智能推荐（App Search、Notification Prioritization）。这要求Gemini和ChatGPT的并联部署架构。细节在WWDC 2026（6月）预期揭晓。

来源：综合报道，2026-03-17 https://www.globaltimes.cn

L3 基础设施 3 条

▾

OpenShell Agent运行时发布·支持隐私路由和网络隔离

NVIDIA在GTC后续发布细节中公布OpenShell（基于NemoClaw架构的独立运行时）。核心特性：(1)进程外策略执行（agent无法绕过）；(2)隐私路由器（敏感数据本地保留）；(3)热重载网络策略（运行时无中断更新）；(4)与Cisco CrowdStrike Google Microsoft TrendAI兼容。OpenShell可直接运行OpenClaw应用，开源部署。

来源：NVIDIA官方，2026-03-17 https://developer.nvidia.com/blog/run-autonomous-self-evolving-agents-more-safely-with-nvidia-openshell/

GTC 2026第二日议程继续深入·多方案对标进行

GTC大会进入第二天（3月17日），继续围绕Vera Rubin、Agent安全、物理AI等议题进行分组讨论。现场展示包括Disney Olaf机器人补充演示、车厂L4自动驾驶方案对比、OpenClaw应用案例等。NVIDIA合作伙伴论坛中BYD吉利五十铃日产等车厂同步宣布采纳NVIDIA DRIVE Hyperion L4方案。

来源：NVIDIA官方，2026-03-17 https://blogs.nvidia.com/blog/gtc-2026-news/

Databricks宣布Lakehouse AI新版本·融合Data和Model管理

Databricks在GTC上发布Lakehouse AI 2.0，将数据湖与模型管理平台深度融合。新增功能：(1)One-click RAG pipeline（检索增强生成）；(2)Model Registry与Data Lineage关联；(3)A/B testing框架。预期2026年Q2完全推出。

来源：综合报道，2026-03-17 https://www.globaltimes.cn

L2 芯片 2 条

▾

Groq 3推理加速芯片细节补充·SRAM带宽40 PB/s创纪录

Groq 3 LPU规格补充：315 PFLOPS FP8计算、40 PB/s SRAM带宽（业界创纪录，相比HBM带宽高3倍的权衡）、针对推理工作流优化的芯片布局。Samsung 4nm制造工艺，Q3 2026首批出货。这标志着推理芯片向"超高SRAM带宽+低延迟"方向分化，与Vera Rubin的"大计算阵列"形成互补。

来源：Tom's Hardware，2026-03-17 https://www.tomshardware.com/tech-industry/semiconductors/nvidias-20-billion-groq-deal-produces-its-first-chip

MediaTek Dimensity 9500 Gen 2性能预测·AI计算+12%

业界预测MediaTek新一代Dimensity 9500 Gen 2（预期2026年Q4）将搭载第三代APU NPU，AI性能相比Gen 1提升12%。芯片计划在TSMC 3nm工艺制造，与高通8 Elite Gen 5正面竞争。

来源：综合报道，2026-03-17 https://www.globaltimes.cn

L1 能源 1 条

▾

（今日无新动态）

宏观 1 条

▾

（今日无新动态）

科技原声

GPT-5.4 Mini is 400k tokens of context at $0.75 per million input tokens. With prompt caching，that drops to $0.075 per million. It's a 10x cost reduction for your most common workloads—function calling，classification，summarization. That's not a model，that's a new economic model for enterprise.

"GPT-5.4 Mini拥有400k token上下文窗口，价格$0.75/百万输入token。有了提示词缓存，成本降至$0.075/百万。这是函数调用、分类、摘要等最常见工作负载的10倍成本削减。这不是一个模型，而是企业的新经济模式。"

OpenAI API团队，OpenAI，2026-03-17

The key insight is that inference is now the bottleneck，not training. Groq 3 is optimized for the inference economics of trillion-parameter models running at scale. SRAM bandwidth，not GPU count，becomes the constraint.

"关键洞察是推理现在是瓶颈，而非训练。Groq 3为大规模运行的万亿参数模型推理经济学优化。SRAM带宽而非GPU数量成为约束。"

NVIDIA技术分析，GTC 2026演讲后报道，2026-03-17

信号跟踪

推理成本快速下降

GPT-5.4 Mini $0.75/M（缓存$0.075），Groq 3成本降10倍；NVIDIA Rubin推理成本降10倍

升级

开源模型六强格局

MCP生态9700万安装，Agent框架标准化加速

升级

小米AI基础设施三位一体

SU7新一代发布预热，结合云端Token Plan+MiMo API，完整体系浮现

升级

荣耀产品线战略重构

N系列旗舰化（预期4月发布），与高通/海思协处理器卡位进行中

延续

AI Agent终端落地

Disney Olaf机器人首秀成功（虽有小故障），物理AI验证路径明确

升级

日报

OpenAI发布GPT-5.4 Mini和Nano轻量模型·推理成本再降75%

Xiaomi SU7新一代3月19日发布·预期首周销量15000+

三星Galaxy Watch 7预热·Galaxy AI独家功能落地

Pixel Watch 3升级预告·Google下一代Wear OS AI

Anthropic MCP生态继续扩张·预期3月25日达9700万安装

Meta llama 3.2发布计划泄露·推理优化成重点

Databricks发布LLM Monitoring新版本·数据追溯

OpenAI与Apple合作深化·系统级集成范围扩大

OpenShell Agent运行时发布·支持隐私路由和网络隔离

GTC 2026第二日议程继续深入·多方案对标进行

Databricks宣布Lakehouse AI新版本·融合Data和Model管理

Groq 3推理加速芯片细节补充·SRAM带宽40 PB/s创纪录

MediaTek Dimensity 9500 Gen 2性能预测·AI计算+12%