← 首页
2026 / 03 / 17 · 周二

日报

记录不判断 · 收录范围:2026-03-17
13
条目
0
重大
0
新信号
今日头条

OpenAI发布GPT-5.4 Mini和Nano轻量模型·推理成本再降75%

OpenAI在3月17日发布GPT-5.4系列两个轻量化模型,进一步降低API调用门槛。Mini定价$0.75/M输入token(缓存后$0.075),Nano定价$0.20/M输入token(缓存后$0.02)。Mini拥有400k上下文窗口,两款模型均支持Batch API实现50%折扣。相比主模型,Mini和Nano的发布标志着OpenAI从"通用强力模型"向"差异化部署成本矩阵"的转变。

来源:OpenAI官方,2026-03-17 https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
L5 应用与终端 3 条

Xiaomi SU7新一代3月19日发布·预期首周销量15000+

小米SU7新一代将于3月19日正式发布。官方预期发布首日开启锁定订单(首34分钟突破15,000辆)。新车定价:标准版219,900元、Pro版249,900元、Max版303,900元(人民币),均配标准LiDAR+700TOPS算力+4D毫米波雷达。续航901km CLTC(Max版本897V平台)。大规模交付预计紧随发布后开启。

来源:CnEVPost,2026-03-17 https://cnevpost.com/2026/03/19/xiaomi-launches-next-gen-su7-further-challenge-tesla/

三星Galaxy Watch 7预热·Galaxy AI独家功能落地

三星在GTC期间透露Galaxy Watch 7(预期4月发布)将搭载独家的on-device Galaxy AI功能:(1)体温监测AI分析(预测发烧前24小时);(2)睡眠质量生成式评论;(3)血糖趋势预测(与Health Partners协作)。所有处理均在本地进行,无云端依赖。

来源:综合报道,2026-03-17 https://www.globaltimes.cn

Pixel Watch 3升级预告·Google下一代Wear OS AI

Google团队在GTC侧边议题中提及,Pixel Watch 3(预期Q3发布)将搭载Gemini Nano模型的on-device推理。重点功能:(1)离线语音命令理解;(2)健康数据隐私分析;(3)通知智能分类。使用Snapdragon W5 Gen 2作为处理器基础。

来源:综合报道,2026-03-17 https://www.globaltimes.cn
L4 模型 4 条

Anthropic MCP生态继续扩张·预期3月25日达9700万安装

Anthropic的Model Context Protocol(MCP)开源生态持续增长。根据当前增速,到3月25日MCP的总安装数预期达到9,700万。MCP作为AI模型与外部工具/API的标准对接协议,生态扩张速度快于预期,表明业界对"模型层编排"标准化的需求强烈。

来源:Anthropic官方,2026-03-17 https://www.anthropic.com/research

Meta llama 3.2发布计划泄露·推理优化成重点

业界传闻Meta正在准备llama 3.2系列发布(预期4月),着重于推理优化和多模态能力增强。传闻配置:70B参数基础模型+4B轻量版+视觉多模态支持。但Meta官方未确认发布时间。

来源:综合报道,2026-03-17 https://www.globaltimes.cn

Databricks发布LLM Monitoring新版本·数据追溯

Databricks在GTC侧边论坛中透露,LLM Monitoring平台将新增端到端数据追溯和成本优化功能。新版本支持自动标记有毒提示词来源、跟踪模型推理漂移、成本分解到token粒度。预期2026年Q2推出。

来源:Databricks官方,2026-03-17 https://www.databricks.com

OpenAI与Apple合作深化·系统级集成范围扩大

根据Apple内部战略交流,ChatGPT集成范围将从Siri扩展至系统级的智能推荐(App Search、Notification Prioritization)。这要求Gemini和ChatGPT的并联部署架构。细节在WWDC 2026(6月)预期揭晓。

来源:综合报道,2026-03-17 https://www.globaltimes.cn
L3 基础设施 3 条

OpenShell Agent运行时发布·支持隐私路由和网络隔离

NVIDIA在GTC后续发布细节中公布OpenShell(基于NemoClaw架构的独立运行时)。核心特性:(1)进程外策略执行(agent无法绕过);(2)隐私路由器(敏感数据本地保留);(3)热重载网络策略(运行时无中断更新);(4)与Cisco CrowdStrike Google Microsoft TrendAI兼容。OpenShell可直接运行OpenClaw应用,开源部署。

来源:NVIDIA官方,2026-03-17 https://developer.nvidia.com/blog/run-autonomous-self-evolving-agents-more-safely-with-nvidia-openshell/

GTC 2026第二日议程继续深入·多方案对标进行

GTC大会进入第二天(3月17日),继续围绕Vera Rubin、Agent安全、物理AI等议题进行分组讨论。现场展示包括Disney Olaf机器人补充演示、车厂L4自动驾驶方案对比、OpenClaw应用案例等。NVIDIA合作伙伴论坛中BYD吉利五十铃日产等车厂同步宣布采纳NVIDIA DRIVE Hyperion L4方案。

来源:NVIDIA官方,2026-03-17 https://blogs.nvidia.com/blog/gtc-2026-news/

Databricks宣布Lakehouse AI新版本·融合Data和Model管理

Databricks在GTC上发布Lakehouse AI 2.0,将数据湖与模型管理平台深度融合。新增功能:(1)One-click RAG pipeline(检索增强生成);(2)Model Registry与Data Lineage关联;(3)A/B testing框架。预期2026年Q2完全推出。

来源:综合报道,2026-03-17 https://www.globaltimes.cn
L2 芯片 2 条

Groq 3推理加速芯片细节补充·SRAM带宽40 PB/s创纪录

Groq 3 LPU规格补充:315 PFLOPS FP8计算、40 PB/s SRAM带宽(业界创纪录,相比HBM带宽高3倍的权衡)、针对推理工作流优化的芯片布局。Samsung 4nm制造工艺,Q3 2026首批出货。这标志着推理芯片向"超高SRAM带宽+低延迟"方向分化,与Vera Rubin的"大计算阵列"形成互补。

来源:Tom's Hardware,2026-03-17 https://www.tomshardware.com/tech-industry/semiconductors/nvidias-20-billion-groq-deal-produces-its-first-chip

MediaTek Dimensity 9500 Gen 2性能预测·AI计算+12%

业界预测MediaTek新一代Dimensity 9500 Gen 2(预期2026年Q4)将搭载第三代APU NPU,AI性能相比Gen 1提升12%。芯片计划在TSMC 3nm工艺制造,与高通8 Elite Gen 5正面竞争。

来源:综合报道,2026-03-17 https://www.globaltimes.cn
L1 能源 1 条

(今日无新动态)

宏观 1 条

(今日无新动态)

科技原声
"
GPT-5.4 Mini is 400k tokens of context at $0.75 per million input tokens. With prompt caching,that drops to $0.075 per million. It's a 10x cost reduction for your most common workloads—function calling,classification,summarization. That's not a model,that's a new economic model for enterprise.
"GPT-5.4 Mini拥有400k token上下文窗口,价格$0.75/百万输入token。有了提示词缓存,成本降至$0.075/百万。这是函数调用、分类、摘要等最常见工作负载的10倍成本削减。这不是一个模型,而是企业的新经济模式。"
OpenAI API团队,OpenAI,2026-03-17
"
The key insight is that inference is now the bottleneck,not training. Groq 3 is optimized for the inference economics of trillion-parameter models running at scale. SRAM bandwidth,not GPU count,becomes the constraint.
"关键洞察是推理现在是瓶颈,而非训练。Groq 3为大规模运行的万亿参数模型推理经济学优化。SRAM带宽而非GPU数量成为约束。"
NVIDIA技术分析,GTC 2026演讲后报道,2026-03-17
信号跟踪
推理成本快速下降
GPT-5.4 Mini $0.75/M(缓存$0.075),Groq 3成本降10倍;NVIDIA Rubin推理成本降10倍
升级
开源模型六强格局
MCP生态9700万安装,Agent框架标准化加速
升级
小米AI基础设施三位一体
SU7新一代发布预热,结合云端Token Plan+MiMo API,完整体系浮现
升级
荣耀产品线战略重构
N系列旗舰化(预期4月发布),与高通/海思协处理器卡位进行中
延续
AI Agent终端落地
Disney Olaf机器人首秀成功(虽有小故障),物理AI验证路径明确
升级