Grok 4.3悄悄上线跑分评测出炉-品论天涯网

Grok4.3是xAI一次务实升级：更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上，仍落后GPT-5.5与ClaudeOpus4.7。xAI发布Grok4.3，没有把声量拉到最大，马斯克甚至没单独发推，看起来只是个过渡版本。PHi品论天涯网

PHi品论天涯网

https://x.com/elonmusk/status/2045590599206875216PHi品论天涯网

它更像一次安静的产品换挡：把模型放进API，把价格打下来，把工具能力补上，再告诉开发者可以从旧版Grok迁移过来。PHi品论天涯网

没有AGI宏大叙事，也少了马斯克式的“即将改变一切”。这反而让Grok4.3看起来更真实。PHi品论天涯网

对普通消费者来说，Grok4.3最重要的变化并非某个榜单分数涨了几分，而是AI助手正在变得更便宜、更快，也更像一个能替人完成文件、表格、演示文稿的合格助手。PHi品论天涯网

然而，Grok4.3的聪明程度仍然没追上GPT-5.5和ClaudeOpus4.7。PHi品论天涯网

它是一款性价比很强的新模型，也是一款仍有明显天花板的模型。PHi品论天涯网

消费者真正需要关心的，是它在哪些场景能省钱省时间，在哪些场景会因为判断不准、想太久或说太多，反而增加成本。PHi品论天涯网

它确实变强了PHi品论天涯网

尤其像一个更会干活的助手PHi品论天涯网

ArtificialAnalysis给Grok4.3的IntelligenceIndex打到53分，比Grok4.200309v2高4分，也超过ClaudeSonnet4.6和MuseSpark。PHi品论天涯网

PHi品论天涯网

这个提升不算小，尤其在xAI自家模型线里，Grok4.3已经是目前最强的一档。PHi品论天涯网

更值得看的是代理任务表现。PHi品论天涯网

Grok4.3在GDPval-AA上拿到1500Elo，相比Grok4.200309v2的1179，提升了321分。PHi品论天涯网

PHi品论天涯网

这个榜单更接近日常“让AI做事”的场景，比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。PHi品论天涯网

让AI帮忙写周报、搭表格、做方案、拆会议纪要、生成PPT，Grok4.3的体验会比前代更完整。PHi品论天涯网

Grok可以创建演示文稿、文档和电子表格，可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。PHi品论天涯网

对不懂代码的用户来说，这意味着很多原本需要在Excel、PowerPoint、浏览器之间来回切换的操作，可能会被压缩成一句指令。PHi品论天涯网

这也是AI消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完，把一份旅行计划排清楚，把一封语气得体的邮件写好。PHi品论天涯网

Grok4.3在这部分的进步，是真进步。PHi品论天涯网

更便宜PHi品论天涯网

是这次最直接的产品卖点PHi品论天涯网

Grok4.3的价格很有侵略性。PHi品论天涯网

它的API价格为每百万输入Tokens1.25美元、每百万输出Tokens2.50美元，相比Grok4.20输入价格低约40%，输出价格低约60%。PHi品论天涯网

PHi品论天涯网

ArtificialAnalysis测算，运行整套IntelligenceIndex评测成本约为395美元，比Grok4.200309v2低约20%。PHi品论天涯网

PHi品论天涯网

这会影响消费者，只是方式没那么直观。PHi品论天涯网

大多数普通人不会直接调用API，但他们会用到基于API构建的产品。PHi品论天涯网

AI写作工具、客服机器人、语音助理、教育应用、办公插件，背后都要为模型调用付费。PHi品论天涯网

当底层模型价格下降，应用厂商有空间降低订阅费，或者在同样价格下提供更多次数、更长上下文、更复杂任务。PHi品论天涯网

Grok4.3还有一个优势是速度。PHi品论天涯网

ArtificialAnalysis的xAI模型页显示，它是xAI当前输出速度最快的模型之一，约196Tokens/s，属于很快的一档。PHi品论天涯网

PHi品论天涯网

对语音聊天、实时客服、长文生成和批量内容处理来说，等待时间会直接影响体验。PHi品论天涯网

但速度有一个细节容易被忽略：Grok4.3的首Token延迟并不低。PHi品论天涯网

它会先“想一会儿”，然后快速输出。PHi品论天涯网

长答案里，这种速度优势明显；短对话里，用户可能先感受到停顿，再感受到快。PHi品论天涯网

用于客服、语音助手、移动端聊天时，这个差异会被放大。PHi品论天涯网

它更会说人话PHi品论天涯网

这是Grok的隐藏优势PHi品论天涯网

Grok一直有一个微妙优势：语气更像真人。PHi品论天涯网

HackerNews上有人提到，一些英语非母语用户认为Grok在把握文本语气、正式程度和微妙人际表达上，比其他模型更自然。PHi品论天涯网

有人拿它和ChatGPT、Claude比，认为Grok在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。PHi品论天涯网

PHi品论天涯网

https://news.ycombinator.com/item?id=47972447PHi品论天涯网

Grok可能受益于X平台海量口语化表达训练。PHi品论天涯网

它更容易捕捉社交网络里的语气、节奏、松弛感等；它也可能因此继承社交网络的噪音、偏见和表达习惯。PHi品论天涯网

对C端用户来说，这种“更自然”的能力会让Grok在写消息、口语转写、语音助手、轻办公场景里很讨喜。PHi品论天涯网

它未必最聪明，但可能更像一个愿意按你的语气说话的助手。PHi品论天涯网

Yes，BUT...PHi品论天涯网

它比不过GPT-5.5和ClaudeOpus4.7PHi品论天涯网

Grok4.3最大的问题，是它看起来已经进入第一梯队边缘，却还没站到最前面。PHi品论天涯网

Grok4.3的IntelligenceIndex为53，GPT-5.5为60，ClaudeOpus4.7为57。PHi品论天涯网

这个差距不只是排行榜上的几分。PHi品论天涯网

对普通消费者来说，它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。PHi品论天涯网

在GDPval-AA上，Grok4.3的提升很大，但仍落后GPT-5.5xhigh276Elo，按标准Elo公式，面对GPT-5.5的预期胜率约17%。PHi品论天涯网

它在幻觉控制上也有代价。PHi品论天涯网

Grok4.3的AA-OmniscienceAccuracy（准确率）提升8分，但Non-HallucinationRate（非幻觉率）下降8分。PHi品论天涯网

PHi品论天涯网

这里的准确率和非幻觉率是不同的，准确率只看你答对了多少，而非幻觉率是看你没答出来的问题里面，有多少是模型老实承认自己不会的——不会但振振有词，就是所谓的“幻觉”。PHi品论天涯网

换言之，Grok4.3的知识覆盖率变高了，但也更容易出现幻觉了。PHi品论天涯网

而消费者最怕的情况就是AI答得很流畅、很自信、很像那么回事，结果关键事实错了。PHi品论天涯网

人类已经很擅长自信地犯错，机器不必急着加入这个传统项目。PHi品论天涯网

这意味着，在医疗、法律、金融、学术和工程等高风险场景里，Grok4.3仍需要谨慎使用。PHi品论天涯网

它适合帮用户起草、整理、生成初稿，适合做低风险的辅助工作；涉及最终判断，GPT-5.5和ClaudeOpus4.7仍更稳。PHi品论天涯网

长上下文和工具能力很好PHi品论天涯网

但消费者买账的是结果PHi品论天涯网

Grok4.3提供100万Token上下文窗口，这对长文档、代码库、合同、报告和资料库很有吸引力。PHi品论天涯网

PHi品论天涯网

用户可以丢进去更多材料，让模型在更完整的信息环境里工作。PHi品论天涯网

对研究、办公和创作来说，这是一种实用能力。PHi品论天涯网

它还支持文本和图像输入，输出文本，并围绕工具调用、网页搜索、X搜索、代码执行、文件搜索、RAG等能力加强。PHi品论天涯网

xAI还推出了CustomVoices、语音代理、TTS和STT等产品，把Grok的边界从文字扩展到语音。PHi品论天涯网

对普通用户来说，未来的Grok可能不只是一个聊天框，而是一个能读文件、查网页、写表格、说话、听话的多模态助手。PHi品论天涯网

问题在于，功能多不等于体验好。PHi品论天涯网

消费级AI的竞争，最后会回到三个朴素标准：少等、少错、少折腾。PHi品论天涯网

Grok4.3在“少等”和“少花钱”上明显前进，在“少错”上还没给出足够强的答案。PHi品论天涯网

Grok4.3的准确定位：PHi品论天涯网

性价比模型，不是最强模型PHi品论天涯网

Grok4.3最适合的定位，是一款高性价比的工作型模型。PHi品论天涯网

它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。PHi品论天涯网

它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。PHi品论天涯网

很多消费者并不需要每次都调用最强模型，就像不应该只是为了买菜开超跑，除非另有所图。PHi品论天涯网

但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断，Grok4.3还不该成为第一选择。PHi品论天涯网

GPT-5.5和ClaudeOpus4.7仍然更适合承担这些高价值、高风险任务。PHi品论天涯网

这次xAI的策略很清楚：先把模型做得足够强，再把价格打下来，用速度和工具能力扩大可用场景。PHi品论天涯网

它没有赢下“最聪明模型”的头衔，但可能会赢走一部分真实使用量。PHi品论天涯网

因为市场并不总奖励最强者，也奖励够强、够快、够便宜的选择。PHi品论天涯网

Grok4.3的意义正在这里。它把xAI从一个经常靠马斯克声量吸引注意的模型供应商，往更务实的API和消费级工具竞争者方向推进了一步。PHi品论天涯网

它看起来很好，确实很好；只是还没好到能让GPT-5.5和ClaudeOpus4.7紧张。PHi品论天涯网

消费者可以期待它降价、提速、让更多AI应用变得便宜。PHi品论天涯网

Grok 4.3悄悄上线 跑分评测出炉

Grok 4.3悄悄上线跑分评测出炉