MiroMind推出全球顶尖搜索智能体模型，核心聚焦“发现式智能”

凭借成功预测Polymarket题目并连续登顶Future X全球榜首的MiroMind团队，在今日（1月5日）正式推出了其自主研发的旗舰搜索智能体模型MiroThinker 1.5。

MiroMind由全球知名的创新企业家与慈善家陈天桥，携手清华大学著名AI青年学者代季峰教授共同发起。去年，陈天桥提出了“发现式智能才是真正意义上的通用人工智能”这一极具分量的创新理念，受到了全球业内人士的广泛关注。与此同时，他还提出了构建发现式智能所需的5种关键能力，其中一项便是在未知条件下重新建立对世界的认知，而这恰恰是MiroMind肩负的使命。

过去七个月，当整个行业都在参数规模与百万长文本的红海里激烈竞争时，MiroMind 却在探寻一个更为核心的问题：智能的“奇点”究竟位于何处？他们给出的答案并非“将世界存储于参数之中”，而是聚焦于“发现式智能”——真正的智能并非依赖无所不知，而是凭借善于研究、查证与修正的能力：如同顶尖情报官一般，对外能够迅速获取证据，对内则严格辨别真伪；又像严谨的研究员那样，在充满不确定性的环境中逐步逼近真相，最终将“预测未来”从少数人的特权转变为人人皆可拥有的能力。

MiroThinker 1.5 性能评测

MiroMind 团队在 AGI 竞技场上，不信奉 “大力出奇迹”，而是追求以高智效比为核心的「巧劲」。

MiroThinker-v1.5-30B 仅用 1/30 的参数规模跑出了比肩众多 1T 模型的性能表现，其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

实力霸榜：指标是门槛，预测是天花板

BrowseComp 性能对比

Agent 搜索评测基准性能对比

越级挑战：MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面对参数量高达 30 倍的万亿参数巨兽 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现：

推理成本： MiroThinker-v1.5-30B 单条调用成本低至 $0.07，仅为 Kimi-K2-Thinking 的 1/20，且推理更快。

性能表现：在关键评测集 BrowseComp-ZH 中实现性能超越，证明「大」不等于「强」。

核心洞察：从「做题家模式」转向「科学家模式」

MiroMind团队提出，传统以增加模型内部参数量（Internal Parameters）为核心的Scaling Law已清晰面临边际效益递减的瓶颈；若要进一步提升模型性能，需从“内部参数扩张”的路径转向以“外部信息交互”（External Interaction）为核心的Interactive Scaling，把智能的增长维度从模型内部参数延伸至外部世界。

为什么该模型能在大幅降低成本的同时，性能依然能打？

这并非「大参数碾压」的结果，而是「科学家模式」对「做题家模式」的一次胜利。以Scaling Law为代表的研究路线，更接近「做题家」的思路：它试图将全人类的知识（其中也包含噪声与错误信息）尽可能多地输入模型、让模型「记住」；可一旦面对生物学这类存在大量未知的领域问题时，模型就容易依据概率分布「生成」一个表面合理的答案——这正是幻觉现象常常出现的原因。

在MiroThinker 1.0版本中，MiroMind团队开创性地系统性提出了Interactive Scaling这一概念：当工具的交互频率与深度不断提升时，模型的研究式推理能力也会随之稳定增强——这一维度与模型大小、上下文长度共同构成了三个可扩展的核心维度。到了v1.5版本，团队进一步将这套机制深化为贯穿模型训练与推理全流程的核心能力：他们的目标是把模型训练成具备“科学家思维”的系统，其核心不在于让模型死记硬背知识，而在于培养它主动查证的习惯。面对复杂问题时，模型不会直接给出概率最高却可能盲目的猜测，而是会启动一套“慢思考”的研究闭环流程：先提出初步假设，接着向外部数据源查询信息、收集证据，若发现证据与假设不符，便及时修正假设，之后再次进行查证，直至所有证据指向一致、结论收敛。

主流大模型往往盲目追求万亿参数，试图把整个互联网「背」在脑子里。而 MiroThinker 系列选择了一条反共识的路线：刻意将模型控制在 30B–200B 的轻量级规模。MiroMind 团队强调，省下的不是算力，而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。

MiroMind团队并不执着于为模型打造一颗“最重的大脑”，而是致力于培养它拥有一双“最勤快的双手”。当模型同时具备研究式的确认机制和时序因果约束时，这种围绕外部信息获取展开的交互过程，才让“发现式智能”真正得以落地——而正是对Interactive Scaling的深入钻研，让他们能够用规模小得多的模型，实现了只有大模型才能完成的任务。

MiroThinker 1.5 核心技术揭秘

传统的模型思维链本质上是在模型内部知识空间的线性外推，推理偏差会随路径增长而不断累积，最终导致逻辑坍塌。

MiroThinker 1.5 的核心优势，是借助 Interactive Scaling 突破孤立推理的局限，让「推理」和「外部环境」实现深度融合。它通过搭建「推理 - 验证 - 修正」的循环机制，引入外部信息作为验证的基准，以具有确定性的证据链条来平衡不确定性的推演过程，从而解决逻辑崩塌的问题。

Training-time Interactive Scaling 技术

当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理，而是依托模型高频与外部世界中探索与交互并获得闭环反馈时，小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。

MiroThinker 1.5 正是基于这一判断，将 Interactive Scaling 从推理阶段的外挂能力，前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」，而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。

在训练过程中，MiroMind 团队刻意削弱对「单次完美推理」的奖励，转而强化以下行为模式：

Evidence-Seeking（主动求证）：模型被鼓励将每一个关键判断拆解为可验证的子假设，并主动发起对外查询、检索与比对。结论本身不再是训练目标，找到可靠证据的过程才是。缺乏信源支撑的高置信输出，会在训练中被系统性地惩罚。

Iterative Verification（多轮校验与自我修正）：推理不被视为一次性路径，而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试，一旦发现证据冲突，必须显式调整假设，而非「带着错误继续推下去」。

Anti-Hallucination（对捷径的系统性过滤）：对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确，更关注答案是如何得到的：任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径，都会被标记为低质量推理。

通过这种训练方式，MiroThinker 1.5 逐步形成了一种「本能反应」：在不确定性面前，先交互、再判断；在高风险结论前，先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数，而是学会在需要时，快速、精准地向外部世界「借力」。

最终，团队用更小的参数规模，换来了更高的智能密度：不是让模型记住更多，而是让它学会如何找到、验证并使用信息。这正是 MiroThinker 1.5 能在显著降低推理成本的同时，依然保持一线性能的根本原因。

时序敏感训练沙盒

时序敏感训练沙盒堪称「因果律」的关键密钥：常规大模型的训练往往处于「上帝视角」—— 它在训练数据中早已提前「知晓结果」，所习得的多是对内容的复述与「提前剧透」，而非真正的预测能力。而MiroThinker的训练模式则对模型加以约束，使其「仅能审视过去，无法窥探未来」，在严格的时间可见性限制条件下进行判断，随后再利用同样受时序约束的证据来完成验证与更新环节。

可控数据合成引擎：构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签，而是随时间戳动态演化；模型必须在严格的信息可见性约束下，基于当时可获取的信息做出判断，而校验过程同样显式引入时间戳约束，以确保推演与评分均符合真实世界的时序逻辑。

时序敏感训练机制：采用严格的时间戳与信息可见性约束，彻底杜绝 Future Leakage；模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下，模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正，而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量，转变为塑造模型行为与推理方式的核心约束，使模型更接近真实世界中的认知与决策过程。