这项由中国人民大学和快手科技联合完成的研究发表于2026年2月的arXiv预印本服务器(论文编号:arXiv:2602.08543v1),有兴趣深入了解的读者可以通过该编号查询完整论文。
在我们的日常生活中,搜索信息已经变成了一件再普通不过的事情。无论是查找餐厅地址、了解某个明星的最新动态,还是做学术研究,我们都离不开搜索。然而,当我们需要解答复杂问题时,传统搜索往往让我们感到力不从心。比如说,如果你想知道哪个学者自2008年以来在ACL会议上获得过两次或以上的最佳论文奖,你可能需要翻遍无数页面,逐个查证,最后还可能遗漏重要信息。
正是在这样的背景下,AI搜索助手应运而生。这些智能助手就像是拥有超强搜索能力的私人秘书,能够理解你的复杂问题,自动进行多轮搜索,浏览各种网页,然后为你整理出完整准确的答案。
然而,这些AI搜索助手到底表现如何呢?现有的评测方法又是否能够真实反映它们的能力?人民大学和快手科技的研究团队发现了一个令人担忧的问题:现有的测试基准存在很多缺陷,无法准确评估这些AI助手的真实水平。
就像考试题目出得不好会误导我们对学生真实水平的判断一样,现有的AI搜索助手测试也存在类似问题。有些测试为了增加难度,会先设定答案,然后反推出问题,这就像是先知道答案是42,然后编造一个复杂的数学题一样。这样的问题往往脱离现实,普通人根本不会这样提问。
更重要的是,现有测试往往只关注某一个方面,要么测试AI能否深挖某个具体信息,要么测试能否收集大量相关资料,但现实中的搜索需求往往需要两者兼备。就好比做菜时,你既需要精确掌握火候(深度),又需要准备齐全的配料(广度),单一技能并不够用。
另一个严重问题是,许多测试使用的都是永恒不变的问题和答案,比如拿破仑是哪一年出生的。但随着AI训练数据的不断更新,这些AI可能已经在训练过程中见过答案了,就像学生提前拿到了一样,这样的测试就失去了意义。
面对这些问题,研究团队决定创建一个全新的测试基准,他们将其命名为GISA(General Information-Seeking Assistants)。这个基准就像是为AI搜索助手量身定制的高考试卷,旨在全面、公正地评估这些智能助手的真实能力。
GISA的设计理念非常独特。首先,它包含了373个完全由人类设计的真实问题,这些问题都来源于人们在日常生活中真正会遇到的信息需求。研究团队让志愿者像平常一样浏览网页,当他们看到有趣的内容时,就记录下自然产生的疑问。这种方法确保了问题的真实性和实用性。
其次,GISA设计了四种不同的答案格式:单项答案、集合答案、列表答案和表格答案。这就像是准备了四种不同类型的容器来盛装不同类型的信息。比如,如果你问世界上最高的山峰是哪座,答案就是一个单项(珠穆朗玛峰)。但如果你问请列出所有参加2023年韩国摇滚音乐节的乐队,答案就是一个集合。如果你还要求这些乐队按字母顺序排列,那就成了列表。而如果你想了解这些乐队的详细信息,包括成立时间、代表作等,答案就需要用表格形式呈现。
这种设计的巧妙之处在于,它能够进行标准化的评估。就像标准化考试有标准答案一样,GISA可以精确地判断AI的回答是否正确,而不需要依赖主观判断。
GISA还有一个特别创新的设计,就是将问题分为稳定题目和实时题目两类。稳定题目的答案在较长时间内不会改变,比如历史事件。而实时题目的答案会随时更新,比如目前在任的韩国总统是谁。研究团队承诺定期更新实时题目的答案,确保AI不能通过记忆训练数据来作弊。
更令人印象深刻的是,GISA不仅提供了问题和答案,还记录了人类专家解决每个问题的完整搜索过程。这就像是不仅给出了菜谱的最终成品,还详细记录了整个烹饪过程,包括何时加什么调料、火候如何控制等。这些人类搜索轨迹为训练和优化AI提供了宝贵的参考。
GISA的构建过程可以比作一个精密的侦探办案流程,每个环节都经过严格把控。整个过程分为四个主要阶段:头脑风暴、问题精炼、人工标注和质量检验。
在头脑风暴阶段,研究团队采用了一种非常自然的方法来收集问题。他们让标注员像平常一样自由浏览各种网站,从政治新闻到娱乐八卦,从科技资讯到历史档案,什么都可以看。当标注员看到感兴趣的内容时,就记录下自然产生的疑问。这种方法模拟了人类好奇心的自然产生过程,就像是你在看新闻时突然想知道这个政治家以前还做过什么一样自然。
比如说,一个标注员在浏览政治新闻时看到了关于韩国总统尹锡悦宣布令的报道。这个新闻自然地引发了两个疑问:什么是令?韩国历史上有过令的先例吗?这些疑问就成为了问题的种子。
接下来是问题精炼阶段,这个过程就像是把粗糙的原石打磨成精美的宝石。标注员需要将最初的疑问转化为结构化的正式问题。在这个阶段,他们需要决定答案应该以什么格式呈现。比如,对于韩国令的疑问,他们可能会设计成这样的问题:请提供一个详细表格,列出韩国历史上所有令的宣布情况,包括宣布日期(格式:月-日-年)和发起者(如总统、军方),按时间顺序排列。
这种转化不仅让问题变得更加具体和可操作,还确保了答案的标准化。更重要的是,研究团队在这个阶段会进行初步的可行性检查,确保问题需要真正的搜索努力,而不是简单地从某个现成的网页复制答案。
人工标注阶段是整个过程中最关键也最耗时的部分。为了确保标注过程的准确性和一致性,研究团队开发了一个专门的浏览器插件来记录人类的搜索行为。这个插件就像是一个隐形的录像机,悄无声息地记录下搜索者的每一个动作:输入了什么查询词,看到了哪些搜索结果,点击了哪些链接,在每个页面上停留了多长时间。
标注员在解答问题时只能使用谷歌搜索,不能使用其他搜索引擎或AI助手。这个限制确保了搜索过程的标准化和公平性。当标注员遇到信息不足或者来源冲突的情况时,他们会标记这个问题,然后将其返回到问题精炼阶段进行修改。
有趣的是,研究团队发现人类解决这些问题平均需要超过一个小时的时间。这个数字本身就说明了GISA问题的复杂性和挑战性。大多数问题需要10-20分钟来解决,但也有一些特别复杂的问题需要一个小时甚至更长时间。
最后是质量检验阶段,这个阶段就像是严格的同行评议过程。专门的验证团队会检查每一个标注结果的三个方面:搜索轨迹的完整性、答案的准确性以及格式的规范性。
验证员首先检查搜索日志是否完整记录了整个搜索过程。有时候标注员可能在开始记录之前就进行了搜索,或者在任务结束后忘记停止记录,这些情况都会被发现并要求重新标注。
然后验证员会独立验证答案的准确性。他们可以进行自己的搜索,参考原始的搜索轨迹,确保答案的每一个细节都是正确的。如果发现错误,答案会被修正,但修正后的答案必须能够从原始搜索轨迹中推导出来。如果原始轨迹不足以支持正确答案,那么这个问题就会被丢弃,需要重新标注。
为了防止AI通过记忆训练数据来作弊,研究团队还进行了记忆检查。他们使用DeepSeek-V3.2模型来测试每个问题,如果模型在没有搜索工具的情况下就能完美回答问题,那么这个问题就会被排除,因为这表明答案可能已经包含在模型的训练数据中。
经过这四个阶段的严格筛选,最终只有373个高质量的问题进入了GISA基准。这些问题涵盖了十个不同的主题领域,从电视电影到科学技术,从艺术到历史,从体育到音乐,确保了主题的多样性。
研究团队总共招募了15名信息检索专业的研究生作为专家标注员。选择这些专业人士不是偶然的,他们在信息检索方面的专业知识确保了搜索策略的有效性和信息整合的准确性。
当研究团队用GISA测试目前最先进的AI搜索助手时,结果可以用令人震惊来形容。就连表现最好的Claude 4.5 Sonnet(思维模式),在完全匹配评分上也只达到了19.30%的正确率。这个数字意味着什么?简单来说,如果给这个AI助手100道搜索题目,它只能完全正确地回答不到20道。
这个结果就像是让一个自称学霸的学生参加考试,结果只考了不到20分。更让人意外的是,那些在实验室测试中表现优异的商业搜索产品,在这个真实世界的测试中表现得更加糟糕。
让我们具体看看这些考生的表现。在单项答案类型的问题中,也就是只需要一个确切答案的问题,表现最好的模型能达到60%以上的正确率。这类问题相对简单,比如某某奖项获得次数最多的艺术家是谁。然而,当问题变得复杂,需要收集和整理多个信息时,AI的表现就急剧下降了。
在集合类型的问题中,也就是需要找出所有符合条件的项目的问题,最好的模型正确率只有28%左右。这类问题比如请列出所有参加某个音乐节的乐队,需要AI确保不遗漏任何一个乐队,也不能包含不相关的信息。
列表类型的问题更加困难,因为不仅要找全所有项目,还要按照特定顺序排列。在这类问题上,最好的模型正确率只有大约23%。想象一下,如果你要求AI按照年龄顺序列出某个领域的专家,它不仅要找到所有专家,还要准确排序,这确实是一个不小的挑战。
表格类型的问题是最困难的,因为需要收集多个维度的信息并进行结构化整理。在这类问题上,即使是最好的模型,完全正确的比例也只有13%左右。不过,如果我们降低标准,只看表格中单个信息的正确率,情况会好一些,能达到65%左右。这就像是说,虽然整张表格可能有错误,但表格中的大部分单个信息还是对的。
更有趣的发现是,AI使用工具的效率和最终表现之间存在微妙的关系。表现最好的Claude 4.5 Sonnet平均每个问题只进行了大约7.6次搜索和4.6次网页浏览,使用工具相对克制。相比之下,一些表现较差的模型却进行了更多的搜索和浏览,比如DeepSeek-V3.2平均每个问题进行了12次以上的搜索和网页浏览,但表现反而更差。
这个现象就像是两个人同时在图书馆查资料,一个人目标明确,很快就能找到需要的信息;另一个人虽然查阅了更多书籍,但由于缺乏明确的搜索策略,反而被大量无关信息所干扰,最终效果更差。这说明有效的搜索策略比简单的多搜索更重要。
研究还发现,带有思维功能的模型普遍比不带这种功能的模型表现更好。比如,Claude 4.5 Sonnet的思维版本比非思维版本的整体正确率高出近3个百分点。这种思维功能允许模型在回答问题之前进行更深入的推理和计划,就像是给学生更多时间来思考问题一样。
然而,这种改进是有代价的。使用思维功能的模型消耗的计算资源显著增加,处理时间也更长。这就像是说,虽然深思熟虑能提高答题质量,但也需要更多时间和精力。
最令人意外的发现是商业搜索产品的表现。这些产品在实际市场中被广泛使用,理论上应该经过了充分的优化,但在GISA测试中的表现却普遍不如基于大语言模型的搜索代理。
这些商业产品表现不佳的主要原因之一是指令遵循能力较差。GISA要求答案必须按照特定格式(如TSV格式的表格)输出,但许多商业系统经常无法正确遵循这些格式要求,导致答案即使内容正确也被判为错误。
为了更深入地理解AI搜索助手的表现,研究团队进行了多个维度的分析,就像是医生给病人做全面体检一样,要找出问题的根源。
首先,研究团队比较了AI和人类的搜索行为模式,发现了一些有趣的差异。人类专家在解决问题时平均只进行3.53次搜索查询,但会浏览19.03个网页。相比之下,表现最好的Claude 4.5 Sonnet平均进行7.57次搜索查询,但只浏览4.63个网页。
这种差异反映了两种不同的搜索策略。人类更像是深度探索者,他们倾向于通过较少的搜索找到相关资源,然后深入挖掘这些资源,通过点击链接在相关网页间跳转,获取全面的信息。而AI更像是广度扫描者,它们倾向于通过多次不同的搜索来收集信息,但对单个搜索结果的深入探索较少。
人类还表现出更强的查询优化能力。研究发现,人类连续两次搜索查询之间的相似度(用专业术语叫相邻查询重叠度)为0.31,而AI只有0.22。这意味着人类更善于根据前一次搜索的结果来精调下一次搜索,而AI的搜索查询相对更加独立和分散。
就像是两个人在超市购物,人类会先在水果区仔细挑选,看到新鲜的苹果后可能会想到要买一些搭配的食材;而AI更像是拿着购物清单,机械地走完每一个区域,但缺乏灵活的关联思考。
更重要的是,研究团队发现当AI的搜索行为越接近人类时,任务完成效果越好。他们将测试样本根据AI与人类行为的相似度分为高相似组和低相似组,结果发现高相似组的平均F1得分(一个综合评价指标)为0.76,而低相似组只有0.56。成功解决问题的案例中,AI访问的网页与人类的重叠率为0.31,而失败案例中这个比例只有0.15。
这个发现就像是告诉我们,模仿优秀厨师的烹饪步骤确实能做出更好的菜肴。这也为改进AI搜索助手指明了方向:让AI学习人类的搜索策略,可能是提升性能的有效途径。
研究团队还测试了稳定问题和实时问题上的表现差异。有趣的是,大多数模型在这两类问题上的表现相差不大,但最新发布的Kimi K2.5模型(2026年1月28日发布)在稳定问题上的表现明显好于实时问题(18.39% vs 11.33%)。
这个现象很可能反映了数据污染的问题。由于Kimi K2.5是最新的模型,它的训练数据更可能包含稳定问题的答案,因此在这类问题上表现更好。而对于需要最新信息的实时问题,它就无法依赖记忆,只能真正依靠搜索能力。这个发现验证了GISA设计实时更新问题的必要性。
研究团队还测试了推理时间缩放的效果,也就是让AI多尝试几次,看看能否提高成功率。他们让Qwen3-Max模型对40个随机样本进行了多次尝试(1次、2次、4次、8次、16次),然后分析最佳表现和多数投票的结果。
结果显示,随着尝试次数增加,最佳表现确实有所提升。当尝试16次时,至少有一次成功的比例从8.90%提升到了22.22%,提升了2.5倍。这就像是给学生多次考试机会,总有一次能发挥好。这表明AI模型具有解决这些问题的潜在能力,但在单次尝试中无法稳定地发挥出来。
然而,多数投票的效果并不理想。即使尝试16次,通过投票选出的答案正确率也只有17.50%,始终低于最佳单次表现。这说明AI在多个答案中识别正确答案的能力还有待提高。
为了更深入地理解AI的失败原因,研究团队手工分析了表现最好的Claude 4.5 Sonnet的50个错误案例,将错误类型分为三个层次:理解层面、搜索层面和输出层面。
在理解层面,问题理解错误只占3.2%,这说明当前的大语言模型已经具备了很强的语义理解能力,基本能够正确理解用户的问题意图。
搜索层面的错误占了49.2%,是最主要的问题来源。这些错误包括:无法制定有效的搜索策略(14.3%),无法充分利用网页中的超链接进行深度探索(17.5%),以及面对冲突信息时无法进行有效的验证查询(17.5%)。
比如,当AI遇到两个不同来源给出的冲突信息时,它往往不知道该如何进一步搜索来验证哪个信息是正确的。而人类在这种情况下会很自然地寻找第三方来源或者查找更权威的信息来源。
输出层面的错误占了47.6%,主要包括信息提取错误(15.9%)和指令遵循错误(31.7%)。指令遵循错误是最大的单一错误类型,主要表现为无法按照要求的格式(如表格的列名、排序规则等)输出答案。
这个发现解释了为什么商业搜索产品的表现普遍不佳——它们往往在格式化输出方面存在问题,即使找到了正确信息,也无法按照标准格式呈现,导致被判定为错误。
最后,研究团队还分析了不同模型的成本效益。虽然Claude 4.5 Sonnet表现最好,但每个查询的成本也相对较高,约为1.37-1.62美元。相比之下,中国的一些模型如DeepSeek-V3.2、GLM-4.7等成本要低得多,每个查询只需0.10-0.42美元,但性能也相应较低。
有趣的是,思维模式的Claude 4.5 Sonnet比非思维模式的版本不仅性能更好,成本也更低(1.37美元 vs 1.62美元),这是因为它使用工具更加高效,减少了不必要的搜索和浏览。这就像是一个经验丰富的研究员比新手更能直接找到有用信息,虽然思考时间更长,但总体效率更高。
通过GISA基准测试,我们不仅看到了当前AI搜索助手的能力边界,也为未来的改进指明了方向。就像是通过体检发现了健康问题,现在我们需要对症下药。
从测试结果来看,当前的AI搜索助手还远未达到人类专家的水平。即使是表现最好的模型,在复杂搜索任务上的成功率也只有不到20%。但这并不意味着这些AI助手毫无价值,相反,它们在某些方面已经展现出了不错的能力。
比如,在单项答案类型的问题上,最好的AI已经能够达到60%以上的正确率,这在很多实际应用场景中已经相当有用。如果你只是想快速了解某个基本事实,现有的AI助手已经能够很好地满足需求。
但对于需要深度研究和复杂信息整合的任务,AI助手还有很长的路要走。这类任务不仅需要找到信息,还需要判断信息的可靠性、解决不同来源之间的冲突、按照特定逻辑组织信息等。这些都是目前AI的弱项。
从人机行为对比分析中,我们看到了改进的方向。AI需要学会像人类一样进行更深入的内容探索,而不是仅仅停留在搜索结果的表面。人类会点击链接,从一个网页跳转到另一个网页,在相关信息之间建立连接。而目前的AI更多地依赖于重复搜索,缺乏这种顺藤摸瓜的能力。
另一个重要的改进方向是查询优化。人类会根据前一次搜索的结果来调整下一次搜索的策略,这种自适应能力是AI需要学习的。目前的AI虽然能够进行多轮搜索,但往往缺乏这种前后呼应的连贯性。
推理时间缩放的实验结果给我们带来了希望。既然让AI多尝试几次能够显著提高成功率,这说明AI确实具备解决这些复杂问题的潜在能力,只是需要更好的方法来激发和利用这种能力。未来的研究可能会专注于如何在单次尝试中就能发挥出这种最佳表现。
GISA基准本身也在不断演进。研究团队承诺定期更新实时问题的答案,确保基准测试始终具有挑战性,不会因为数据泄露而失去意义。这种动态更新机制对于保持基准测试的有效性至关重要。
从更广阔的角度来看,GISA代表了AI评估方法的一个重要进步。它不仅关注最终结果的正确性,还记录了完整的搜索过程,为理解AI的推理过程提供了宝贵的数据。这种过程级的监督可能会成为未来AI训练的重要组成部分。
此外,GISA的多格式答案设计也为AI的结构化输出能力提供了全面的测试。在实际应用中,用户往往需要结构化的信息,而不仅仅是文本描述。AI能否按照用户的要求提供格式化的答案,这将是决定其实用性的重要因素。
当然,GISA也有一些局限性。目前它只关注基于文本的搜索,没有涉及图片、视频等多媒体内容的处理。随着AI能力的发展,未来的基准测试可能需要包含更多模态的信息处理。
另一个局限是基准的规模。由于构建过程需要大量的人工投入,GISA目前只包含373个问题。虽然这个数量足够进行评估,但对于大规模的AI训练来说可能还不够。如何在保证质量的同时扩大基准规模,这是一个需要解决的挑战。
成本也是一个需要考虑的因素。从测试结果来看,表现最好的模型往往成本也最高。如何在性能和成本之间找到平衡,这对于AI搜索助手的实际部署非常重要。一些成本较低的中国模型虽然性能稍差,但在特定场景下可能更具实用价值。
说到底,GISA基准测试给我们带来的最重要启示是:AI搜索助手的发展还处于早期阶段,有巨大的改进空间。就像是早期的汽车虽然比马车快,但距离现代汽车的性能还有很大差距一样,当前的AI搜索助手虽然已经展现出了一定的能力,但距离真正智能的信息检索助手还有很长的路要走。
但这也意味着巨大的机遇。随着技术的不断进步,未来的AI搜索助手可能会彻底改变我们获取和处理信息的方式。也许有一天,我们真的能够拥有一个像人类专家一样智能的私人研究助理,能够理解我们的复杂需求,自动进行深入的信息收集和分析,并以我们需要的格式提供准确全面的答案。而GISA基准测试,正是通向这个未来的重要里程碑。
A:GISA是由人民大学和快手科技开发的AI搜索助手测试标准,包含373个人类设计的真实搜索问题,用四种答案格式(单项、集合、列表、表格)来全面评估AI的信息搜索和整理能力。
A:主要原因包括三个方面:无法制定有效搜索策略,不会利用网页链接深度探索,以及难以按要求格式化输出答案。即使表现最好的Claude 4.5 Sonnet整体正确率也只有19.30%。
A:GISA的问题都来自真实的人类搜索需求,不是反向工程设计的;它同时测试深度搜索和广度信息收集能力;还包含会定期更新答案的实时问题,防止AI通过记忆作弊。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
宝宝巴士“有毒”!展示“三女共侍一夫”等内容被罚30万,违法所得才3.68元
不要让孩子看手机!研究表明幼儿每多看30分钟屏幕,语言发育迟缓风险激增49%
苹果发布AirPods Max 2:售3999元 搭载H2芯片/主动降噪更强
黄仁勋GTC完整演讲:生成Token的成本与效率,决定科技企业的营收与生死
Beats发布Nike特别版Powerbeats Pro 2 经典荧光黄配色
iOS 26.4正式版要来了,苹果确认将在AirPods Max 2上市前推送!
Copyright © 2002-2024 U8国际电子监控有限公司 版权所有 Powered by EyouCms TEL: 025-83700868
地址:南京市鼓楼区三步两桥145号 邮箱:bafanglaicai@126.com