潮新闻客户端 记者 张云山
7月7日消息,阿里通义开源了网络智能体WebSailor,该智能体具备强大的推理和检索能力,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。目前WebSailor的构建方案及部分数据集已在Github开源。
最近一年,大模型的信息检索和推理能力取得了巨大的进步,但面对高度不确定、线索模糊的任务时,AI的回答准确率仍处于较低水平。今年4月,OpenAI开源了浏览器检索评测集BrowseComp,旨在评测大模型和智能体的检索性能,发布数月以来,该评测集包含了1266个高难度问题,是目前难度最高的评测集之一,业界尚无开源系统取得接近闭源模型的成绩。