admin 2025-10-17
46
I好好用报道
前不久,市场上就有传言称,月之暗面国庆「憋大招」。
至于这个「大招」具体是啥,众说纷纭:
有人说和多模态有关,还有人说是关于深度推理的。
不过,就在上周五,月之暗面高调宣布,上线Kimi探索版。
消息一出,不少体验者纷纷涌入官网,「Kimi崩了」也一度登上热搜。
那么,这个探索版厉害在哪儿?它与Kimi普通版有啥区别?
这么说吧,Kimi探索版的搜索量是普通版的10倍,一次搜索即可精读超过500个页面。
而且,它还能模拟人类的推理思考过程,多级分解复杂问题,并进行深度搜索,即时反思改进结果。
这似乎和OpenAI的o1有着异曲同工之妙。
Kimi官方也很自信,「如果Kimi搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到」。
接下来,我们就实地测评一下,看看10倍搜索量、一次搜索可精读超500个页面的Kimi探索版,到底是搞噱头还是真实力?
Kimi官网链接:
1.中国票房过四十亿的电影都讲了什么故事?
我们先通过这个娱乐性的问题,一窥Kimi探索版的「脑回路」。
在答题之前,它会像分析师一样,预先规划解决问题的整体策略,将复杂问题分解为层次化的子问题,然后分步来执行。
具体来说,它先全网搜索中国票房过40亿的电影,然后查找这些电影的故事情节介绍。
此外,它还能即时反思搜索结果,在发现第一次回答中的情节简介存在信息缺失时,会主动补充更多内容。
我们又让它来总结上榜的电影具体票房,其回答与搜索引擎上的结果一致。
那么,Kimi普通版的表现如何呢?
其工作流程是先理解问题,然后通过较为粗略的关键词搜索网页。
从网页阅读数量来看,普通版仅阅读了25个网页,而探索版则是40个。
虽然普通版整体上回答没毛病,但是对于影片故事的介绍过于简单,也无法反思搜索结果。
2.请帮我总结一下特斯拉发布会
前几天的特斯拉发布会算是科技圈的大新闻了。
我们就让它总结一下特斯拉发布会的情况。
它阅读了11个网页,并在界面右侧显示所有的搜索结果,从中提取出四大亮点,分别是Robotaxi、Robovan、Optimus机器人和FSD自动驾驶,还分条缕析地介绍了它们的功能、设计、成本等。
我们进行了一一比对,回答全部正确,没有出现满嘴跑火车的现象。
我们继续追问,特斯拉发布了无人驾驶出租车,为啥股票会跌?
Kimi探索版不仅搜索了中文网站,还使用英文关键词,网罗了CBS、CNN等外文媒体报道。
3.甄嬛的生日和薛宝钗的生日相差几天?
我们再来问个无厘头的问题。
一直以来,大模型都是重度偏科者,写小作文嘎嘎好使,但一到数学题就抓瞎——
9.9和9.11谁大分不清,strawberry几个r搞不明白。
不过,计算甄嬛和薛宝钗这俩八杆子打不着的影视人物的生日,Kimi探索版有一套自己的解题思路。
在答题之前,Kimi探索版先是全网搜索甄嬛和薛宝钗的生日分别是哪天,并在页面右侧显示所有的搜索结果。
然后来到重头戏,计算二者生日差值。
它先算出从正月二十一到四月十七,每个月有几天,然后分别算出总天数,全部相加即可。
不过,它的回答还是有瑕疵,因为农历月份长度以朔望月为准,正月的天数并不固定,因此最终的计算结果仍有偏差。
4.ElonMusk的生日和SamAItman的生日相差几天?详细介绍计算过程。
农历的计算方法过于复杂,我们也搞不清楚,因此,就让Kimi探索版再计算一下马斯克和奥特曼的生日差。
我们专门用日期计算器检验了一下,Kimi探索版回答正确。
5.奥利弗在星期五摘了44个猕猴桃。然后在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中5个比平均大小要小。奥利弗有多少个猕猴桃?
前天,机器之心发布了一篇题为《给小学数学题加句「废话」,OpenAIo1就翻车了,苹果新论文质疑AI推理能力》的文章。
我们就拿文中的数学题来测一下Kimi探索版。
先来个正常的:奥利弗在星期五摘了44个猕猴桃。然后在星期六摘了58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,奥利弗有多少个猕猴桃?
Kimi探索版先把思路梳理得清清楚楚,然后每一步的执行都相当准确。
我们又在这道题目中,加了一句废话「但其中5个比平均大小要小」,OpenAI的o1就翻了车。
但是,Kimi探索版竟然没有被误导,得出了正确答案。
目前,Kimi探索版已覆盖全量用户。大家也抓紧去薅一波吧~
工具链接——
Kimi官网链接: