你的位置:jk露出 > 张筱雨写真 >
五月桃色网 从繁芜到有序:Exa让网罗搜索酿成你的私东说念主数据库
发布日期:2024-12-16 06:17    点击次数:55

五月桃色网 从繁芜到有序:Exa让网罗搜索酿成你的私东说念主数据库

欧美性色图

一家名为 Exa 的初创公司正在推出一种新的生成搜索引擎,愚弄 LLM 背后的技巧来复返终局列表,并宣称这些终局比和 OpenAI 等竞争敌手的终局更准确。此姿首的观念是将互联网上繁芜的网页酿成一种目次五月桃色网,提供具体而精准的终局。

Exa 已将其搜索引擎动作后端就业提供给但愿在其基础上构建我方的应用要津的公司。近期,该公司推出了该搜索引擎的第一个耗尽者版块:Websets。

“网罗是数据的鸠合,但它很繁芜。”Exa 聚合创举东说念主兼首席实践官 Will Bryk 暗示,“这里有一个 Joe Rogan 的视频,何处有一篇《大欧好意思月刊》的著述,整个莫得组织性。咱们的诡计是让网罗嗅觉更像一个。”

Websets 面向高等用户,他们需要查找其他搜索引擎不擅长查找的内容,举例东说念主员或公司类型。如若搜索“制造改日硬件的初创公司”,Websets 会给出数百个具体公司的列表,而不是指向说起这些术语的网页的就地持续。Bryk 说,谷歌无法作念到这小数:“对于投资者或招聘东说念主员,或者想要从网罗上获得任何类型数据集的东说念主来说,Websets 齐能提供更多价值。”

自从 MIT TR 于 2021 年报说念谷歌筹商东说念主员正在探索在新式搜索引擎中使用 LLM 以来,研究事件发展飞速,导致这个观念很快就招来了蛮横的品评,但科技公司并不介意。三年昔时了,谷歌和微软等巨头与 Perplexity 和 OpenAI 等一大齐新晋者争夺这一热点新趋势,况兼 OpenAI 还在 10 月份推出了 ChatGPT Search。

Exa 还莫得试图特殊任何一家公司,性花都但它提议了一些新的东西。其他大多数搜索公司围绕现存搜索引擎包装 LLM,使用这些模子分析用户的查询,然后总结终局。但搜索引擎自己并莫得发生太大变化。举例,Perplexity 仍然将其查询定向到 Google 搜索或 Bing。通俗剖析,不错把当前的 AI 搜索引擎遐想成一个三明治,外侧是簇新的面包,但内部的馅料一经变质了。

不单是是环节词

Exa 为用户提供了闇练的持续列表,但使用 LLM 背后的技巧来再行遐想搜索自己。基本念念路如下:Google 的职责道理是握取网页并构建多量环节字索引,然后将其与用户的查询进行匹配;Exa 握取网页并将网页内容编码为一种称为镶嵌的形势,一种 LLM 不错处理的情势。

镶嵌将单词疏浚为数字,这么具有同样含义的单词就酿成了具有同样值的数字。本色上,这让 Exa 大约捕捉网页上文本的含义,而不单是是环节字。

LLM 使用镶嵌来料想句子中的下一个单词,而 Exa 的搜索引擎会料想下一个持续,输入“制造改日硬件的初创公司”,该模子就会给出可能跟在该短语后头的持续。

虽然,Exa 的循序亦然有代价的。对网页进行编码而不是对环节字进行索引既慢又腾贵。Bryk 暗示,Exa 一经对数十亿个网页进行了编码,与谷歌比拟,这个数字微不及说念,谷歌一经对率性一万亿个网页进行了索引。但 Bryk 并不以为这是一个问题:“你无谓镶嵌通盘这个词网罗才略施展作用。”他说。(一个道理的事实:“exa”暗示为 1 后头随着 18 个 0,“googol”暗示为 1 后头随着 100 个 0。)

Websets 复返终局的速率很是慢,搜索偶而需要几分钟。但 Bryk 宣称这是值得的。“咱们的许多客户运转条目提供数千或数万个终局。”他说,“他们悠闲去喝杯咖啡,然后追念看到一大堆终局。”

“当我不知说念我方到底在寻找什么时,我发现 Exa 最灵验。”斯坦福大学讨论机科学系学生 Andrew Gao 使用过该搜索引擎,他说说念。“举例,查询‘一篇对于金融法学硕士的道理博客著述’在 Exa 上比在 Perplexity 上遵循更好。”但他也暗示,它们各有千秋:“我将两者用于不同的观念。”

“我以为镶嵌是暗示试验宇宙中的东说念主、地方和事物等实体的好循序。”Diffbot 首席实践官 Mike Tung 暗示,该公司使用常识图谱构建了另一种搜索引擎。但他指出,如若你试图镶嵌通盘这个词句子或整页文本,就会丢失多量信息:“将《干戈与和平》暗示为单个镶嵌会丢失该故事中发生的险些通盘具体事件,只留住对其类型和时刻的一般了解。”

Bryk 承认 Exa 还在修复中。他还指出了其他舍弃。如若你只想查找一条信息,比如 Taylor Swift 男一又友的名字,或者 Will Bry 是谁,Exa 不如竞争敌手的搜索引擎好:“它会给出好多听起来像波兰东说念主的东说念主,因为我的姓氏是波兰东说念主。不错看出,镶嵌在匹配精准环节词方面发扬欠安。”他说。

当前,Exa 通过在需要时将环节词再行组合来处置这个问题。但 Bryk 对此持乐不雅作风:“咱们正在弥补镶嵌循序中的劣势,使其变得越来越好,直到咱们不再需要特殊技能修正。”

https://www.technologyreview.com/2024/12/03/1107726/the-startup-trying-to-turn-the-web-into-a-database/



 
 


Powered by jk露出 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024