三二一,鹅库觅
全文 4201 字,阅读约需 6 分钟
三段思考
“概念-描述”到跨学科
搜索嵌入已成共识,个性化尚在萌芽
再怎么说,也有 20.8%
两篇文章
40%:“毫不重要”的中职世界
我观察的IMO金得主及他们所受的教育
一个问题
互联网公司降低的交易成本有极限吗?
还有一个回答:向量数据库的价值
三段思考
前两天突然收到了微信的通知,说《鹅库2303|ChatGPT、搜索和未来被改变的我们》(下称鹅库2303)因违反相关规定被删了。
这篇文章发了有四个多月了,甚至在发布的时候也有个 20 分钟的审核,在这几天突然被删了,说明这个世界上又发生了一些我们不知道的变化。
我的第一反应是 ChatGPT 的内容带来的,但是我写 AI 的内容很多,只有这篇被删了也不太合理。
后来我想到,前几天也看到36氪一篇讲中年男人在星巴克的文章被 ban 了。但是那篇文章的内容本身并没有看到太明显的问题,有问题的应该是选题方向。
然后我发现我那篇文章也提到了这个方向。
刚好四个月过去了,又有了很多变化,可以把这篇文章的一些内容再拿出来看看。
“概念-描述”到跨学科
去年我和朋友聊天的时候感叹道:“搜索引擎抵不上专家,尤其是跨领域的专家。”
“比如说,我有一个新想法,我可以和你当面讲清楚,你可能会告诉我‘你说的类似熊彼特的经济周期理论,可以去查查看’。”
“我知道我想的这些浅显的东西,一定有一万个前人想过了,但是我不知道该怎么搜到前人写的东西。因为我不知道他们管这个叫啥。这可能是个经济学的理论,本质上还可能是一些哲学理论的逻辑,但是我都不知道这些叫啥。”
现在的搜索引擎是从“概念”到“描述”,需要讲清楚你要查询什么,而讲清楚事情有很高的门槛,尤其是在陌生领域。
从前,找寻到人家的话语体系,才能通过搜索引擎敲开新知识的大门。
我在背景里提到的场景是:我拥有了一段描述,有没有可能检索到对应的理论,同时找到更多理论相关的内容。
其实我只要找到了理论的名字或者作者的名字,就已经拿到了打开新大门的钥匙,用传统的搜索引擎和wiki就可以解决了。
——《鹅库2303|ChatGPT、搜索和未来被改变的我们》
我在《鹅库2303》中提到,我发现 GPT 对我非常有用的能力是靠描述的概念搜索,它可以理解我描述的逻辑可能是什么概念,它还可以跨非常多的学科,一本活的百科全书。
“概念-描述”也不止于精准的描述,GPT可以针对同一个概念给出不同版本的描述,“概念-小学生/高中生/金融专业本科/精准的描述”。
一个能讲所有复杂概念简化成高中生、小学生能理解,24 小时秒回的 AI,谁能不心动呢?
现在看GPT-4 的能力,在概念理解上更进了一步,能够找到不同领域之间的关联关系。把一些八竿子打不着的东西建立起关系,脑洞很大,但又非常合理。
人脑的学习速度有限,现代科学的发展,每个人能精通一个领域一个方向中的一小块已经非常不容易了。但现实世界的很多问题,拥有跨学科的信息能找到更好的解法。有问题的时候,不如问问 GPT 有没有什么新方向的思路。
搜索嵌入已成共识,个性化尚在萌芽
其实仔细看看就会发现,上面的内容的不够精确,但是足够我寻根溯源了。
这也是 ChatGPT 被大家诟病的一点:无法保证信息的准确性,经常一本正经地胡说八道。
如果看了 ChatGPT 为什么会比 GPT-3 强这么多的技术原理,就会发现其中很重要的部分是加入了人类对内容的反馈。就像我感叹的:“chatGPT 加入了人类反馈的数据训练,结果‘更符合人类的预期’,而不是逻辑、数据和事实。”
但是这东西,如果信息不准,还得重新搜一遍,效率降一半啊。
这时候就要讲讲工业界的产品怎么融合学术界的模型了,也就是所谓“科技突破的产品化”。
...
那么,ChatGPT 现在胡说八道的情况,该怎么用产品化的办法解决呢?
这个问题也就是 new Bing 在做啥?
解决这个问题的方法,还可以“顺手”解决 ChatGPT 只有2021 年及之前数据的问题。
其实道理很简单,产品化的方法是把这里的流程串起来。Bing 拥有的是大量、及时有效的信息,而 ChatGPT 拥有的是极强的信息处理和认知的能力。
你在 new Bing 上做一次搜索,Bing 先用自己的搜索引擎跑一遍结果,将你输入的内容+ Bing 搜索的Top 结果通过某种固定的 prompt 传给 ChatGPT,让 ChatGPT 整理搜索数据并且回答你输入的问题。
举个例子来讲这是什么流程(以下内容均为虚构,Bing 并没有收录我的文章...):
首先,你输入了一个问题:“松鹅是谁?”
Bing 检索了一下这个问题,发现了这些资料,“松鹅有话说”、“松鹅批发、促销价格-阿里巴巴”、“鹅库2302|群号、验证码和npubxxx”、“一说到菌子,云南人的口水就流出来了”等等。
随后,Bing 开始组装 prompt:
如果你是必应,是微软旗下的一款搜索引擎。有一位来自中国大陆、很少用 Edge 浏览器的男性用户提问了这个问题:“松鹅是谁?”
请你总结以下资料,以必应的身份可爱而不失礼貌地回复给这名用户,记得附上文章的引用链接在最后:
标题:“松鹅有话说[[https://mp.weixin.qq.com/s/98bUNKdkviU1--B9_PPHwA](https://mp.weixin.qq.com/s/98bUNKdkviU1--B9_PPHwA)]”,摘要内容:“松鹅有话说,说话有松鹅”
标题:“松鹅批发、促销价格-阿里巴巴[[https://www.alibaba.com/](https://www.alibaba.com/)]”,摘要内容:“阿里巴巴为您找到2859条松鹅产品的详细参数,实时报价,价格行情,优质批发/ 供应等信息。 共 2859件 松鹅 相关产品 所有类目 实力商家 买家保障 进口货源 支持支付宝 材质保障 …”
标题:“鹅库2301|平行世界里的好东西[[https://mp.weixin.qq.com/s/yTMyUAc5uZx3Cl3zN5mciA](https://mp.weixin.qq.com/s/yTMyUAc5uZx3Cl3zN5mciA)]”,摘要内容:“在“松鹅有话说”的公众号后台回复“重振增长”即可获得该资料.一个问题今年看了吴晓波和罗振宇的两个跨年演讲.吴晓波的演讲...”
标题:“一说到菌子,云南人的口水就流出来了[[https://mp.weixin.qq.com/s/NN77V4YrEt3SM2imdZ-b9g](https://mp.weixin.qq.com/s/NN77V4YrEt3SM2imdZ-b9g)]”,摘要内容:“说到云南野生食用菌,首先当提“ 云南四大菌王 ”:松茸、鸡㙡 [zōng]、牛肝菌和干巴菌,此外还有鹅膏、红菇、鸡油菌、虎掌菌、口蘑、珊瑚菌等 。. 松茸. 松口 …”ChatGPT 看了一下内容,分了几类,用一些俏皮的语言和emoji给了回复。
new Bing可以根据 ChatGPT 的回复,可以包装一下形式,或者完全不调整内容,返回给用户。
纸上推理终觉浅,绝知此事要试试。
——《鹅库2303》
这篇文章发表在 new Bing 刚刚发布,但还没有对外体验的时候,我猜测了搜索引擎和GPT结合的流程。现在来看,其实是非常显然 & 大家达成了共识的实现。
受限于每个对话的长度(也就是context长度),我们没办法将所有数据都塞给 GPT 做分析,而且 GPT 是无状态的,没有记忆,每次都是“重新来过”。
所以产品的实现上,必须要找一个筛选信息的办法,将最有价值的信息塞给 GPT 做处理。
核心是筛选信息,有很多办法来筛选。
比如,我上文提到的利用已有的搜索引擎对接,将一堆网页内容筛选成摘要处理;再比如,业内共识的 Embedding 思路,将文本转换成向量,利用向量便于做词语相似度搜索的特点,来快速在大量文本内找到相关的内容。
无论是哪种筛选信息的办法,筛选都会牺牲一定的信息量。100 万字的小说里,可能有 500 个字和松鹅相关,向量搜索只能找到和“松鹅”两个字接近的 300 个字,搜不到用“那个男的”代替了松鹅的 200 个字。这可能是未来的一个发展方向,让内容的筛选更精准。
不过筛选并不意味着一定要用人能理解的内容塞给 AI,有一些人很难理解的内容(缺字跳字)AI 也是可以理解的。有团队借此来实现内容的(尽可能)脱敏。
更宏大的目标的目标是扩大上下文的长度,也可以省去筛选的工作。
四个月前,我还讲了在 prompt 塞入用户画像的设想,让无状态没记忆的 GPT 知道是给谁回复,实现个性化的回复。但是目前来看,这个方向还没有广泛用起来。可能是基于 AI 的新产品没太多画像的数据,也可能是 prompt 塞入画像的效果不明显。
再怎么说,也有 20.8%
有人说这是下一场工业革命,堪比蒸汽机的发明。我还无法想象出未来的模样,但可以确定的是:整个知识密集型行业都会因此而发生改变。
...
一个擅长使用工具的人的生产力变得更高,知识密集型行业的人才会进一步两级分化。
...
关于本科教育,我曾经在《自强和弘毅的这几年》写过。我认为本科教育的目的是让学生拥有了系统化学习的能力,而不是单纯的获取知识。也只有拥有了系统化学习的能力,才能够更好地适应新时代的变化。
...
最终,我放一张王慧文的朋友圈(我也是偷来的图)。
——《鹅库2303》
我推测被删除的部分和 20.8%有关,但再怎么说,这也是 20.8%。
我对这件事情的观念没有太大的变化,未来终会到来,也必须要坚持教育改革。我原本想给这篇文章的标题叫:《今天看了20.8%的青年、中职和 IMO 三篇文章》。
然后发现第一个文章也已经无法查看了,后两篇文章放在了推荐的位置,完全不同的视角,希望能给你一些新的感受。
两篇文章
40%:“毫不重要”的中职世界
这是一篇 21 年的文章,介绍中职学生的世界,纪实类的文章。随着教育分流的落实,未来会有更多学生走向职业发展的道路,也会有更多资源投到职业教育的发展,未来我们也会看到媒体有更多导向上的侧重。
我观察的IMO金得主及他们所受的教育
和中职一起推荐的是这篇 IMO(国际数学奥林匹克)教练的文章,总结了很多对于数学教育的思考。内容比较干,但是能看出来思考的问题以及思考问题的角度不同。
教育最终还是为人的,不同的路径适合不同的人和不同的家庭,没太多优劣。
一个问题
互联网公司降低的交易成本有极限吗?
前些天看到了一个观点,大致意思是:互联网公司的核心是建立连接,降低交易成本。
我对这个观点持怀疑态度,我认为一些互联网产品还是创造了新的事物和价值的。
但我在想,如果一个产品就是在降低交易成本,那这个交易成本的会不会有极限呢?互联网平台能够让双边市场有更高效的匹配,降低交易过程中匹配、谈判和监管的成本。如果核心做降低交易成本的双边平台(而不是创造新的供给和消费),在一个市场里多年耕耘,交易成本已经被充分压缩了,是不是这家公司在这个市场的价值也就到头了呢?
注:我会在评论区放 GPT-4 给出的回答,欢迎大家想想再看看 GPT 怎么说 & 讨论讨论
还有一个回答:向量数据库的价值
在《鹅库2314》中,我问了一个问题,向量数据库的价值。在和一些做工程的朋友们聊过以后,初步的结论(也欢迎交流)是:
向量数据库带来的核心价值就是搜索。 传统数据库也可以做向量搜索,但是如果没有索引,每次都要全量检索,消耗大且慢。 传统数据库也在做向量相关的内容,比如 pg.vector
向量搜索和业务数据都在一个数据库不一定是好事,可能会相互影响,单独为向量搜索场景搞一套环境也可以接受。
随手点赞在看,为周更充能!