专利检索的薛定谔时刻

2023-07-07 18:30:51
专利检索的薛定谔时刻

图片

作者 | 薛定谔的检索人

编辑 | 布鲁斯

Chapter I

智能革命与行业死水

从去年的chatGPT时刻到当前持续中的“千模大战”,似乎一个AI完爆各路打工人的时代已经到来了,事实上有些标志性的行业也确实如此,比如画师,比如程序员。这些领域里的打工人弱的是直接走人,强的必须与AI共存,属于真正意义上的行业变天,整个行业生态是彻底的改朝换代。

但是另一方面,具体到咱们广大知识产权领域,特别是专利领域特别熟悉的专利检索。似乎就是一潭死水,各路商业数据库厂商除了隔三差五假装开发出了新产品,大小涉及AI出来吼一吼,实则是无能停滞状态,感觉不是在冬眠就是夏歇。再看各路检索人员,比如国知局的各种事业编和雇佣军,所谓检索战线上的“纺织女工”已经从世纪之初喊到了现在,但是不敢说是饭碗端的一年比一年更稳了,反正是没看出能有什么改变的迹象来。

Chapter II

检索的本质与工具的局限

检索自动化不出现,背后的原因何在?首先我们看检索本身的实质是什么:专利检索这个工作本质上就是一个智力领域的力气活儿,说白了就是一个投入时间与精力挨个看挨个比较的问题。人类的时间与精力均有限,所以一直是依赖所谓的专家技能或者说是专业直觉进行着必要的取省来看一个有限集合的结果并根据结果的效果来调整新的目标阅读方向。尽管最近这些年确实出现了一票所谓的各路神仙算法,语义也好,智能也罢,事实上就是均是助力而非绝杀。显然现在市面上的任何一款专利检索数据库产品的算法也不能100%单纯靠算法就解决问题,检索“混合所有制”,即算法辅助,老专家布尔开路的混合方式才是当下的真主流。

Chapter III

大模型行不行

了解到了专利检索的实质和当下的真实,我们再说说从逻辑上讲GPT的本领能不能干这件事:

从技术层面上讲,chatGPT以及其最新版GPT4.0显然是可以做这件事,大语言模型看得懂也比较的来,别说检索出来对比文件了,给你按照各国的专利法、实施细则乃至审查指南把新创性给评价了也是一点儿问题都没有。而当年真的向大模型去询问去诉求一个检索,比如询问GPT某某专利最接近的现有技术是什么,它一本正经的给你回复几个号码,你满心欢喜打开一看,不是那么回事,是号码也不对内容也不对,典型的一本正经的编故事胡说八道式的回答。

大模型的这种看似专家实则“胡扯”的问题不仅仅出现在专利检索类问答,事实上会普遍意义上的存在,行业内称之为“幻觉”。人民群众认为这是大模型没能力的体现,也有部分伪专家认为这是缺乏相应的数据库,比如专利数据库训练的结果,但是更多的学者认为这本质上是大模型具备类人类智力的一个具体体现,即模型训练更多的是训练了逻辑,比如词法句法语法以及上下文的逻辑,思维链的构成,也在部分程度上生成了对于很多内容的记忆。我们思考,对于人类而言,我们经过学习训练会记得自己祖国的首都,会背诵特定的诗词,但是对于非常准确的记忆,比如公元200年7月5日是星期几这样的问题,人类事实上并不擅长直接看后就能记住。同时人类也没有必要去浪费大脑的算力与存储空间来记忆这些琐碎的内容,我们只需要创造一些合适的工具,比如电脑化一个万年历,然后懂得去查询即可。同样的逻辑也适用于大模型,它也只需要制定出特定的合适的工具去记忆即可,而思考的能力,其实大模型很行!

Chapter IV

大模型二次开发的金钱壁垒

使用大模型的能力进行专利检索,本质上需要做的就是将所有的专利数据进行向量化,然后就可以在向量化的数据中进行专利检索了。此时由于背后是真实的专利数据,则检索的结果一定是可信的、科学的反馈。但是话虽如此,但是真正想利用大模型进行全部专利数据的向量化会是一个非常费钱的挑战。

事实上当前希望直接用到如ChatGPT的模型,其本质上是提供任何文档的向量化操作的,这个过程叫做文档的embedding,对于普通人来讲,我们做一个其实并不准确的比喻,那么你可以想象此时专利文献通过GPT背后的编码规则被编写成了一本字典,每一条专利都有自己的词条了。

题外话:当前直接在互联网上检索“GPT 文档 embedding”这样的主题,会有大量的手把手教学出现,事实上只要稍微懂一点编程即可具体实现。现实中已经有很多人将自己的资料库或者公司的业务数据利用这样的方法制作成了小型的“查询站”。假如对专利数据如法炮制,那么后续一定是可以非常方便的实现所谓的GPT检索专利这个目的的。

但是,这需要你有“钞能力”,按照ChatGPT的收费标准,每1000token(大概相当于700-900中文字)收费是0.002美金,看起来真的不贵,但是现在全世界专利大概有一亿六千万,即便考虑每篇专利平均10000字或者降低到平均1000字(显然不可能比1000字更低了),整个embedding的费用也是惊人的。这大概就是为什么我们还没有看到任何基于所谓大模型的专利检索工具的现实存在的原因。

Chapter V

专利检索的薛定谔时刻

薛定谔的猫,它既是活的也是死的。专利检索的智能时代,GPT时代,去人化或者至少是极大降低人类参与部分工作量的时刻,它既来临了,也还没出现。

对于大模型的能力我们说事实上已经具备,但是现实中如果类似国内百度,国外Google、OpenAI这样的大厂自己不去专门做专利数据向量化并开发对应的工具(注意,仅仅是训练过专利数据在当前模型能力状态下并不是代表其可以准确完成检索),那么对于广大专利数据商而言,相应的经费实在是不可承受之重。从这个角度上讲,我们不会有什么新一代的专利检索神器。

但是其实就在当前,也至少有两条路可以实现基于大模型的专利检索神奇时刻:

第一条:有限集内的embedding

转化一下思路,如果一个数据商基于自己现有的模型可以将潜在的命中专利集合压缩到一个范围内,比如一千篇,比如一万篇。这个问题就转变成了一个检索费用的问题。对于人类而言,阅读几百乃至一千篇专利文献需要的不仅仅是专业和责任,更是耐心与毅力,我们不排除这样的专业人士的真实存在,但是更多情况下恐怕都是无奈的心知肚明的妥协。这就是为什么市面上其实有还算凑合的检索工具,甚至可以结合多套检索工具生成它们推荐的并集进行考虑,但是一旦超过几十篇文献需要具体阅读筛选,人类的战斗力就呈现垂直曲线斜率下降趋势。那么当前的数据商基于自己的现有模型进行开发,将可信的检索结果压缩到一个数量范围内,剩下的具体筛选过程直接交给大模型进行embedding处理,这个就变成了一个纯粹的金钱问题,多少篇也就是多少token,也就是多少钱。那么对于类似国知局的日常检索,也许这个价格依然不可接受或者不如审查员便宜,但是对于很多无效检索,这个价格就会是正常价格,同时这个解决方案也就是最优解决方案。

第二条:利用开源模型

当前事实上也有非常多的开源模型,相对于GPT,这些模型可能算是大模型中的小模型,效果会大打折扣,但是其实对于专利检索还真未必。因为当前大模型对于尺寸不够大的模型的碾压主要来自于思维链,说直白,说通俗就是大模型涌现了真人对话的能力,而稍小的模型在对话时看起来更像是“智障”。但是检索专利更多的使用的是向量化这个能力,基于transformer架构对于之前向量化工具的碾压,特别是长文本关注能力的提升,本质上也许基于更大的模型可能对于整篇专利的向量化表征会更精准,但是小模型就未必办不来这件事。特别是开源的小模型当前已经可以在消费级别的显卡上就完成训练了,这对于广大专利数据商来说还是完全可以操作的。

走第二条路一是费用可控,二是模型是自己的,所谓“技术自主”,三是横竖结果一定比当前的检索系统中的各路语义或智能会好(基于对transformer架构的信心以及基于香农信息论的基本认知)。

这样看来,如果相关数据商已经想到了上述方案或者此时看到了上述方案亦或者说他们已经在实施更好的方案中。那么我们讲专利检索的人工时代或者叫做半自动时代已经结束了。

(本文仅代表作者观点,不代表知产力立场)

图片来源 | 网络

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
评论区

    下一篇

    无论是从行为正当性,还是各方利益平衡,抑或是域外司法实践等各方面进行分析,隐性使用关键词的行为都不构成不正当竞争,出于对自由竞争市场的尊重,法院应当予以鼓励和维持。

    2023-07-05 16:40:00