如何使用MyScale将知识库引入OpenAI的GPT

正在检查是否收录...

译者 | 李睿

审校 | 重楼

2023年11月6日，OpenAI公司对外发布了ChatGPT。在这个无代码平台上，专业(或业余)开发人员可以使用工具和提示构建定制的GPT或聊天机器人，有效地改变他们与OpenAI GPT的交互。以前的交互（LangChain或LlamaIndex）强制使用动态提示从GPT检索响应。现在，OpenAI GPT通过调用外部API或工具来处理动态提示。

这也改变了开发人员在MyScale构建RAG系统的方式，从构建带有服务器端场景的提示到将这些场景引入GPT模型。

MyScale简化了将场景引入GPT的方式。例如，OpenAI公司的方法是通过Web UI将文件上传到GPT平台。同时，MyScale允许开发使用SQL WHERE子句混合结构化数据过滤和语义搜索，以更低的成本处理和存储更大的知识库，以及在多个GPT之间共享一个知识库。

现在就可以在GPT商店试用MyScaleGPT，或者将MyScale的开放知识库与托管在Hugging Face上的API集成到应用程序中。

BYOK：采用自己的知识

GPT在过去的一年中有了很大的发展，它在共享知识领域获得的知识比最初发布时要多得多。然而，仍然有GPT一无所知或不确定的特定主题，例如特定领域的知识和当前事件。因此，正如在之前的文章所描述的，必须将存储在MyScale中的外部知识库集成到GPT中，以提高其真实性和有用性。

当开发人员使用MyScale构建RAG时，将LLM引入他们的链(或堆栈)。这一次需要将MyScale数据库带到GPT平台。不幸的是，目前还不可能直接在GPT和MyScale之间建立连接。因此，调整了查询接口，将其公开为REST API。

由于之前在OpenAI函数调用方面的成功，现在可以设计一个类似的接口，其中GPT可以使用类似SQL的过滤器字符串编写向量搜索查询。在OpenAPI中的参数如下：

 "parameters": [ { "name": "subject", "in": "query", "description": "A sentence or phrase describes the subject you want to query.", "required": true, "schema": { "type": "string" } }, { "name": "where_str", "in": "query", "description": "a SQL-like where string to build filter", "required": true, "schema": { "type": "string" } }, { "name": "limit", "in": "query", "description": "desired number of retrieved documents", "schema": { "type": "integer", "default": 4 } } ]

有了这样的接口，GPT可以用SQL编写的过滤器提取关键字来描述所需的查询。

向不同的表提供查询条目

有时可能需要查询不同的表。这可以使用单独的API条目来实现。每个API条目在其文档下都有自己的模式和提示。GPT将读取适用的API文档，并将正确的查询写入相应的表。

值得注意的是，之前介绍的方法（例如自查询检索器和向量SQL）都需要动态或半动态提示来描述表结构。与其相反，GPT的功能类似于LangChain中的会话代理，其中代理使用不同的工具来查询表。

例如，API条目可以在OpenAPI 3.0中编写如下：

JSON "paths": { // query entry to arxiv table "/get_related_arxiv": { "get": { // descriptions will be injected into the tool prompt // so that GPT will know how and when to use this query tool "description": "Get some related papers." "You should use schema here:\n" "CREATE TABLE ArXiv (" " `id` String," " `abstract` String," " `pubdate` DateTime," " `title` String," " `categories` Array(String), -- arxiv category" " `authors` Array(String)," " `comment` String," "ORDER BY id", "operationId": "get_related_arxiv", "parameters": [ // parameters mentioned above ], } }, // query entry to wiki table "/get_related_wiki": { "get": { "description": "Get some related wiki pages. " "You should use schema here:\n\n" "CREATE TABLE Wikipedia (" " `id` String," " `text` String," " `title` String," " `view` Float32," " `url` String, -- URL to this wiki page" "ORDER BY id\n" "You should avoid using LIKE on long text columns.", "operationId": "get_related_wiki", "parameters": [ // parameters mentioned above ] } } }

根据这个代码片段，GPT知道有两个知识库可以帮助回答用户的问题。

在为知识库检索配置GPT操作后，只需填写指令并告诉GPT如何查询知识库，然后回答用户问题：

注：

尽量回答问题。随意使用任何可用的工具来查找相关信息。在调用搜索函数时，保留查询中的所有详细信息。使用MyScale知识库查询字符串数组时，请使用has(column, value)进行匹配。对于发布日期，使用parsedatetime32bestefort()将时间戳值从字符串格式转换为日期时间对象，不使用这个函数转换日期时间类型的列。开发人员应该始终为其使用的文档添加参考链接。

将数据库托管为OpenAPI

GPT采用OpenAI 3.0标准下的API。有些应用程序(例如数据库)没有OpenAPI接口。因此，需要使用中间件将GPT与MyScale集成在一起。

开发人员已经在Hugging Face上托管了与OpenAI兼容的接口的数据库。使用flask-restx app.py, funcs.py来简化和自动化实现，因此代码小、干净、易于阅读。

这样做的好处是提示和函数都绑定在一起了。因此，不需要过多考虑提示、功能和可扩展性的组合；用人类可读的格式来写。GPT将从转储的OpenAI JSON文件中读取这个文档。

注：

flask restx只生成Swagger 2.0格式的API。必须首先使用Swagger Editor将它们转换为OpenAPI 3.0格式。你可以在Hugging Face上使用JSON API作为参考。

GPT使用API中的场景运行

在适当的指导下，GPT将使用特殊函数仔细处理不同的数据类型。这些数据类型的示例包括ClickHouse SQL函数，例如用于数组列的has(column, value)和用于时间戳列的parsedatetime32bestefort (value)。

在将正确的查询发送给API之后，它(或API)将使用WHERE子句字符串中的过滤器构造向量搜索查询。返回的值被格式化为字符串，作为从数据库检索到的额外知识。正如以下的代码示例所描述的，这个实现非常简单。

Python 1 class ArXivKnowledgeBase: 2 def __init__(self, embedding: SentenceTransformer) -> None: 3 # This is our open knowledge base that contains default.ChatArXiv and wiki.Wikipedia 4 self.db = clickhouse_connect.get_client( 5 host='msc-4a9e710a.us-east-1.aws.staging.myscale.cloud', 6 port=443, 7 username='chatdata', 8 password='myscale_rocks' 9 ) 10 self.embedding: SentenceTransformer = INSTRUCTOR('hkunlp/instructor-xl') 11 self.table: str = 'default.ChatArXiv' 12 self.embedding_col = "vector" 13 self.must_have_cols: List[str] = ['id', 'abstract', 'authors', 'categories', 'comment', 'title', 'pubdate'] 14 15 16 def __call__(self, subject: str, where_str: str = None, limit: int = 5) -> Tuple[str, int]: 17 q_emb = self.embedding.encode(subject).tolist() 18 q_emb_str = ",".join(map(str, q_emb)) 19 if where_str: 20 where_str = f"WHERE {where_str}" 21 else: 22 where_str = "" 23 # Simply inject the query vector and where_str into the query 24 # And you can check it if you want 25 q_str = f""" 26 SELECT dist, {','.join(self.must_have_cols)} 27 FROM {self.table} 28 {where_str} 29 ORDER BY distance({self.embedding_col}, [{q_emb_str}]) 30 AS dist ASC 31 LIMIT {limit} 32 """ 33 docs = [r for r in self.db.query(q_str).named_results()] 34        return '\n'.join([str(d) for d in docs]), len(docs)

结论

GPT确实是OpenAI开发者界面的重大改进。开发人员不需要编写太多代码来构建他们的聊天机器人，而且工具现在可以自带提示。我们为GPT创造一个生态系统是很美好的。另一方面，鼓励开源社区重新考虑将LLM和工具结合起来的现有方式。

因为相信将外部知识库存储在外部数据库中，将会提高LLM的真实性和有用性。很多人正在寻找新的方法来整合像MyScale这样的矢量数据库和LLM。

原文标题：

Bring Your Knowledge Base Into OpenAI’s GPTs With MyScale

，作者：Fangrui Liu

gptapiopenai知识库arxiv数据库code开发人员scriptsqlschemallmdocctochaturlhugging face过滤器clijsonrag外部知识库wikipedialangchainparse真实性swaggercreate时间戳向量搜索聊天机器人机器人应用程序transformerapi文档webword查询接口中间件openai兼容回答问题editor