首页 » 我们该如何处理这

我们该如何处理这

无论您是用户还是营销人员,Robin 都会向您解释您应该了解的有关大型语言模型的知识。

单击上方的白板图像即可在新选项卡中打开高分辨率版本!

大家好,我是 Robin。欢迎回到 Whiteboard Friday。大约一年前,ChatGPT 等基于大型语言模型的工具问世,让我们所有人都开始思考如何才能更好地使用它们,无论是个人还是营销人员。在这段视频中,我不会让您成为机器学习专家,我想我也不会重复人们迄今为止所说的内容。

但我将分析其中的一些技术及其局限性,我认为这将为我们提供很多线索,告诉我们作为个人和营销人员如何最好地利用它们,我想你会惊喜地发现,其中很多技术与我们习惯的东西有相似之处。

ChatGPT 的工作原理

那么,让我们从 ChatGPT 需要经过的步骤开始,例如,回答你的问题。同样,像搜索引擎一样,他们必须首先收集数据。

然后,他们需要以他们能够访问的格式保存数据,然后他们需要在最后给你一个答案,这有点像排名。如果我们从收集数据开始,这是最接近我们所熟知和喜爱的搜索引擎的部分。所以他们基本上是访问网页,爬取互联网,如果他们没有访问过网页或从其他来源获得信息,他们就不知道答案。他们在这里处于劣势,因为搜索引擎一直在这样做,几十年来一直在记录这些信息,而他们才刚刚起步。

因此,他们还有很多工作要做。互联网上有很多不同的角落他们还没有真正能够访问。他们可以做的事情之一,是他们可以收集其他搜索引擎无法访问的信息,那就是聊天数据。因此,当您使用这些平台时,他们会收集有关您输入的内容以及您如何与之交互的数据,这些数据将输入到他们的训练模型中。

因此,在使用 ChatGPT 等平台时,您需要注意的一件事是,如果您在其中输入了私人数据,那么输入后数据不一定是私人的。因此,您可能需要查看设置或使用 API,因为它们往往承诺不会使用 API 数据进行训练。如果我们进入第二阶段,保存这些信息,这就是我们所说的搜索索引,这就是事情略有不同的地方,但仍然有很多相似之处。

因此,在搜索引擎发展的早期,实际上,索引和它们保存的数据并没有像我们习惯的那样实时更新。当某个东西出现在互联网上时,我们无法确定它会出现在某个搜索引擎中。它们往往每隔几个月更新一次,因为更新成本非常高。它们进行这些索引更新在时间和金钱方面都很昂贵。目前,我们在大型语言模型方面也面临类似的情况。

你可能注意到,他们时不时会说:“好的,我们已经更新了。”目前,它所获得的信息将一直有效到 4 月左右。这是因为当他们想将更多信息放入模型中时,他们实际上必须重新训练整个模型。所以,这对他们来说成本非常高。这两种限制都会影响你最终得到的答案。

我确信您已经看到了这一点。您可能正在使用 ChatGPT,但它恰好没有看到您询问的信息,或者它拥有的信息已经过时。

您可能已经处理过这个问题的方法是将一堆上下文复制并粘贴到聊天窗口中,这是这些工具特有的功能,我们可以充分利用它。或者您可能已经让 Bing 离开并查找某些内容。这是我们使用这些工具时非常习惯的一种动态,但它是大型语言模型特有的,事实上,我们可以通过将内容转储到短期记忆中并要求它处理这些内容来弥补长期记忆中的空白。

有趣的是,即使我们不做这些事情,这也正是在后台发生的事情。因此,当您与 ChatGPT 进行对话时,该模型实际上甚至不记得它上次发送给您的内容。每当您发送消息时,都会有一个脚本在运行,它会复制整个对话,而您发送的消息实际上是机器与人之间的对话,最后会有一个问题。

接下来你会说什么?所以它没有任何记忆,这对我们来说很有用,因为我们实际上依赖于在所有这些类型的交互中尽可能地将所有上下文转储到短期记忆中的能力,并且可能存在一些限制。

上下文窗口

因此,过去主要的限制只是您可以容纳多少信息,并且许多对话都归结为上下文窗口。

以前你无法在其中粘贴那么多信息。但我们现在可以放入很多信息。使用 OpenAI GPT-4.5,你可以粘贴大约 300 页的文本。而使用主要竞争对手 Anthropic,你可以粘贴大约 500 页的文本。所以我们真的已经到了我不想在每个提示中复制和粘贴那么多信息的地步。

这实际上不再是一个限制了。

ChatGPT 需要克服的问题

但作为公司和这些工具的开发者,我们仍然面临一些需要克服的问题。

问题之一是 500 页内容很多,但仍然不是整个互联网。因此,我们仅将所有内容粘贴到短期记忆中仍然无法弥补他们知识上的空白。

另一个问题是,刘等人和其他一些研究人员进行了大量研究,他们发现,如果你在这种短期背景下工作,如果你将大量信息输入提示中,而它需要提取的关键信息却埋在中间的某个地方,那么它提取这些信息的准确性就会相当一致地下降。

事实上,与购买下一个最昂贵的模型相比,只需获取相关信息并将其放在提示的开头,就可以获得更好的性能提升。所以这对我们来说是一件很有趣的事情,因为当我们使用这些模型时,一方面我们知道我们会定期将大量信息转储到上下文中。就像它就是这样关注我们的对话的。

这就是我们填补知识空白的方法。因此,一方面,我们不想搜索所有这些不同的文档并准确找到正确答案。这正是我们要求 ChatGPT 做的事情。但另一方面,如果我们在其中放入大量不相关的东西,它就越来越有可能错过我们真正希望它处理的东西。

我们该如何处理这些问题?

因此,我们可以采取一些措施来解决这个问题。首先    , 香港电报数据 就我们个人而言,我们可以记住,长对话基本上都被转储到这个上下文窗口中。因此,如果我们在谈论一件事,然后我们实际上想切换到另一件事,我们基本上可以决定切换到新的聊天,这在这些界面中非常容易。我们可以做的另一件事是注意诸如超级提示之类的事情。

因此,这实际上是精简的指令块,您经常会发现人们将其放在这些交互的顶部。同样,这可能意味着事情会转移到中间部分,而事情往往会在这里丢失。因此,我们试图确保尽可能集中注意力。当然,如果我们也在其中倾倒大量信息,我们会尝试剔除一些我们知道不太相关的内容。

检索增强生成 (RAG)

解决此类问题的另一种方法是更技术化、更企业化, 首届巴西国际区块链会议 但作为一个不断发展的行业,我们所有人都应该意识到这一点,这就是所谓的 RAG。RAG 代表检索增强生成。这种变化的方式基本上是,我们的问题不再直接发送到 ChatGPT,而是有一个单独的数据库,里面有我们想要的重要信息。

因此,这可能是我们公司所有不想对外公开的内部文档。也可能只是一堆我们知道相关但无法直接复制粘贴到上下文中的内容。因此,我们有这个单独的数据库,并且有称为矢量数据库的工具,这些工具本质上是为与大型语言模型配合使用而设计的,并且具有与大型语言模型非常相似的逻辑。

因此,他们可以提取最相关的文档,这些文档应该作为提示的一部分,并自然地将其添加到上下文中。因此,这可以自动完成您搜索、复制和粘贴内容并剔除不太相关的内容的步骤。它使流程更加精简,并为您提供了一种更私密但更符合上下文的工具版本,并且它开始解决我们在知识缺失方面存在的一些问题。

因此,就需要注意的事项和可能想要参与的工 阿拉伯语数据 作而言,值得记住的是,这就是人们谈论 RAG 时的意思。但这对我们个人意味着什么?这对我们搜索营销人员意味着什么?好吧,正如我之前所说,这些公司有几个相当大的问题,这使得他们很难填补他们知识上的所有空白。

至少它相当昂贵。目前,这不是什么大问题。这些工具太新了,我们并不介意进行一些复制和粘贴。但我认为,我们很快就会开始根据这些工具的易用性来比较它们。我是否必须不断提醒它我上周用过的东西?如果是这样,我可能会换用另一个不需要我做太多事情的工具。所以他们必须以某种方式解决这个问题。

解决这个问题的一个方法是从一开始就嵌入 RAG。因此,从本质上讲,当您使用此工具时,它们有三层记忆。它们有长期记忆,即模型,这是它目前的工作方式;短期记忆,即您转储到文本聊天中的内容;然后是中期记忆,即他们能够收集的信息,但他们还没有时间或资源将其嵌入模型中。

现在,如果您尝试自己做 RAG,并且您有技能、时间以及一些编码知识,我建议您尝试一下,您会发现您得出的很多结论都非常熟悉。例如,HTML 是一种非常棒且灵活的信息交流方式。如果有人设计了一个好页面,并在其中添加了正确的标题,那么提取最相关的内容就会变得容易得多,然后这些信息就更有可能出现在您的答案中。

同样,如果你有一个页面,里面充满了无关的内容和一些有用的信息,或者有一个页面与你正在考虑的主题非常相关,那么第二个页面很可能就会出现。因此,当我们开始考虑 RAG 时,我们在优化搜索引擎方面所考虑的事情就非常重要了。即使他们不走 RAG 的路线,我们知道他们仍然必须抓取并找到所有这些信息。

因此,拥有非常值得爬虫花时间访问的、结构非常好、易于理解、非常相关的页面的想法,这些都是让我们思考如何为未来可能针对大型语言模型进行优化做好准备的好方法。

需要牢记的因素

总而言之,作为个人,如果我们正在使用类似 ChatGPT 之类的东西,我们需要记住数据不是私密的,因此您可能需要查看您的设置或使用 API 进行检查。

我们希望对话尽可能集中在我们想要的事情上。如果我们要粘贴一堆数据,请进行一些检查,以尝试剔除那些我们知道肯定不会有答案的东西。就搜索营销人员而言,如果您目前正在针对搜索引擎优化您的网站,并且有人问您:“但是您正在做什么来确保我们为大型语言模型做好准备”,我们不知道具体会发生什么,但可以肯定的是,您现在为使搜索引擎受益而做的事情将与即将到来的大型语言模型非常相关。

滚动至顶部