“烧钱”的大模型:初探成本拆解与推理优化方法

编者按:大模型的成本问题一直以来是大家重点关注的问题,本文重点讨论了训练大型语言模型(LLMs)需要的成本,并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。

虽然很难准确预测LLMs未来会怎么发展,但可以肯定,如果成本问题得到解决,LLM会成为我们生活中不可或缺的一部分!

以下是译文,Enjoy!

作者 | Dmytro Nikolaiev (Dimid)

编译 | 岳扬

在过去的一段时间,机器学习被认为是一门复杂的、只有少数人可以理解的专业技术。然而,随着机器学习相关的应用变得越来越强大,公众的兴趣也随之高涨,导致大量有关人工智能的内容涌现。直到2022年11月我们看到ChatGPT时,高潮出现了,并且在2023年3月的GPT-4发布时达到了第二波高潮,此时即使是原来对AI最怀疑的人也会对当下神经网络的能力感到惊讶。

人工智能受到了大量群众的关注,网络上出现了大量有关人工智能的内容。其中一些内容无疑是有价值的,但其中相当大一部分在传播恐惧和误导性信息,比如传播人工智能将取代所有人类工作或发现神经网络可以赚取巨额财富的秘密之类的内容。 因此,消除关于机器学习和大型语言模型(LLMs)的误解,提供有价值的内容来帮助人们更好地了解这些技术变得越来越重要。

本文旨在讨论当下机器学习领域中经常被忽视或误解的内容——训练大型语言模型需要的成本。同时,本文还将简要介绍什么是LLM以及一些可能用于优化大模型推理流程的技术。 通过全面的介绍,希望能说服读者这些技术并非凭空而来。了解数据规模和底层计算有助于我们更好地理解这些强大的工具。

大多数时候,本文将依据Meta AI最近发布的关于LLaMA的那篇论文[1],因为它清晰明了地展示了该团队用于训练这些模型的数据和计算量。本文将分成以下几个部分:

  • 首先,本文将简要介绍当下最新的LLM是什么;

  • 然后,本文将讨论训练这些模型的成本;

  • 最后,本文将简要介绍一些模型推理技术的优化方法。

随着深入大型语言模型的世界,您会发现它既非常简单,同时也非常复杂。

01 大型语言模型简介

在我们探讨与训练大型语言模型(LLM)有关的费用及成本之前,首先让我们简单地定义一下什么是语言模型。

2018-2019年发布的几个语言模型的参数数量

如今的LLM通常有几百亿到几千亿的参数

图1来自DistilBERT论文

简单来说,语言模型是一种被设计用于理解或生成人类自然语言的机器学习算法。 最近,语言生成模型变得越来越受欢迎,其中包括OpenAI开发的GPT模型系列:ChatGPT、GPT-4等(GPT是指Generative Pre-trained Transformer,这样命名为了表明它基于 Transformer 架构[2])。

还有一些虽然不太流行,但依然很重要的模型。比如GPT-3(175B) [3] 、BLOOM(176B) [4] 、Gopher(280B) [5] 、Chinchilla(70B) [6] 和LLaMA(65B) [7] ,其中B代表参数的数量,其中许多模型也有较少参数的版本。

一些流行的LLMs架构。图片由作者提供

目前没有关于ChatGPT特别是GPT-4参数数量的信息,但似乎它们大概是相近的。

这些模型通过使用大量的文本数据进行“训练”,使它们能够学习自然语言复杂的模式和结构。然而,它们在训练期间解决的任务非常简单:预测序列(sequence)中下一个单词(或token)。

这种模型被称为自回归模型,这意味着它使用过去的输出作为未来预测的输入,并逐步生成输出。可以在ChatGPT的输出样例中看到:

GhatGPT产生了回复

gif取自作者使用ChatGPT的过程

你可以发现ChatGPT是逐步生成答案,而且生成的内容有时是不完整的单词片段(chunks),这些片段(chunks)被称为tokens。

在每一个步骤中,模型将前一个输出连接到当前输入上,然后继续生成,直到达到特殊的“序列结束(End of Sequence)”(EOS) token。为了简单起见,省略了提示任务(prompt task),将单词作为tokens,这个过程可以如下所示:

解释自回归模型的文本生成。图片由作者提供

这个简单的机制加上海量的数据(一个人的一生中可能无法阅读这么多数据)使模型能够生成连贯且上下文合适的文本,模拟人类的写作方式。

如果此处我们只谈论生成模型,为什么没有其他系列的模型呢?

原因很简单——文本生成任务是最难解决同时也是最让人类印象深刻的任务之一。ChatGPT在5天内就获得了100万用户[8],比之前其他任何应用都要快,而且这种势头还在继续保持[9]。

所谓的编码器encoders[10](BERT模型系列)可能不会太刺激人类,但它们也可以以人类的水平解决各种问题,并帮助完成文本分类[11]或命名实体识别(NER)[12]等任务。

我不会提供大语言模型可以做什么的具体例子,因为这已经在网络上遍地都是。最好的方法是自己试用ChatGPT,但也可以参考一些优秀的prompts,比如Awesome ChatGPT prompts。尽管大型语言模型具有惊人的能力,但它们目前还存在一些限制。其中最常见和最重要的包括:

  • 存在偏见和知识静态性: 由于LLM模型是在许多个来源的数据上进行训练的,它们会无意中学习并再现这些数据中存在的偏见。此外,它们具有知识静态性,无法在不重新训练的情况下实时适应新数据或更新知识。

  • 不能完全理解输入和存在虚假信息: 虽然LLM模型可以生成类似人类的文本,但它们并不总是完全理解输入的语境。而且,自回归生成输出文本的方式并不能避免模型产生谎言或无意义的内容。

  • 消耗太多资源: 训练LLM模型需要大量的计算资源,这导致训练成本和能源消耗都很高。这一因素可能会限制较小公司或个人研究者的LLM模型发展。

这些以及其他缺点都是AI研究界的热门讨论话题。值得一提的是,AI领域发展得如此之快,以至于几个月内很难预测哪些缺点或限制会被克服,但毫无疑问,新的缺点和限制将会出现。

早先的模型只是增加参数数量,但现在认为更好的做法是训练更小的模型,并花更长的时间给它们提供更多的数据。这样减小了模型的规模和后续使用模型的成本。

在大致了解LLM以后,让我们进入这篇文章的主要部分——估算训练大型语言模型的成本。

02 估算机器学习模型一般情况下的成本,特别是LLM成本

要估算训练大型语言模型的成本,必须考虑三个关键因素:

  • 数据

  • 计算资源

  • 以及架构(或算法本身)

现在让我们深入地探讨这三个方面,了解它们对训练成本的影响。

2.1 数据

LLMs需要大量数据来学习自然语言的模式和结构。估算数据的成本可能具有挑战性,因为公司通常使用其业务运营中长期积累的数据以及开源数据集。

此外,还要考虑到数据需要进行清洗、标记、组织和存储,考虑到LLM的规模,数据管理和处理成本会迅速增加,特别是考虑到这些任务所需的基础设施、工具和数据工程师时。

举个具体的例子,已知LLaMA使用了包含1.4万亿个token的训练数据集,总大小为4.6TB!

LLaMA模型的训练数据集,表1来自LLaMA论文

较小的模型(7B和13B)是使用了1T token训练的,而较大的模型(33B和65B)使用1.4T token的完整数据集。

LLaMA模型的training loss值随token数量的变化图,来自LLaMA论文

现在应该明白,当向大家宣传这些数据集多么庞大时,其实并没有夸张,也能理解为什么在十年前大模型还无法做到这一点。但是,计算资源方面的问题更加有趣。

2.2 计算资源

训练过程的花费占据了LLM训练成本的很大一部分。训练大型语言模型需要大量计算资源,并且由于需要较强的并行处理能力,要使用功能强大的图形处理器(GPU)。NVIDIA每年都会推出新的GPU,其成本高达数十万美元。

如果使用云计算服务,训练这些模型的云计算服务成本可能也是惊人的,基本上需要几百万美元,特别是考虑到需要迭代各种配置。

回到LLaMA论文,文中说,他们使用了两千个GPU,每个GPU高达80 GB的显存,如此强大的计算能力来训练最大的65B模型也需要21天。

用于训练LLaMA模型的计算资源量,图片来自LLaMA论文

作者使用的NVIDIA A100 GPU是当下神经网络训练的常见选择。Google Cloud 平台提供此类 GPU 的费用是每小时3.93美元。

NVIDIA A100 GPU的价格

所以我们快速计算一下:

四百万美元的成本并不是每个研究人员都能负担得起的,对吧?而且这仅仅是运行一次的费用!这篇文章估计了GPT-3的训练成本[13],作者说需要 355 GPU-years 和 460 万美元的成本。

2.3 架构(和基础设施)

Architecture (and Infrastructure)

一流LLM的开发还需要熟练的研究人员和工程师设计合理的架构并正确配置训练过程。架构是模型的基础,能够决定它如何学习和生成文本。

需要具备各种计算机科学领域的专业知识,才能设计、实现和控制这些架构。负责发布和提供优秀项目成果的工程师和研究人员可以获得数十万美元的薪水。有一点需要我们注意,训练LLM所需的技术栈可能与“经典”机器学习工程师的技术栈有很大不同。

机器学习系统的基础设施,图来自论文《Hidden Technical Debt in Machine Learning Systems》[14]

训练LLM是一个非常困难和需要耗费很多资源的工程问题。 现在让我们简要讨论一些使LLM推理过程更有效和节省成本的方法。

03 优化语言模型的推理能力

3.1 我们是否真的需要优化?

推理(Inference)是指使用已经训练好的语言模型生成预测(predictions)或响应(responses)的过程,通常作为API或Web服务。鉴于LLM的巨量资源消耗特性,必须对其进行优化来实现高效的推理。

例如,GPT-3模型有1750亿个参数,相当于700GB的float32数字。激活也需要大约同样数量的内存,而且需要注意的是,我们说的是RAM。

如果不使用任何优化技术来进行预测(predictions),我们将需要16个 80GB 显存的A100 GPU!

有几种流行的技术可以帮助减少内存需求和模型延迟(model latency),包括模型并行、模型量化等等。

3.2 模型并行

模型并行[15]将单个模型的计算分布到多个GPU上,可用于训练和推理流程。将模型的层(layers)或参数(parameters)分割到多个设备上可以显著提高整体推理速度,并且在实践中经常使用。

3.3 模型量化

模型量化[16]涉及减少模型数值(如权重)的精度。通过将浮点数转换为较低精度的整数,模型量化可以在不实质性损失模型性能的情况下实现显著的内存节省和更快的计算速度。你是不是会有一个想法:使用float16浮点数代替float32,这样将内存量减少一半。事实证明,甚至可以将模型权重转换为int8也几乎不会损失精度。

3.4 其他技术

优化LLM的方法相关研究一直是一个活跃的研究领域,其他技术包括:

  • 知识蒸馏[17] - 训练一个较小的学生模型(student model)来模仿一个较大教师模型(teacher model)的行为;

  • 参数剪枝[18] - 从模型中删除冗余或不重要的参数,以减小模型的大小和计算资源要求;

  • 使用像ORT(ONNX Runtime) [19]这样的框架来通过算子融合(operator fusion)和常数折叠(constant folding)等技术来优化计算图(calculation graphs)。

总的来说,优化大型语言模型的推理是LLM部署的一个重要方面。通过应用各种优化技术,开发人员可以确保LLM不仅功能强大和准确,而且性价比高和具备可扩展性

04 为什么 OpenAI 要开放ChatGPT给大众使用呢?

考虑到大语言模型训练和推理的高成本,人们可能会产生这样的疑问。虽然我们无法确定OpenAI的确切动机,但我们可以分析这一决定背后的好处和潜在战略原因。

首先,OpenAI 将目前最先进的LLM给大家使用,获得了极高的知名度。通过展示大型语言模型的实际应用效果,该公司吸引了投资者、客户和整个技术领域的关注

其次,OpenAI的使命就是围绕着人工智能的创造和发展。通过开放ChatGPT给大众访问,该公司可以被认为更接近实现其使命并为社会变革做好准备。开放如此强大的AI工具能够鼓励创新,推动人工智能研究领域继续向前发展。这种进步可以导致更高效的模型、更多元的应用程序和各种新解决方案的出现。不过,ChatGPT和GPT-4的架构都没有公开,但这是另一个需要讨论的话题。

虽然与训练和维护大型语言模型相关的成本无疑是巨大的,开放访问ChatGPT不仅增加了他们的知名度,证明了他们在人工智能领域的领导地位,还允许他们收集更多数据来训练更强大的模型。这种策略使他们能够持续推进他们的使命,并在某种程度上为人工智能和LLM技术的发展做出了卓越的贡献。

询问ChatGPT,为什么OpenAI要免费开放ChatGPT的使用权限

05 结论

正如本文所说的,训练大型语言模型的成本受到各种因素的影响,不仅包括昂贵的计算资源,还需要学习大数据管理和模型开发架构等领域的专业知识

如今的LLM普遍具有数十亿个参数,训练时用到数万亿个token,训练成本高达数百万美元。

希望现在您已经了解训练和推理大型语言模型的成本,以及它们的限制和陷阱。

自然语言处理领域已经从持续了数年的ImageNet时代 [20] 转变到生成模型的时代了。广泛应用和使用生成语言模型(generative language models)有希望彻底改变各行各业和我们生活的方方面面。虽然很难准确预测这些变化,但我们可以肯定,LLM肯定将对世界产生一定影响。

就我个人而言,我更喜欢训练 "更聪明"的模型,而不仅仅是 "更大"的模型。通过探索更优雅的方式来开发和部署LLM,可以扩展人工智能和NLP的边界,为更具有创新性的解决方案和该领域的光明未来打开大门。

END

参考资料

1.https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

2.https://huggingface.co/course/chapter1/4

3.https://en.wikipedia.org/wiki/GPT-3

4.https://bigscience.huggingface.co/blog/bloom

5.https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval

6.https://arxiv.org/abs/2203.15556

7.https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

8.https://twitter.com/gdb/status/1599683104142430208

9.https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/

10.https://huggingface.co/course/chapter1/5

11.https://paperswithcode.com/task/text-classification

12.https://paperswithcode.com/task/named-entity-recognition-ner

13.https://lambdalabs.com/blog/demystifying-gpt-3

14.https://proceedings.neurips.cc/paper_files/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf

15.https://colossalai.org/docs/concepts/paradigms_of_parallelism/

16.https://huggingface.co/docs/optimum/concept_guides/quantization

17.https://neptune.ai/blog/knowledge-distillation

18.https://analyticsindiamag.com/a-beginners-guide-to-neural-network-pruning/

19.https://onnxruntime.ai/

20.https://thegradient.pub/nlp-imagenet/

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接

https://towardsdatascience.com/behind-the-millions-estimating-the-scale-of-large-language-models-97bd7287fb6b

Baihai IDP
关注 关注
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
博客
NPU 与 GPU 相比,有什么差别?| 技术速览
09-13 840
随着2024年被业界誉为“AI PC元年”,各大笔记本电脑厂商纷纷推出搭载NPU的全新AI PC,而在介绍产品性能时,“NPU”一词频频被提及。但NPU和我们所熟知的GPU之间的区别究竟是什么?我们今天为大家分享的这篇文章将和大家一起初探NPU vs GPU。简而言之,NPU专为加速AI任务而设计,包括深度学习和推理,能够高效地处理大量数据,并利用专用存储器快速执行复杂的AI算法。与GPU相比,NPU体积更小、成本更低、能耗更小,且在特定AI任务中表现更优。
博客
化“腐朽”为“神奇”:5 种 RAG 优化技术应对千奇百怪的 Query
09-11 719
多亏了 RAGs,这一次的效果非常好。在基础的 RAG(检索增强生成)应用中,与大语言模型(LLMs)的交互仅发生一次,可以是 OpenAI 的 GPT 模型[4]、Cohere 模型[5],也可以是您自行部署在本地的模型。Step-back prompting 与基本的 RAG 流程非常相似,但在处理用户提出的问题时,不是直接针对用户提出的初始问题进行查询,而是用一个更宽泛的问题从数据库中检索相关文档。请注意,我们在这里采用了不同的处理方式,与前文的基本 RAG 流程中直接传递检索器的方法不同。
博客
LLM 工程师入门:生成式AI的简易指南
09-06 1007
这些超参数为传递给文本生成函数的参数,能够帮助用户控制 token 选择过程的“greediness”(译者注:模型在选择下一个 token 时所表现出的倾向性,是倾向于选择概率最高的token(即最可能的token),还是允许一些不太可能的token(即概率较低的token)被选中。然而,为了增加生成文本的多样性,该函数通常会采用更高级的策略,使用一个随机数生成器来选择 token,即使是在随机选择 token 的情况下,也会优先选择那些概率较高的 token。这就好比在我们的训练数据中出现了“缺口”。
博客
“创造神迹” -> “打造利器”:AI 从实验室走向市场的五大障碍
09-05 490
至少从理论上讲,灾难性的黑客攻击[22]是有可能发生的,例如 AI worms(译者注:比如电子邮件场景的 AI 蠕虫病毒,黑客会精心构建一个“有毒提示词”,然后通过电子邮件发送给受害者A,受害者A可能并不知情,但是其 AI assistants 会查看这封“蠕虫邮件”,然后执行其中的命令,发送给更多人 B、C、D、E…自然语言用户界面的问题更为复杂,在这种用户界面中,用户与 AI assistants 进行对话, AI assistants 也会以自然语言回应,这正是 GenAI 巨大潜力的体现所在。
博客
从工程师视角看 “Multi-Agent as a Service (MAaaS)”
08-28 951
目前 AI Agents 在各行各业的应用前景广阔,越来越多的企业开始尝试部署 AI Agents ,然而如何在企业生产环境中有效部署和管理 AI Agents,是工程师们面临的一大挑战。你是否曾面临这样的困惑:如何确保 AI Agents 在生产环境中稳定可靠地运行?如何应对突发的高并发请求?当 AI Agents 出现"幻觉"或系统崩溃时,又该如何快速恢复?
博客
「模型量化技术」可视化指南:A Visual Guide to Quantization
08-22 632
顾名思义,大语言模型(Large Language Models,LLMs)的特点就是庞大,以至于普通的消费级硬件都难以承载。
博客
理性看待、正确理解 AI 中的 Scaling “laws”
08-17 913
在这种模式中,物种的形态在长时间的稳定期(equilibrium)之后,会经历短暂的、快速的形态变化(punctuation),这些变化可能伴随着物种的灭绝和新物种的产生。))进行改进的使用场景。但考虑到其中大部分视频并没有实用的音频内容(可能是音乐、静态图片或游戏视频等),实际可用的数据量可能远低于 Llama 3 目前使用的150万亿个词元(tokens) ------ 这还不包括对转录的 YouTube 音频进行去重和根据质量进行筛选的过程,这一步骤很可能会再减少至少一个数量级的数据量。
博客
Advanced RAG 11:对用户输入的内容进行「分类处理」和「再优化」
08-12 415
(译者注:可根据具体情况选择具体的策略。)的方法,通过精心设计的分类器(classifiers),我们能够更精准地判断、选择最佳检索策略(是选择迭代检索(iterative)、一次性检索(single),还是不使用检索方法(no retrieval methods))。说白了,训练的核心在于微调模型参数,确保在每一个步骤 i 中,面对原始的输入 x 、优化后的 query qi 及检索出的文档 di 时,模型 M 能够对模型响应 y 给出最大化的概率预测(highest probability)。
博客
相同的 LLM 在「不同 GPU 上」会产生不同输出?为什么?
08-09 857
在大语言模型(LLMs)的部署及其相关的算力扩容过程中,更换 GPU 是否也可能会对模型的输出产生重大影响?这个问题的答案对于确保 LLMs 在不同硬件环境下的一致性和可靠性至关重要。我们今天为大家带来的这篇文章,作者的核心观点是:即使在相同的开发环境、系统配置和随机种子下,不同的 GPU 也会导致 LLMs 产生不同的模型输出。
博客
实践出真知:Agents 领域“一年打怪升级”的经验分享
08-05 947
此处有一个具体的小案例,能够生动地说明 ACI 有多么关键和棘手:我们在 gpt-4-turbo 刚推出不久后,对我们的 AI Agents 进行了多次测试,却发现了一个棘手的问题 —— AI Agents 在处理响应信息时,会完全忽略掉某些数据(正是我们试图通过 tool call 的响应内容来告知或传递给 Agents 的数据部分)。对于正在或计划构建 AI Agents 的开发者和企业而言,这篇文章提供了许多切实可行的操作建议和深入的见解,是一份不可多得的参考指南📄。”,而不会自信满满地认为“哇!
博客
汽车长翅膀:GPU 是如何加速深度学习模型的训练和推理过程的?
07-24 1189
鉴于 CUDA kernels 的工作空间为 device 的内存(device memory),故需向 kernel 提供 device 指针(device pointers)(d_A、d_B 和 d_C),以确保其能在 device 的内存上运行。对于深度学习模型而言,其实质就是一系列涉及矩阵(matrix)与张量(tensor)的运算操作,包括但不限于求和(sum)、乘法(multiplication)、卷积(convolution)以及归一化(normalization )等。
博客
哪些基于 LLMs 的产品值得开发?从用户体验和市场接受度的角度探讨
07-17 796
以个人知识管理(PKM)工具为例,如 Obsidian,这些往往都是专为“老鸟”设计的 “core products” (译者注:如前文所述,仅仅提供核心功能的产品,亦即所谓的“通用产品(generic products)”),这类产品用户热衷于自己动手,通过各种插件(plugins)和集成其他组件、系统(integrations)来个性化满足自己的使用需求。在我看来,最成功的“smart” AI 解决方案,都是那些能够完美融入现有工作流的方案,终端用户无需任何多余操作就能享受 AI 带来的便利。
博客
给 「大模型初学者」 的 LLaMA 3 核心技术剖析
07-13 1110
”这样的问题时,期望的回答自然是“白色(white)”。仅需具备一定的 Python 编程基础,并对神经网络和 Transformer 架构有基本的认识,便能跟随本文的指引,观察 LLaMA 3 如何根据输入生成输出,见证它如何基于输入生成连贯且有意义的文本。—— 如前文所述,LLaMA-3 采用的是 tiktoken 库中的字节对编码(BPE)分词技术,这项技术是在一个包含了 15 万亿个 tokens 的超大数据集上训练得来的,比 LLaMA-2 使用的数据集足足大了7倍之多。
博客
Advanced RAG 10:引入检索评估、知识精练的 CRAG 技术详解
07-10 753
图 1:这些例子表明,低效的检索器(retriever)容易引入大量无关的信息,会阻碍生成器(generators)获取准确的知识,甚至可能将其引入歧途。:本文介绍的 CRAG 技术通过引入轻量级检索评估机制和知识精炼算法,试图解决传统检索增强生成(RAG)方法在处理复杂查询语句时存在的问题(包括检索结果不够精确、引入无关信息等),这些问题会影响模型回答的质量。而对于篇幅较长的文档,则依据其总长度,灵活切分为由数个句子组成的多个更小单元,确保每个小单元都封装一条独立完整的信息。
博客
「多模态大模型」解读 | 突破单一文本模态局限
07-05 1037
换言之,模型在训练阶段会学习如何将输入的词(或tokems)转换为向量表征(即嵌入),这一过程是通过优化模型参数完成的,在推理阶段,当新的输入序列传入模型时,模型会直接使用已学习到的参数来产生相应的嵌入向量,而不需要再经历一个单独的、显式的编码步骤。在这种情况下,模型接收到的是一幅部分信息被掩盖的图像,模型需要重建完整图像。无论处理的是文本里的字词(words)或是图像中的像素点(pixels),对输入序列进行编码的核心思想是将其转化为一系列数字,即所谓的向量嵌入(vector embeddings)。
博客
Llama-2 vs. Llama-3:利用微型基准测试(井字游戏)评估大模型
07-04 912
如何更好地评估和比较不同版本的大语言模型?传统的学术基准测试固然重要,但往往难以全面反映模型在实际应用场景中的表现。在此背景下,本文作者别出心裁,通过让 Llama-2 和 Llama-3 模型进行井字游戏对决,为我们提供了一个新颖而有趣的模型评估视角。此文不仅展示了一种创新的模型比较方法,更揭示了当前大语言模型在处理看似简单的空间逻辑任务时所面临的挑战。让我们得以一窥不同参数规模模型的表现差异,以及新一代模型相较前代的进步与不足。
博客
检索生成(RAG) vs 长文本大模型:实际应用中如何选择?
07-03 867
尽管 LLMs 在文本的处理和生成等方面表现出色,但它们却面临一个固有的挑战:难以捕捉信息背景全貌,尤其是在应对冗长对话或涉及多重细节的复杂任务时。当接收到一篇新论文,且其结构与以往处理过的论文类似时,模型便能直接调用缓存中的相关上下文,仅需集中精力分析创新部分的内容(如实验结果和结论)。RAG 系统的搭建与运维,需依托于一套复杂的检索机制,该机制依赖向量搜索(vector search)及嵌入(embeddings)技术,以确保 LLM 能够高效获取最为契合的信息资源。这两种技术各有何优势?
博客
Advanced RAG 09:『提示词压缩』技术综述
06-29 954
文中全面介绍了多种提示词压缩算法的原理和实现细节,包括基于信息熵的Selective Context、基于软提示调优的AutoCompressor、引入数据蒸馏方法的LLMLingua-2、综合利用问题语义的LongLLMLingua等。作者还贴心地附上了代码示例,以便各位读者可以动手实践,加深对算法的理解。
博客
高质量数据不够用,合成数据是打开 AGI 大门的金钥匙吗?
06-26 612
在当前的边际效益(译者注:边际效益(Marginal Benefit)是一个经济学概念,指的是在增加一单位的某种投入(如生产中的劳动力、原材料或者服务中的员工时间)时,所获得的额外收益或价值的增加。比如,一份最新发表的论文[5](2024年1月)指出,利用大语言模型改进抓取到的网络数据的表达方式,不仅能优化训练效果,还能提升训练效率。当我们弄清楚如何获取更高质量的多模态数据(包括视频、音频、图像及文本)的技巧,我们可能会惊喜地发现,大语言模型填补其世界观缺失部分所需的训练数据量,远比原先设想的要少得多。
博客
Advanced RAG 08:使用 Self-RAG 打造高质量、可追溯的 RAG System
06-19 761
Self-RAG(右)的主要功能为检索(retrieve)、评判(critique)和生成(generate),使生成的文本内容不仅通顺流畅,而且与事实知识相符,并且可以追溯到原始知识源。不过,这种技术需要更复杂的训练流程,并且在内容生成阶段(generation phase) 融入了一些特殊机制,不仅生成目标输出文本,还会生成多种类型的反馈标签,并在生成时根据这些标签执行多个判断操作,这样会。与此同时,Self-RAG 通过特殊的训练流程,使生成的内容不仅通顺自然,与事实知识相符,甚至还可以追溯知识源。
写文章

热门文章

  • 理解DALL·E 2, Stable Diffusion和 Midjourney工作原理 14702
  • 轻松理解20种最常用的AI算法 11579
  • 用ChatGPT优化AI绘画提示词的探索 9297
  • 理解DALL·E 2, Stable Diffusion和 Midjourney工作原理 7676
  • 10个优秀的AI艺术生成器 6802

分类专栏

  • 技术干货 104篇
  • AIGC 8篇
  • MLOPs 1篇
  • IDP 2篇

最新评论

  • AI Agent:人类工作范式的颠覆者还是人机协作新范式?

    Baihai IDP: 咩咩咩~~

  • AI Agent:人类工作范式的颠覆者还是人机协作新范式?

    fap_b: 咩咩……表情包表情包表情包

  • AI Agent:人类工作范式的颠覆者还是人机协作新范式?

    Baihai IDP: 🚢🚢🚢欢迎小伙伴们加入[AI技术软件及技术交流群](https://www.yuque.com/baihai_idp/kencft?#),追踪前沿热点,共探技术难题~

  • Advanced RAG 06:生成结果的相关性低? 快用 Query Rewriting 优化技术

    普通网友: 干货满满,细节很到位!【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • LLM 模型融合实践指南:低成本构建高性能语言模型

    ha_lydms: 作者对于人际关系的分析非常到位,让我受益良多。

大家在看

  • 微信小程序的介绍
  • 网络安全:腾讯云智、绿盟、美团、联想的面经
  • 基于SpringBoot的在线点餐系统【附源码】

最新文章

  • NPU 与 GPU 相比,有什么差别?| 技术速览
  • 化“腐朽”为“神奇”:5 种 RAG 优化技术应对千奇百怪的 Query
  • LLM 工程师入门:生成式AI的简易指南
2024
09月 4篇
08月 6篇
07月 7篇
06月 6篇
05月 7篇
04月 7篇
03月 7篇
02月 3篇
01月 7篇
2023年57篇
2022年32篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王百姓网品牌广告网站优化按天扣费询问选顺的推溧水县网站优化德州智能网站优化公司陕西网站优化排名效果成都温州贷网站优化北京专业网站优化网站关键词优化只选v火27星网站优化的首要问题是咸阳网站优化公司品牌网站建设优化公司排名四川标准网站优化价目商洛网站关键词优化排名网站优化技术公司安阳搜索引擎网站优化哪家便宜网站推广优化教程外贸网站优化 sit北海哪家网站优化好西宁网站优化公司张槎网站优化团队网站访问速度优化有经验的教育行业网站优化团队临沂提供网站优化制作美容医院网站优化方案均安网站优化流程湖南企业网站优化推广重庆seo网站搜索优化网站内容需要那些优化广州番禺网站seo优化为什么网站都在优化推广香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化