
人工智能大模型(Large Language Models,LLMs)正在深刻改变世界。要理解这场变革,掌握其核心术语至关重要。 首期《100个关键名词全解析》为大家搭建起了理解AI大模型的基础框架,随着研究的深入与应用场景的拓展,更多专业术语进入我们的视野。本期,我们将继续深入探索,带来全新的100个AI大模型相关名词解释,帮助你进一步揭开AI大模型的神秘面纱,把握技术发展的脉搏。
一、基础与核心概念
激活函数 (Activation Function):决定神经元是否被激活(输出信号)的数学函数(如ReLU, Sigmoid, Tanh),引入非线性。
大模型 / 大语言模型 (LLM-Large Language Model):指参数量巨大(通常数十亿至数万亿)、在海量文本数据上训练、能够理解和生成人类语言、执行各种自然语言任务的深度学习模型(如GPT-4,Claude,Gemini, LLaMA)。
基础模型 (Foundation Model):指在大规模、广泛数据集上预训练的大模型,可以作为多种下游任务的基础(起点)。大语言模型是最典型的代表。
参数 (Parameters):模型在训练过程中学习和调整的内部变量(主要是权重和偏置),决定了模型如何处理输入并产生输出。参数数量是衡量模型规模的关键指标。
权重 (Weights):神经网络中连接两个神经元的强度系数,决定输入信号对下游神经元影响的大小。
偏置 (Bias):神经元的额外参数,允许调整激活函数的输出阈值。
训练 (Training):使用数据和算法调整模型参数的过程,使模型学习数据中的模式。
推理 (Inference):将训练好的模型应用于新数据以生成预测或输出的过程(如让LLM回答问题)。
生成式AI (Generative AI):能够生成新内容(如文本、图像、音频、代码)的AI模型。大语言模型是生成式AI的核心驱动力。
判别式模型 (Discriminative Model):主要学习区分不同类别数据的模型(如分类猫狗图片)。与生成式模型相对。
二、模型架构与技术
Transformer:2017年提出的革命性神经网络架构,基于自注意力机制,彻底改变了NLP,成为几乎所有现代大模型的核心。
自注意力机制 (Self-Attention):Transformer的核心组件,允许模型在处理序列(如句子)时,根据重要性为序列中不同位置的词分配不同的权重(注意力),从而更好地理解上下文和长距离依赖关系。
多头注意力 (Multi-Head Attention):自注意力机制的扩展,允许模型同时关注来自不同表示子空间的信息,提高其捕捉不同关系的能力。
编码器 (Encoder):Transformer架构的一部分(在原始Transformer和BERT等模型中),负责理解和编码输入序列的信息。
解码器 (Decoder): Transformer架构的一部分(在原始Transformer和GPT等模型中),负责基于编码器的输出(或之前的输出)生成目标序列。
GPT (Generative Pre-trained Transformer):OpenAI开发的一系列自回归语言模型,仅使用Transformer的解码器部分,通过预测下一个词进行训练。GPT-3/4是划时代的LLM代表。
自回归模型 (Autoregressive Model):生成序列时,每次只预测下一个元素(如词),并将预测结果作为输入的一部分用于预测后续元素。GPT是典型代表。
掩码语言建模 (MLM-Masked Language Modeling):BERT等模型的预训练任务,随机掩盖输入句子中的部分词,让模型预测被掩盖的词是什么。
下一句预测 (NSP-Next Sentence Prediction):BERT等模型的预训练任务,判断两个句子是否是连续的上下文关系。
位置编码 (Positional Encoding):向Transformer的输入嵌入中添加信息,使模型能够理解词在序列中的顺序(因为Transformer本身不考虑顺序)。
嵌入 (Embedding):将离散符号(如词、类别)转换为连续、稠密、低维的向量表示的过程或结果。词嵌入(Word Embedding)是最常见的。
隐藏状态 / 隐藏层 (Hidden State / Hidden Layer):神经网络中位于输入层和输出层之间的层及其状态值,负责信息的表示和转换。
前馈神经网络 (FFN-FeedForward Network):Transformer块中的一个组件,通常包含两个线性变换和一个激活函数,对自注意力层的输出进行进一步处理。
归一化层 (Normalization Layer):如层归一化(LayerNorm),用于稳定训练过程,加速收敛,通常应用在自注意力和FFN层之前或之后。
残差连接 (Residual Connection / Skip Connection):将某一层的输入直接加到其输出上,有助于缓解深层网络中的梯度消失问题,是Transformer的关键设计之一。
稀疏注意力 (Sparse Attention):对标准自注意力机制的优化,只计算部分位置对之间的注意力分数,降低计算复杂度,适用于超长序列。
混合专家 (MoE-Mixture of Experts):一种模型架构技术,模型包含多个“专家”子网络(通常是FFN),对于每个输入或token,由路由机制选择激活部分专家进行计算,从而在保持参数总量巨大的同时,降低每次推理的计算成本。常用于超大模型(如GPT-4据推测使用)。
路由 (Routing):在MoE模型中,决定每个输入token应由哪些专家处理的机制(如基于门控网络)。
早停 (Early Stopping):一种防止过拟合的策略,当模型在验证集上的性能不再提升(甚至下降)时,停止训练。
学习率调度器 (Learning Rate Scheduler):在训练过程中动态调整学习率的策略(如 Warmup, 余弦退火),以优化训练效果。
三、训练与优化
数据集 (Dataset):用于训练、验证或测试模型的数据集合。大模型需要海量、多样化的数据集。
预训练 (Pre-training):在大规模、通用数据集(如整个互联网文本)上训练基础模型的过程,学习通用的语言表示和世界知识。成本极高。
指令微调 (Instruction Tuning):一种微调方法,使用由指令(任务描述)和期望输出组成的样本训练模型,使其更好地理解和遵循人类指令。
提示微调 / 前缀微调 (Prompt Tuning / Prefix Tuning):高效的微调方法,仅优化添加到输入前的小段可学习向量(“软提示”或“前缀”),而不改变模型主体参数。
基于人类反馈的强化学习 (RLHF - Reinforcement Learning from Human Feedback):一种微调技术,利用人类对模型输出的偏好排序(或评分)训练一个奖励模型,然后用强化学习算法(如PPO)优化语言模型,使其输出更符合人类价值观和偏好。ChatGPT成功的关键技术之一。
奖励模型 (Reward Model):在RLHF中,用于预测人类对模型输出偏好程度的模型(通常基于人类偏好数据训练)。
近端策略优化 (PPO - Proximal Policy Optimization):RLHF中常用的一种强化学习算法,用于稳定地优化语言模型的策略。
损失函数 (Loss Function / Cost Function):衡量模型预测输出与真实目标之间差异的函数。训练的目标是最小化损失函数(如交叉熵损失)。
优化器 (Optimizer):用于在训练过程中更新模型参数以最小化损失函数的算法(如 Adam, SGD, AdamW)。
批次 (Batch):训练时一次输入模型进行处理的一组样本。
批次大小 (Batch Size):一个批次中包含的样本数量。
迭代 (Iteration):完成一个批次的向前传播(计算损失)和向后传播(更新参数)的过程。
周期 (Epoch):整个训练数据集被完整遍历一次(通常由多个批次组成)。
梯度 (Gradient):损失函数相对于模型参数的导数,指示了参数应向哪个方向调整以减小损失。
梯度下降 (Gradient Descent):通过计算梯度并沿负梯度方向更新参数来最小化损失函数的基本优化方法。
Dropout:一种正则化技术,在训练过程中随机将一部分神经元的输出置零,强迫网络学习更鲁棒的特征。
过拟合 (Overfitting):模型在训练数据上表现很好,但在新数据(测试数据)上表现很差的现象,意味着模型过度记忆了训练噪声而非学习泛化模式。
欠拟合 (Underfitting):模型在训练数据和新数据上都表现不佳,意味着模型能力不足或训练不充分。
验证集 (Validation Set):训练过程中用于评估模型性能、调整超参数(如学习率)和进行早停的数据集,不参与参数更新。
测试集 (Test Set):用于在模型完全训练和调优后,评估其最终泛化性能的数据集。绝对不能用于训练或调优。
四、提示工程与应用技术
提示 (Prompt):用户输入给语言模型的文本指令或查询,用于引导模型产生期望的输出。
提示工程 (Prompt Engineering):设计和优化提示词的艺术与科学,旨在更有效地引导大模型完成特定任务或生成高质量输出。
上下文学习 (ICL-In-Context Learning):LLM展现的一种强大能力:通过在提示中提供少量任务示例(演示),模型无需更新参数就能学会执行新任务。
零样本学习 (Zero-Shot Learning):模型仅根据任务描述(不提供任何示例)就能执行该任务的能力。
少样本学习 / K样本学习 (Few-Shot Learning / K-Shot Learning):模型根据提示中提供的少量(K个)任务示例就能执行该任务的能力。
思维链 (CoT-Chain-of-Thought):一种提示工程技术,要求模型在给出最终答案前,先输出其推理的中间步骤(“一步一步思考”),能显著提高复杂推理任务的表现。
系统提示 (System Prompt):通常指在对话开始时或底层设定给模型的指令,用于定义其角色、行为准则或任务背景(如“你是一个乐于助人的AI助手”)。
温度 (Temperature):控制模型生成随机性的超参数。温度低(接近0)输出更确定、保守;温度高(>1)输出更多样化、有创意(也更可能出错)。
Top-p (Nucleus) 采样:一种文本生成策略,仅从累积概率超过阈值 p 的词汇中选择下一个词,平衡生成质量和多样性。
Top-k 采样:一种文本生成策略,仅从概率最高的 k 个候选词中选择下一个词。
波束搜索 (Beam Search):一种文本生成策略,在每个时间步保留概率最高的 B 个(波束宽度)候选序列,最终选择整体概率最高的序列。常用于追求高准确性的任务(如机器翻译),但可能降低多样性。
最大新词数 (Max New Tokens):限制模型在单次响应中生成的最大token数量。
停止序列 (Stop Sequence):指定一个或多个字符串,当模型在生成过程中遇到它们时即停止生成。
检索增强生成 (RAG-Retrieval-Augmented Generation):一种技术框架,将信息检索系统(如搜索引擎、向量数据库)与大模型结合。先根据用户查询检索相关文档/信息,再将这些信息作为上下文输入给大模型生成更准确、信息量更丰富的回答,减少“幻觉”。
智能体 (Agent):指能够感知环境、进行决策并采取行动以实现目标的系统。大模型常作为智能体的“大脑”,负责规划、推理和决策。
工具调用 / 函数调用 (Tool Calling / Function Calling):LLM具备的能力,能够理解用户请求中隐含的对特定工具(如计算器、搜索引擎、API)的需求,并生成符合要求的结构化调用请求(函数名+参数)。
AI对齐 (AI Alignment):研究和实践如何使AI系统的目标、行为和价值观与人类的意图、价值观和利益保持一致,确保AI安全、有益、可控。
幻觉 (Hallucination):LLM生成流畅、自信但事实上不正确或毫无根据的信息的现象,是当前LLM面临的主要挑战之一。
提示注入攻击 (Prompt Injection Attack):一种针对LLM的攻击方式,攻击者通过精心构造的输入(恶意提示),诱导模型忽略其原有指令(如系统提示),执行非预期操作(如泄露隐私、生成有害内容)。
五、模型类型与生态
开源模型 (Open-source Model):模型的架构、参数和代码向公众开放,允许自由使用、修改和分发(如 LLaMA 2, Mistral, Falcon)。
闭源模型 / 专有模型 (Closed-source / Proprietary Model):模型的所有权和控制权属于开发公司,其内部细节(尤其是参数)不公开,通常通过API访问(如 GPT-4, Claude, Gemini)。
多模态模型 (Multimodal Model):能够理解和处理来自多种模态(如文本、图像、音频、视频)信息的模型(如 GPT-4V, Gemini 1.5)。
视觉语言模型 (VLM-Vision Language Model):专注于理解和连接视觉(图像/视频)与语言信息的多模态模型。
代码大模型 (Code LLM):专门针对理解和生成计算机代码进行训练和优化的大语言模型(如 GitHub Copilot 背后的 Codex, CodeLlama)。
领域大模型 (Domain-specific LLM):在特定领域(如生物医学、法律、金融)的数据上预训练或微调的大模型,在该领域任务上表现更专业。
模型蒸馏 (Model Distillation):训练一个更小、更高效的“学生”模型来模仿更大、更复杂“教师”模型(通常是大模型)的行为和知识的过程,以降低部署成本。
量化 (Quantization):一种模型压缩技术,将模型参数(权重)和/或激活值从高精度(如32位浮点数)转换为低精度(如16位浮点数、8位整数甚至4位整数),以减少模型大小、内存占用和计算需求,加速推理。
模型服务 (Model Serving):将训练好的模型部署并提供推理服务的工程过程(如通过API)。
API(Application Programming Interface):应用程序编程接口,定义软件组件如何交互。大模型通常通过API(如 OpenAI API, Anthropic API)提供访问。
推理成本 (Inference Cost):运行模型进行推理(生成预测)所需的计算资源(时间、算力、内存)和相应的费用(尤其是在云服务上)。
计算图 (Computational Graph):深度学习框架(如 TensorFlow, PyTorch)内部表示模型计算过程的数据结构,由操作(节点)和张量(边)组成。
张量 (Tensor):深度学习中的核心数据结构,是多维数组的泛化(标量是0维张量,向量是1维,矩阵是2维)。模型输入、输出、参数都用张量表示。
GPU (Graphics Processing Unit):图形处理器。由于其并行计算能力,成为训练和运行大模型的主要硬件加速器。
TPU (Tensor Processing Unit):Google专门为加速机器学习工作负载(尤其是基于TensorFlow的)设计的定制芯片(ASIC),在处理大模型方面效率很高。
六、模型组件与机制
门控机制 (Gating Mechanism):控制信息在网络中流动的机制(如LSTM中的门、MoE中的路由器),决定哪些信息被保留、遗忘或传递。
门控循环单元 (GRU-Gated Recurrent Unit):一种简化版的LSTM循环神经网络单元,使用更少的门(更新门、重置门)来控制信息流,计算效率更高。
长短期记忆网络 (LSTM-Long Short-Term Memory):一种特殊的循环神经网络 (RNN),通过精心设计的“门”结构(输入门、遗忘门、输出门)有效解决长序列训练中的梯度消失问题,擅长处理序列数据。
注意力掩码 (Attention Mask):在Transformer中用于指示模型应关注序列中的哪些位置(如避免关注填充符[PAD]或未来的词)。
填充 (Padding):为了使一个批次中不同长度的序列具有相同的长度,在较短的序列末尾添加特殊符号(如[PAD])的过程。
序列长度 (Sequence Length):输入或输出序列中包含的token数量。
上下文窗口 (Context Window / Context Length):模型在单次处理(推理)时能够考虑的最大token数量(包括输入提示和生成输出)。是模型能力的关键指标(如128K, 200K, 1M tokens)。
位置嵌入 (Positional Embedding):一种位置编码方式,为序列中的每个位置学习一个独特的向量表示,并与词嵌入相加。是位置编码的一种可学习实现。
相对位置编码 (Relative Positional Encoding):一种位置编码方法,关注token之间的相对距离(而非绝对位置),通常能更好地泛化到训练时未见过的序列长度。
层归一化 (Layer Normalization):一种归一化技术,对单个样本所有特征(同一层神经元输出)进行归一化(计算均值和方差),加速训练并提高稳定性,是Transformer的标准组件。
批量归一化 (Batch Normalization):一种归一化技术,对一批样本的单个特征(同一神经元输出)进行归一化。在CNN中更常见,LLM中较少使用。
梯度裁剪 (Gradient Clipping):一种训练技巧,在反向传播时限制梯度的大小(超过阈值则缩放),防止梯度爆炸,稳定训练过程。
模型并行 (Model Parallelism):分布式训练策略,将大型模型的不同层或不同部分拆分到多个设备(GPU/TPU)上,解决单个设备内存不足的问题。
数据并行 (Data Parallelism):分布式训练策略,将训练数据批次拆分到多个设备上,每个设备拥有完整的模型副本,独立计算梯度,然后聚合梯度更新参数。
流水线并行 (Pipeline Parallelism):分布式训练策略,将模型按层切分到多个设备上,不同设备处理同一批次数据的不同阶段(层),形成处理流水线,提高设备利用率。
张量并行 (Tensor Parallelism):分布式训练策略,将单个层内部的权重矩阵运算(如矩阵乘法)拆分到多个设备上协同计算。
衡泽软件
衡泽软件成立于2014年,注册资本5000万,由行业近20年经验的管理咨询及信息化专家团创建。致力于“为企业客户打造高性价比的价值链数字化平台”,是企业数字化整体解决方案服务商,为企业提供“管理+ERP+AI”整体解决方案,并始终坚持“以科技为本、与客户同路、与时代同步”发展理念。 衡泽软件专注于企业ERP及企业私域专属AI应用产品的研发和应用。
面向智慧地产、智慧制药、智慧能源、智能制造、智慧CRM等领域,提供企业ERP、AI应用产品和解决方案服务,帮助企业实现智慧化转型升级。
衡泽软件是一家集团化的科技企业,业务架构分为“3+1”,即泛地产数字化事业部、制药数字化事业部、数字化创新事业部、咨询事业部。衡泽总部设在重庆,办公面积1000平米;在北京、上海、广州、深圳、成都、福州、厦门、南宁、西安、武汉设有分支机构,面向全国客户服务。
衡泽在泛地产行业、制药行业以及数字化创新事业部这三大板块拥有完整的数字化建设体系,形成了成熟的、前瞻的解决方案和产品。并且为企业提供管理咨询服务、技术开发服务、IT项目交付服务及IT持续运维服务这四大类服务,让企业数字化“步步为赢”。
衡泽具有了优秀软件企业的7大必备资质。衡泽现已通过专精特新资质认证、国家级高新技术企业认证、CMMI3国际认证、ISO27001信息安全管理体系认证、ISO9001质量管理体系认证、SDCA软件服务商交付能力四级认证、双软认证,并且衡泽全部产品具有完全自主知识产权,著作权40+。 同时,衡泽也已获得3A级企业信用等级证书(中国人民银行认证监管),是重庆市信息技术应用创新产业联盟会员单位。是重庆市专精特新企业。是上数所、深数所、西数所、北数所的数商会员单位。