这是所有大语言模型(LLM, Large Language Model)技术的基石。虽然初学者容易忽略这部分,但它是决定你能否从“调包侠”进阶为“架构师”的关键。
编程语言与环境
Python:AI领域的通用语言(需熟练掌握高级特性、装饰器、生成器)。
Git & Linux:代码版本控制与服务器基本操作(训练通常在Linux服务器进行)。
CUDA(了解):理解GPU并行计算原理(研发岗必备,用于排查显存报错)。
数学基础(算法岗核心)
线性代数:矩阵运算、特征值分解(理解模型权重的本质)。
概率论与统计:贝叶斯理论、分布(理解生成概率与采样)。
微积分:梯度下降、反向传播(理解模型是如何“学习”的)。
理解模型“大脑”的运作机制,这是深入掌握大模型技术的必经之路。
深度学习基础
经典算法:线性回归、决策树、随机森林、XGBoost(机器学习基础)。
神经网络:CNN(卷积)、RNN(循环)、Transformer架构(重中之重,大模型的基石,需精读论文)。
主流大模型架构与品牌
架构模式:Encoder-Decoder(T5)、Decoder-only(GPT/Llama系列)、Encoder-only(BERT)。
国际主流模型:Llama 3 (Meta)、GPT-4o (OpenAI)、Claude 3.5/3.7 (Anthropic)、Mistral。
国内主流模型:Qwen2.5/Qwen3 (阿里)、DeepSeek-V2/R1 (深度求索)、ChatGLM (智谱)、Seed (字节跳动)、文心一言 (百度)。
深度学习框架
PyTorch:目前最主流的动态图框架,学术界与工业界首选。
Hugging Face:必须掌握,全球最大的开源模型社区(Transformers库是核心)。
这是目前企业落地大模型最主流的技术手段,也是就业市场的“硬通货”。
提示词工程
基础:零样本、少样本提示。
进阶:思维链、思维树、ReAct框架(推理与行动结合)。
RAG(检索增强生成)
核心流程:文档加载 -> 切片 -> 向量化 -> 存入向量数据库 -> 检索 -> 生成。
关键组件:
Embedding模型:文本向量化模型。
向量数据库:如Milvus、Chroma、Pinecone、Faiss、Qdrant,这是构建知识库的核心。
检索优化:混合检索、重排序。
Agent(智能体)
概念:让模型具备使用工具、规划任务的能力。
技术:函数调用、工具使用、多智能体协作。
将理论转化为代码的“武器库”,掌握这些工具能让你快速构建应用。
应用开发框架
LangChain:最流行的编排框架,连接模型与数据。
LlamaIndex:专注于数据检索与索引的框架。
LangGraph:用于构建有状态、多角色的复杂Agent工作流。
可视化/低代码平台
Dify:开源的LLM应用开发平台,集成了RAG和Agent,适合快速原型开发。
Coze:字节跳动的Bot开发平台,插件生态丰富。
Flowise / n8n:可视化工作流编排工具。
本地部署与运行
Ollama:极简的本地模型运行工具,开箱即用。
vLLM:高性能推理框架,生产环境常用。
LM Studio:本地模型测试工具。
TensorRT-LLM:NVIDIA推出的极致性能推理优化库。
让通用模型变成行业专家的必经之路,这是通往高薪技能点的关键。
微调技术
全量微调:训练所有参数(资源消耗极大,少用)。
PEFT:参数高效微调技术。
LoRA / QLoRA:目前最主流的低秩适应微调方法,低成本让模型学习新知识。
工具库:Llama Factory(一站式微调框架)、DeepSpeed、PEFT。
训练流程
预训练:从0到1训练模型(通常是大厂行为)。
SFT:有监督微调,教模型“听懂人话”。
RLHF:基于人类反馈的强化学习,对齐人类价值观。
模型量化
将模型从FP16压缩到Int8或Int4,降低显存需求,加速推理(技术如GPTQ、AWQ)。
这是区分“玩具”与“产品”的分水岭,也是很多初学者容易忽视的“最后一公里”。
MLOps / LLMOps
模型管理:MLflow、Weights & Biases。
评估:如何评估RAG的效果,如何评估模型的幻觉。
部署与服务
Docker & Kubernetes:容器化部署与集群管理。
API服务:FastAPI(Python常用框架)。
推理加速:TensorRT、vLLM。
如果你是【大模型应用开发】(对应应用岗)
重点学:第一层(Python)+ 第三层(RAG/Agent概念)+ 第四层(LangChain、Dify、Coze、Ollama)。
目标:会用工具搭建系统,解决业务问题。
如果你是【大模型研发/算法工程师】(对应高薪岗)
重点学:全套都要学。特别是第二层(Transformer原理)、第五层(微调、LoRA、RLHF)和第六层(部署优化)。
目标:懂原理,能改模型结构,能优化训练效果,能解决底层Bug。