LLaMA Factory: 统一高效微调框架¶

tags: #fine-tuning #LLM #LoRA #transformers #PEFT #RLHF #QLoRA source: hiyouga/LlamaFactory ⭐71744

2026-06-01 更新¶

GitHub Stars从71137增长至71744（+607），社区活跃度持续上升。

score: 技术深度9/10 | 实用价值10/10 | 时效性9/10 | 领域匹配8/10 | 综合 9.1/10

核心概念¶

LLaMA Factory是一个统一的高效微调框架，支持100+大语言模型和视觉语言模型的微调训练。核心价值是"一个接口微调所有模型"——无论是LLaMA、Qwen、DeepSeek还是Gemma，都通过同一套配置和命令完成。ACL 2024论文发表，⭐71k+，是微调领域的事实标准。

设计原理¶

统一接口设计¶

传统微调需要为每个模型写不同的训练脚本，LLaMA Factory通过模型注册表抽象了模型差异： - 统一数据格式：所有模型使用相同的训练数据格式 - 统一训练接口：llamafactory-cli train 一个命令搞定 - 统一配置体系：YAML配置文件管理所有超参数

Trade-off：统一抽象意味着无法利用某些模型的特有优化（如DeepSeek的MoE特定训练策略），但换来了零成本切换模型的能力。

高效微调策略¶

方法	原理	显存需求	适用场景
Full Fine-Tuning	全参数更新	高	数据充足、追求最佳效果
LoRA	低秩适配，只训练少量参数	低	资源有限、快速适配
QLoRA	量化+LoRA	极低	消费级GPU微调大模型
RLHF	人类反馈强化学习	中	对齐人类偏好
DPO	直接偏好优化	中	RLHF的简化替代
KTO	无配对偏好优化	中	只有正/负反馈场景

多模态扩展¶

支持VLM（视觉语言模型）微调，统一处理文本和图像输入： - LLaVA系列、Qwen-VL、InternVL等 - 图文对训练数据格式标准化

关键实现¶

快速上手¶

# 安装
pip install llamafactory

# 训练（LoRA微调Qwen）
llamafactory-cli train \
  --model_name_or_path Qwen/Qwen2.5-7B \
  --stage sft \
  --finetuning_type lora \
  --dataset alpaca_zh \
  --output_dir output/qwen_lora \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 8 \
  --lr_scheduler_type cosine \
  --learning_rate 5e-5 \
  --num_train_epochs 3

Web UI¶

LLaMA Factory提供Gradio Web UI，零代码完成微调： - 模型选择、数据集上传、参数配置 - 实时训练监控（loss曲线） - 训练完成后在线测试对话

支持的模型（部分）¶

开源LLM：LLaMA 3/3.1、Qwen 2/2.5、DeepSeek、Gemma 2、Mistral、Yi、ChatGLM、Phi
开源VLM：LLaVA、Qwen-VL、InternVL
中文优化：对中文模型支持最好（国内团队维护）

技术栈¶

框架：PyTorch + HuggingFace Transformers
PEFT：集成PEFT库（LoRA/AdaLoRA等）
量化：bitsandbytes（4bit/8bit量化）
加速：DeepSpeed、FlashAttention-2、Unsloth
部署：vLLM、SGLang集成

关联分析¶

ai-engineering-hub — 教程集中的DeepSeek微调教程可能使用LLaMA Factory作为底层框架
DeepSeek-V4 — LLaMA Factory支持DeepSeek系列微调，可用于DeepSeek V4的下游适配
GLM-5-Scaling-Pain — 微调是解决大模型Scaling问题的补充手段
Agent-Skills-Architecture — 通过微调可以让LLM更好地理解特定领域的Skill描述

可执行建议¶

微调入门：如果你想掌握LLM微调，LLaMA Factory是最佳起点——Web UI零门槛，CLI灵活强大
垂直领域Agent：用LLaMA Factory微调一个代码理解能力更强的模型，用于你的AI Agent开发工具——这比通用模型在代码场景表现更好
鸿蒙文档微调：考虑用鸿蒙开发文档微调一个专门回答鸿蒙开发问题的模型——你的12年移动端经验 + 微调 = 差异化优势
资源规划：QLoRA方案在24G显存的消费级GPU上即可微调7B模型，Mac Studio M系列也可用MPS后端

自评¶

维度	分数	权重	加权
摘要质量	9	0.25	2.25
技术深度	9	0.25	2.25
相关性	9	0.20	1.80
原创性	8	0.15	1.20
格式规范	9	0.15	1.35
加权总分			8.85

评分说明：71k stars的顶级项目，微调领域事实标准；包含完整的微调策略对比表和实战命令；"鸿蒙文档微调"的建议结合了用户背景；中文模型支持好是额外加分项。