LLama Factory微调模型全流程，与peft库调用训练的adapter

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

LLama Factory微调流程一、准备微调的数据集和模型二、读取模型和数据进行训练 1.使用web ui 2.修改官方脚本（推荐）第三，加载与推理

LLama Factory微调流程

官方GitHub链接
官方数据集说明
官方微调命令
安装LLama factory

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]"

总体上你可以把整个流程分为下面几个步骤：
1.准备微调的数据集和模型
2.读取模型和数据进行训练
3.使用命令或者脚本进行微调训练
4.加载微调的训练模型

一、准备微调的数据集和模型

1.下载模型
这里可以使用HuggingFace或者ModelScope提供的方法进行模型下载，这里给出ModelScope的下载方式, 如果要使用Qwen2请看3：

from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download from modelscope import GenerationConfig ##cache_dir表示模型存储的目录 models_dir = "app/models" model_dir = snapshot_download('qwen/Qwen-7B-Chat',cache_dir="app/models") tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True, cache_dir=models_dir) model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="cuda:0",trust_remote_code=True, cache_dir=models_dir).eval() model.generation_config = GenerationConfig.from_pretrained(model_dir, trust_remote_code=True, cache_dir=models_dir) response, history = model.chat(tokenizer, "你好！可以介绍一下大语言模型吗",history=None) print(response)

2.读取本地模型
如果已经下载好模型也可以通过下面的代码测试一下是否正确读入

from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download from modelscope import GenerationConfig ##model_dir表示模型存储的目录,是linux系统记得~/开头 model_dir = "绝对路径" tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True, cache_dir=models_dir) model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="cuda:0",trust_remote_code=True, cache_dir=models_dir).eval() model.generation_config = GenerationConfig.from_pretrained(model_dir, trust_remote_code=True, cache_dir=models_dir) response, history = model.chat(tokenizer, "你好！可以介绍一下大语言模型吗",history=None) print(response)

3. Qwen2的模型下载和调用

from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download from modelscope import GenerationConfig from peft import PeftModel ##本地路径，也可以使用modelscope的模型id，自动下载 model_name = "app/models/Qwen/Qwen2-7B-Instruct" device = "cuda" # the device to load the model onto model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto" ) lora_adapter_path = "LLaMA-Factory/saves/qwen2/lora/sft" model = PeftModel.from_pretrained(model, lora_adapter_path) tokenizer = AutoTokenizer.from_pretrained(model_name) prompt = "你好!" messages = [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(device) generated_ids = model.generate( **model_inputs, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response)

3.准备数据集
详细见官方数据集说明这里有你需要准备的数据集格式，准备好后将文件复制到LLaMA-Factory/data目录下，并且修改data_info.json加入你的数据集描述

"数据集名称": { "file_name": "data.json", "columns": { "prompt": "text" } }

二、读取模型和数据进行训练

1.使用web ui

在LLama Factory目录下打开终端输入

llamafactory-cli webui

进入可视化微调界面：
注意:如果是本地模型此处一定是绝对路径
设置参数完成之后，可以通过预览命令获取训练命令输入到命令行执行，也可以在线执行

2.修改官方脚本（推荐）

在examples/train_qlora目录下，官方提供了许多的.yaml文件用于微调，我们只需要修改其中参数就可以使用。
我修改的一个版本

### model ###模型相对LLama-Factory的路径或者模型的Hub Id model_name_or_path: ../app/models/Qwen/Qwen2-7B-Instruct quantization_bit: 4 quantization_method: bitsandbytes # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)] ### method stage: sft do_train: true finetuning_type: lora lora_target: all ### dataset ### 你在data_info中给你数据集起的名字 dataset: sql_sft template: qwen cutoff_len: 1024 max_samples: 1000 overwrite_cache: true preprocessing_num_workers: 16 ### output ### 训练完成之后的adaptor存储路径 output_dir: saves/qwen2/lora/sft logging_steps: 10 save_steps: 500 plot_loss: true overwrite_output_dir: true ### train per_device_train_batch_size: 1 gradient_accumulation_steps: 8 learning_rate: 1.0e-4 num_train_epochs: 10.0 lr_scheduler_type: cosine warmup_ratio: 0.1 bf16: true ddp_timeout: 180000000 ### eval val_size: 0.1 per_device_eval_batch_size: 1 eval_strategy: steps eval_steps: 500

之后通过

llamafactory-cli train examples\train_qlora\**.yaml

即可训练，具体见官方微调命令

第三，加载与推理

类似训练过程，我们可以修改examples\inferance\中的examples进行推理

#模型相对LLama-Factory的路径 model_name_or_path: ../app/models/Qwen/Qwen2-7B-Instruct #训练的输出 adapter_name_or_path: saves/qwen2/lora/sft #模型系列 template: qwen finetuning_type: lora

修改完成之后类似的运行
llamafactory-cli chat examples\inferance*.yaml
成功读取adapter

之后可以与模型进行对话了

Peft库应该可以直接读取在python中读取训练的adapter数据，但是暂时还没弄
下面给个简单的加载案例

from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download from modelscope import GenerationConfig from peft import PeftModel model_name = "app/models/Qwen/Qwen2-7B-Instruct" device = "cuda" # the device to load the model onto model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto" ) lora_adapter_path = "LLaMA-Factory/saves/qwen2/lora/sft" model = PeftModel.from_pretrained(model, lora_adapter_path) tokenizer = AutoTokenizer.from_pretrained(model_name) prompt = "你好!" messages = [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(device) generated_ids = model.generate( **model_inputs, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response)

总结

# LLama Factory微调流程总结
LLama Factory是一个用于大语言模型微调的工具库，允许用户根据特定数据集和场景对大型预训练模型进行微调。以下是使用LLama Factory进行微调的整体流程和关键步骤的总结。
## 整体流程
1. **安装与预备**
- 克隆LLama Factory GitHub仓库并安装依赖。
- 准备微调所需的环境与工具，如合适的GPU和Python环境。
2. **准备数据集和模型**
- 下载所需的预训练模型或利用已经存在的模型。
- 准备微调数据集，并按照LLama Factory的数据集格式要求进行数据处理。
3. **数据加载与训练**
- 利用Web UI界面或修改官方提供的微调脚本进行训练参数设置。
- 启动训练过程，利用指定的数据集对模型进行微调。
4. **模型加载与推理**
- 加载微调后的模型，并利用加载的模型进行推理，如文本生成对话。
## 具体步骤
### 1. 准备微调的数据集和模型
- **下载模型**：利用如HuggingFace或ModelScope等平台提供的工具进行模型下载，或使用指定模型的存储路径。
- **读取本地模型**：确认模型正确下载后，读取模型和使用模型进行基础测试。
- **准备数据集**：准备与微调任务相关的数据集，并按照规定的格式进行数据存储和处理。
### 2. 读取模型和数据进行训练
- **使用Web UI**：运行`llamafactory-cli webui`命令以启动Web界面，在界面上设置参数并启动训练过程。
- **修改官方脚本**（推荐）：直接修改LLama Factory提供的训练脚本（如`.yaml`文件），定义相关训练参数和执行训练命令。
### 3. 加载与推理
- **修改推理示例**：修改LLama Factory提供的推理示例脚本，以加载调整后的模型和进行推理。
- **执行推理**：运行修改后的脚本或命令，以加载模型并根据用户提供的输入进行推理和响应。
## 建议和注意事项
- **确保环境兼容**：安装LLama Factory前确保Python和其他依赖库是最新版本且兼容。
- **调整训练参数**：根据模型和数据集特性，调整训练脚本中的参数以获得最优性能。
- **测试与验证**：在微调完成后，使用验证集或测试集测试模型的性能和效果，以便进行进一步优化。
- **文档和资源**：参考官方文档和社区资源，获取详细的使用示例和解答疑问。 tokenctollama数据集codeappllmpromptwebtpuchatgitsnapamlclipython大语言模型语言模型githubhuggingface