searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

Chinese LLaMA2预训练和指令精调实战-指令精调

2023-09-05 08:53:11
132
0

一、离线环境搭建

参考llama2大模型训练实战连载文《Chinese LLaMA2预训练和指令精调实战-离线环境搭建》

二、训练前准备

参考llama2大模型训练实战连载文《Chinese LLaMA2预训练和指令精调实战-训练前准备》

三、预训练

参考llama2大模型训练实战连载文《Chinese LLaMA2预训练和指令精调实战-预训练》

四、精调

  • 输入格式 .json,Stanford Alpaca格式

  • 原版Stanford Alpaca不带input的模版。对于包含input字段的数据,采用f"{instruction}+\n+{input}"的形式进行拼接。
[  
{"instruction" : ...,   
"input" : ...,   
"output" : ...},  
...]

  • 指令精调代码 github.com/ymcui/Chinese-LLaMA-Alpaca-2/blob/main/scripts/training/run_clm_sft_with_peft.py
  • bash run_sft.sh进行指令精调
lr=1e-4
lora_rank=64
lora_alpha=128
lora_trainable="q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj"
modules_to_save="embed_tokens,lm_head"
lora_dropout=0.05

pretrained_model=/root/llama/correspond_output_dir
chinese_tokenizer_path=/root/llama/correspond_output_dir
dataset_dir=data_pt
per_device_train_batch_size=1
per_device_eval_batch_size=1
gradient_accumulation_steps=8
max_seq_length=512
output_dir=sft_output_dir2
validation_file=data_pt/alpaca_data_zh_51k.json
training_steps=6000
# 参数解释
tokenizer_name_or_path: Chinese-LLaMA-2 tokenizer所在的目录。
dataset_dir: 指令精调数据的目录,包含一个或多个以json结尾的Stanford Alpaca格式的指令精调数据文件
validation_file: 用作验证集的单个指令精调文件,以json结尾,同样遵循Stanford Alpaca格式
flash_attn: 启用FlashAttention-2加速训练


deepspeed_config_file=scripts/training/ds_zero2_no_offload.json

torchrun --nnodes 1 --nproc_per_node 7 scripts/training/run_clm_sft_with_peft.py \
    --deepspeed ${deepspeed_config_file} \
    --model_name_or_path ${pretrained_model} \
    --tokenizer_name_or_path ${chinese_tokenizer_path} \
    --dataset_dir ${dataset_dir} \
    --per_device_train_batch_size ${per_device_train_batch_size} \
    --per_device_eval_batch_size ${per_device_eval_batch_size} \
    --do_train \
    --do_eval  \
    --eval_steps 1000 \
    --seed $RANDOM \
    --fp16 \
    --num_train_epochs 1 \
    --lr_scheduler_type cosine \
    --learning_rate ${lr} \
    --warmup_ratio 0.03 \
    --weight_decay 0 \
    --logging_strategy steps \
    --logging_steps 10 \
    --save_strategy steps \
    --save_total_limit 3 \
    --evaluation_strategy steps \
    --eval_steps 6000 \
    --save_steps 3000 \
    --gradient_accumulation_steps ${gradient_accumulation_steps} \
    --preprocessing_num_workers 8 \
    --max_steps ${training_steps} \
    --max_seq_length ${max_seq_length} \
    --output_dir ${output_dir} \
    --overwrite_output_dir \
    --ddp_timeout 30000 \
    --logging_first_step True \
    --lora_rank ${lora_rank} \
    --lora_alpha ${lora_alpha} \
    --trainable ${lora_trainable} \
    --lora_dropout ${lora_dropout} \
    --modules_to_save ${modules_to_save} \
    --torch_dtype float16 \
    --validation_file ${validation_file}

 

  • 合并模型
  • 推理
    • 推理代码github.com/ymcui/Chinese-LLaMA-Alpaca-2/blob/main/scripts/inference/inference_hf.py
    • 推理脚本
python scripts/inference/inference_hf.py \
    --base_model  correspond_output_dir \
    --lora_model  sft_output_dir2/sft_lora_model \
    --tokenizer_path correspond_output_dir \
    --with_prompt \
    --gpus 1
# 参数解释
with_prompt  使用提示自动包装输入
gpus 使用哪个GPU

  • 推理结果

 

  • 可以发现每次的回答不一样,这是因为设置了如下参数temperature, top_k, top_p

    • vllm加速推理
    • 参数理解
if args.use_vllm:
    generation_config = dict(
        temperature=0.2,
        top_k=40,
        top_p=0.9,
        max_tokens=400,
        presence_penalty=1.0,
    )
else:
    generation_config = GenerationConfig(
        temperature=0.2,
        top_k=40,
        top_p=0.9,
        do_sample=True,
        num_beams=1,
        repetition_penalty=1.1,
        max_new_tokens=400
    )
# 参数解释
temperature:文本生成的随机性,temperature越大随机性越高,设置为0,则相同的提示会产生相同的结果。0温度相当于 argmax 似然,而无限温度相当于均匀采样。
top_k:  从概率最高的 k 个单词中进行随机采样
top_p: 核采样(nucleus sampling),只从累积概率超过某个阈值 p 的最小单词集合中进行随机采样,为了限制低概率token的长尾,一般设置的比较高。
如果 k 和 p 都启用,则 p 在 k 之后起作用。
max_tokens:文本生成的最大长度。
presence_penalty:(阻止调整: [-2,2] ),防止模型引入新的话题。控制文本同一词汇重复情况。当此参数值大于0时,将鼓励模型生成不同的单词,并尽可能避免使用已经在之前生成的文本中出现过的单词。如果presence_penalty值越大,生成的文本中不同单词的数量可能越多。如果presence_penalty值为0,则不会考虑之前生成的单词,并且每次生成的单词概率分布都是相同的。 例如,在文本生成任务中,如果需要鼓励生成不同的单词,并且避免使用相同的单词,可以增大presence_penalty的值。
frequency_penalty:(阻止调整: [-2,2] ),控制文本罕见词汇出现情况。当此参数值大于0时,将抑制模型生成频繁出现的单词,并鼓励生成罕见的单词。如果frequency_penalty值越大,生成的文本中罕见单词的数量可能越多。如果frequency_penalty值为0,则不会考虑单词的频率,并且每次生成的单词概率分布都是相同的。 如果需要鼓励生成罕见的单词,可以增大frequency_penalty的值。
num_beams: 每一时间步选择num_beams个词,并从中最终选择出概率最高的序列
Beam-search:do_sample = False, num_beams>1
Multinomial sampling(多项式采样):
每一个时间步,根据概率分布随机采样字(每个概率>0的字都有被选中的机会)。do_sample = True, num_beams = 1
Beam-search multinomial sampling:结合了Beam-search和multinomial sampling的方式,每个时间步从num_beams个字中采样,参数:do_sample = True, num_beams > 1

 

0条评论
0 / 1000
l****n
28文章数
5粉丝数
l****n
28 文章 | 5 粉丝
原创

Chinese LLaMA2预训练和指令精调实战-指令精调

2023-09-05 08:53:11
132
0

一、离线环境搭建

参考llama2大模型训练实战连载文《Chinese LLaMA2预训练和指令精调实战-离线环境搭建》

二、训练前准备

参考llama2大模型训练实战连载文《Chinese LLaMA2预训练和指令精调实战-训练前准备》

三、预训练

参考llama2大模型训练实战连载文《Chinese LLaMA2预训练和指令精调实战-预训练》

四、精调

  • 输入格式 .json,Stanford Alpaca格式

  • 原版Stanford Alpaca不带input的模版。对于包含input字段的数据,采用f"{instruction}+\n+{input}"的形式进行拼接。
[  
{"instruction" : ...,   
"input" : ...,   
"output" : ...},  
...]

  • 指令精调代码 github.com/ymcui/Chinese-LLaMA-Alpaca-2/blob/main/scripts/training/run_clm_sft_with_peft.py
  • bash run_sft.sh进行指令精调
lr=1e-4
lora_rank=64
lora_alpha=128
lora_trainable="q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj"
modules_to_save="embed_tokens,lm_head"
lora_dropout=0.05

pretrained_model=/root/llama/correspond_output_dir
chinese_tokenizer_path=/root/llama/correspond_output_dir
dataset_dir=data_pt
per_device_train_batch_size=1
per_device_eval_batch_size=1
gradient_accumulation_steps=8
max_seq_length=512
output_dir=sft_output_dir2
validation_file=data_pt/alpaca_data_zh_51k.json
training_steps=6000
# 参数解释
tokenizer_name_or_path: Chinese-LLaMA-2 tokenizer所在的目录。
dataset_dir: 指令精调数据的目录,包含一个或多个以json结尾的Stanford Alpaca格式的指令精调数据文件
validation_file: 用作验证集的单个指令精调文件,以json结尾,同样遵循Stanford Alpaca格式
flash_attn: 启用FlashAttention-2加速训练


deepspeed_config_file=scripts/training/ds_zero2_no_offload.json

torchrun --nnodes 1 --nproc_per_node 7 scripts/training/run_clm_sft_with_peft.py \
    --deepspeed ${deepspeed_config_file} \
    --model_name_or_path ${pretrained_model} \
    --tokenizer_name_or_path ${chinese_tokenizer_path} \
    --dataset_dir ${dataset_dir} \
    --per_device_train_batch_size ${per_device_train_batch_size} \
    --per_device_eval_batch_size ${per_device_eval_batch_size} \
    --do_train \
    --do_eval  \
    --eval_steps 1000 \
    --seed $RANDOM \
    --fp16 \
    --num_train_epochs 1 \
    --lr_scheduler_type cosine \
    --learning_rate ${lr} \
    --warmup_ratio 0.03 \
    --weight_decay 0 \
    --logging_strategy steps \
    --logging_steps 10 \
    --save_strategy steps \
    --save_total_limit 3 \
    --evaluation_strategy steps \
    --eval_steps 6000 \
    --save_steps 3000 \
    --gradient_accumulation_steps ${gradient_accumulation_steps} \
    --preprocessing_num_workers 8 \
    --max_steps ${training_steps} \
    --max_seq_length ${max_seq_length} \
    --output_dir ${output_dir} \
    --overwrite_output_dir \
    --ddp_timeout 30000 \
    --logging_first_step True \
    --lora_rank ${lora_rank} \
    --lora_alpha ${lora_alpha} \
    --trainable ${lora_trainable} \
    --lora_dropout ${lora_dropout} \
    --modules_to_save ${modules_to_save} \
    --torch_dtype float16 \
    --validation_file ${validation_file}

 

  • 合并模型
  • 推理
    • 推理代码github.com/ymcui/Chinese-LLaMA-Alpaca-2/blob/main/scripts/inference/inference_hf.py
    • 推理脚本
python scripts/inference/inference_hf.py \
    --base_model  correspond_output_dir \
    --lora_model  sft_output_dir2/sft_lora_model \
    --tokenizer_path correspond_output_dir \
    --with_prompt \
    --gpus 1
# 参数解释
with_prompt  使用提示自动包装输入
gpus 使用哪个GPU

  • 推理结果

 

  • 可以发现每次的回答不一样,这是因为设置了如下参数temperature, top_k, top_p

    • vllm加速推理
    • 参数理解
if args.use_vllm:
    generation_config = dict(
        temperature=0.2,
        top_k=40,
        top_p=0.9,
        max_tokens=400,
        presence_penalty=1.0,
    )
else:
    generation_config = GenerationConfig(
        temperature=0.2,
        top_k=40,
        top_p=0.9,
        do_sample=True,
        num_beams=1,
        repetition_penalty=1.1,
        max_new_tokens=400
    )
# 参数解释
temperature:文本生成的随机性,temperature越大随机性越高,设置为0,则相同的提示会产生相同的结果。0温度相当于 argmax 似然,而无限温度相当于均匀采样。
top_k:  从概率最高的 k 个单词中进行随机采样
top_p: 核采样(nucleus sampling),只从累积概率超过某个阈值 p 的最小单词集合中进行随机采样,为了限制低概率token的长尾,一般设置的比较高。
如果 k 和 p 都启用,则 p 在 k 之后起作用。
max_tokens:文本生成的最大长度。
presence_penalty:(阻止调整: [-2,2] ),防止模型引入新的话题。控制文本同一词汇重复情况。当此参数值大于0时,将鼓励模型生成不同的单词,并尽可能避免使用已经在之前生成的文本中出现过的单词。如果presence_penalty值越大,生成的文本中不同单词的数量可能越多。如果presence_penalty值为0,则不会考虑之前生成的单词,并且每次生成的单词概率分布都是相同的。 例如,在文本生成任务中,如果需要鼓励生成不同的单词,并且避免使用相同的单词,可以增大presence_penalty的值。
frequency_penalty:(阻止调整: [-2,2] ),控制文本罕见词汇出现情况。当此参数值大于0时,将抑制模型生成频繁出现的单词,并鼓励生成罕见的单词。如果frequency_penalty值越大,生成的文本中罕见单词的数量可能越多。如果frequency_penalty值为0,则不会考虑单词的频率,并且每次生成的单词概率分布都是相同的。 如果需要鼓励生成罕见的单词,可以增大frequency_penalty的值。
num_beams: 每一时间步选择num_beams个词,并从中最终选择出概率最高的序列
Beam-search:do_sample = False, num_beams>1
Multinomial sampling(多项式采样):
每一个时间步,根据概率分布随机采样字(每个概率>0的字都有被选中的机会)。do_sample = True, num_beams = 1
Beam-search multinomial sampling:结合了Beam-search和multinomial sampling的方式,每个时间步从num_beams个字中采样,参数:do_sample = True, num_beams > 1

 

文章来自个人专栏
AI-llama大模型,go语言开发
28 文章 | 2 订阅
0条评论
0 / 1000
请输入你的评论
0
0