大型语言模型的训练步骤 l 选择合适的架构:在模型训练中,我们首先选择合适的架构,如 Transformer 架构,这是模型的基础。 l Pretrain 阶段:接下来是预训练阶段,我们使用大量的高质量通识语料进行训练,然后用少量的高质量领域语料进一步训练。这个阶段通常时间长、计算量大。 l Instruct Finetune 阶段:然后是指令微调阶段,这里我们使用少量的高质量指令语料进行微调,时间相对较短。 l Human Feedback 阶段:最后是人类反馈阶段,我们持续根据人类的反馈来训练奖励模型,并依此进行强化学习训练。