AI轻松学

AI轻松学-04-Open AI Instruct GPT


Listen Later

OpenAI 的研究团队提出并验证了一种通过人类反馈微调语言模型的方法(即 InstructGPT),旨在让模型更好地“遵循指令”并与用户意图对齐。先收集标注文档(示范输出)并进行监督微调(SFT),再收集模型输出排序数据训练奖励模型(RM),最后用基于该奖励的PPO强化学习(并引入预训练数据混合的PPO-ptx)进一步优化模型行为


在小宇宙查看该单集文稿
...more
View all episodesView all episodes
Download on the App Store

AI轻松学By AI轻松学