ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程
ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程
李宏毅老师YouTube原视频
Instruct GPT https://arxivorg/abs/2203.02155
GPT-3 https://arxiv.org/pdf/2005.14165
https://openai.com/blog/chatgpt/
GPT =Generative Pre-trained Transformer
学习文字接龙
- 学习一堆词后面出现什么词的概率 比如给一个不完整的句子 “你好” 让他后面接词
- GPT先从网络中看大量文句 从而知道 一段文字后出现词的几率分布 在回答时按这种几率分布回答 从而每次回答都不一样
人类老师引导文字接龙的方向
- 找人来思考想问GPT的问题,并提供正确答案 提供比较好的数据 让他学习
模仿人类老师的喜好
- 找一批人评价GPT的回答 然后用这个评价数据 训练一个 teacher model 用来评分
增强式学习向老师模拟老师学习
- 当别人问GPT 问题 GPT 给出答案 并把问题和答案输入Teacher model 得到评分 修改GPT参数(Reward)
但是ChatGPT仍然不完美 问一下 没用的问题(训练中没有考虑到的问题问法) 他就不行了