ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

李宏毅老师YouTube原视频

Instruct GPT https://arxivorg/abs/2203.02155

GPT-3 https://arxiv.org/pdf/2005.14165

https://openai.com/blog/chatgpt/

GPT =Generative Pre-trained Transformer

  1. 学习文字接龙

    • 学习一堆词后面出现什么词的概率 比如给一个不完整的句子 “你好” 让他后面接词
    • GPT先从网络中看大量文句 从而知道 一段文字后出现词的几率分布 在回答时按这种几率分布回答 从而每次回答都不一样
  2. 人类老师引导文字接龙的方向

    • 找人来思考想问GPT的问题,并提供正确答案 提供比较好的数据 让他学习
  3. 模仿人类老师的喜好

    • 找一批人评价GPT的回答 然后用这个评价数据 训练一个 teacher model 用来评分
  4. 增强式学习向老师模拟老师学习

    • 当别人问GPT 问题 GPT 给出答案 并把问题和答案输入Teacher model 得到评分 修改GPT参数(Reward)

    但是ChatGPT仍然不完美 问一下 没用的问题(训练中没有考虑到的问题问法) 他就不行了