ChatGPT是怎麼煉成的GPT社會化的過程ChatGPTChatGPTChatGPT的學習四階段1.學習文字接龍2.人類老師引導文字接龍的方向3.模仿人類老師的喜好4.用增強式學習向模擬老師學習1.學習文字接龍GPT“你好”GPT=GenerativePre-trainedTransformer“美”不需要人工標註“跟人類對話”“跟”“人”“跟人”“類”“跟人類”“對”不完整的句子接一個可能的字1.學習文字接龍GPT“你好”GPT=GenerativePre-trainedTransformer不完整的句子美高嗎美每一次的輸出都不同1.學習文字接龍•文字接龍有甚麼用?GPT台灣最高的山是那座?玉GPT山台灣最高的山是那座?玉還是可以回答問題!1.學習文字接龍•文字接龍有甚麼用?1.學習文字接龍•但實際上……GPT台灣最高的山是那座?玉山每次的輸出都不同(A)雪山(B)玉山……誰來告訴我呀如何引導GPT產生有用的輸出呢?ChatGPT的學習四階段1.學習文字接龍2.人類老師引導文字接龍的方向3.模仿人類老師的喜好4.用增強式學習向模擬老師學習2.人類老師引導文字接龍的方向•找人來思考想問GPT的問題,並人工提供正確答案以後多看這些有益的文句,不要去網路上看一些有的沒的台灣最高的山是那座?玉山如何學習深度學習?需要先知道基本概念…請把這句話做翻譯……不需要窮盡所有的問題,我們只是要告訴GPT人類的偏好ChatGPT的學習四階段1.學習文字接龍2.人類老師引導文字接龍的方向3.模仿人類老師的喜好4.用增強式學習向模擬老師學習3.模仿人類老師的喜好TeacherModel分數GPT台灣最高的山是那座?玉山誰來告訴我呀>台灣最高的山是那座?玉山TeacherModel分數台灣最高的山是那座?誰來告訴我呀>ChatGPT的學習四階段1.學習文字接龍2.人類老師引導文字接龍的方向3.模仿人類老師的喜好4.用增強式學習向模擬老師學習4.用增強式學習向模擬老師學習TeacherModel低分GPT世界上最高的山是那座?世界上最深的海又在哪裡?世界上最高的山是那座?世界上最深的海又在哪裡?增強式學習:調整參數,得到最大的Reward增強式學習中的“Reward”GPT4.用增強式學習向模擬老師學習TeacherModel高分ChatGPT世界上最高的山是那座?喜馬拉雅山世界上最高的山是那座?喜馬拉雅山增強式學習:調整參數,得到最大的Reward增強式學習中的“Reward”當然ChatGPT仍不是完美的……我試了5次,有3次回答“八個字母”,有2次回答“七個字母”結語:GPT的社會化1.學習文字接龍2.人類老師引導文字接龍的方向3.模仿人類老師的喜好4.用增強式學習向模擬老師學習想說甚麼就說甚麼引導GPT說人類要他說的