Self-Rewarding Language Models: Human feedback은 bottleneck일수밖에 없고, reward 모델은 human feedback을 받은다음 frozen 되서 policy 개선 중에는 함께 개선되지 못한다.그러지말고 이 모두를 합친다. Response 도 만들고, reward 도 정하고, 그 둘로부터 트레이닝까지. 물론 방향을 잡아주는 몇개 훈련데이터는 넣음.
Self-Instruct: Our *pipeline generates instructions, input, and output samples from a language model*, then filters invalid or similar ones before using them to finetune the original model. 보다보면 비슷해 보인다. LLM 이 스스로는 아직 잘 못하는 Task에 대해 어떻게 훈련데이터를 만들 수 있는걸까 신기한 일이다.그러나 정작 나도 프롬프트 평가를 LLM에게 시키기는 함. 기준이 애매하다던가하는 지적도 잘 해주고 어떻게 구체적인 지시를 할 수 있는지 제안도 잘 해준다. 가끔 지시를 제대로 못알아듣고 주어진 프롬프트를 실행해버릴때도 있지만.
Constitutional AI: Human input 대신 principle을 입력으로 받은 LLM이 스스로의 결과를 평가하여, 자기 스스로를 개선할 데이터를 만든다.
이 모든 문제를 생각해보면 LLM이 비록 주어진 문제 유형을 못푸는 상태에 있다 하더라도 그 유형의 문제 출제는 가능하다는건데. 흥미롭다. 사람도 이런걸 잘 하던가??