OpenAI 提出了一种新方法 “证明者-验证者游戏提高LLM输出的可读性”
摘要
本文探讨了如何提高大型语言模型(LLM)输出的可读性,特别是小学数学问题。
可读性定义为解决方案的清晰度和可验证性,使其易于理解和验证。
仅优化答案正确性通常会降低可读性。
提出了一种受证明者-验证者游戏启发的训练算法,包括:
有用证明者:生成正确、易读的解决方案。
狡猾证明者:生成错误但令人信服的解决方案以测试验证者。
验证者:预测解决方案的正确性,并提高对抗对抗性攻击的鲁棒性。
关键概念
可验证性:
完整性:证明者生成正确的解决方案,验证者接受它们。
健全性:验证者拒绝来自对抗性证明者的错误解决方案。
训练方法:
迭代训练验证者和证明者以提高其准确性和鲁棒性。
使用有用和狡猾的证明者来优化验证者的能力。
训练过程在验证者的正确性和证明者的正确性与说服力之间交替进行。
结果
提高可读性:
仅优化正确性的解决方案往往不易读。
可验证性训练在保持准确性的同时提高了可读性。
人类评估者发现,有用的证明者生成的解决方案在多个训练轮次中更易于验证。
验证者的鲁棒性:
验证者随着时间的推移变得更善于检测狡猾的错误解决方案。
狡猾证明者生成的错误越来越隐蔽,挑战验证者和人类评估者。
人类评估:
人类评审员在验证有用的证明者解决方案时的准确性提高。
随着训练进展,狡猾证明者生成的解决方案变得越来越难以被人类发现。
方法
基线:直接优化正确性,导致准确但不易读的解决方案。
可验证性训练:验证者和证明者交替训练阶段。
验证者训练:监督学习预测解决方案正确性。
证明者训练:强化学习在正确性和说服力之间取得平衡。
发现
权衡:优化正确性可能降低可读性,称为“可读性税”。
可验证性训练:帮助减少可读性税,生成既准确又易读的解决方案。
人类可读性:训练提高了在时间限制下人类评估者验证正确性的能力。
未来工作
将方法扩展到更复杂的领域和无监督设置。
开发方法将解决方案转化为更易读的解释。
研究多轮证明者-验证者交互以提高样本效率。
在最少的真实标签下提高人类可读性。
结论
证明者-验证者游戏提供了一种有前景的方法,可以提高LLM输出的可读性,从而促进人与AI系统之间的信任与合作。
论文:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
暂无评论,523人围观