Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)
论文地址: 🔗https://arxiv.org/abs/2201.11903 ↗
使用少量示例提示要求模型一步步思考可以提高它们的推理能力。在数学词问题(GSM8K)上,PaLM的得分从18%提高到57%。
Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022)
论文地址:🔗https://arxiv.org/abs/2203.11171 ↗
对多个输出进行投票可以进一步提高准确性。对40个输出进行投票将PaLM在数学词问题上的得分从57%进一步提高到74%,code-davinci-002的得分从60%提高到78%。
Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023)
论文地址:🔗https://arxiv.org/abs/2305.10601 ↗
在一步步推理的树上搜索比对思维链投票更有帮助。它提高了GPT-4在创意写作和填字游戏等任务上的得分。
Language Models are Zero-Shot Reasoners (2022)
论文地址:🔗https://arxiv.org/abs/2205.11916 ↗
告诉遵循指令的模型一步步思考可以提高它们的推理能力。text-davinci-002在数学词问题(GSM8K)上的得分从13%提高到41%。
Large Language Models Are Human-Level Prompt Engineers (2023)
论文地址:🔗https://arxiv.org/abs/2211.01910 ↗
自动搜索可能的提示,找到一个提示将数学词问题(GSM8K)的得分提高到43%,比Language Models are Zero-Shot Reasoners中人工编写的提示高2个百分点。
Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling (2023)
论文地址:🔗https://arxiv.org/abs/2305.09993 ↗
自动搜索可能的思维链提示,在某些基准测试上将ChatGPT的分数提高了0-20个百分点。
Faithful Reasoning Using Large Language Models (2022)
论文地址:🔗https://arxiv.org/abs/2208.14271 ↗
推理能力可以通过一个系统来提高,该系统结合了:由替代选择和推理提示生成的思维链、选择何时停止选择-推理循环的halter模型、搜索多条推理路径的值函数,以及帮助避免虚构的句子标签。
STaR: Bootstrapping Reasoning With Reasoning (2022)
论文地址:🔗https://arxiv.org/abs/2203.14465 ↗
思维链推理可以通过微调植入模型中。对于有答案的任务,语言模型可以生成思维链示例。
ReAct: Synergizing Reasoning and Acting in Language Models (2023)
论文地址:🔗https://arxiv.org/abs/2210.03629 ↗
对于需要工具或环境的任务,如果在”推理步骤(思考做什么)”和”行动步骤(从工具或环境中获取信息)”之间交替进行,思维链效果会更好。
Reflexion: an autonomous agent with dynamic memory and self-reflection (2023)
论文地址:🔗https://arxiv.org/abs/2303.11366 ↗
记住先前的失败并重试任务可以提高后续的性能。
Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP (2023)
论文地址:🔗https://arxiv.org/abs/2212.14024 ↗
通过”检索-然后-阅读”方式用知识增强的模型,可以通过多跳查询链来改进。
Improving Factuality and Reasoning in Language Models through Multiagent Debate (2023)
论文地址:🔗https://arxiv.org/abs/2305.14325 ↗
生成几个ChatGPT智能体之间进行几轮辩论,可以提高各种基准的得分。数学词问题的得分从77%提高到85%。