Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)
论文地址: 🔗https://arxiv.org/abs/2201.11903 
使用少量示例提示要求模型一步步思考可以提高它们的推理能力。在数学词问题(GSM8K)上,PaLM的得分从18%提高到57%。

Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022)
论文地址:🔗https://arxiv.org/abs/2203.11171 
对多个输出进行投票可以进一步提高准确性。对40个输出进行投票将PaLM在数学词问题上的得分从57%进一步提高到74%,code-davinci-002的得分从60%提高到78%。

Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023)
论文地址:🔗https://arxiv.org/abs/2305.10601 
在一步步推理的树上搜索比对思维链投票更有帮助。它提高了GPT-4在创意写作和填字游戏等任务上的得分。

Language Models are Zero-Shot Reasoners (2022)
论文地址:🔗https://arxiv.org/abs/2205.11916 
告诉遵循指令的模型一步步思考可以提高它们的推理能力。text-davinci-002在数学词问题(GSM8K)上的得分从13%提高到41%。

Large Language Models Are Human-Level Prompt Engineers (2023)
论文地址:🔗https://arxiv.org/abs/2211.01910 
自动搜索可能的提示,找到一个提示将数学词问题(GSM8K)的得分提高到43%,比Language Models are Zero-Shot Reasoners中人工编写的提示高2个百分点。

Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling (2023)
论文地址:🔗https://arxiv.org/abs/2305.09993 
自动搜索可能的思维链提示,在某些基准测试上将ChatGPT的分数提高了0-20个百分点。

Faithful Reasoning Using Large Language Models (2022)
论文地址:🔗https://arxiv.org/abs/2208.14271 
推理能力可以通过一个系统来提高,该系统结合了:由替代选择和推理提示生成的思维链、选择何时停止选择-推理循环的halter模型、搜索多条推理路径的值函数,以及帮助避免虚构的句子标签。

STaR: Bootstrapping Reasoning With Reasoning (2022)
论文地址:🔗https://arxiv.org/abs/2203.14465 
思维链推理可以通过微调植入模型中。对于有答案的任务,语言模型可以生成思维链示例。

ReAct: Synergizing Reasoning and Acting in Language Models (2023)
论文地址:🔗https://arxiv.org/abs/2210.03629 
对于需要工具或环境的任务,如果在”推理步骤(思考做什么)”和”行动步骤(从工具或环境中获取信息)”之间交替进行,思维链效果会更好。

Reflexion: an autonomous agent with dynamic memory and self-reflection (2023)
论文地址:🔗https://arxiv.org/abs/2303.11366 
记住先前的失败并重试任务可以提高后续的性能。

Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP (2023)
论文地址:🔗https://arxiv.org/abs/2212.14024 
通过”检索-然后-阅读”方式用知识增强的模型,可以通过多跳查询链来改进。

Improving Factuality and Reasoning in Language Models through Multiagent Debate (2023)
论文地址:🔗https://arxiv.org/abs/2305.14325 
生成几个ChatGPT智能体之间进行几轮辩论,可以提高各种基准的得分。数学词问题的得分从77%提高到85%。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。