本文目录
本文由Todaylab精选编译,原文链接:Prompt engineering – OpenAI API
这个指南分享了从大型语言模型如GPT-4中获得更好结果的策略和技巧。这里描述的方法有时可以结合使用以获得更大的效果。我们鼓励尝试不同方法,找到最适合你的方法。
这里演示的一些示例目前只适用于我们最强大的模型 gpt-4
。一般来说,如果您发现一个模型在某项任务上失败了,并且有一个更强大的模型可用,通常值得再次尝试更强大的模型。
您也可以探索示例提示词,展示我们的模型能够做到的事情:
提示词示例:探索提示词示例,了解GPT模型的能力
六种策略获得更好AI对话结果
1.撰写清晰的说明
这些模型无法读取你的想法。如果输出太长,请要求简要回复。如果输出太简单,请要求专家级的写作。如果你不喜欢这种格式,请展示你想要看到的格式。模型需要猜测你想要什么的越少,你得到的可能性就越大。
技巧:
- 在查询中包含细节以获得更相关的答案
- 要求模型采用特定的角色
- 使用分隔符清楚地表示输入的不同部分
- 指定完成任务所需的步骤
- 举例说明
- 指定输出的期望长度
2.提供参考文本
语言模型可以自信地编造虚假答案,尤其是在被问及深奥的话题或引用和 URL 时。就像一张笔记可以帮助学生在考试中取得更好的成绩一样,为这些模型提供参考文本可以帮助学生在回答问题时减少编造。
技巧:
- 指导模特使用参考文本作答
- 指导范例引用参考文献回答问题
3.复杂任务分解为简单子任务
在软件工程中,将一个复杂的系统分解成一系列模块化组件是一种很好的做法,提交给语言模型的任务也是如此。复杂任务的错误率往往高于简单任务。此外,复杂任务通常可以重新定义为一个由较简单任务组成的工作流,在这个工作流中,前面任务的输出被用来构建后面任务的输入。
技巧:
- 使用意图分类来确定与用户查询最相关的指令
- 对于需要很长对话的对话应用程序,可总结或过滤之前的对话
- 对长文档进行分块摘要,并递归构建完整摘要
4.给模型一些时间来“思考”
如果要求将17乘以28,你可能不会立刻知道答案,但仍然可以花点时间算出来。同样,模型在试图立即回答问题时会犯更多的推理错误,而不是花时间算出答案。在回答之前要求“思维链条”可以帮助模型更可靠地推理出正确答案。
技巧:
- 指导模型在匆忙得出结论之前自己解决问题
- 使用内心独白或一系列问题来隐藏模型的推理过程
- 询问模型在之前的处理中是否遗漏了任何内容
5.使用外部工具
通过向模型提供其他工具的输出来弥补模型的弱点。例如,文本检索系统(有时称为RAG或检索增强生成)可以告诉模型相关文档的信息。像OpenAI的代码解释器这样的代码执行引擎可以帮助模型进行数学计算和运行代码。如果一个任务可以通过工具而不是语言模型更可靠或更高效地完成,就将其卸载以获得最佳效果。
技巧:
- 使用基于嵌入的搜索实现高效的知识检索
- 使用代码执行进行更准确的计算或调用外部API
- 给模型访问特定函数的权限
6.系统地测试变化
如果能对性能进行测量,提高性能就会变得更容易。在某些情况下,对提示符的修改会在一些孤立的示例上取得更好的性能,但在更具代表性的示例集上却会导致整体性能下降。因此,为了确保修改对性能的净积极影响,可能有必要定义一个综合测试套件(也称为 “评估”)。
技巧:
- 将模型输出与标准答案进行评估
实用策略
上述列出的每种策略都可以通过具体的技巧来实施。这些技巧旨在提供尝试的想法,绝不是全面的。你可以尝试这里没有提到的创意想法。
策略:撰写清晰的说明
技巧:在你的查询中包含细节,以获得更相关的答案
为了获得高度相关的回答,请确保请求提供任何重要的细节或背景。否则,你就让模型去猜你的意思。
更糟糕 | 更好 |
---|---|
如何在Excel中添加数字? | 如何在Excel中累加一行美元金额?我想要自动为整个表的行进行累加,所有的总数都会出现在右边的一个名为“总计”的列中。 |
谁是总统? | 2021年墨西哥的总统是谁,选举频率是多少? |
编写代码来计算斐波那契数列。 | 编写一个TypeScript函数来高效计算斐波那契数列。对代码进行充分注释,解释每个部分的作用以及为什么这样编写。 |
总结会议记录。 | 总结会议记录,写成一个段落。然后以 markdown 列出发言者及其要点。最后,列出发言者建议的下一步行动或行动项目(如果有的话)。 |
技巧:要求模特采用一个角色
系统 | 当我请求帮助写东西时,你会回复一个包含至少一个笑话或者每段都有一个俏皮评论的文档。 |
用户 | 给我的钢螺栓供应商写一封感谢信,感谢他们在短时间内准时交货。这使我们能够交付一份重要的订单。 |
技巧:使用分隔符清楚标明输入内容的不同部分
三引号、XML 标记、章节标题等分隔符可以帮助划分需要区别对待的文本部分。
用户 | 三行诗总结三引号之间的文本 |
“在此插入文字” | |
系统 | 您将收到一对关于同一主题的文章(用 XML 标记分隔)。首先总结每篇文章的论点。然后指出哪篇文章的论点更好,并解释原因。 |
用户 | 在此插入第一篇文章 |
在此插入第二篇文章 | |
系统 | 我们将为您提供论文摘要和建议标题。论文标题应让读者对论文主题有一个很好的概念,但也要醒目。如果标题不符合这些标准,请提出 5 个备选标题。 |
用户 | 摘要:在此插入摘要 |
标题:在此插入标题 |
对于这类简单的任务,使用分隔符可能不会影响输出质量。但是,任务越复杂,明确任务细节就越重要。不要让模型费力地理解您对他们提出的确切要求。
技巧:明确指定完成任务所需的步骤
有些任务最好被指定为一系列步骤。明确写出这些步骤可以让模型更容易地跟随它们。
系统 |
使用以下逐步说明来回应用户输入。 步骤1 – 用户将用三引号提供给您文本。用“摘要:”作为前缀,总结这段文本。 步骤2 – 将步骤1中的摘要翻译成西班牙语,前缀为“翻译:”。 |
用户 | “””在此插入文本””” |
策略:提供示例
通常,提供适用于所有示例的一般指导比通过示例演示任务的所有排列组合更有效,但在某些情况下,提供示例可能更容易。例如,如果您打算让模型复制一种难以明确描述的用户查询响应风格。这被称为“少样本”提示词。
系统 | 以一致的风格回答。 |
用户 | 教我耐心。 |
助手 | 刻出最深谷的河流源自一处不起眼的泉水;最宏伟的交响乐始于一声单一的音符;最复杂的挂毯始于一根孤独的线。 |
用户 | 教我有关海洋的知识。 |
技巧:指定所需输出的长度
您可以要求模型生成指定长度的输出。目标输出长度可以以单词、句子、段落、项目符号等形式指定。但请注意,指示模型生成特定数量的单词并不具有高精度。模型可以更可靠地生成具有特定段落或项目符号数量的输出。
技巧:指导模型使用参考文本回答
如果我们能为模型提供与当前查询相关的可信信息,那么我们可以指导模型使用提供的信息来构成其答案。
系统 | 使用由三个引号分隔的提供的文章来回答问题。如果答案在文章中找不到,写上“我找不到答案”。 |
用户 |
<插入文章,每篇由三个引号分隔> 问题:<插入问题> |
鉴于所有模型都有限的上下文窗口,我们需要一种动态查找与所提问题相关信息的方法。嵌入可以用来实现高效的知识检索。有关如何实现此功能的更多详细信息,请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。
技巧:指示模型使用参考文本中的引用来回答
如果输入已经补充了相关知识,那么可以直接要求模型通过引用提供的文档中的段落来为其答案添加引用。请注意,输出中的引用可以通过在提供的文档中进行字符串匹配来进行程序验证。
技巧 | 你将会收到一个由三引号分隔的文件和一个问题。你的任务是仅使用提供的文件来回答问题,并引用文件中用于回答问题的段落。如果文件中不包含回答这个问题所需的信息,那么只需写上:”信息不足”。如果提供了问题的答案,必须用引文进行注释。使用以下格式引用相关段落({“引文”: …})。 |
用户 | 请提供要翻译的具体内容 |
对于需要处理不同情况的大量独立指令集的任务,首先对查询类型进行分类,并利用该分类确定所需的指令可能是有益的。这可以通过定义固定类别并硬编码与处理给定类别任务相关的指令来实现。这个过程也可以递归地应用于将任务分解为一系列阶段。 这种方法的优势在于每个查询只包含执行任务下一阶段所需的指令,相比使用单个查询执行整个任务,可以降低错误率。这也可能导致更低的成本,因为更大的提示词费用更高(请参阅定价信息)。
假设例如,对于客户服务应用程序,查询可以有用地分类如下:
技巧 |
您将获得客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供您的输出,键为:primary和secondary。 主要类别:计费、技术支持、账户管理或一般查询。 计费次要类别: – 退订或升级 添加支付方式 收费说明 申诉费用 技术支持次要类别: 故障排除 设备兼容性 软件更新 账户管理次要类别: 重置密码 更新个人信息 关闭账户 账户安全 一般查询次要类别: 产品信息 定价 反馈 – 与人交谈 |
用户 | 我需要再次让我的互联网工作起来。 |
根据客户查询的分类,可以为模型提供一组更具体的指令,以便它处理下一步。例如,假设客户需要帮助“故障排除”。
系统 |
您将收到需要在技术支持环境中进行故障排除的客户服务查询。通过以下方式帮助用户: 请他们检查路由器的所有电缆是否连接好。请注意,随着时间的推移,电缆可能会松动。 如果所有电缆都连接好,问题仍然存在,请问他们使用的是哪种路由器型号 现在,您将告诉他们如何重新启动他们的设备: – 如果型号是MTD-327J,请建议他们按下红色按钮并保持5秒钟,然后等待5分钟再测试连接。 如果型号是MTD-327S,请建议他们拔掉插头,然后重新插上,然后等待5分钟再测试连接。 – 如果客户在重新启动设备并等待5分钟后问题仍然存在,请通过输出{“请求IT支持”}将他们连接到IT支持。 – 如果用户开始提出与此主题无关的问题,请确认他们是否想结束当前有关故障排除的聊天,并根据以下方案对其请求进行分类: 请提供上述主/次分类方案 |
用户 | 我需要再次让我的互联网工作起来。 |
请注意,模型已被指示发出特殊字符串,以指示对话状态何时发生变化。这使我们能够将我们的系统转变为一个状态机,其中状态决定了注入哪些指令。通过跟踪状态,确定在该状态下哪些指令是相关的,以及可选地确定从该状态允许的状态转换,我们可以在用户体验周围设置防护栏,这是通过较少结构化的方法很难实现的。
技巧:对于需要非常长对话的对话应用程序,总结或过滤先前的对话
由于模型具有固定的上下文长度,在用户和助手之间的对话中,如果整个对话都包含在上下文窗口中,对话就无法无限期地继续下去。
有各种解决这个问题的方法,其中之一是总结先前对话中的内容。一旦输入的长度达到预定的阈值,就可以触发一个查询,总结对话的一部分,并将先前对话的摘要作为系统消息的一部分包含在其中。另外,先前的对话也可以在整个对话过程中异步地进行总结。
另一种解决方案是动态选择先前对话中与当前查询最相关的部分。请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。
技巧:将长文档逐段总结,并递归构建完整摘要
由于模型具有固定的上下文长度,它们无法用于在单个查询中总结超过上下文长度减去生成摘要长度的文本。
总结一本非常长的文件,比如一本书,我们可以使用一系列查询来总结文件的每个部分。可以将各个部分的摘要连接起来并进行总结,从而产生摘要的摘要。这个过程可以递归进行,直到整个文件被总结。 如果需要使用关于前面部分的信息来理解后面的部分,那么一个有用的技巧是在总结内容的同时,包括在书中任何给定点之前的文本的运行摘要。这种总结书籍的方法的有效性已经在之前的OpenAI研究中得到了研究,使用了GPT-3的变体。
策略:给模型时间“思考”
技巧:在匆忙得出结论之前,指导模型自行解决问题
有时,我们明确指导模型在得出结论之前从第一原则出发进行推理,可以获得更好的结果。例如,假设我们希望模型评估学生对数学问题的解决方案。最明显的方法是简单地询问模型学生的解决方案是否正确。
系统 | 确定学生的解决方案是否正确 |
用户 |
问题陈述:我正在建造一个太阳能发电装置,需要帮助计算财务情况。 – 土地成本为每平方英尺100美元 – 我可以以每平方英尺250美元购买太阳能电池板 – 我已经谈判好了一份维护合同,每年的成本是固定的10万美元,另外每平方英尺还需要额外支付10美元 作为平方英尺数量的函数,首年运营的总成本是多少? 学生解决方案:设x为安装面积(平方英尺)。 1. 土地成本:100x 2. 太阳能电池板成本:250x 3. 维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000 |
助手 | 学生的解决方案是正确的。 |
但学生的解决方案实际上是不正确的!我们可以通过提示词模型首先生成自己的解决方案来成功地注意到这一点。
系统 | 首先解决问题。然后将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在自己解决问题之前不要决定学生的解决方案是否正确 |
用户 |
问题陈述:我正在建造一个太阳能发电装置,需要帮助计算财务情况。 – 土地成本为每平方英尺100美元 – 我可以以每平方英尺250美元购买太阳能电池板 – 我已经谈判好了一份维护合同,每年的成本是固定的10万美元,另外每平方英尺还需要额外支付10美元 作为平方英尺数量的函数,首年运营的总成本是多少? 学生解决方案:设x为安装面积(平方英尺)。 1. 土地成本:100x 2. 太阳能电池板成本:250x 3. 维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000 |
助手 |
设x为安装面积(平方英尺)。 1. 土地成本:100x 2. 太阳能电池板成本:250x 3. 维护成本:100,000 + 10x 总成本:100x + 250x + 100,000 + 10x = 360x + 100,000 学生的解决方案是错误的。他们在维护成本计算中犯了一个错误,使用了100x而不是10x。第一年运营的正确总成本是360x + 100,000。 |
前面的策略表明,模型有时在回答特定问题之前,对问题进行详细推理是很重要的。对于一些应用程序,模型用来得出最终答案的推理过程可能不适合与用户分享。例如,在辅导应用中,我们可能希望鼓励学生自己解决问题,但模型对学生解决方案的推理过程可能会向学生透露答案。
内心独白是一种可以用来缓解这种情况的策略。内心独白的理念是指导模型将输出中需要对用户隐藏的部分放入结构化格式,以便轻松解析。然后在向用户呈现输出之前,对输出进行解析,只有部分输出是可见的。
系统 |
按照以下步骤来回答用户的查询。 步骤1 – 首先解决问题。不要依赖学生的解决方案,因为可能是错误的。在此步骤中,将所有工作都放在三重引号(”””)之间。 步骤2 – 比较你的解决方案和学生的解决方案,并评估学生的解决方案是否正确。在此步骤中,将所有工作都放在三重引号(”””)之间。 步骤3 – 如果学生犯了错误,确定你可以给学生什么提示词,而不是直接给出答案。在这一步的所有工作都要用三重引号(”””)括起来。 步骤4 – 如果学生犯了错误,向学生提供上一步的提示词(不在三重引号内)。而不是写“第四步 – …”,写“提示词:”。 |
用户 |
问题陈述:<插入问题陈述> 学生解答:<插入学生解答> |
或者,可以通过一系列查询来实现,除了最后一个查询外,其他查询的输出都对最终用户隐藏。
首先,我们可以要求模型自行解决问题。由于这个初始查询不需要学生的解决方案,可以省略它。这样做的额外好处是,模型的解决方案不会受到学生尝试解决方案的影响。
用户 | <插入问题陈述> |
---|
接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。
系统 | 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。 |
用户 |
问题陈述: “””<插入问题陈述>””” 您的解决方案: “””<插入模型生成的解决方案>””” 学生的解决方案: “””<插入学生的解决方案>””” |
系统 | 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。 |
用户 |
问题陈述: “””<插入问题陈述>””” 您的解决方案: “””<插入模型生成的解决方案>””” 学生的解决方案: “””<插入学生的解决方案>””” |
最后,我们可以让模型利用自己的分析来以乐于助人的导师的身份构建回复。
技巧:询问模型是否在之前的传递中遗漏了任何内容
假设我们正在使用一个模型来列出与特定问题相关的来源摘录。在列出每个摘录后,模型需要确定是否应该开始写另一个摘录,还是应该停止。如果源文件很大,模型通常会过早停止,未能列出所有相关的摘录。在这种情况下,通常可以通过提示词模型进行后续查询来获得更好的性能,以找到它在之前遗漏的任何摘录。
系统 |
您将获得一个由三引号分隔的文档。您的任务是选择与以下问题相关的摘录:“人工智能历史上发生了哪些重大的范式转变。” 确保摘录包含解释所需的所有相关上下文 – 换句话说,不要提取缺少重要上下文的小片段。以以下JSON格式提供输出: [{“excerpt”: “…”}, … {“excerpt”: “…”}] |
用户 | |
助手 | 请提供完整的句子或上下文,以便我更好地理解并为您提供准确的翻译 |
用户 | 有更多相关摘录吗?注意不要重复摘录。还要确保摘录包含解释所需的所有相关上下文 – 换句话说,不要提取缺少重要上下文的小片段。 |
策略:使用外部工具
技巧:使用基于嵌入的搜索来实现高效的知识检索
模型可以利用外部信息源,如果这些信息作为其输入的一部分提供。这可以帮助模型生成更具见地和最新的响应。例如,如果用户询问有关特定电影的问题,将有关该电影的高质量信息(例如演员,导演等)添加到模型的输入可能会很有用。嵌入可以用于实现高效的知识检索,以便在运行时动态地将相关信息添加到模型输入中。
文本嵌入是一个可以衡量文本字符串相关性的向量。相似或相关的字符串会比不相关的字符串更接近。这一事实,再加上快速向量搜索算法的存在,意味着嵌入可以用来实现高效的知识检索。特别是,文本语料库可以被分割成块,每个块可以被嵌入和存储。 然后可以嵌入给定的查询,并执行向量搜索,以找到与查询最相关的语料库中嵌入的文本块(即在嵌入空间中最接近的文本块)。
在OpenAI Cookbook中可以找到示例实现。查看策略“指导模型使用检索到的知识来回答查询”以了解如何使用知识检索来最大程度地减少模型编造错误事实的可能性。
技巧:使用代码执行进行更精确的计算或调用外部API
语言模型不能单独准确地执行算术或长时间计算。在需要时,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定格式,如三个反引号。生成输出后,可以提取并运行代码。最后,如有必要,可以从代码执行引擎中获取输出(即。 Python解释器)可以作为下一个查询的模型输入。
系统 |
您可以通过使用三个反引号将Python代码括起来来编写和执行Python代码,例如code goes here 。使用这种方法进行计算。
|
用户 | 找出以下多项式的所有实根:3x5 – 5x4 – 3x3 – 7x – 10。 |
代码执行的另一个很好的用例是调用外部API。如果模型被指导正确地使用API,它可以编写利用它的代码。可以通过提供文档和/或代码示例来指导模型如何使用API。
系统 | 您可以通过用三个反引号括起来来编写和执行Python代码。还请注意,您可以访问以下模块来帮助用户向他们的朋友发送消息: |
用户 | 您可以通过用三个反引号括起来来编写和执行Python代码。还请注意,您可以访问以下模块来帮助用户向他们的朋友发送消息: |
警告:执行模型生成的代码并不绝对安全,任何试图执行此操作的应用程序都应采取预防措施。特别是需要一个沙盒式代码执行环境来限制不受信任的代码可能造成的危害。
技巧:让模型访问特定功能
聊天完成 API 允许在请求中传递函数描述列表。这使得模型能够根据提供的模式生成函数参数。API 返回的生成函数参数以 JSON 格式呈现,并可用于执行函数调用。然后,函数调用提供的输出可以在下一个请求中反馈到模型中,以完成循环。这是使用 OpenAI 模型调用外部函数的推荐方式。 请参阅我们的文本生成指南中的函数调用部分以及OpenAI Cookbook中的更多函数调用示例。
策略:系统地测试更改
有时很难判断一个变化(例如新的指令或新的设计)是让系统变得更好还是更糟。观察一些例子可能会暗示哪个更好,但样本量小的情况下很难区分真正的改进和随机运气。也许这个变化对某些输入的性能有所帮助,但对其他输入的性能有所损害。
评估程序(或“评估”)对优化系统设计很有用。良好的评估应具备以下特点:
- 代表真实世界的使用情况(或至少多样化)
- 包含许多测试用例以增强统计能力(请参见下表的指南)
- 易于自动化或重复
差异性检测 | 95%置信度所需的样本量 |
---|---|
30% | ~10 |
10% | ~100 |
3% | ~1,000 |
1% | ~10,000 |
可以通过计算机、人类或两者结合来评估输出。计算机可以使用客观标准(例如,具有单一正确答案的问题)自动化评估,也可以使用一些主观或模糊标准,其中模型输出由其他模型查询进行评估。OpenAI Evals是一个开源软件框架,提供了创建自动化评估工具。
当存在一系列可能被认为是同等高质量的输出时(例如对于长答案的问题),基于模型的评估可能是有用的。基于模型的评估和需要人工评估的实际界限模糊不清,并且随着模型变得更加强大而不断变化。我们鼓励尝试实验,以找出基于模型的评估在您的用例中能够发挥多大作用。
技巧:参考黄金标准答案评估模型输出
假设已知正确答案应参考特定的已知事实集。然后我们可以使用模型查询来计算答案中包含了多少必需事实。%% 例如,使用以下系统消息:%% 您将获得由三个引号分隔的文本,应该是问题的答案。检查以下信息是否直接包含在答案中:
系统 |
尼尔·阿姆斯特朗是第一个在月球上行走的人。- 尼尔·阿姆斯特朗首次在月球上行走的日期是1969年7月21日。 对于每个观点执行以下步骤: 1 – 重述该观点。 2 – 提供与该观点最接近的答案的引用。 3-考虑一下,如果有人阅读引文但不了解这个话题,是否能直接推断出要点。在做出决定之前解释为什么或为什么不。 4-如果问题3的答案是肯定的,请写“是”,否则写“否”。 最后,提供“是”答案的数量。将此数量提供为{“count”: <插入数量>}。 |
这是一个满足两个条件的示例输入:
系统 | <在上方插入系统消息> |
用户 | “””尼尔·阿姆斯特朗因成为第一个登上月球的人而闻名。这一历史事件发生在1969年7月21日,阿波罗11号任务期间。””” |
这是一个只满足一个条件的示例输入:
系统 | <在上方插入系统消息> |
用户 | 尼尔·阿姆斯特朗踏出登月舱时,创造了历史,成为第一个在月球上行走的人。 |
系统 | <在上方插入系统消息> |
用户 |
阿波罗11,像传奇一样大胆 阿姆斯特朗迈出了一步,历史展开了, 他说:“一个小小的步伐”,为了一个新世界 |
这种基于模型的评估方法有许多可能的变体。考虑以下变体,它跟踪候选答案与黄金标准答案之间的重叠类型,并且还跟踪候选答案是否与黄金标准答案的任何部分相矛盾。
系统 |
按照以下步骤回应用户输入。在进行下一步之前,完全重述每一步。即“步骤1:理由…”。 步骤1:逐步推理提交答案中的信息与专家答案相比是:不相交、相等、子集、超集或重叠(即有交集但不是子集/超集)。 步骤2:逐步推理提交答案是否与专家答案的任何方面相矛盾。 步骤3:输出一个结构化的JSON对象,格式如下:{“type_of_overlap”: “disjoint” 或 “equal” 或 “subset” 或 “superset” 或 “overlapping”, “contradiction”: true 或 false} |
这是一个带有次标准答案的示例输入,尽管如此,它并没有与专家答案相矛盾:
系统 | <在上方插入系统消息> |
用户 |
问题: “””尼尔·阿姆斯特朗因哪个事件而最为著名,它发生在哪个日期?假设使用协调世界时。””” 提交的答案: “””他不是在月球上行走了吗?””” 专家答案: “””尼尔·阿姆斯特朗最著名的是成为第一个在月球上行走的人。这一历史事件发生在1969年7月21日。””” |
这是一个例子输入,其中的答案直接与专家答案相矛盾:
系统 | <在上方插入系统消息> |
用户 |
问题:“尼尔·阿姆斯特朗因哪个事件而最为著名,这个事件发生在哪个日期?假设使用协调世界时。” 提交的答案:“1969年7月21日,尼尔·阿姆斯特朗成为第二个登上月球的人,之前是巴兹·奥尔德林。” 尼尔·阿姆斯特朗最著名的是成为第一个登上月球的人。这一历史事件发生在1969年7月21日。 |
这是一个示例输入,其中包含一个正确答案,还提供了比必要的更多细节:
系统 | <在上方插入系统消息> |
用户 |
问题:“尼尔·阿姆斯特朗因哪个事件而最为著名,它发生在哪个日期?假设使用协调世界时。” 提交的答案:“1969年7月21日大约02:56协调世界时,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,标志着人类历史上的一个重大成就。” 尼尔·阿姆斯特朗最著名的是成为第一个登上月球的人。这一历史事件发生在1969年7月21日。 |
其他资源
要获取更多灵感,请访问OpenAI Cookbook,其中包含示例代码以及指向第三方资源的链接,例如: