根据3.2.1-获取源数据中描述的方法,可以获得通用和行业的微调数据集,与业界的微调数据格式相同,需要将文本处理为JSONL格式,其中的每一行文本为一个JSON字符串,至少包含两个json key分别表示问题和回答,对应key为 context 和 target,system字段支持自定义人设,为可选。
数据示例:
- 单轮对话:
{"system":"xxx","context":["Q"],"target":"A"}, context为string或者单个元素的list都可以。
- 多轮对话:
{"system":"xxx","context":["Q1","A1",......"Qn"],"target":"An"}
其中,system字段非必选,system如需配置,只可配置一个string,目前只支持单人设
- 带 thinking 思维链的逻辑推理数据示例:
{"system": "你是一个擅长于文章写作、文本分析、代码编写、数学运算、逻辑推理的AI助手,专注于针对用户的问题给出高质量解答。", "context": "前提:嗯,我爱看《杰作剧场》\n假设:《杰作剧场》自我小时候起就是我最喜欢的节目之一。\n前提是否包含假设?\n选项:\n- 是\n- 无法确定\n- 否", "target": "<think>\n好的,我现在要分析一下这个问题。题目给出的前提是“我爱看《杰作剧场》”,而假设是“《杰作剧场》自我小时候起就是我最喜欢的节目之一。”然后问题问的是前提是否包含这个假设,选项有是、无法确定和否。\n\n首先,我需要明确什么是前提和假设。前提通常是陈述一个事实或情况,而假设则是基于前提做出的推理或推断。接下来,我要看看前提是否已经包含了假设中的内容。\n\n前提中提到“我爱看《杰作剧场》”,这说明说话者喜欢这个节目。假设则进一步说明,这种喜爱是从小时候开始的,并且是他们最喜欢的节目之一。所以,前提只是陈述了一个现状,即现在喜欢,而没有提到过去的情况或者它是否是他们最喜欢的节目之一。\n\n因此,前提并没有包含假设中的信息。假设是在前提的基础上添加了更多的背景和细节,而这些在前提中并没有提到。所以,结论应该是前提不包含假设,选项是“否”。\n</think>前提:“我爱看《杰作剧场》” \n假设:“《杰作剧场》自我小时候起就是我最喜欢的节目之一。” \n\n前提中提到“我爱看《杰作剧场》”,但并未明确说明这种喜爱是从什么时候开始的,也没有提到它是“我最喜欢的节目之一”。因此,前提并未包含假设中的信息。\n\n答案:否"}
|