【任务二】数据集建设说明与奖励规则

下载完整任务书和数据集样例：任务二数据集示例

提交数据集

任务描述

您除了可以提交单条评测数据外，还可体验更高阶的玩法——创建数据集，单次提交即可赢取至多2000元奖金！

数据集是什么？

数据集由一组聚焦于相同任务场景、考察模型同样能力的评测数据及其参考答案构成。数据集中需包含至少10条评测数据，且评测数据之间相互独立。一组围绕“诗歌纠错”任务的数据集示例如下表所示：

问题1：对以下诗歌进行改错：欲穷千里目，更上几层楼。答案：欲穷千里目，更上一层楼。

问题2：对以下诗歌进行改错：人生自古谁无死，留取丹心照汗清。答案：人生自古谁无死，留取丹心照汗青。

……

您需要提供什么？

数据集说明 – 包含数据集的摘要说明、构建方式、评测说明等信息，以Word/PDF格式提交，具体内容及形式参见【数据集说明模板】
评测数据集 – 包含10~200条评测题目及其参考答案（数据规模将影响奖金评定），以Excel或Json格式提交，具体内容及形式可参考【数据集模板】、【数据集模板二-选择题格式】，也可根据不同题型的需求自定义数据模板。

审核标准及奖励机制

数据集采用人工审核的方式，审核包含有效性审核和质量审核两部分：

【有效性审核】审核提交内容是否满足评测数据集的基本要求，审核不通过的将不予采纳。审核主要考察的方面包括：数据完整、格式正确、语言通顺等。对评测数据集具体的要求包括：

数据完整：按照数据集构建的细则，提交要求的所有内容。
格式正确：按照指定的Excel或Json提交，并具有清晰的结构。
语言通顺：数据集提交的所有内容，文本语言流畅，可阅读。
数据准确：提交数据集内的评测数据问题和答案需准确无误。
原创性：不得与公开数据集及本项目中其他用户已提交的数据集重复（建设思路相似亦视为重复数据，可在【数据市场链接】查看已有数据集）。
任务聚焦：每个数据集需聚焦于同样的任务场景，考察同样的模型能力，不能一部分是数据计算题，一部分是翻译题。
能力适配：评测任务及难度适配当前业界大语言模型能力范围（如询问今天天气等需要实时知识的数据集不适配）。

【质量审核】对于有效性审核通过的数据集，平台将从数据集的数据规模、区分度、新颖性、多样性以及数据集说明的完整性等角度对数据集质量进行评分，具体的评分方案如下：

评分维度	分数占比	评分说明
新颖性	30分	数据集的新颖性将从两个方面进行评定：1. 数据集所关联的能力标签的稀缺性；2. 数据集所涉及的任务场景的新颖性。具体的：关联的能力标签下均有充足的评测数据，且评测的任务场景较为常见，得0-10分；关联了稀缺的能力标签，或评测的任务场景设计独特，得10-20分；关联了稀缺的能力标签，且评测的任务场景设计独特，得20-30分。
多样性	25分	评定数据集中数据的多样性是否足以充分考察模型在该任务场景的效果。具体的：问题形式单一且内容主题不够丰富，得0-10分；问题形式多样，或内容主题丰富，得10-20分；问题形式多样，内容主题丰富，可充分考察模型在该任务场景的效果，得20-25分。
区分度	15分	评定该数据集是否能区分不同能力模型的差别。具体的：若数据集过难或过易，所有模型在该数据集上得分都很接近，则得0分；若数据集能够将模型能力区分两档或多档，得5-10分；若该数据集能提供对各模型连续且稳定的能力区分，得15分。
数据规模	10分	根据数据集中的数据条数进行评分。数据条数小于10条不予采纳；每20条数据可获得1分；有效数据条数大于200条，得10分。
说明完整性	20分	根据提供的数据集说明的完整性及质量进行分数评定。数据集说明中需要详细阐述该数据集的背景和目标、构造方法、评价方式和数据格式说明，并确保每个步骤都清晰明了，没有歧义，以便该数据集可以被正确用于评估，以及后续其他人可以无误地构造出更多的数据。

平台会邀请大模型方向的专家根据上述打分表对用户提交的数据集进行打分，按照总得分进行星级的评定及奖励的发放。具体的，数据集将被评定为“一星”、“二星”、“三星”、“四星”、“五星” 五个档位，对应10~50分不等的积分奖励以及为100~1000元不等的现金奖励。具体星级档位和奖励的对应如下表所示：

评分	分档	积分奖励	现金奖励
<25分	未采纳	0分	0元
25~45	⭐	50分	100元
45~65	⭐ ⭐	100分	200元
65~75	⭐ ⭐ ⭐	200分	400元
75~85	⭐ ⭐ ⭐ ⭐	300分	600元
>85分	⭐ ⭐ ⭐ ⭐ ⭐	500分	1000~2000元

需要特别注意的是：

针对样本数据小于10条的数据集，平台将会判定为不采纳。
针对优质的五星数据集，平台会根据数据集质量，在基础的1000元现金奖励之上再提供不超过1000元的额外现金奖励，总现金奖励最高可达2000元。
针对数据集任务，平台总共提供10万元的现金奖池，当现金奖池发放完毕后新增数据集仅获得积分奖励，不再获得现金奖励。

分档示例

	新颖性（30分）	多样性（25分）	区分度（15分）	数据规模（10分）	说明完整性（20分）	总分	星级
示例一数据集说明：五星数据集说明-根据emoji猜电影名.docx数据集：五星数据集样例.xlsx 五星数据集样例.json	27	20	12	10	18	87	⭐ ⭐ ⭐ ⭐ ⭐
示例二数据集说明：四星数据集说明-根据emoji猜电影名.docx数据集：四星数据集样例.xlsx	27	15	12	3	18	75	⭐ ⭐ ⭐ ⭐
示例三数据集说明：三星数据集说明-根据emoji猜电影名.docx数据集：三星数据集样例.xlsx	27	15	12	3	10	67	⭐ ⭐ ⭐
示例四数据集说明：二星数据集说明-诗歌改错数据集.docx数据集：诗歌改错.xlsx	18	6	12	5	10	51	⭐ ⭐
示例五数据集说明：一星数据集说明-诗歌改错数据集.docx数据集：诗歌改错.xlsx	18	3	12	0	10	43	⭐