AI-Ceping

Ai-Ceping

【任务一】单条数据提交说明与奖励规则

    任务描述

    在大模型评测中,评测人员会根据模型对指定问题的回答来判断大模型实际的效果。因此,在单条数据任务中,主要收集用于评测大模型的问题或者需要大模型执行的指令。在任务中,需要用户提交的数据包括:

    1. 用以评测大模型能力的问题或者指令;
    2. 上述问题或者指令具体考察的模型能力项;
    3. 对多个模型对上述问题的回答进行优劣排序,当模型回答不满足问题要求时,自行编辑提供更好的答案。

    需要注意的是,单个用户每天提交单条数据量不得超过100条。当提交问题显示疑似类似时,每个用户每天有20次继续提交的机会。

    特别提醒:平台鼓励原创,请不要复制互联网上公开已有的问题,包括但不限于知乎、百度题库等。

    具体任务说明如下:
    1. 用户进入“单条评测数据”任务,每次要求填写一个用以评测大模型能力的问题或者指令。
    2. 系统自动根据用户填写的问题进行初步审核,若用户填写的问题已有人提交类似问题,或问题质量较差,或涉及不当信息及言论等,则当前提交问题不予采纳。
    3. 自动审核通过后,需要用户选择该问题具体考察的模型能力标签,如果系统中没有合适的标签,用户可以自行填写新的标签。
    4. 确认能力标签后,系统会自动返回多个模型在当前问题上的回答,用户需要对模型的回答结果进行优劣排序,找到最符合自己期望的模型答案;如果给出的答案中没有满意的结果,需要用户自己填写答案。
    5. 点击提交,完成一次任务的填写,同时该数据会进入人工审核流程,人工审核后发放相应的积分奖励和现金奖励。
    样例
    • 陨石为什么总能落在陨石坑里?
    • 写一段python代码,实现excel文件的读取,并计算输出英语成绩的平均值。
    审核标准

    人工审核主要参考重复度、区分度、新颖性三个方面。

    重复度:审核提交的评测数据不能和已有数据重复;人工会和库中积累的所有的相似数据比对,如果和已有的数据重复,则提交的数据无效。

    区分度:审核数据是否能区分不同尺寸以及不同能力模型的差别。审核中会采用不同尺寸以及不同能力模型的结果判断当前问题是否有区分度,如果候选模型在当前问题上的答案都很好,则该条数据区分度为差;如果问题超过了模型应该具备的能力(例如询问当前时间、天气等实时信息),区分度同样为差。

    新颖性:审核提交数据在评估模型方面的新颖程度。①审核评测数据和能力标签的关联准确性;②审核评测数据所评估的能力对应的能力项标签稀缺,则新颖度高,否则新颖度差。

    如果提交数据和已收集的数据存在重复,则不予采纳。针对单条评测数据,平台会依照新颖性、完整性、区分度等维度进行审核,并对采纳的单条评测数据进行奖励发放,具体规则如下:

    积分奖励规则:根据提交问题对应能力标签的稀缺性奖励1~2分,如用户提供的答案显著好于模型提供答案则额外增加2分。

    现金奖励规则:获得积分同时会获得等额的现金奖励。如若单条评测数据任务对应的奖金池已发放完毕,则只奖励积分,不再进行现金奖励的发放。对于单条数据而言,平台总共提供10万元的现金奖池。

    对应档位以及积分和现金奖励如下:

    分档积分奖励现金奖励
    未采纳0分0元
    0分0元
    ⭐⭐1分1元
    ⭐⭐⭐2分2元
    ⭐⭐⭐⭐3分3元
    ⭐⭐⭐⭐⭐4分4元

    分档示例

    1. “未采纳”单条数据示例

    输入问题为乱码,无明显意义或意图等,均被视为“未采纳”单条数据。

    • 问题1:“ddddddd”
    • 问题2:“益气补脾,使水盛则火制,土旺则金生”(无明显意图)

    2. “三星”单条数据示例

    • 问题:陨石为什么总能落在石坑里?
    • 评测能力项:常识能力、逻辑推理能力、专业领域知识
    • 模型答案

    【答案一】陨石坑是由陨石撞击地球表面所形成的,通常情况下一个陨石撞击地表时会产生一个大的坑洞,这个坑洞又会促使其他的陨石更容易集中在这个区域内落下。此外,由于地球的吸引力,延迟着陆陨石的速度和轨迹的方向,也可能会受到陨石坑的影响,使落下的陨石更容易落在陨石坑里。因此,陨石落在陨石坑里并不是一定会发生的,但确实比较常见。

    【答案二】陨石坑在成为陨石坑之前,并不是陨石坑,因为陨石的撞击,所以才形成了陨石坑。因此,在陨石坑结果确定的情况下,不管陨石怎么受影响,它都会砸进属于它自己的坑。

    【答案三】陨石坑是因为陨石撞击地球表面而形成的环形。

    【答案四】因为陨石砸出来了陨石坑。

    3、“四星”单条数据示例

    • 问题:用一首诗赞美一下上海的春天。
    • 评测能力项:文本生成-特殊语言形式生成
    • 模型答案

    【答案一】

    江南水乡韵,上海春意浓,

    百川汇海地,千帆竞发扬子江。

    【答案二】

    上海的春天来了,

    青草翠绿,花儿开了,

    春风轻拂,阳光明媚,

    万物复苏,心情翩翩。

    【答案三】

    春临上海,万物复苏,

    樱花烂漫,柳絮飞舞。

    高楼林立,江河交汇,

    繁华都市,充满生机。

    【用户答案】

    春风拂面上海滩,繁华都市换新颜。

    绿柳依依拂黄浦,红梅点点映长天。

    摩天大楼耸云端,繁花似锦映眼前。

    4、“五星”单条数据示例

    • 问题:”解释一下 宋江花果山三打白骨精”
    • 评测能力项:专业领域知识-文学知识、逻辑推理能力
    • 模型答案

    【答案一】《水浒传》中有一回,宋江领导梁山泊的好汉们在花果山遇见了一只白骨精。白骨精原本是个妖怪,通过吃人的肉和骨头才能维持生命。白骨精见到梁山泊的好汉们,想要吃他们来增加自己的力量。不过,宋江是个英明果断的领导者,他发现了白骨精的陷阱。他通过智谋和勇猛的战斗技巧,成功地将白骨精三次打败。这场战斗也展现了梁山泊好汉们的勇猛和团结的力量。第一次,宋江在战斗中发现了白骨精的身体中有七个孔洞,如果用真气打进去,就能杀死白骨精。于是,他在一次追击战中成功地用手中的长剑刺向白骨精的七个孔洞,将白骨精驱逐。第二次,白骨精化身为一只美丽的女子,企图诱骗梁山泊好汉并消耗他们的力量。但聪明的宋江立刻识破了她的计谋,通过智谋让白骨精露出原形,并最终将她打败。第三次,白骨精再次化身,这次化成一条黑狗。宋江再度识破了她的伪装,并通过巧妙的变招成功地将黑狗白骨精打败。宋江花果山三打白骨精的故事展示了梁山泊好汉们的智勇和团队合作的精神,同时也告诉人们只要有智慧和勇气,就能战胜任何困难和敌人。这个故事还强调了善良和正义的力量,因为宋江是为了保护人民而与白骨精战斗的。因此,这也是一个鼓励人们在面对邪恶时坚持正义的故事。”

    【答案二】宋江花果山三打白骨精是一句成语,意思是指在一个困难的情况下,通过不断努力和坚持,最终可以获得成功。宋江花果山是指宋江的花果山,宋江是一个古代的地名,位于今天的湖南省宁乡县。花果山是一个有着著名的峰峰的山峰,是一个非常难以登顶的目标。三打白骨精是指在登顶花果山的过程中,人们需要三次尝试才能成功。第一次是为了找到最佳的路线和方法,第二次是为了积累体力和技巧,第三次是为了实现最终的目标。因此,宋江花果山三打白骨精的意思是,在面临困难的情况下,不断努力和坚持,最终会获得成功。这句成语通常用于描述人们在面临挑战时的坚定和不拔的精神。

    【答案三】“宋江花果山三打白骨精”是《西游记》中的一个故事,讲述的是孙悟空在花果山与白骨精的三次交战。故事开始时,孙悟空在花果山修炼,白骨精为了得到孙悟空的内丹,化身为一个美丽的女子,来到花果山引诱孙悟空。孙悟空识破了白骨精的伪装,将其打退。然而,白骨精并没有放弃,她又化身为一个老人和一个小孩,再次来到花果山引诱孙悟空。孙悟空再次识破了白骨精的伪装,将其打退。最后,白骨精又化身为一个和尚,来到花果山引诱孙悟空。孙悟空再次识破了白骨精的伪装,将其打退。这次,孙悟空使用了“定海神针”,将白骨精彻底击败。这个故事告诉我们,不要被表面的美丽所迷惑,要保持警惕,不要轻易相信陌生人。同时,也要有勇气面对困难,坚持不懈,最终才能取得胜利。

    【用户答案】

    “宋江花果山三打白骨精”这个表述可能是出现了一些混淆。在中国的古代文学作品中,宋江是《水浒传》中的主要人物,而花果山和白骨精则出自《西游记》。

    宋江是《水浒传》中的主要人物,他是梁山泊108将的首领,被誉为智勇双全的英雄。他的故事主要围绕着他如何从一个书生变成一名英勇的叛军领袖。

    花果山是《西游记》中孙悟空的出生地,而白骨精是孙悟空在取经路上遇到的一个妖怪。在《西游记》中,孙悟空曾三次打败白骨精。

    所以,“宋江花果山三打白骨精”这个表述可能是将两部不同的文学作品的元素混淆在一起了。


    更多资讯

    扫码关注微信公众号

    扫码进入微信交流群

    更多资讯

    扫码关注微信公众号

    扫码进入微信交流群

    AI-Ceping

    联系信息
    上海宇据科技有限公司

    AI-Ceping

    联系信息
    上海宇据科技有限公司