如需获取资源,请下载:共享资源申请承诺书,填写后发送至实验室邮箱d2_lab@163.com,联系0731-87006206后方可进行获取。
序号 |
名称 |
描述 |
完成人信息 |
1 |
多粒度时序知识图谱问答数据集 |
该数据集采用的时序知识图谱为ICEWS05-15, 时间范围为2005-2015年。所有问题均基于时序知识图谱进行构建,其中,问题与答案中包含多种粒度的时间信息,包括年、月和日,且问题中涉及多种时序逻辑约束,如之前、之后、首个等,问题答案限定于图谱中的实体和时间。 |
2023全国大数据与计算智能挑战赛 |
2 |
硬约束下的受控文本生成数据集 |
硬约束下的受控文本生成是指在一组给定顺序的关键词的情况下,生成一段包含所有关键词的文本,生成文本需要具有领域相关性和表达流畅性。该数据集来源于公开军事新闻网站(如新浪军事、中国军网和环球网等),经过人工修正、打标、校核等操作,形成支持赛题使用和业务领域运用的数据集。 |
2023全国大数据与计算智能挑战赛 |
3 |
基于高分辨率遥感可见光数据的细粒度密集船只目标检测任务数据集 |
基于高分辨率遥感可见光数据的细粒度旋转船只目标检测任务要求使用旋转框对船只目标进行定位,并对船只进行型号识别,例如:福特级航母、小鹰级航母。遥感场景中,细粒度船只类间差距极小、船只分布密集、船只尺度变化大,如何使用检测方法实现高精度细粒度舰识别是本数据集的研究难点。本数据集图像为bmp格式,标注文件为txt格式。标注文件每一行代表图像中一个目标的详细信息(x1,y1,x2,y2,x3,y3,x4,y4,class,difficult),其中(x1,y1,x2,y2,x3,y3,x4,y4)代表船只的四个角点,class代表船只类别,difficult代表船只识别的难易程度。 |
2023全国大数据与计算智能挑战赛 |
4 |
基于传感器信号的航迹实时关联与轨迹融合数据集 |
对海监视中航迹实时关联与轨迹融合任务是安全防控、区域态势监视、远程精确打击等军民应用领域的热点和难点问题,高质量的数据集对推动目标跟踪与融合技术在该领域的研究有重要作用。提供了一套面向典型对海监视场景(以舰船为探测对象的2D雷达与侦察传感器(ESM))的目标跟踪与航迹融合数据集。 |
2023全国大数据与计算智能挑战赛 |
5 |
基于亚米级影像的精细化目标检测数据集 |
本任务属于目标检测领域中的精细化检测识别问题,不同于普通的图像检测识别任务,精细化检测识别任务的类间差异更小,其目的是定位并识别出常规目标中的子类。基于国产亚米级高景卫星影像形成了高分辨率的精细化目标检测样本数据集,以实现国产高分辨率影像中的飞机、舰船目标精细化检测识别的任务研究,旨在促进国产高分辨影像在目标精细化检测识别中的运用。 |
2023全国大数据与计算智能挑战赛 |
6 |
领域多事件信息联合抽取数据集 |
提出了一个大规模的基于开源中文军事新闻的篇章级事件抽取数据集MNDEE,该数据集包含17000个文档和29223条事件,涵盖了军事领域常见的9种事件类型和11种论元角色。在数据集构建过程中,为确保数据集质量,对从权威、可靠网站上爬取的开源军事新闻进行数据清洗,然后对文本进行事件类型预打标,基于预打标结果和文本数据以分阶段多轮迭代的方式进行数据标注,并使用质量指标对数据集质量进行评估,基于指标结果不断修正直到所有指标达到预期阈值。 |
2023全国大数据与计算智能挑战赛 |
7 |
面向低资源和增量类型的命名实体识别数据集 |
需要学习一个低资源训练集,每种实体类型仅涉及50个左右的样本案例,并在规模更大的测试集上取得较好的性能。各类型训练样本数非常少,并且由于同属于武器装备概念,不同类型上下文相似,具有一定的迷惑性。给定一条文本,参赛者需要识别并抽取出文本中所有目标类型的实体。参赛者将测试机结果以utf-8编码格式保存为json文件,每条结果包含测试样本的样本id、识别出的命名实体对应的文本、识别出的命名实体对应的类型、以及实体在文本中的跨度,评测指标为micro-F1分数。 |
2023全国大数据与计算智能挑战赛 |
8 |
数据集隐私求交技术数据集 |
数据类别:比赛包含两份数据集,即测试数据集和验证数据集。测试数据集会分发给各参赛队伍,用于进行隐私求交技术途径选择和技术方案设计;验证数据集不会分发给参赛队伍,用于测试参赛队伍所提交算法的正确性和性能。数据规模:测试数据集由A、B、C、D四个集合构成,其中集合A包含数据100万行,集合B包含数据100万行,集合C包含数据100万行,集合D包含数据100行。数据格式:由3个字段构成:ID,数据标识(非唯一),非负长整型;Name,姓名,字符串格式;Gender,性别,短整数。 |
2023全国大数据与计算智能挑战赛 |
9 |
基于对抗场景下重要目标人脸深度伪造视频检测数据集 |
构建了目标人物的人脸伪造检测数据集并基于该数据集发布目标人物的深度伪造视频检测挑战,要求在数据集中快速、准确地分辨出目标人物和非目标人物,且准确地检测出人物视频是否为深度伪造的。此外,为更好地贴合真实场景、防止信息混淆、误导决策,本次赛题还在视频中添加了互联网上的常见扰动,要求检测模型能够在抵御多种扰动的前提下实现重要目标人物的人脸深度伪造视频检测。 |
2024全国大数据与计算智能挑战赛 |
10 |
基于多源异构融合数据的空间物体识别数据集 |
构建了空间物体光雷高分辨图像数据集并基于该数据集发布基于多源异构融合数据的空间物体识别挑战,要求准确识别训练集目标,并对训练集外目标完成拒判,为更好助力目标形态确认,要求精确检测空间物体主要部件数量,主要部件包括主体、载荷与帆板。赛题分为互联网初赛、线下复赛和决赛,选用不同数据子集测试,二者内容相承、难度递增。此外,性能测试将在同一通用计算环境下进行,不能依赖特殊硬件。 |
2024全国大数据与计算智能挑战赛 |
11 |
面向联邦学习的数据样本对齐技术数据集 |
构建了联邦学习中数据样本对齐功能需求场景并提供数据集,发布面向联邦学习数据样本对齐挑战。要求在总共三个参与方、参与方之间输入数据集行数分别为100万、50万和25万的前提设置下运行数据样本对齐,并使所有参与方均得到数据样本对齐结果。尽可能快速地完成数据样本对齐,保证运行数据样本对齐功能后不泄露除了结果以外的任何额外信息,且不出现结果缺项或多项的错误情况。 |
2024全国大数据与计算智能挑战赛 |
12 |
低资源智能传感设备数据隐私聚合技术数据集 |
要求在低资源智能传感设备环境下实现轻量级的隐私保护数据聚合,要求数据密文传输以及k-匿名保证。为了赛题具备更好的代表性、实用性,赛题选择用于跟踪船舶和天气预测的两个公开数据集——欧洲气象预值数据集和美国海岸警卫队船舶轨迹数据作为测试依据。聚合算法需要适应数据的多维特性,且兼具容错能力,确保某些传感设备因故障掉线,也能实现剩余传感设备数据的稳定高效聚合。 |
2024全国大数据与计算智能挑战赛 |
13 |
面向大语言模型的特定领域知识注入与推理数据集 |
专注于构建面向特定领域的应急处置规则与实例数据集,并在此基础上推出面向大语言模型的规则知识注入与推理挑战。要求参赛者基于详细的规则知识,进行精准的知识注入,同时使用多样化的实例数据,准确地实现复杂决策场景的推理任务。此外,竞赛中将特别关注规则知识与实例数据间的交互,定义了交织实例的概念,即在同一决策背景中涉及多条规则的实例。本次赛题鼓励参赛者有效识别并处理这些交织实例,确保推理过程的准确性和可解释性。 |
2024全国大数据与计算智能挑战赛 |
14 |
领域事件多因果关联挖掘数据集 |
构建了多因果关联事件挖掘数据集,并基于该数据集发布领域事件多因果关联挖掘挑战。参赛者需运用自然语言处理技术,设计高效的算法模型,以独立、准确、完整且高效地从文档中识别出具有因果联系的事件,并提取出因果事件的要素。此外,为更好地探索因果关系的内在产生逻辑,参赛者还需准确判断因果关系的类型。 |
2024全国大数据与计算智能挑战赛 |
15 |
多文档事件摘要信息生成数据集 |
现实生活中存在许多持续时间较长的事件,事件的信息分布在多篇相关的文档中。本赛题构建多文档事件摘要数据集并基于该数据集发布多文档事件摘要信息生成挑战,要求根据多个相关的文档围绕关键事件信息生成高质量摘要。为满足快速梳理事件发展脉络的现实需求,要求生成的摘要中事件及事件要素信息、时序关系、因果关系尽可能全面、完整、准确。赛题对长文本理解、事件信息理解以及跨文档的共指消解能力具有较高要求,具有挑战性。 |
2024全国大数据与计算智能挑战赛 |
16 |
基于海量数据的雷达辐射源识别数据集 |
构建特定时空电子侦察数据片段集合,并基于该数据开展雷达辐射源识别型号和个体识别挑战,要求对于给定的每一个识别数据集,参赛者需要综合运用给定的各种类型侦察数据进行识别,给出数据集中存在的雷达辐射源型号雷达辐射源个体数量及名称。本次挑战需要考虑判断待识别样本是否为新目标发射的信号以及积累已有目标的信号数据,待分类的数据中将无可避免的混入已知辐射源个体或未知辐射源个体的噪声样本。 |
2024全国大数据与计算智能挑战赛 |
17 |
基于SAR图像的近岸密集小目标船只检测数据集 |
构建了大规模SAR图像船只目标检测数据集,并筛选出了近岸、密集、小样本三类困难样本。基于该数据集发布了船只目标检测任务,对于给出的SAR图像切片测试样本,参赛者需要使用训练的模型正确检测船只目标位置。其中,初赛使用整个测试集,要求选手能够尽量准确地检测船只目标位置,复赛针对近岸、密集、小样本三类困难样本,要求选手能够尽量准确地检测困难样本船只位置,并尽量降低模型参数量、提高推理速度。 |
2024全国大数据与计算智能挑战赛 |
18 |
基于大语言模型的数据库查询指令生成数据集 |
采用独特的数据集,涵盖了跨库查询、多语言环境以及复杂的多轮对话场景,其中对话不仅涉及共指消解、追加询问等上下文依赖关系,还引入了数据库跳变的难题。竞赛的核心在于,参赛队伍需建立出能够理解、解析并转化自然语言查询为精确SQL指令的模型,能够处理对话中不同数据库领域间的无缝切换,要求模型具备极高的泛化能力和领域适应性能力。 |
2024全国大数据与计算智能挑战赛 |