数据集构成

各任务数据集详细说明

词性标注

词性标注（Part-of-Speach tagging,POS）即是对连续的词语序列根据上下文内容进行词性的标注。本数据集标注标准为国标863词性标注集，下表为详细说明。

词性	解释	词性	解释
a	形容词	nl	处所词
b	区别词	ns	地名
c	连词	nt	时间名词
d	副词	nz	其他专有名词
e	叹词	o	拟声词
g	语素	p	介词
h	前接成分	q	量词
i	习语	r	代词
j	简略语	u	助词
k	后接成分	v	动词
m	数词	wp	标点
n	名词	ws	外文字符
nd	方位名词	x	非语素词
nh	人名	z	状态词
ni	机构团体

每个文件夹的pos_200.txt文件对应词性标注任务。该文件由200条数据构成。每一条数据包括一行原文和一行标注的标答。原文按词分隔，分隔符为'\t'，标注与其一一对应。

命名实体识别

命名实体识别（Named Entity Recognition, NER）是指识别中文文本中具有特定意义的实体指代的边界和类型，主要包括人名、地名、专有名词等。标注标准为$\left{B,I,E\right}$-[实体类型] $∪ \left{O\right}$,分别表示为实体开始词，实体中间词，实体结束词和非实体。实体类型共五种，下表为详细解释。

实体类型	解释
PER	人名
ORG	组织
LOC	地点
TIME	时间
MISC	专有名词

每个文件夹的ner_200.txt文件对应命名实体识别任务。该文件由200条数据构成。每一条数据包括一行原文和一行标注的标答。原文按字分隔，分隔符为'\t'，标注与其一一对应。

中文分词

中文分词（Chinese Word Segmentation, CWS）是指将连续的汉字序列切分成词语序列。每个文件夹的cws_200.txt文件对应中文分词任务。该文件由200条数据构成。每一条数据包括一行标注的文本，以分隔符'|'分隔文本中的词语。

示例如下： 关注|美丽|，|我们|一直|都|有|好|主意|

肯定/否定句

肯定/否定句即判断一个句子表达的是“肯定”还是“否定”的含义，因此它是一个二元分类任务，对应于“肯定”、“否定”两种标签。每个文件夹中的nomean200.txt对应于肯定/否定句任务，该文件由200条数据组成，每条数据包括3行，分别对应于原始句子、预测类型和标注类型，条与条之间由空行分隔。

特指问句分类

特指问句分类即对特指问句进行提问类型的细化分类。根据疑问句使用的词语以及上下文语境，可以将其分为多种类型。数据集中的特指问句标签和其常用的结构如下所示：

每个文件夹中的question_200.txt对应于特指问句分类任务。每条数据由三行组成，分别对应原始句子、预测类型和标注类型，条与条之间由空行分隔。

句子分类

句子分类任务是对每个句子进行类型上的区分，如陈述句、是非问句、正反问句、感叹句、特指问句等。其对应标签基本覆盖所有常见的句子类型，具体如下：

陈述句是非问句正反问句选择问句特指问句请求祈使句命令祈使句感叹句 “名词+啊”表感叹叹词构成感叹句反问句 “多、多么、好、真”式感叹句口号、助词

每个文件夹中的sentclass200.txt对应于特指问句分类任务。每条数据由三行组成，分别对应原始句子、预测类型和标注类型，条与条之间由空行分隔。

主谓宾标注

主谓宾标注是对每个句子的句法结构进行解析，将其主谓宾定状补的结构表示出来。在数据集中，对应的句法结构标注类型包括：

主语谓语宾语状语补语并列中心词

我们选择对主语、谓语、宾语、状语、补语和并列六种结构的预测情况进行FF1分数指标的计算。每个文件夹中的zwb_200.txt对应于主谓宾标注任务。每条数据由三行组成，分别对应原始句子、预测序列和标注序列。在对主谓宾进行标注时，我们采用json的结构，将其表示为以下形式。 { '词语1': '句法结构类型1', '词语2': '句法结构类型2' }

数据集下载

数据集名称	数据大小	数据条数	数据描述
微博	321 KB	200 * 7	微博手动标注
百度百科	451 KB	200 * 7	百度百科手动标注
百度知道	209 KB	200 * 7	百度知道手动标注
知乎	187 KB	200 * 7	知乎手动标注