CCIIP 自然语言处理平台

数据集构成

|-baike/
      |cws_200.txt
      |ner_200.txt
      |pos_200.txt
      |no_mean_200.txt
      |question_200.txt
      |sent_class_200.txt
      |zwb_200.txt
|-weibo/
      |cws_200.txt
      |ner_200.txt
      |pos_200.txt
      |no_mean_200.txt
      |question_200.txt
      |sent_class_200.txt
      |zwb_200.txt
|-zhidao/
      |cws_200.txt
      |ner_200.txt
      |pos_200.txt
      |no_mean_200.txt
      |question_200.txt
      |sent_class_200.txt
      |zwb_200.txt
|-zhihu/
      |cws_200.txt
      |ner_200.txt
      |pos_200.txt
      |no_mean_200.txt
      |question_200.txt
      |sent_class_200.txt
      |zwb_200.txt
|-ReadMe.md

各任务数据集详细说明

词性标注

词性标注(Part-of-Speach tagging,POS)即是对连续的词语序列根据上下文内容进行词性的标注。本数据集标注标准为国标863词性标注集,下表为详细说明。

词性

解释

词性

解释

a

形容词

nl

处所词

b

区别词

ns

地名

c

连词

nt

时间名词

d

副词

nz

其他专有名词

e

叹词

o

拟声词

g

语素

p

介词

h

前接成分

q

量词

i

习语

r

代词

j

简略语

u

助词

k

后接成分

v

动词

m

数词

wp

标点

n

名词

ws

外文字符

nd

方位名词

x

非语素词

nh

人名

z

状态词

ni

机构团体

 

 

每个文件夹的pos_200.txt文件对应词性标注任务。该文件由200条数据构成。每一条数据包括一行原文和一行标注的标答。原文按词分隔,分隔符为'\t',标注与其一一对应。

命名实体识别

命名实体识别(Named Entity Recognition, NER)是指识别中文文本中具有特定意义的实体指代的边界和类型,主要包括人名、地名、专有名词等。标注标准为$\left{B,I,E\right}$-[实体类型] $∪ \left{O\right}$,分别表示为实体开始词,实体中间词,实体结束词和非实体。实体类型共五种,下表为详细解释。

实体类型

解释

PER

人名

ORG

组织

LOC

地点

TIME

时间

MISC

专有名词

每个文件夹的ner_200.txt文件对应命名实体识别任务。该文件由200条数据构成。每一条数据包括一行原文和一行标注的标答。原文按字分隔,分隔符为'\t',标注与其一一对应。

中文分词

中文分词(Chinese Word Segmentation, CWS)是指将连续的汉字序列切分成词语序列。每个文件夹的cws_200.txt文件对应中文分词任务。该文件由200条数据构成。每一条数据包括一行标注的文本,以分隔符'|'分隔文本中的词语。

示例如下: 关注|美丽|,|我们|一直|都|有|好|主意|

肯定/否定句

肯定/否定句即判断一个句子表达的是“肯定”还是“否定”的含义,因此它是一个二元分类任务,对应于“肯定”、“否定”两种标签。每个文件夹中的nomean200.txt对应于肯定/否定句任务,该文件由200条数据组成,每条数据包括3行,分别对应于原始句子、预测类型和标注类型,条与条之间由空行分隔。

特指问句分类

特指问句分类即对特指问句进行提问类型的细化分类。根据疑问句使用的词语以及上下文语境,可以将其分为多种类型。数据集中的特指问句标签和其常用的结构如下所示:

问差别: x/区别/在/什么/地方/
问原因: x/怎么/x/了/
问具体内容: x/号码/多少/
问描述: x/怎么样/的/
问列举: x/都/哪些/
问金额: 费用/多少/(总的钱款)
问功能: 哪些/功能/
问价格: 怎么/收费/(单次)
问某人: 有/没/有/谁/x/
问时间: x/什么|啥/时间|时候/x/
问地点: x/什么/地方|位置/x/
问区别: x/什么|啥/不/一样/的/地方/
问关系: x/什么|啥/关系/
问含义: x/是/什么|啥/意思/
问需求: x/需要/做/些/什么/x/

每个文件夹中的question_200.txt对应于特指问句分类任务。每条数据由三行组成,分别对应原始句子、预测类型和标注类型,条与条之间由空行分隔。

句子分类

句子分类任务是对每个句子进行类型上的区分,如陈述句、是非问句、正反问句、感叹句、特指问句等。其对应标签基本覆盖所有常见的句子类型,具体如下:

陈述句
是非问句
正反问句
选择问句
特指问句
请求祈使句
命令祈使句
感叹句
“名词+啊”表感叹
叹词构成感叹句
反问句
“多、多么、好、真”式感叹句
口号、助词

每个文件夹中的sentclass200.txt对应于特指问句分类任务。每条数据由三行组成,分别对应原始句子、预测类型和标注类型,条与条之间由空行分隔。

主谓宾标注

主谓宾标注是对每个句子的句法结构进行解析,将其主谓宾定状补的结构表示出来。在数据集中,对应的句法结构标注类型包括:

主语 谓语 宾语 状语 补语 并列 中心词

我们选择对主语、谓语、宾语、状语、补语和并列六种结构的预测情况进行FF1分数指标的计算。每个文件夹中的zwb_200.txt对应于主谓宾标注任务。每条数据由三行组成,分别对应原始句子、预测序列和标注序列。在对主谓宾进行标注时,我们采用json的结构,将其表示为以下形式。 { '词语1': '句法结构类型1', '词语2': '句法结构类型2' }

数据集下载

数据集名称 数据大小 数据条数 数据描述 下载
微博 321 KB 200 * 7 微博手动标注
百度百科 451 KB 200 * 7 百度百科手动标注
百度知道 209 KB 200 * 7 百度知道手动标注
知乎 187 KB 200 * 7 知乎手动标注
下载数据
申请 Key
正在申请API 请稍等
CCIIP 数据中心 ×
数据集即将上线哦 请耐心等待!