|-baike/
|cws_200.txt
|ner_200.txt
|pos_200.txt
|no_mean_200.txt
|question_200.txt
|sent_class_200.txt
|zwb_200.txt
|-weibo/
|cws_200.txt
|ner_200.txt
|pos_200.txt
|no_mean_200.txt
|question_200.txt
|sent_class_200.txt
|zwb_200.txt
|-zhidao/
|cws_200.txt
|ner_200.txt
|pos_200.txt
|no_mean_200.txt
|question_200.txt
|sent_class_200.txt
|zwb_200.txt
|-zhihu/
|cws_200.txt
|ner_200.txt
|pos_200.txt
|no_mean_200.txt
|question_200.txt
|sent_class_200.txt
|zwb_200.txt
|-ReadMe.md
词性标注(Part-of-Speach tagging,POS)即是对连续的词语序列根据上下文内容进行词性的标注。本数据集标注标准为国标863词性标注集,下表为详细说明。
词性 |
解释 |
词性 |
解释 |
a |
形容词 |
nl |
处所词 |
b |
区别词 |
ns |
地名 |
c |
连词 |
nt |
时间名词 |
d |
副词 |
nz |
其他专有名词 |
e |
叹词 |
o |
拟声词 |
g |
语素 |
p |
介词 |
h |
前接成分 |
q |
量词 |
i |
习语 |
r |
代词 |
j |
简略语 |
u |
助词 |
k |
后接成分 |
v |
动词 |
m |
数词 |
wp |
标点 |
n |
名词 |
ws |
外文字符 |
nd |
方位名词 |
x |
非语素词 |
nh |
人名 |
z |
状态词 |
ni |
机构团体 |
|
|
每个文件夹的pos_200.txt文件对应词性标注任务。该文件由200条数据构成。每一条数据包括一行原文和一行标注的标答。原文按词分隔,分隔符为'\t',标注与其一一对应。
命名实体识别(Named Entity Recognition, NER)是指识别中文文本中具有特定意义的实体指代的边界和类型,主要包括人名、地名、专有名词等。标注标准为$\left{B,I,E\right}$-[实体类型] $∪ \left{O\right}$,分别表示为实体开始词,实体中间词,实体结束词和非实体。实体类型共五种,下表为详细解释。
实体类型 |
解释 |
PER |
人名 |
ORG |
组织 |
LOC |
地点 |
TIME |
时间 |
MISC |
专有名词 |
每个文件夹的ner_200.txt文件对应命名实体识别任务。该文件由200条数据构成。每一条数据包括一行原文和一行标注的标答。原文按字分隔,分隔符为'\t',标注与其一一对应。
中文分词(Chinese Word Segmentation, CWS)是指将连续的汉字序列切分成词语序列。每个文件夹的cws_200.txt文件对应中文分词任务。该文件由200条数据构成。每一条数据包括一行标注的文本,以分隔符'|'分隔文本中的词语。
示例如下:
关注|美丽|,|我们|一直|都|有|好|主意|
肯定/否定句即判断一个句子表达的是“肯定”还是“否定”的含义,因此它是一个二元分类任务,对应于“肯定”、“否定”两种标签。每个文件夹中的nomean200.txt对应于肯定/否定句任务,该文件由200条数据组成,每条数据包括3行,分别对应于原始句子、预测类型和标注类型,条与条之间由空行分隔。
特指问句分类即对特指问句进行提问类型的细化分类。根据疑问句使用的词语以及上下文语境,可以将其分为多种类型。数据集中的特指问句标签和其常用的结构如下所示:
问差别: x/区别/在/什么/地方/
问原因: x/怎么/x/了/
问具体内容: x/号码/多少/
问描述: x/怎么样/的/
问列举: x/都/哪些/
问金额: 费用/多少/(总的钱款)
问功能: 哪些/功能/
问价格: 怎么/收费/(单次)
问某人: 有/没/有/谁/x/
问时间: x/什么|啥/时间|时候/x/
问地点: x/什么/地方|位置/x/
问区别: x/什么|啥/不/一样/的/地方/
问关系: x/什么|啥/关系/
问含义: x/是/什么|啥/意思/
问需求: x/需要/做/些/什么/x/
每个文件夹中的question_200.txt对应于特指问句分类任务。每条数据由三行组成,分别对应原始句子、预测类型和标注类型,条与条之间由空行分隔。
句子分类任务是对每个句子进行类型上的区分,如陈述句、是非问句、正反问句、感叹句、特指问句等。其对应标签基本覆盖所有常见的句子类型,具体如下:
陈述句
是非问句
正反问句
选择问句
特指问句
请求祈使句
命令祈使句
感叹句
“名词+啊”表感叹
叹词构成感叹句
反问句
“多、多么、好、真”式感叹句
口号、助词
每个文件夹中的sentclass200.txt对应于特指问句分类任务。每条数据由三行组成,分别对应原始句子、预测类型和标注类型,条与条之间由空行分隔。
主谓宾标注是对每个句子的句法结构进行解析,将其主谓宾定状补的结构表示出来。在数据集中,对应的句法结构标注类型包括:
主语
谓语
宾语
状语
补语
并列
中心词
我们选择对主语、谓语、宾语、状语、补语和并列六种结构的预测情况进行FF1分数指标的计算。每个文件夹中的zwb_200.txt对应于主谓宾标注任务。每条数据由三行组成,分别对应原始句子、预测序列和标注序列。在对主谓宾进行标注时,我们采用json的结构,将其表示为以下形式。
{
'词语1':
'句法结构类型1',
'词语2':
'句法结构类型2'
}
数据集名称 | 数据大小 | 数据条数 | 数据描述 | 下载 |
---|---|---|---|---|
微博 | 321 KB | 200 * 7 | 微博手动标注 | |
百度百科 | 451 KB | 200 * 7 | 百度百科手动标注 | |
百度知道 | 209 KB | 200 * 7 | 百度知道手动标注 | |
知乎 | 187 KB | 200 * 7 | 知乎手动标注 |