Skip to content

MAJIN123/Distant-Supervision-for-Person-Attribute-Extraction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

Distant-Supervision-for-Person-Attribute-Extraction

本项目用于存放论文:基于远程监督的人物属性抽取研究 的实验数据

CPAR

CPAR (A Dataset for Chinese Person Attribute Recognition)/中文人物属性识别标注数据

属性类别说明

本数据集包含12个属性:出生日期、 职业、 国籍、 民族、 毕业院校、 性别、 出生地、 逝世日期、 学位、 别名、 身高、 体重.

  1. 出生日期:出生的日期

  2. 别名:此人别称,又叫做

  3. 国籍:国籍是指一个人属于某一个国家的国民或公民的法律资格,表明一个人同一个特定国家间的固定的法律联系,是国家行使属人管辖权和外交保护权的法律顾问依据

  4. 职业:根据中国职业规划师协会的定义:职业=职能*行业,这样才能算是一个完整的职业。

  5. 出生地:此人出生的地方

  6. 民族:民族,指在文化、语言、历史与其他人群在客观上有所区分的一群人,是近代以来通过研究人类进化史及种族所形成的概念

  7. 毕业院校:【毕业于】 此人的母校

  8. 身高:人的高度,从头顶点至地面的垂距

  9. 体重:人的重量,裸体或穿着已知重量的工作衣称量得到的身体重量

  10. 学位:是标志一个人学历的头衔,即一个人通过学习取得学识及相应学习能力程度的标志,由国家授权的高等学校颁发。一般包括学士、硕士、博士三种

  11. 性别:人的性别

  12. 逝世日期:死亡日期

数据切分

各个属性值域以及数据量如下所示

属性 值域 数据量
出生日期 数字、字母、中文混合 413319
国籍 中文 331291
出生地 中英文 321640
职业 中文 293345
性别 中文 162278
毕业学校 中文、少数英文 157424
民族 中文 152843
逝世日期 数字、字母、中文混合 64757
别名 中、英文 37579
学位 中文 33110
身高 数字、字母、中文混合 2061
体重 数字、字母、中文混合 1246

对于每个属性,都使用五折交叉验证的方法进行实验。数据按照8:1:1切分成train、dev、test

文件目录说明

./README.md:本文件

./基于远程监督的人物属性抽取研究论文数据/:存放12个属性的标注数据

./基于远程监督的人物属性抽取研究论文数据/属性A/:存放属性A的标注切分数据

举例来说。./基于远程监督的人物属性抽取研究论文数据/出生日期/ 目录下的train1.txt、dev1.txt、test1.txt分别作为“出生日期”这一属性中第一折交叉验证的train、dev、test数据

评测工具

实验结果采用识别准确率(P)、召回率(R)、和二者的调和平均F1值作为评价标准。对于每一属性,P指正确识别的属性占总计识别出的属性的百分比,R指正确识别的属性占测试集中所有属性的百分比,F1是P和R的调和均值,可以综合考量模型的性能。P(准确率)、R(召回率)、F1的计算方式如下所示:

P=(|A⋂G|)/(|A|)
R=(|A⋂G|)/(|G|)
F1=2PR/(P+R)

其中,|A| 代表识别出的属性值总数,|G| 代表标准集的属性值总数,|A⋂▒G| 代表识别出的属性与标准集完全匹配的属性值总数。

参考文献

如果使用CPAR数据,请引用下列文献:

  • 马进(待更新)

About

本项目用于存放论文:基于远程监督的人物属性抽取研究 的实验数据

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published