Skip to content

Files

Latest commit

e79ae94 · Apr 26, 2021

History

History

chn

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
Apr 26, 2021
Apr 12, 2021
Apr 9, 2021

README.md

BERT-whitening 中文测试

BERT-whitening在常见中文数据集上的测试,包含ATECBQLCQMCPAWSXSTS-B共5个任务。

文件

- utils.py  工具函数
- eval.py  评测主文件

评测

命令格式:

python eval.py [model_type] [pooling] [task_name] [n_components]

使用例子:

python eval.py BERT cls ATEC 256

其中四个参数必须传入,含义分别如下:

- model_type: 模型,必须是['BERT', 'RoBERTa', 'WoBERT', 'RoFormer', 'BERT-large', 'RoBERTa-large', 'SimBERT', 'SimBERT-tiny', 'SimBERT-small']之一;
- pooling: 池化方式,必须是['first-last-avg', 'last-avg', 'cls', 'pooler']之一;
- task_name: 评测数据集,必须是['ATEC', 'BQ', 'LCQMC', 'PAWSX', 'STS-B']之一;
- n_components: 保留的维度,如果是0,则不进行whitening,如果是负数,则保留全部维度,如果是正数,则按照所给的维度保留;

下载

Google官方的两个BERT模型:

关于语义相似度数据集,可以从数据集对应的链接自行下载,也可以从作者提供的百度云链接下载。

其中senteval_cn目录是评测数据集汇总,senteval_cn.zip是senteval目录的打包,两者下其一就好。