plink 质控芯片数据

plink 质控芯片数据

作者写在前面:

在网上看到使用 plink 质控芯片数据包括两步 —— sample QC 和 marker QC。作者的数据关注的多是雌性个体,所以这里面不说 sample QC,只说 marker QC。


数据格式:

数据的质控格式在之前的文章中也有涉及,主要是格式的转换。这里我们要使用的质控软件是 plink,我知道的还有 vcftools。

plink 的输入文件格式我知道的有 plink(.ped,.map)和 vcf 格式,当然我们前一篇文章中的 .hmp.txt 格式的也可以通过 tassel 转换为 vcf 格式,而 vcf 格式又可以转换为 plink 格式。


具体过程:

我的原始文件是 .hmp.txt 格式,所以得通过 tassel 排序转换才能得到我想要的 vcf 文件。

#对原始的.hmp.txt文件排序
run_pipeline.pl -SortGenotypeFilePlugin -inputFile test.hmp.txt -outputFile test.sort.hmp.txt -fileType Hapmap
#将排序好的文件转为 vcf 格式
run_pipeline.pl -fork1 -h tassel.test.sort.hmp.txt -export -exportType VCF
#将得到的 vcf 文件质控
plink --vcf tassel.test.vcf --maf 0.05 --geno 0.05 --hwe 1e-3 --recode vcf-iid --out qc.test

质控问题:

第一列是一直质控的项目,第二列是对这些质控项目统计而设置的参数,第三列是得到质控后的文件而设置的参数。这三列的每行都是对应的。

具体参考下面网站:

  • 对质控信息的统计情况
plink --vcf vcf_filename --missing --out vcf.missing.stat

plink --file vcf_filename --freq --out vcf.freq.stat

plink --file vcf_filename --hardy --out vcf.hard.stat

关于对质控信息的统计参考下面网站:

  • 除了统计基本信息,我们还要得到质控后的文件
plink --vcf test.vcf --maf 0.05 --geno 0.05 --hwe 1e-3 --recode vcf-iid --out qc.test

就到这里了,如果又补充,作者会更新的。如果有疑问或错误,欢迎一起讨论。也欢迎大家关注专栏,多多来投稿。

编辑于 2018-06-29 00:11