遗传背景分析(群体结构10个样品以上)
2020.11.9【GWAS/WGS流程】丨全基因组关联分析绘图全流程_穆易青的博客-CSDN博客_gwas全基因组关联分析
一、数据筛选及格式转换
!!!注意:如果要同时使用,正确做法是先SNP(geno)后样本(mind)
1.去除多等位基因,indel
2.格式转换(map ped to bam bed fam)
4.最终QC进行质控,位点过滤(做群体结构需要这一步 )剔除高缺失率(--geno )和极低等位基因频率( --maf )的SNP
nohup /home/software/plink --allow-extra-chr --chr-set 29 -bfile ld.Neogen_China_CHN_BOVG100V1_20201104-502502 --geno 0.05 --maf 0.03 --make-bed --out ld.QC.Neogen_China_CHN_BOVG100V1_20201104-502502-geno005-maf03 &
# --geno 0.05 大于95%的个体都具有的变异位点才保留,其他去除;或者说保留检出率高于0.95的SNP。
# --maf 0.03 次等位基因频率,频率较低的第二等位基因的频率(防止假阳性);将maf < 0.03的SNP筛选出来并过滤掉,仅包括MAF >= 0.03的SNP,默认值为0.03。
# --mind 0.10 去除基因型丢失率大于10%的个体样本;
# --hwe 0.0001 保留符合Hardy-Weinbery 的变异位点。
5.格式转换
2.孙老师脚本画(基于亲缘关系画the neighbor-joining phylogenetic tree was constructed by genetic distance (1-IBS))
三、群体结构之admixture(注意:重测序数据需替换染色体NCto1)
!!!在构建admixture前需要考虑样本中每个群体中个体的数目,在总样本分析好后,与删除个别个体再次分析后,两次得到图形的颜色占比会发生变化。
制作order.txt文件(也可为.csv文件)
三列: 1.地区Asia 2.ID名称 3.样本品种
1.fam文件中的IID(第二列)更换为自己想要的个体名称,可批量替换。2.制作一个ld.QC.Neogen_China_CHN_BOVG100V1_20201104-502502-geno02-maf03.order.txt文件(order.txt文件需要另存为制表符分隔格式文件),可将order.txt文件的第三列改成真正的个体名称,这样图中就会显示每个个体名称。
3.可将第一列换成123...
4.表格中无空格
Africa Dp-8 Dp
Africa Dp-9 Dp
asia Han-1 STH
asia Han-10 STH
asia Han-2 STH
asia SRS1227526 Tan
asia SRS1227527 Tan
Middle_East ERS154526 wild
Middle_East ERS154528 wild
Middle_East ERS154529 wild
Middle_East ERS154530 wild
四、群体结构之主成分分析PCA
五、LD衰减图
如果要理解LD衰减图,我们就必须先理解连锁不平衡(Linkagedisequilibrium,LD)的概念。连锁不平衡是由两个名词构成,连锁+不平衡。从一个类似的概念入手,更容易理解LD的概念,那就是基因的共表达。换句话来说,当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)。如果两个SNP标记位置相邻,那么在群体中也会呈现基因型步调一致的情况。如果两个基因座是相关的,我们将会看到某些基因型往往共同遗传,即某些单倍型的频率会高于期望值。
这种不同基因座间的相关性,用一个数值来衡量就是D值。类似相关系数是标准化后的协方差,LD系数(r2)则是标准化后的D值,这个数值在0~1波动。r2=0就是两个位点完全不相关,群体中单倍型分布是随机的(观测值=期望值)。r2=1就是两个位点完全相关,某些基因型(A)只与特定的基因型(B)共同出现。
一般而言,两个位点在基因组上离得越近,相关性就越强,LD系数就越大。反之,LD系数越小。也就是说,随着位点间的距离不断增加,LD系数通常情况下会慢慢下降。这个规律,通常就会使用LD衰减图来呈现。LD衰减图就是利用曲线图来呈现基因组上分子标记间的平均LD系数随着标记间距离增加而降低的过程。
六、Haploview-连锁不平衡分析
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡的状态。目前,连锁不平衡分析是群体进化的经典分析条目,分析的软件主要有plink和haploview。Haploview是一款分析单倍型的软件,依托于java形成的可视化界面,以下是整理的相关介绍及使用方法。