GWAS研究中case和control的比例是有讲究的?

2023-06-05,,

GWAS研究中,表型分两种。第一种是线性的表型,如果身高、体重、智力等;第二种是二元的表型,比如患病和未患病,即通常所说的case和control。对于表型是线性的样本来说,是不存在case和control比例不平衡的情况的,但是对于表型是二元的样本,比如疾病和对照组(健康人群),case和control比例失衡,可能会出现N多的假阳性结果。具体看看下面的例子。

例子1:case和control比例在稍微正常的情况下,比如冠心病(coronaryartery disease,case:control =1:12, N = 408,458),此时,用什么模型计算关联分析结果都OK.

下面分别用三个不同算法(BOLT-LMM, SAIGE-NoSPA 和 SAIGE)计算的GWAS结果,从图下可以看出,当case和control的数量比例不是严重失衡的情况下,这个时候用哪种方法结果都没有区别。

例子2:case和control比例在比较失衡的情况下,比如结直肠癌 (colorectal cancer , case:control = 1:84, N = 387,318),此时,BOLT-LMM和SAIGE-NoSPA显然出现了很多假阳性位点,而SAIGE模型下的GWAS结果则比较正常

例子3:case和control比例在严重失衡的情况下,比如青光眼(glaucoma, case:control = 1:89, N = 402,223),此时,BOLT-LMM和SAIGE-NoSPA显然出现了很多假阳性位点,而SAIGE模型下的GWAS结果则比较正常。

例子4:case和control比例在极其严重失衡的情况下,比如甲状腺癌(thyroid cancer, case:control = 1:1,138, N = 407,757),此时,BOLT-LMM和SAIGE-NoSPA显然出现了非常多的假阳性位点,而SAIGE模型下的GWAS结果则比较正常。

综上,说了这么多,是想告诉大家当手头的case和control比例差别比较悬殊的时候,不要一上来就跑GWAS,而是先考虑一下你的样本适合的模型。像这篇文章里的SAIGE模型就很适合case和control比例严重失衡的情况。

SAIGE的具体用法请参照:

https://github.com/weizhouUMICH/SAIGE

图片出处及参考文献:https://www.nature.com/articles/s41588-018-0184-y

GWAS研究中case和control的比例是有讲究的?的相关教程结束。

《GWAS研究中case和control的比例是有讲究的?.doc》

下载本文的Word格式文档,以方便收藏与打印。