标王 热搜: 工程  成本管理  翻转课堂  房地产  人力资源  交通  内部控制  中等职业学校  仓储  网络营销 
 
当前位置: 首页 » 管理学 » 企业管理论文 » 正文

基于改进隐马尔科夫模型的畜禽全基因组关联分析中的多重检验方法

放大字体  缩小字体 发布日期:2015-06-15  浏览次数:259
  摘 要:为了改进在畜禽全基因组关联分析中,利用隐马尔可夫模型(HMM)进行多重检验时的过学习问题,提出将人工神经网络算法(ANN)作为预处理,引入畜禽全基因组关联分析中,较好地弥补了已有的多重检验方法的缺陷,提高了统计推断性能,其运算速度也显著提高。
  关键词:全基因组关联分析;隐马尔科夫模型;人工神经网络;多重比较;假设检验
  中图分类号 S852 文献标识码 A 文章编号 1007-7731(2015)10-22-03
  Abstract:In order to improve the learning problem of hidden Markov Model(HMM)for multiple testing in whole-genome Association analysis of livestock and poultry,a algorithm of artificial neural network(ANN)as a pretreatment is proposed in multiple testing methods of genome-wide association analysis of livestock and poultry. Results showed that it just well make up for the deficiencies of multiple testing methods based on HMM,and improve the performance of statistical inference,and its speed is also improved significantly.
  Key words:Genome-wide association study(GWAS);Hidden Markov Model(HMM);Artificial neural network(ANN):Multiple comparisons; Hypothesis testing
  全基因组关联分析(Genome-Wide Association Studies,GWAS)是基于“常见疾病,常见变异(common disease,common variant)”的假设,利用标记和突变位点在群体水平的连锁不平衡检测QTL。这种关联性的产生是由于当前群体携带有源于共同祖先的染色体片段,这些片段包含相同的QTL等位基因或单倍型。一般认为,对于复杂性状,除了受少数几个效应较大的基因控制外,还受许多微、中效基因控制。随着对基因组信息认识水平的的提高和高通量测序技术的发展,GWAS已经变成研究复杂性状遗传机理的重要手段。截至2014年7月,仅在人类上就有1 927篇GWAS文章发表,共报道13 418个SNP与各类性状有显著性相关。国内外不少研究者对畜禽的重要经济性状、遗传缺陷性疾病、复杂疾病的抗性、品种特征等性状也开展了GWAS。Zhang等[1]使用澳大利亚996头婆罗门牛和1 097头有6次产犊记录的母牛进行繁殖性状的遗传评估。Santana等[2]使用720头公瘤牛的平均日增重(ADG)和354 147SNP数据进行GWAS,采用混合模型和回归方法检测到3号染色体上的6个SNP与ADG显著相关。显著性最高的SNP(p=9.49×10-8)解释了5.62%的表型方差。
  大尺度多重检验(large scale multiple test)是现代统计学的重要研究领域,广泛应用在GWAS、DNA芯片分析和脑图像分析等领域。在这些研究中,常常同时检测数以万计甚至百万假设检验。在GWAS中,常常使用Bonferroni矫正多重比较问题,但是由于连锁不平衡,SNP之间是不独立的,这与传统假设检验所有假设之间独立、所有样本来源于单一分布不同。例如,不同的基因可能在同一通路中,这些基因表现较强的相关性。畜禽群体中,由于个体之间存在亲缘关系和共同环境效应,这都会对多重检验造成显著影响。Finner和Roters[3]、Owen[4]研究表明假设检验间的相关性显著影响Ⅰ型错误率的期望和方差。Sun和Tony等[5]应用复合决策理论,由隐马尔科夫模型(HMM)研究假设检验间不独立情况下的多重检验问题,构建“局部显著性指数”(local index of significance,LIS)替代p值,改进了假设检验间不独立情况下的假发现率(false discovery rate,FDR)性能。Wei和Sun等[6]应用类似的方法发展了“汇集局部显著性指数”(pooled local index of significance,PLIS)控制FDR,该方法具有最小的假阴性率(false negative rate,FNR),比传统的基于P值的假设检验方法有更高的功效。Li和Wei等[7]利用SNP间的LD信息作为先验信息,建立加权LD图模型,应用马尔科夫随机场模型(Markov random field model,HMRF)控制GWAS中的假发现率。但基于单倍型的方法可能由于自由度太高、单倍型推断中的错误和单倍型包含SNP数的武断性而损失功效。现有基于HMM的多重检验方法存在过学习的问题,训练出的模型可能存在过拟合情况。本研究将人工神经网络算法(ANN)和HMM结合,ANN算法具有很强的抗干扰性,也不存在过学习的问题,弥补了HMM的缺陷,提高了多重检验的功效。
  1 研究背景
  1.1 隐马尔可夫模型 设[θ=θm1=θ1,…,θm]是服从伯努利分布的随机变量,[θi=0]表明变量[i]来源于零假设,反之来源于非零假设。假设观察值[x=x1,…,xm]由以下条件概率产生:
  1.3 人工神经网络算法(ANN)人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每2个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。鉴于ANN和HMM的互补性,利用ANN的长处来克服HMM的不足,将ANN作为HMM的预处理部分,利用ANN的抗干扰能力改进HMM的过学习,具有预测精度高、耗时少的特点。
[2] 银杏树苗价格www.731c.com
 
 
[ 管理学搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 

 
推荐图文
推荐管理学
点击排行
 
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图 | 排名推广 | 广告服务 | 积分换礼 | 网站留言 | RSS订阅
Powered by DESTOON