标王 热搜: 工程  成本管理  翻转课堂  房地产  人力资源  交通  中等职业学校  内部控制  仓储  网络营销 
 
当前位置: 首页 » 管理学 » 企业管理论文 » 正文

基于改进隐马尔科夫模型的畜禽全基因组关联分析中的多重检验方法

放大字体  缩小字体 发布日期:2015-06-15  浏览次数:288
  2 材料与方法
  2.1 第15届QTL-MAS公共数据集 该公共数据由一个远交群体构成,使用 LDSO 软件[9]模拟产生。历史群体首先模拟了1 000个世代,每个世代1 000个个体,随后模拟30个世代,每个世代150个个体。基因组共模拟了5条染色体、9 990个 SNP标记,每条染色体长度1M(Morgan),携带均匀分布的SNP标记1 998个(相邻SNP标记间距0.05cM)。最终用于基因组选择评估的数据由3 220个个体组成,其中包括20头公畜、200头母畜(每头公畜与10头母畜交配)和3 000个后裔(每头母畜生产 15 个后裔)。所有个体都模拟了9 990个SNP 标记的基因型,并且没有基因型缺失或判型错误。每头母畜的15个后裔中,有10个模拟了一个连续性状的表型值。2 000个有表型值的后裔及其它1 000个没有表型值(但有模拟的真实育种值)的后裔,分别作为参考群和验证群。
  2.2 模拟数据 全基因组数据模拟需要首先定义基因组的结构。与基因组结构相关的参数包括:染色体长度(Lc)、染色体数(Nc)、总标记数(Nm)、标记位置的分布和基因数或数量性状基因座(QTL)数(NQTL)。为便于模拟,一般设定不同染色体的长度相同,为1M(Morgan),不同染色体上的标记数目一般也假设相同。
  2.3 模拟研究 结合HMM和ANN,利用ANN弥补HMM的不足。HMM训练模型主要基于最大似然准则(Maximum Likelihood,简称ML)和最大共有信息准则(MaximumMutual Information,简写为MMI),采用梯度法计算,更新HMM模型中的参数。采用最小均方误差(MMSE)准则,ANN提高HMM的识别能力,保证H0,H1推断的正确性。具体步骤:建立3层ANN结构(一个输入层,一个隐含层,一个输出层)和随机初始ANN神经元链接权重,由n个输入节点和n个输出节点组成。采用类似于交叉验证策略,将模拟数据真实值作为输入,训练链接权重。将ANN算法的输出,输入到HMM模型中,采用Baum-Welch算法得出对数似然值,应用梯度下降法调整模型参数。测试的误差评价准则为平均相对误差:
  3 结果与分析
  研究采用自编软件产生模拟数据,结合公共数据集,将ANN和HMM相结合,提出改进PLIS法-ANN-PLIS。通过比较PLIS、BH[11]、ANN-PLIS的预测性能,结果表明,ANN-PLIS较单纯使用HMM的PLIS运算速度很快,ANN-PLIS具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力,运算速度也大大加快,提高了多重比较过程的准确性(表1)。但是ANN也有其缺点:(1)最严重的问题是没能力来解释自己的推理过程和推理依据;(2)不能向用户提出必要的询问,而且当数据不充分的时候,神经网络就无法进行工作;(3)把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果势必是丢失信息;(4)理论和学习算法还有待于进一步完善和提高。
  致谢:本研究部分灵感及部分计算设备由中国农业大学动物科技学院张勤教授课题组提供。
  参考文献
  [1]Zhang,Y.D.,et al.. Genomic selection for female reproduction in Australian tropically adapted beef cattle[J]. Animal Production Science,2014,54(1):16-24.
  [2]Santana,M.H.,et al.,Genome-wide association study for feedlot average daily gain in Nellore cattle(Bos indicus)[J]. J Anim Breed Genet,2014,131(3):210-216.
  [3]Finner,H.,M. Roters. Multiple hypotheses testing and expected number of type I[J].Ann. Statist.,2002:220-238.
  [4]Owen,A..Variance of the number of false discoveries[J].Journal of the Royal Statistical Society 2005,B(67):411-426.
  [5]Sun,W.,T. Tony Cai. Large-scale multiple testing under dependence[J]. Journal of the Royal Statistical Society:Series B(Statistical Methodology),2009,71(2):393-424.
  [6]Wei,Z.,et al..Multiple testing in genome-wide association studies via hidden Markov models[J].Bioinformatics,2009,25(21):2802-2808.
  [7]Li,H.,Z. Wei,J. Maris. A hidden Markov random field model for genome-wide association studies[J]. Biostatistics,2010,11(1):139-150.
  [8]Wenguang,S.,T.T. Cai,Large-scale multiple testing under dependence[J]. Journal of the Royal Statistical Society Series B,2009,71(2):393-424.
  [9]Ytournel,F..linkage disequilibrium and QTL fine mapping in a selected population[J].Station de Génétique Quantitative et Appliquée,INRA,2008.
  [10]Meuwissen,T.,M. Goddard.Accurate Prediction of Genetic Values for Complex Traits by Whole Genome Resequencing[J].Genetics,2010,185:623-631.
  [11]Benjamini,Y.,Y. Hochberg.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society. Series B(Methodological),1995,57(1):289-300. (责编:张宏民)
[1] 银杏树苗价格www.731c.com
 
 
[ 管理学搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 

 
推荐图文
推荐管理学
点击排行
 
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图 | 排名推广 | 广告服务 | 积分换礼 | 网站留言 | RSS订阅
Powered by DESTOON