精品文档---下载后可任意编辑Jonathan K. PritchardaXiaoquan WenaDaniel Falushb 1 2 3a芝加哥大学人类遗传学系b牛津大学统计学系软件来自http://pritch.bsd.uchicago.edu/structure.html 2010 年 2 月 2 日1我们在 Structure 项目中的其他的同事有 Peter Donnelly、Matthew Stephens 和 Melissa Hubisz。2开发这个程序的第一版时作者(JP、MS、PD)在牛津大学统计系。3关于 Structure 的讨论和问题请发给在线的论坛上:structure-software@googlegroups.com。在邮递问题之前请查对这个文档并搜索以前的讨论。1 引言程序 Structure 使用由不连锁的标记组成的基因型数据实施基于模型的聚类方法来推断群体结构。这种方法由普里查德(Pritchard)、斯蒂芬斯(Stephens)和唐纳利(Donnelly)(2000a)在一篇文章中引入,由Falush、斯蒂芬斯(Stephens)和普里查德(Pritchard)(2003a,2024)在续篇中进行了扩展。我们的方法的应用包括证明群体结构的存在,鉴定不同的遗传群体,把个体归到群体,以及鉴定移居者和掺和的个体。简言之,我们假定有 K 个群体(这里 K 可能是未知的)的一个模型,每个群体在每个位点上由一组等位基因频率来刻画。样本内的个体被(根据概率)分配到群体,或共同分配到两个或更多个群体,假如它们的基因型表明它们是混和的。假定在群体内,位点处于哈迪-温伯格平衡和连锁平衡。不精确地讲,个体被按达到这一点那样的方法指定到群体。我们的模型不假定一个特别的突变过程,并且它可以应用于大多数通常使用的遗传标记,包括微卫星(microsatellites)、SNP 和 RFLP。模型假定在亚群体内标记不处于连锁不平衡(LD),因此我们不能处理极其靠近的标记。从 2.0 版开始,我们现在能够处理弱连锁的标记。虽然这里实现的计算方法是相当强有力的,但是为了保证明智的答案,在运行程序的过程中还是需要谨慎。例如,不可能从理论上确定合适的运行长度(时间),这需要用户自己做一些实验。这份资料描述软件的使用和解释,并补充发表的文章,这些文章提供了对方法的更正式的描述和评价。1.1 概述软件包 Structure 由几个部分组成。程序的计算部分用 C 语言编写。我们发布源码和用于各种平台(目前有苹果机,Windows,Linux,Sun)的可执行文件。C 可执行文件读取用户提供的一个数据文件。还有一个 Java 前端为用户提供各种有帮助的工具,包括对输出的简单的处理。你也可以从命令行调用 Str...