rcos 为了能准确地画出染色体示意图,染色体的定义,位置,大小,以及显示的形式都是circos 需要考虑的。这些要素需要在数据文件当中定义出来。 数据结构 染色体组型(karyotypes)是一类特殊的数据。一般的,它保存在名为xx.karyotype.txt文件当中。它将定义染色体的大小,ID,名称和颜色。每一行一条染色体,格式如下: chr - ID LABEL START END COLOR 最开始的chr 表示,这一行将定义一个染色体。然后是一个短线占位符。这个占位符通常用来定义所属关系,对于染色体来说,没有所属。 ID 是染色体唯一且不能重复的标识。之后的LABEL 是将来用于显示在图上的文本。如果一个染色体组型文件里面包含多个不同来源的染色体组,设置ID 最好的办法就是使用前缀。比如 hs=homo sapiens, mm=mus musculus 等等。有时候你可以使用hs19 做为前缀来明示数据来源版本。其实,即使是只有一个来源的染色体组,也最好使用前缀,以规范文件格式。 START 和 END 值定义了染色体的大小。对于染色体组型文件,需要指明的是,这里的START 和END 应该是染色体本身的大小,而不是你想绘制部分的起止位置。指定绘制部分将由其它文件来定义。 COLOR 是于定义显示的颜色。如果染色体组不以条纹(cytogenetic bands)图谱覆盖的话,那么就会以这里设置的颜色显示。对于人类基因组而言,circos 预设了与染色体相同的名字做为颜色名,比如 chr1, chr2, … chrX, chrY, chrUn. 下面就是hg19 的例子: chr - hs1 hs1 0 249250621 chr1 chr - hs2 hs2 0 243199373 chr2 chr - hs3 hs3 0 198022430 chr3 chr - hs4 hs4 0 191154276 chr4 chr - hs5 hs5 0 180915260 chr5 chr - hs6 hs6 0 171115067 chr6 chr - hs7 hs7 0 159138663 chr7 chr - hs8 hs8 0 146364022 chr8 chr - hs9 hs9 0 141213431 chr9 chr - hs10 hs10 0 135534747 chr10 chr - hs11 hs11 0 135006516 chr11 chr - hs12 hs12 0 133851895 chr12 chr - hs13 hs13 0 115169878 chr13 chr - hs14 hs14 0 107349540 chr14 chr - hs15 hs15 0 102531392 chr15 chr - hs16 hs16 0 90354753 chr16 chr - hs17 hs17 0 81195210 chr17 chr - hs18 hs18 0 78077248 chr18 chr - hs19 hs19 0 59128983 chr19 chr - hs20 hs20 0 630255...