CNV分析工具之一:CNVkit – 生物信息学讨论版

CNV分析工具之一:CNVkit – 生物信息学讨论版

CNV辨析有很多器。,参加使茫然,但一突起的的成绩是,眼前缺勤清澈的的辨析器。,属于那想树起最好的器的人来说,,在课题CNV时喝迷惑不解的苦楚,你只一一地份量器,课题这些辨析议事顺序。。有一段时间,CNVnator受胎一大的开端。,因软件增加非常讨厌的人。,各式各样的公报弄错、debug,列举如下,辨析器倘若伺侯增加亦一要紧的要素。。

亲密的,我瞥见它在2016出狱了PLoS。 computational 在生物上援用的CNVKIT先前取得了74倍。,并援用了很多高分文字。,软件首要用Python作曲。,轻易增加,目测亦澄清的。。2017,Jimmy great God还写了一CNVKIT推特。,好东西不能的写得这样。,在这里书法家也写一篇CNVkit的推文以表对CNVkit开门同胎仔的贡品,同时,we的所有格形式还经过教育助长课题。:费曼课题法,这包括第一天和最后一天是Feynman的诞辰。。

看一眼上面若何应用它。:

Github地址:

高级职员辅导地址:

第一是应用CONDA增加软件。:

conda config –add channels defaults

conda config –add channels conda-forge

conda config –add channels bioconda

conda create -n cnvkit cnvkit

source activate cnvkit

经过查找找到本子的地位。,找到绝对手段。,如/home/anaconda2/envs/cnvkit/bin/,晚年的软件运转就可以用此手段应用cnvkit软件了。战场高级职员网站的劝告,we的所有格形式先前下载了指的是文献。同时,几个人的WGS材料作为钢制品在慢车预备。。

高级职员行为准则:

batch * –normal * \

–targets my_baits.bed –annotate refFlat.txt \

–fasta hg19.fasta –access data/access-5kb-mappable.hg19.bed \

–output-reference my_ –output-dir results/ \

–diagram –scatter

解析:

运转本子

成批处理是在本子中集成很多命令的一种办法。,自然,您也可以应用提出的号召。、coverrage、FIX和倚靠办法一同取得蝙蝠的完全相同的事物功能辨析,但作为慢吞吞的的人,提议批量。。

而且是对应范本的BAM文章。,提议BWA用于UCSC HG38指的是染色体组的使适应,并应用SAMORTORE替换为BAM体式。。在这里可以输入多个输入。

–targets 区域数据辨析

–annotate ReffLAT体式击中要害生殖细胞的细胞质正文数据,你可以从UCSC下载。

–fasta 指的是染色体组

–access 必要遵照病床档案文件,有空的过 access mm10.fasta -s 10000 -o access-10kb.mm10.bed 生产

–output-reference 输入可作为下部署兵力提取岩芯材料的输入文章。,输入互相牵连

–output-dir 导出大学概况一览名

–diagram –scatter 这两个是与以图表草拟一同的参量。

在辨析高级职员办法晚年的,,你可以在你自己的维修上做。,行为准则列举如下:

/home/anaconda2/envs/cnvkit/bin/ batch /data1/data-sample/human-WGS/bwa-sam-bam/700_bwa.sam.bam –annotate /home/genome/human-ucsc-hg38/ucsc-human-refflat2.txt –normal   /data1/data-sample/human-WGS/bwa-sam-bam/  –method wgs -f /home/genome/human-ucsc-hg38/  –output-reference my_flat_ -d  699vs700

率先应用绝对手段应用本子。,输入了两个bam文章:提取岩芯700例,正规的699例。,输入从UCSC下载的HG38文章的RIFFLAT文章。,因对全体的染色体组举行了辨析。,因而加–办法 WGS参量,输入指的是染色体组亦从UCSC下载的HG38。。

跑步晚年的就错了。,这没有的声称普通弄错。,其首要思惟是增加DNACCORE R包。,进入R后经过bioconductor下载增加此包。亲密的biocondutor有个成绩是教派恭敬的用网覆盖无法应用,你可以去高级职员网站下载增加包到T,应用R CMD INSTALL 可以增加XXX.TAR.GZ。。

再次运转或公报弄错?,瞥见ReffLAT文章在成绩。,瞥见ReffLAT提出的高级职员模板缺勤找到第支座 反力影响线T。,列举如下图所示,使分心第支座 反力影响线的材料,再次运转,从容不迫的运转。。

we的所有格形式将在运转最后中记录稍许地文章。,经过最要紧的执意经过之一。。因we的所有格形式的参量中缺勤图。 –scatter参量,列举如下,默许状态下不生产视觉图像。。we的所有格形式可以应用命令行分开草拟所需的图片。,诸如,绘制7号染色体的散点图。:

/home/anaconda2/envs/cnvkit/bin/ scatter -s 700_bwa.sam.cn{s,r} -c chr7 -o scatter-chr7.png

以图表草拟图,行为准则列举如下:

/home/anaconda2/envs/cnvkit/bin/ diagram

最后是一PDF文章。,截图列举如下:

准许we的所有格形式有另一提取岩芯范本704做异样的辨析。,在第一步中不必要居住这么多话的参量输入。,刚要观念化便了。,您可以应用生产的MyStudioFi文章,与才可以应用它。,提取岩芯标本704。,相关联的的正规的战利品依然是699。,-p 10是对应的线号。:

/home/anaconda2/envs/cnvkit/bin/ batch /data1/data-sample/human-WGS/bwa-sam-bam/704_bwa.sam.bam -r my_flat_ -d 704 -p 10

从整数上看,作者输入的破旧的BAM文章为60GB,但在世界上运转一顺序必要大概1个小时。,最后标明,该软件的运转性能依然很高。。

引见了CNVKIT的应用办法。。

盛盛舜多于一层的小屋厅地址,已批准的证书

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Message *
Name*
Email *