CRISPR-Cas实验的设计与分析工具


撰文 | 木兰之枻


自2012年CRISPR-Cas系统的基本原理被厘清之后,其在基因组操作中的应用有了飞速的发展。总体而言,CRISPR-Cas系统的应用可分为三大类:一是以改变特定碱基为目标的"编辑"研究;二是插入缺失(indels)为目标的"敲除"实验;最后一类则是通过基因组定位以招募其它蛋白实现基因表达调控或表观遗传修饰的"募集"实验。无论哪类研究,均依赖于向导RNA(sgRNA)引导Cas核酸酶(sgRNA-Cas复合物)实现基因组的靶向定位。现如今,CRISPR-Cas系统多样化程度的日益增加让基因组操作研究更加快速和灵活,众多的软件和分析工具也因此而诞生以用于相关实验的设计与分析,这包括sgRNA的设计优化工具以及实验数据的分析工具。这其中大规模CRISPR遗传筛选的数据分析软件的研发更是当下的重点。


2020年4月13日,来自美国哈佛大学与麻省理工学院Broad研究所的John G. Doench等在Nature Biotechnology发表题为Design and analysis of CRISPR–Cas experiments

的综述。文章根据CRISPR-Cas实验的不同,将软件工具分为1sgRNA的设计与选择,2CRISPR编辑和敲除实验的结果分析以及3混合遗传筛选数据的大规模分析三大类并加以总结,作者希望此文能为CRISPR-Cas系统的应用者在选择评估相关软件工具时提供合理的指导。


『珍藏版』Nat Biotech综述 | CRISPR-Cas实验的设计与分析工具

sgRNA的设计与选择工具

靶位点的普遍性

sgRNA是CRISPR-Cas系统识别基因组中靶位点的关键,其序列与靶位点互补。靶位点的选择则受限于特定的PAM序列,其序列特征因Cas核酸酶而异。因此,特定Cas核酸酶靶位点在基因组中的普遍性取决于PAM序列的分布情况。为拓宽Cas核酸酶的适用范围,研究者尝试对其加以改造以改变其对应的PAM序列。就应用上而言,CRISPR-Cas系统可用来修复致病的SNP突变,其原理是利用sgRNA-Cas复合物在SNP位点附近(5bp之内)引入DNA双链断裂(DSBs),而后借助于修复模板通过同源重组对致病SNP加以修复。从理论上讲,ClinVar数据库中所有的致病SNP位点均可通过至少一种Cas核酸酶加以修复,且sgRNA/SNP位点的数量接近30个,这表明CRISPR-Cas系统介导的同源重组修复在致病SNP修复中有广泛的适用性。


为改善CRISPR-Cas系统基因组操作的准确性和效率,研究者开发出单碱基编辑系统胞嘧啶碱基编辑器(CBEs)和腺嘌呤碱基编辑器(ABEs),可在不引入DSBs的情况下诱导特定位点碱基的精准改变。从理论上而言,CBEs和ABEs可修复ClinVar数据库中80%以上的致病SNP,然而与上文提到的同源重组修复相比,单碱基编辑的活性窗口更加局限,对应的sgRNA/SNP位点数量也只有2.3个。不过最近prime编辑器的出现让研究者看到了更多可能:该编辑器理论上可在基因组的任意位点引入插入、缺失或碱基替换,但其效果还有待深入研究。


与单碱基编辑系统相比,敲除实验在sgRNA位点的选择上更加灵活:基因的多数外显子区域均可作为靶点完成功能敲除。此外,CRISPR为基础的基因激活(CRISPRa)和抑制(CRISPRi)策略的sgRNA位点的选择窗口一般<100bp,多位于转录起始位点附近。


sgRNA设计网站特征

作者统计发现至少有30种sgRNA设计网站可用,此外还有众多的代码可用于sgRNA设计。作者还对应用最广的六大网站E-CRISP、CRISPOR、GUIDES、CRISPick、RGEN Cas-Designer和CHOPCHOP进行了总结。总体来看,很多网站都有其独特的应用目标,研究者需要根据自己的需求加以选择和调整。在sgRNA设计网站的选择上,作者的标准如下:


选择标准一:研究者要提供的序列信息是否能被设计网站所识别。部分网站只接受原始的序列信息,而其他网站则可以通过转录本编号或基因名称在线搜索和调取对应的序列信息。在sgRNA的选择和评估上,部分网站如CHOPCHOP和E-CRISP优先考虑靶向多种转录本的sgRNA;还有网站如CRISPRick和GUIDES则会显示sgRNA在不同外显子上的分布情况,这对文库的设计和构建有很大帮助。此外,有网站允许序列信息的批量输入,这对文库的设计也很有帮助。

选择标准二:网站中基因组数据、Cas核酸酶和基因组操作的多样性。绝大多数网站都支持针对人和小鼠基因组的sgRNA设计,而其它物种的研究者在网站的选择上则相对受限,不过仍有部分网站提供数百种基因组用于sgRNA设计,还有网站允许研究者自行提供基因组信息。对基因组编辑实验而言,通常需要根据靶位点和临近的PAM序列特征在多种Cas核酸酶中加以选择,但目前并无网站可实现不同Cas核酸酶sgRNA的比较和便捷筛选。对敲除实验和筛选文库而言,SpCas9能满足大多数的需求;对CRISPRa和CRISPRi实验的sgRNA设计而言,基因的转录起始位点相当关键;对单碱基编辑而言,BE-Designer或是不错的选择,但该领域正处于飞速发展阶段,相关工具的更新也非常快。

对小规模的设计而言,了解sgRNA位点周围的基因组特征相当有用。比如,CRISPOR会显示sgRNA位点周围的SNP信息,GUIDES则提供不同转录本的丰度信息,CHOPCHOP则与UCSC基因组浏览器关联。此外,CRISPOR和CHOPHOP还能针对靶位点提供PCR扩增引物的设计。以上这类信息对有需求的研究者而言有事半功倍的效果。

选择标准三:sgRNA活性和脱靶效应的评估。以大规模CRISPR筛选的数据为基础,研究者开发出多种算法预测不同Cas核酸酶的sgRNA活性,这对sgRNA的选择大有帮助。不过,实验方案的差异可能会对活性评估系统的选择产生影响。比如哺乳动物细胞中慢病毒系统和III型RNA聚合酶介导的sgRNA表达,Rule Set 2系统的效果最好;而对于体外转录的sgRNA,Moreno-Mateos效果上佳。此外,研究者还开发出多种算法以预测脱靶效应,不过并非所有网站都选择系统性的算法预测脱靶效应,因此研究者需要谨慎选择以避免遗漏潜在的脱靶位点。


根据研究目的的不同,研究者对sgRNA活性和脱靶风险的要求也会有所改变:如果以单细胞克隆为目标,研究者或许更在意脱靶风险的高低;而构建筛选文库时,又可能更看重sgRNA活性。此外,sgRNA的设计和选择时还要考虑递送策略、启动子的转录特征、sgRNA的序列特征等等,部分网站会有相应的筛选标准供研究者选择。


此外,不同的设计网站在综合考量sgRNA活性、脱靶风险以及其它多种筛选标准时的权重并不一致,因此,针对相同基因,不同网站的优选sgRNA往往大相径庭,但这并无对错之分,同时这也提醒我们,sgRNA的设计网站并不能取代实验验证,在条件允许的情况下,设计多条sgRNAs加以验证是上上之选。


当然,好的sgRNA设计仅仅是前提,合理的实验设计同样重要,要开展CRISPR实验,Addgene的CRISPR电子书值得一读(https://www.addgene.org/crispr/)。


CRISPR研究中,靶位点的编辑效率评估非常重要。基因敲除和碱基编辑实验自有专门的工具可用,而对于通过dCas9调控基因表达的实验,则需要通过标准的RNA检测如实时定量RT-PCR来评估。不过需要注意的是,单纯的DNA或RNA水平的分析往往会有假阳性结果产生。举例而言,sgRNA成功的在特定基因特定外显子中引入移码突变,但细胞仍可能通过可变剪接剔除突变外显子以产生功能性蛋白;CRISPRa实验中,mRNA表达可能上调,但蛋白水平可能因翻译和翻译后修饰而无明显改变等等。对基因敲除和碱基编辑实验而言,T7EN1酶切实验是编辑效率评估的常规方法,但该方法对新手并不友好。此外,PCR扩增靶位点后开展Sanger测序也是常用方法,Sanger测序后的数据分析软件有TIDE(https://tide.deskgen.com)和EditR。如果要借助于高通量测序对编辑效率进行更系统评估,Cas-Analyzer和CRISPResso2两种在线工具效果上佳。当然,还有其它工具可供选择,如需要云端运行的CRISPR-Seq,以及需要下载代码的ampliCan、BATCH-GE和CRIS.py等。


近来,研究者还开发出一系列的工具可预测sgRNA-SpCas9复合物引入DSBs后的修复特征,在这类工具的帮助下,某些插入缺失突变的构建便无需DNA修复模板也能实现。


CRISPR筛选的分析方法

CRISPR研究工具中有相当大的一类是用于大规模混合CRISPR筛选数据的分析。目前有多种端对端分析工具包可实现筛选反卷积、reads数标准化、目标基因筛选和注释的整合分析。这类工具包除使用方便快捷之外,还有如下优点:内置质控分析,且分析方法标准且严苛。

但对分析者特别是新手而言,使用这类工具包时仍需谨慎:从原始数据的输入到目标基因的输出过程太过便捷,分析者往往难以了解其中的原理。因此,按照分析流程按部就班的解读工具包,探究其分析标准和基本原理至关重要。大体而言,CRISPR筛选分析法的基本流程如下:

筛选反卷积:

CRISPR筛选获得的原始数据是FASTQ格式,研究者需要从中提取sgRNA的序列信息并与文库加以比对,以获取样本中每种sgRNA对应的reads数。除端对端分析工具包外,这一过程的实现还可借助于定制脚本来实现。就筛选反卷积而言,测序数据的质量评估相当重要,一方面,研究者需要评估测序数据比对的百分比,以判断样本的污染情况。另一方面,研究者还要评估技术重复样本间的相关性以排除样本制备等过程中可能存在的失误。

筛选后sgRNA水平的分析:

数据质控完成后,研究者需要对不同sgRNAs对应的reads数进行分析。首先要进行的是reads数的标准化处理;之后则需要对实验组与对照组之间sgRNAs含量的差异进行统计分析。此过程中质控依然非常必要,研究者需要通过生物学重复样本之间的相关性分析以排除批次效应的影响。研究者还需要对阴性对照和阳性对照数据加以评估,高质量的筛选中阴性对照和阳性对照结果均应符合预期。

目标基因的筛选:

筛选分析的最后一步便是筛选注释有显著性改变的目标基因。除端对端分析工具包之外,目前常用的工具还有HiTSelect、screenBEAM、STARS、RIGER和DESeq2。在进行目标基因筛选时,研究者应注意不同算法的特点:许多算法都默认文库中大多数的sgRNAs不会产生相应的表型。而在定制文库分析中,可能大多数的sgRNAs都会产生相应的表型,因此需要对算法加以调整。

目标基因筛选时方法的选择非常关键。对阴性筛选或低效sgRNA文库而言,最小化假阳性和假阴性的方法将有助于目标基因的分析。此外,BAGEL、CERES和JACKS等算法均预置细胞存活关键基因及sgRNA效率的信息用于改善信噪比,这些算法还被进一步优化以满足阴性筛选的分析需求。就工具包而言,MAGeCK在阴性筛选中独具优势。而复杂的CRISPR筛选如组合筛选往往需要定制化分析方能实现相应的目标。而筛选出目标基因之后,后续的通路分析及蛋白复合物分析也很重要,此时研究者需要实时更新基因的注释信息以保障后续分析的准确性。


总体而言,虽然相关的软件工具能有效推动CRISPR-Cas研究的开展,但审慎的思考依然不可替代。深入理解在线工具和软件包的原理非常必要,这是选择合适的工具,避免滥用相关软件的前提。此外,现有的软件工具众多,但很多都缺乏有效的维护和改善,在不断创新开发新工具的基础上维护改善已有的工具显得势在必行。


原文链接:https://doi.org/10.1038/s41587-020-0490-7


分享到:


相關文章: