Bioconductor中提供各种算法和程序用于处理各类生物数据,今天我们就其中的一个基础包来向大家介绍Bioconductor中R包的使用。
Biostrings包内存效率高的字符串容器、字符串匹配算法和其他实用程序,主要用于对生物分子序列进行定义、处理和分析等,它有一个基础类BString,下面有三个继承类:DNAString、RNAString和AAString,分别对应DNA、RNA和氨基酸序列。
下面首先安装Biostrings包,并安装人类基因组序列数据包(版本号H19) 和人类基因组表达谱芯片HG-U133A的探针数据包,然后通过实例来掌握Biostrings的用法。
#安装加载所需的包:
BiocManager::install(c("Biostrings", "BSgenome.Hsapiens.UCSC.hg19", "hgu133a2probe")) library(Biostrings)
#加载人类基因组序列数据包。
library(BSgenome.Hsapiens.UCSC.hg19)
#加载人类基因组表达谱芯片HG-U133A的探针数据包。
library(hgu133a2probe)
1、基本操作:互补,反向,反向互补,翻译,转录和逆转录。
#用DNAString生成-个dna对象。
dna
#查看这个对象。
dna
#将对象dna由DNAString类型转为"RNAString"类型,直接查看内容。
rna
#查看rna内容
rna
# 再转为"DNАЅtrіng"类型, RNА序列中的U全部替换为T
DNAString(rna)
#查看rna的三连密码子
codons(rna)
# rna翻译,产生新对象AA ("AAString" 类型)。
AA
#查看AA的内容。
AA
# dna的互补,又得到一个"DNAString"类型的对象。
complement(dna)
# dna的反向互补序列,还是"DNAString"类型的对象。
reverseComplement(dna)
# dna的反向序列,还是"DNAString"类型的对象。
reverse(dna)
2、统计人类基因组数据中的碱基频率
#将第22号染色体全序列对有N的地方遮盖,以方便后续步骤时提高工作效率。
chr22NoN
#统计第22号染色体全序列中的所有基础碱基[ATCG]的出现次数。
alphabetFrequency(chr22NoN, baseOnly =TRUE)
#再统计染色体中所有碱基的出现次数。
alphabetFrequency(chr22NoN)
#看看Hsapiens$chr22是否只有基础碱基[ATCG] (字母)。
hasOnlyBaseLetters(chr22NoN)
#显示Hsapiens$chr22中碱基(字母)种类(不含冗余)。
uniqueLetters(chr22NoN)
#计算Hsapiens$chr22中C或G的数量,注意不是CG两连子。
GC_content
#查看C或G的数量。
GC_content
#计算Hsapiens$chr22中C或G所占的含量(比例)。
GC_pencentage
#查看C或G的含量。
GC_pencentage