应用Biostrings处理生物信息数据——基础篇

Bioconductor中提供各种算法和程序用于处理各类生物数据,今天我们就其中的一个基础包来向大家介绍Bioconductor中R包的使用。

Biostrings包内存效率高的字符串容器、字符串匹配算法和其他实用程序,主要用于对生物分子序列进行定义、处理和分析等,它有一个基础类BString,下面有三个继承类:DNAString、RNAString和AAString,分别对应DNA、RNA和氨基酸序列。

下面首先安装Biostrings包,并安装人类基因组序列数据包(版本号H19) 和人类基因组表达谱芯片HG-U133A的探针数据包,然后通过实例来掌握Biostrings的用法。

#安装加载所需的包:

BiocManager::install(c("Biostrings", "BSgenome.Hsapiens.UCSC.hg19", "hgu133a2probe")) library(Biostrings)

#加载人类基因组序列数据包。

library(BSgenome.Hsapiens.UCSC.hg19)

#加载人类基因组表达谱芯片HG-U133A的探针数据包。

library(hgu133a2probe)

1、基本操作:互补,反向,反向互补,翻译,转录和逆转录。

#用DNAString生成-个dna对象。

dna

#查看这个对象。

dna

#将对象dna由DNAString类型转为"RNAString"类型,直接查看内容。

rna

#查看rna内容

rna

# 再转为"DNАЅtrіng"类型, RNА序列中的U全部替换为T

DNAString(rna)

#查看rna的三连密码子

codons(rna)

# rna翻译,产生新对象AA ("AAString" 类型)。

AA

#查看AA的内容。

AA

# dna的互补,又得到一个"DNAString"类型的对象。

complement(dna)

# dna的反向互补序列,还是"DNAString"类型的对象。

reverseComplement(dna)

# dna的反向序列,还是"DNAString"类型的对象。

reverse(dna)

2、统计人类基因组数据中的碱基频率

#将第22号染色体全序列对有N的地方遮盖,以方便后续步骤时提高工作效率。

chr22NoN

#统计第22号染色体全序列中的所有基础碱基[ATCG]的出现次数。

alphabetFrequency(chr22NoN, baseOnly =TRUE)

#再统计染色体中所有碱基的出现次数。

alphabetFrequency(chr22NoN)

#看看Hsapiens$chr22是否只有基础碱基[ATCG] (字母)。

hasOnlyBaseLetters(chr22NoN)

#显示Hsapiens$chr22中碱基(字母)种类(不含冗余)。

uniqueLetters(chr22NoN)

#计算Hsapiens$chr22中C或G的数量,注意不是CG两连子。

GC_content

#查看C或G的数量。

GC_content

#计算Hsapiens$chr22中C或G所占的含量(比例)。

GC_pencentage

#查看C或G的含量。

GC_pencentage