文件管理 · 2022年9月30日

ensembl使用教程|这几个网站怎么使用

① OSCA教程1 | SingleCellExperiment对象

用一张图展示SingleCellExperiment的结构:

SingleCellExperiment对象中每一个数据代表一个分离的slot(来源于S4对象)。假如我们将SingleCellExperiment比作一艘货船,那么slot可以理解为单个的装载不同货物的boxes,比如有的专门存放数值类型的矩阵,另外一些则单独存放数据框。

在本次学习中,我们讨论可以获得哪些slot,他们的特定格式,我们怎样与他们进行交互。

厉害的人可能早就发现了SingleCellExperiment与SummarizedExperiment对象是一样。

如果只创建一个基本的SingleCellExperiment对象,我们只需要赋值assay 数据槽就可以了(上图中的蓝色框框)。这个slot包含了主要的数据如:counts 矩阵。我们来随便生成一个具有三个细胞和10个基因的count矩阵进行测试。

现在,我们可以开始创建SingleCellExperiment对象了,并将数据命名:counts

我们可以直接在命令行输入sce来查看初步的主要信息。

有两种方法可以获取counts值:

assays数据槽非常强大的原因是它可以存储主要数据的不同格式。这在这个时候非常有用:我想保存原始count矩阵,还想保存标准化后的normalized 版本。现在我们使用scater包来计算标准化并log转换后的数据。

在做单细胞数据分析的时候,你可能已经注意到了我们每次都是对同一个对象如sce进行赋值,那为什么原有数据没有被覆盖掉呢?

sce中此时多了一个assays,原始的counts并没有被覆盖掉。这也是为什么SingleCellExperiment对象特殊的地方,每次返回结果包含了原来的结果,新的结果是增加在对象中而不是替换。

与counts相似,我们也可以使用同样的方法取标化后的值

查看对象中包含的所有assay

上面的功能告诉我们,我们可以自动添加assay到sce对象中,但是更多的时候是使用我们自己的计算方式,但是这个时候返回的并不是SingleCellExperiment对象,不能将结果自动添加到assay中。这个时候想将新计算的结果添加进去怎么办呢?

使用以下方法

为了注释SingleCellExperiment对象,我们需要增加以下metadata来描述我们的主要数据的列,比如实验的样本或者细胞类型描述。这个数据就保存在colData数据槽中,通常是一个data.frame或者DataFrame,行为细胞,列为对应的元数据如治疗信息,批次信息。

现在,让我们往sce中添加一些细胞信息在colData slot中。

可以使用两种方式将细胞信息添加到sce对象中去

提取colData信息

scater 的 addPerCellQC() 可以自动计算一些细胞指标并添加到colData数据槽中

手动添加更多colData信息

使用colData取子集

存储feature水平的注释为rowData数据槽,rowData是一个DataFrame,行对应基因,保存的信息如:转录本长度,基因名。还有一个rowRanges数据槽保存GRanges或GRangesList对象的基因组坐标。rowRanges保存基因的染色体,起始位置,终止位置。

这两个数据槽可以使用rowRanges()和rowData()获取。

在此处,sce中的rowRanges数据槽没有保存信息,运行会返回一个空值。

在rowData中添加信息

与colData相似,rowData在创建SingleCellExperiment对象的时候就已经初始化保存在对象中。具体还要取决于物种,比对和定量使用的注释信息等。

如,使用Ensembl ID,我们可能会使用 AnnotationHub 资源获得Ensembl注释对象并提取基因body信息保存在我们的SingleCellExperiment对象的rowRanges中。

如何在基因/feature水平提取子集?类似于行操作。

还有一些数据信息不适合存储在colData或者rowData里面,那么可以保存在metadata数据槽中。

它可以是任何你想放的信息。

比如,我们有一些高变基因像保存在sce的slot中,我们就可以加入到metadata中。

我们还可以简单的通过$添加更多信息

总结前面的,我们了解了SingleCellExperiment中的assays,colData,rowData/rowRanges以及metadata数据槽。

这些slots实际上继承自它的parent:SummarizedExperiment。

那么SingleCellExperiment对象还有一些自己的特有的数据槽(slots)。

recedDims数据槽保存通过PCA或t-SNE降维后的数据,行对应primary data数据的列即cells,列代表维度。由于这个数据槽以list形式保存数据,对同一个数据集,我们可以保存多个PCA/t-SNE/etc。

下面,我们使用来在scater包的runPCA()计算PCA

同样,使用runTSNE()计算t-SNE。

我们可以使用recedDims(sce)查看sce的降维数据列表,注意与recedDim()的区别。

同样,可以手动添加对象到recedDims()数据槽中。

使用 uwot 包的umap()函数,生成UMAP坐标保存到recedDims中去。

这个地方可以保存如 spike-in等的信息。

如果我们有可选的feature信息,我们可以保存在 SingleCellExperiment中。

然后使用altExp()保存在sce对象中

提取

取子集

所有的SummarizedExperiment对象都可以保存在Experiments中,甚至是SingleCellExperiment。

sizeFactors()返回每一个细胞的标化因子组成的数值型向量,用于后续的标准化。

一般是自动生成。

如,使用 scran 包生成。

手动添加

colLabels()函数返回每个细胞标签的因子或向量,通常与非监督聚类的分组信息相关。

SingleCellExperiment对象为单细胞相关的包提供了一个基石,生于一个包,可以为许多包的输入。

后续,我们将使用SingleCellExperiment作为后续基本数据结构。

至此,再回头看看开始的那张图吧!

突然有了种,能随心所欲的感觉!

书还是看少了啊!

② 怎样从NCBI上查载体基因序列,如果NCBI上没有的话要到哪查例如:pROK II

首先打开NCBI网站首页,然后在search一栏中选择nucleotide,在框中输入你要的基因序列名称,点击search就行。然后会出来很多结果,因为很多基因是同名的,或是一个基因在不同种属中不一样,寻找你要的基因序列就行了。注意的是,要确定你的基因名称是否是统一的,我以前就是找一个基因费了很多事,之后发现是自己没有用通用的。找到基因序列,蛋白序列就很容易了,因为结果中会显示该基因的蛋白序列。你也可以在开始search的时候选protein,找到的就是蛋白序列了。多尝试就好了,其实很简单,英文不错的话,更简单。要有耐心。 只要已经测过序的基因上边都有,而且这是最全的基因库。其他的不用考虑,找不到就只能考虑上边本人的经验。

③ 如何使用SMART网站做蛋白质的结构域

使用SMART网站做蛋白质的结构域的注意事项:

SMART有两种不同的模式:normal或genomic,主要是用的数据库不一样。NormalSMART,用的数据库Swiss-Prot,SP-TrEMBL和stableEnsemblproteomes。GenomicSMART,用全基因组序列。

1、SMART进行时,可以直接用各个数据库蛋白的ID。如Uniprot/Ensembl ID / accession number (ACC)。或是直接蛋白序列。运行SMART也可选择signal peptides、PFAM domains等的预测,勾上就是。

④ snapgene压缩格式不能使用

具体步骤如下:1、下载并解压,得到SnapGene5.0.5.exe安装程序和crack破解文件夹。2、双击SnapGene5.0.5.exe运行,选择安装路径,点击next。3、许可协议,点击iagree。4、安装完成,点击finish。5、将crack中的SnapGene.exe复制到安装目录中,默认C:ProgramFiles(x86)SnapGene,点击替换目标中的文件。SnapGene5中文破解版是功能强大的分子生物学软件,使用可帮助用户快速的计划、可视化和记录日常分子生物学程序,具有可视化、模拟、避免错误、自动记录、拥有您的数据、转换文件格式等优势!5.0版增加了新功能和显示选项,包括成对比对,从Ensembl数据库导入,对定向TOPO_克隆的支持以及用于与参考DNA序列比对的改进工具。

⑤ 如何在NCBI上查找某一基因序列及其启动子

定义:启动子是参与特定基因转录及其调控的DNA序列。包含核心启动子区域和调控区域。核心启动子区域产生基础水平的转录,调控区域能够对不同的环境条件作出应答,对基因的表达水平做出相应的调节。 区域:启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。 这项搜寻要从UCSC基因组浏览器开始,网址为以编码pendrin (PDS)的基因为例来说明上述问题。PDS与耳蜗的异常发育、感觉神经性听力下降以及弥散性甲状腺增大(甲状腺肿)有关。 进入UCSC的主页后,在Organism的下拉菜单中选择Human,然后点击Browser。使用者现在到了人类基因组浏览器入口。本例的搜寻很简单:在assembly的下拉菜单中选择Dec. 2001,在position框中键入pendrin,然后点击Submit。返回的页面结果显示一个已知的基因和两个mRNA序列。继续点击mRNA序列的登录号AF030880,出现包含这个mRNA区域的图解概要。为了获得这个区域更清晰的图像,点击紧靠zoom out的1.5X按钮。最后点击页面中部的reset all按钮,使各个路径的设置恢复默认状态。 然而,对于本例的搜寻目的来说,默认设置不是理想的设置。按照视图利用页面底部的Track Controls按纽,将一些路径设置为hide模式(即不显示),其他设置为dense模式(所有资料密集在一条直线上);另一些路径设置为full模式(每个特征有一个分开的线条,最多达300)。在考虑这些路径内究竟存在那些资料之前,对这些路径的内容和表现做一个简要的讨论是必要的,许多这些讨论是由外界提供给UCSC的。下面是对基因预测方法的更进一步讨论,这些信息也可以在其他地方找到。 对于Known Genes(已知基因)和预测的基因路径来说,一般的惯例是以一个高的垂直线或块状表示每个编码外显子,以短的垂直线或块状表示5′端和3′端非翻译区。 起连接作用的内含子以非常细的线条表示。翻译的方向由沿着细线的箭头指示。 Known Genes来自LocusLink内的mRNA参照序列,已经利用BLAT程序将这些序列与基因组序列进行比对排列。 Acembly Gene Predictions With Alt-splicing路径是利用Acembly程序将人类mRNA和EST序列数据与人类基因组序列进行比对排列而来的。Acembly程序试图找到mRNA与基因组序列的最好的比对排列以及判断选择性剪接模型。假如有多于1个的基因模型具有统计学意义,则它们都全部显示出来。有关Acembly的更多信息可以在NCBI的网站找到(http://www.ncbi.nih.gov/IEB/Research/Acembly/)。 Ensembl Gene Predictions路径由Ensembl提供。Ensembl基因通过许多方法来预测,包括与已知mRNA和蛋白质进行同源性比较,ab initio基因预测使用GENSCAN和基因预测HMMs。 http://www.ebi.ac.uk/ensembl/ Fgenesh++ Gene Predictions路径通过寻找基因的结构特征来预测基因内部的外显子,例如剪接位点的给位和受位的结构特征,利用一种动态的程序算法推定编码区域和推定外显子5′端和3′端的内含子区域;这个方法也考虑到蛋白质相似性的资料。 Genscan Gene Predictions路径由GENSCAN方法衍生而来,通过这个方法,可以确定内含子、外显子、启动子区域和poly(A)信号。此时,这个方法并不期望查询的序列只出现1个基因,因此可以对部分基因或被基因之间的DNA分隔的多个基因进行准确的预测。 Human mRNAs from Genbank路径显示基因库的人类mRNAs与基因组序列的比对排列。 Spliced ESTs和Human EST路径显示来自GenBank的ESTs序列与基因组的序列对齐比较。由于ESTs通常代表了转录基因的片断,一个EST很有可能对应于某个外显子区。 最后,Repeating Elements by RepeatMasker这个路径显示的是重复元件,例如散在的或长或短的核元素(SINEs和LINEs),长末端重复序列(LTRs)和低复杂性区域(http://repeatmasker.genome.washington.e/cgi-bin/RepeatMasker)。一般来说,在将基因预测方法应用于核苷酸序列之前,需要去掉或掩饰这些成分。 回到视图显示的例子,可以看到大多数路径返回了几乎同样的基因预测结果。作为一个规则,通过多种方法预测的外显子提高了预测的正确率而不会出现“假阳性”结果。多数方法显示3′端非翻译区,以左侧大而短的块状表示。Acembly路径显示除了全长序列产物(如这个部分第3条线所示)之外还有3个可能的选择性剪接,其它大多数路径显示与此预测结果相符。Genscan路径从左、右方向往远处延伸:GENSCAN可以被用于预测多个基因。 尽管这些图解概要很有用,然而研究者更需要与这些垂直线或块状相对应的序列。以此为例,用Fgenesh++预测作为获得原始序列数据的基础,但不管选择哪个路径其步骤都是一样的。点击标有Fgenesh++ Gene Predictions的路径,出现的是一个描述预测的概要页面。 序列的区域与pendrin基因相似(从这个例子一开始就已经知道了)。给出了序列的大小及序列开始和结束的预测,并显示预测是以负链为基础的。想要获得序列,点击Genomic Sequence。使用者将被带到一个标题为Get Genomic Sequence Near Gene的查询页面,在这个页面上,可以获得转录物、编码区、启动子或转录物加启动子的序列。 点击Transcript返回的页面显示完整的转录子,外显子以大写字母表示。 点击Coding Region Only得到的是编码区,外显子以大写字母表示。 点击Transcript + Promoter,返回的页面显示的是在上述选择Transcript所获序列的5′端添加了启动子序列,以大写字母表示外显子。启动子的长度显示在文本框内。 点击Promoter返回的页面正好是启动子区。

⑥ 在NCBI上怎么找到一个基因的外显子和内含子

事实上,在NCBI有很多种办法可以确定某个基因的外显子或者内含子,当然还有UTR区域。今天我们来介绍NCBI的其中一个使用软件Splign来在NCBI上找到一个基因的外显子和内含子。操作步骤如下:

1.在Gene数据库,填入基因名HNF-4,我一般的话习惯叫Symbol,每个基因都有个Symbol,即基因名。

⑦ 如何在NCBI上查找某一基因序列及其启动子

定义:启动子是参与特定基因转录及其调控的DNA序列。包含核心启动子区域和调控区域。核心启动子区域产生基础水平的转录,调控区域能够对不同的环境条件作出应答,对基因的表达水平做出相应的调节。区域:启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。这项搜寻要从UCSC基因组浏览器开始,网址为以编码pendrin (PDS)的基因为例来说明上述问题。PDS与耳蜗的异常发育、感觉神经性听力下降以及弥散性甲状腺增大(甲状腺肿)有关。进入UCSC的主页后,在Organism的下拉菜单中选择Human,然后点击Browser。使用者现在到了人类基因组浏览器入口。本例的搜寻很简单:在assembly的下拉菜单中选择Dec. 2001,在position框中键入pendrin,然后点击Submit。返回的页面结果显示一个已知的基因和两个mRNA序列。继续点击mRNA序列的登录号AF030880,出现包含这个mRNA区域的图解概要。为了获得这个区域更清晰的图像,点击紧靠zoom out的1.5X按钮。最后点击页面中部的reset all按钮,使各个路径的设置恢复默认状态。然而,对于本例的搜寻目的来说,默认设置不是理想的设置。按照视图利用页面底部的Track Controls按纽,将一些路径设置为hide模式(即不显示),其他设置为dense模式(所有资料密集在一条直线上);另一些路径设置为full模式(每个特征有一个分开的线条,最多达300)。在考虑这些路径内究竟存在那些资料之前,对这些路径的内容和表现做一个简要的讨论是必要的,许多这些讨论是由外界提供给UCSC的。下面是对基因预测方法的更进一步讨论,这些信息也可以在其他地方找到。对于Known Genes(已知基因)和预测的基因路径来说,一般的惯例是以一个高的垂直线或块状表示每个编码外显子,以短的垂直线或块状表示5′端和3′端非翻译区。起连接作用的内含子以非常细的线条表示。翻译的方向由沿着细线的箭头指示。Known Genes来自LocusLink内的mRNA参照序列,已经利用BLAT程序将这些序列与基因组序列进行比对排列。Acembly Gene Predictions With Alt-splicing路径是利用Acembly程序将人类mRNA和EST序列数据与人类基因组序列进行比对排列而来的。Acembly程序试图找到mRNA与基因组序列的最好的比对排列以及判断选择性剪接模型。假如有多于1个的基因模型具有统计学意义,则它们都全部显示出来。有关Acembly的更多信息可以在NCBI的网站找到(http://www.ncbi.nih.gov/IEB/Research/Acembly/)。Ensembl Gene Predictions路径由Ensembl提供。Ensembl基因通过许多方法来预测,包括与已知mRNA和蛋白质进行同源性比较,ab initio基因预测使用GENSCAN和基因预测HMMs。 http://www.ebi.ac.uk/ensembl/Fgenesh++ Gene Predictions路径通过寻找基因的结构特征来预测基因内部的外显子,例如剪接位点的给位和受位的结构特征,利用一种动态的程序算法推定编码区域和推定外显子5′端和3′端的内含子区域;这个方法也考虑到蛋白质相似性的资料。Genscan Gene Predictions路径由GENSCAN方法衍生而来,通过这个方法,可以确定内含子、外显子、启动子区域和poly(A)信号。此时,这个方法并不期望查询的序列只出现1个基因,因此可以对部分基因或被基因之间的DNA分隔的多个基因进行准确的预测。Human mRNAs from Genbank路径显示基因库的人类mRNAs与基因组序列的比对排列。Spliced ESTs和Human EST路径显示来自GenBank的ESTs序列与基因组的序列对齐比较。由于ESTs通常代表了转录基因的片断,一个EST很有可能对应于某个外显子区。最后,Repeating Elements by RepeatMasker这个路径显示的是重复元件,例如散在的或长或短的核元素(SINEs和LINEs),长末端重复序列(LTRs)和低复杂性区域(http://repeatmasker.genome.washington.e/cgi-bin/RepeatMasker)。一般来说,在将基因预测方法应用于核苷酸序列之前,需要去掉或掩饰这些成分。回到视图显示的例子,可以看到大多数路径返回了几乎同样的基因预测结果。作为一个规则,通过多种方法预测的外显子提高了预测的正确率而不会出现“假阳性”结果。多数方法显示3′端非翻译区,以左侧大而短的块状表示。Acembly路径显示除了全长序列产物(如这个部分第3条线所示)之外还有3个可能的选择性剪接,其它大多数路径显示与此预测结果相符。Genscan路径从左、右方向往远处延伸:GENSCAN可以被用于预测多个基因。尽管这些图解概要很有用,然而研究者更需要与这些垂直线或块状相对应的序列。以此为例,用Fgenesh++预测作为获得原始序列数据的基础,但不管选择哪个路径其步骤都是一样的。点击标有Fgenesh++ Gene Predictions的路径,出现的是一个描述预测的概要页面。序列的区域与pendrin基因相似(从这个例子一开始就已经知道了)。给出了序列的大小及序列开始和结束的预测,并显示预测是以负链为基础的。想要获得序列,点击Genomic Sequence。使用者将被带到一个标题为Get Genomic Sequence Near Gene的查询页面,在这个页面上,可以获得转录物、编码区、启动子或转录物加启动子的序列。点击Transcript返回的页面显示完整的转录子,外显子以大写字母表示。点击Coding Region Only得到的是编码区,外显子以大写字母表示。点击Transcript + Promoter,返回的页面显示的是在上述选择Transcript所获序列的5′端添加了启动子序列,以大写字母表示外显子。启动子的长度显示在文本框内。点击Promoter返回的页面正好是启动子区。

⑧ 这几个网站怎么使用

如果英文不够好,可以去下载翻译软件.但效果可能不够理想

⑨ 如何使用强悍的ENSEMBL和IDT设计实时定量PCR的引物

定量PCR引物设计软件很多,NCBI Primer blast、Real time PCR primer database也很多

⑩ tarbase v.8数据库使用方法

根据给出相关的文献,组织类型,检验的方法等数据可以检验数据库。可以同时输出miRNA和gene, 也可以只输入其中一种进行检索。输入的miRNA名称需要符合mirBase数据库中的miRNA名字的格式,对于gene, 支持gene symbol和ensembl gene ID两种格式。