UCSC基因分类器用户指南
目录
欢迎提出问题和反馈.
介绍
基因起作用并一起进化。要理解一个基因,你通常需要了解一个完整的基因家族。许多这样的家族已经为人所知和所述,例如HOX家族调节肢体和大脑发育的许多方面以及作为中枢的细胞色素P450家族许多药物的新陈代谢。
识别基因已知亲属的一种简单方法是寻找具有名称的基因相似性,因为生物学家倾向于对相似的基因使用相似的名称。然而,只有科学家部分了解基因组中可能三分之一基因的功能;因此,其他将基因分组成家族的技术是必要的。
UCSC基因分类器是探索基因家族和关系的极好资源在基因中。该工具显示所选基因组中与一个基因组相关的基因表另一个。可以探索几个不同的关系:蛋白质水平的同源性,基因的相似性表达谱或基因组接近性。Gene Sorter支持对各种术语进行搜索和短语,包括基因名称、UniProtKB蛋白质名称、GenBank登录或单词或基因描述中的短语。基因家族显示器是高度可配置的,允许用户可以控制列的顺序和数量、行数和显示的基因。这个该工具提供了几种输出格式,包括可以导入的简单制表符分隔格式到电子表格或关系数据库中。
基因分类器的一个重要用途是收集共享相似基因的集合用于统计分析的属性。例如,可能需要检查共享类似表达模式或在具有以下特征的基因中寻找蛋白质序列基序的基因共享类似的GO注释。
基因分类器最强大的功能之一是它的过滤功能。过滤器用户可以根据以下条件快速选择基因组中25000个基因中有趣的子集各种详细而灵活的选择标准。例如,过滤器可用于选择所有在小脑中过度表达的人类基因都具有GO非翻译G蛋白偶联受体活动。
基因分类器由Jim Kent、Fan Hsu、David Haussler和UCSC设计和实现基因组生物信息学小组。这项工作得到了国家人类基因组的资助霍华德·休斯医学研究所。
入门
要开始使用基因分类器,首先必须选择基因组区域和基因类型您希望显示的关系。您可能还想更改一些基因分类器配置设置以根据您的研究需要定制显示。这些配置选项包括中描述的配置基因分类器显示.
启动基因分类器
- 打开基因分类器主页.
- 通过从中选择适当的选项来指定要查看的基因组和程序集基因组和装配下拉菜单。
- 在搜索用于确定将显示哪些基因的文本框在浏览器中。有效的搜索词(以人类基因组为例)包括:
- 基因名(HOXA9)
- UniProtKB蛋白质名称(HXA9)
- 基因描述中出现的单词或短语(MAP激酶)
- a GenBank mRNA加入(U14680)
- 通过从排序依据下拉菜单。基因将按照与所选基因的接近程度排序,基于以下标准之一:
- 表达(GNF Atlas1)——基于GNF Atras1数据的基因表达相似性
- 蛋白质同源性-BLASTP——基于BLASTP E值的蛋白质同源性相似性
- 蛋白质同源性-Rankprop——基于Rankprot的蛋白质同源性相似性算法
- 蛋白质同源性-PSI-BLAST——基于PSI-BLAST的蛋白质同源性相似性E值
- Pfam相似性——基于共享域数量的相似性
- 基因距离——染色体与所选基因的绝对距离(左或右)
- 染色体——按染色体位置排序的列表
- 名称相似性——与选定基因名称的相似性,基于前几个名称的字符
- 按字母顺序排列--按基因名称排序的列表
- GO相似性——与所选基因共享的基因本体(GO)术语数量
- 从中选择要显示的项目数显示下拉菜单(默认为50).
- 按快走!按钮显示搜索结果。
了解基因分类器显示
Gene Sorter的主页面显示了一个包含基因行和相关联的属性。在大多数情况下,当前选择的基因显示在列表顶部,突出显示浅绿色。其余基因根据排序相对于所选基因排序中指定的标准排序依据菜单。例如,在按基因距离排序的表中,这些基因按照与所选基因的染色体接近程度从大到小的顺序排列。
最初的基因排序器显示仅显示可用列的默认子集。这套可以使用基因分类器来扩展、减少和重新排列列配置实用程序。要查看有关显示在列,单击该列的标签。
要在表中选择不同的基因,请单击该基因的名称。基因分类器将移动将基因条目置于列表顶部并高亮显示。其余基因将重新排序相对于新选择。
列说明(按字母顺序列出)
-
#列:显示表中每个基因的位置,这在以下情况下很有用检查具有多行的表中的数据。点击基因号选择它并将其移动到列表的顶部。
-
3'UTR折叠柱:显示折叠3'UTR的估计能量(kcal/mol)将一个基因转化为最佳预测的二级结构。能量计算和次级结构预测是从RNAfold程序中获得的,该程序是维也纳RNA的一部分包裹。
-
5'UTR折叠柱:显示折叠5'UTR的估计能量(kcal/mol)将一个基因转化为最佳预测的二级结构。能量计算和次级结构预测是从RNAfold程序中获得的,该程序是维也纳RNA的一部分包裹。
-
丰度柱(酵母):显示蛋白质丰度信息,如Ghaemaghami等人。酵母蛋白质表达的整体分析,自然
425(6959), 737-741 (2003). 有关更多信息,请参阅酵母GFP融合定位数据库.
-
Arbeitman等人,2002年生命周期表达数据栏(果蝇):显示苍蝇生命周期各阶段基因表达与表达的中位数比值将混合卵中的基因移植到成年培养物中。细节级别可以随这个配置实用程序。请参阅表达式柱description以获取有关此列的显示和配置的更多信息。有关用于创建此数据的实验和方法的更多详细信息,请单击该列的标签。
-
BLASTP位列:显示基因和所选基因。两种蛋白质之间的相似性越大,位越高分数。有关如何计算位分数的更多信息,请单击位列标签。
-
BLASTP E-Value列:显示每个值之间的Blastp E值(期望值)基因和所选基因。两种蛋白质的相似性越大,E值越低。相同的长蛋白质的E值为零。形式上,E值是其他已知的基因可能至少具有这种水平的同源性。E值小于0.1可以安全地解释为仅通过以下方式发生匹配的概率机会。有关如何计算E值的更多信息,请单击“E值”列标签。单击基因的E值显示基因和选定的(突出显示)基因。
-
秀丽线虫列:显示与WormBase蛋白质的最佳Blastp匹配设置。单击ID号将显示相应的WormBase数据库记录。
-
编码SNP列:显示位于每个基因的编码区。单击SNP ID显示与NCBI的dbSNP中的基因。
-
描述列:显示了从其mRNA中提取的每个基因的简要描述记录。单击描述将显示一个页面,其中显示有关基因。
-
果蝇柱:显示与FlyBase最匹配的Blastp的FlyBaseID蛋白质组。单击FlyBase ID将显示相应的FlyBase报告。
-
合奏列:显示与该基因相关的集合转录本ID。Ensembl是一个自动基因预测管道,是一个主要的基因组数据库和网站,由桑格研究所和欧洲生物信息学研究所(EMBL-EBI)。这是特别的有效地将一个生物体中已知的基因映射到另一个生物体。与其他相比基因预测,Ensembl的预测往往具有较高的特异性,但对非特异性基因的敏感性较低已经与特征mRNA或蛋白质序列相关。点击信号群ID显示基因的Ensembl GeneView页面。
-
Entrez基因(人类):原名LocusLink。显示相关的NCBI Entrez基因ID带有基因。单击条目显示Entrez Gene记录。如果记录显示链接人类在线孟德尔遗传(OMIM)——用带有它里面的“O”——该基因的OMIM记录可用。
-
外显子计数列:显示基因中外显子的数量(编码和非编码)。
-
Exp Delta列:显示每个基因的表达与选择的基因。具有相同表达谱的基因的值为0。此列显示数据只有1000个表达最相似的基因(包括剪接变异体)配置文件。有关如何计算表达式距离的详细信息,请单击Exp增量列标签。
-
表达式列:显示所选组织中基因的表达比率或生命周期阶段对基因整体表达的影响。更高表达的基因为红色,一个表达较少的基因显示为绿色。值在对数刻度。这种颜色是标准的,但与没有经验的用户相反可能会想到:在这种情况下,红色表示前进,绿色表示停止!黑色表示基因在组织中既没有过度表达也没有表达不足。未着色的框(大多数浏览器上为白色)表示缺少数据。表达式列显示的各种属性可以使用配置实用程序。根据有机体,用户可以调整颜色方案和亮度,在表达式比率和绝对表达式值之间切换,以及增加或减少显示的详细程度。特别是,色盲用户可能希望将颜色从红色/绿色切换到黄色/蓝色。有关选择的详细信息用于表达式列的条件,单击列的标签。
-
GenBank列:显示与基因。点击登录号显示与之关联的GenBank记录。
-
基因本体列:显示与基因。GO术语是人类管理者分配给基因的受控词汇中的单词。单击GO术语显示相关的基因本体联盟数据库记录。
-
基因组位置列:显示中每个基因的染色体位置基因组。点击染色体位置显示UCSC基因组中该位置的基因浏览器。
GNF1M ID列(鼠标):显示来自GNF1M芯片的Affymetrix ID对应于每个基因。有关用于创建此项的实验和方法的更多详细信息数据,单击列的标签。
-
GNF Atlas2列(人类):显示GNF Atlas 2中探针的ID与所选基因重叠最多。GNF Altas 2基于两个Affymetrix芯片:U133A和定制GNF1H芯片。
-
GNF Delta列:显示每个基因的表达与选择的基因。具有相同表达谱的基因的值为0。此列显示数据只有1000个表达最相似的基因(包括剪接变异体)配置文件。
-
GNF U74a、GNF U74 b、GNF U 74c列(鼠标):显示来自老鼠基因的数据诺华研究基金会(GNF)基因组研究所关于Affymetrix U74a、U74b和U74c芯片。默认情况下,列显示相对于基因整体的表达,特定组织中的表达。水平细节的增加或减少配置实用程序. 目前,全谱组织仅在U74a芯片上可用。请参阅表达式列有关显示器的详细信息的说明以及此列的配置。有关用于创建此数据,单击列的标签。
-
GNF U95列(人类):显示来自GNF Expression Atlas的数据Affymetrix U95芯片。默认情况下,该列显示特定相对于基因整体表达的一组组织。详细程度可以是随着配置实用程序。请参阅表达式列有关显示器的详细信息的说明以及此列的配置。有关用于创建此数据,单击GNFU95列的标签。
-
人体柱(鼠标):显示Blastp与已知基因-蛋白质集的最佳匹配来自UCSC人类基因组浏览器数据库。单击登录号显示中的基因UCSC人类基因组浏览器。
-
Kim Lab生命周期表达式数据(全部)列(秀丽线虫):显示蠕虫生命周期所有阶段的基因相对于混合基因表达的比率野生型成人培养物。请参阅表达式列的描述有关此列的显示和配置的更多信息。有关用于创建此数据的实验和方法,请单击列的标签。
-
Kim-Lab生命周期表达数据(中值)列(秀丽线虫):显示蠕虫生命周期中选定阶段的基因表达中位数。请参阅表达式列有关显示器的详细信息的说明以及此列的配置。有关用于创建此数据,单击列的标签。
-
最大GNF Atlas 2列:显示任何GNF基因表达图谱2中的组织。大多数值都在0到50000之间,但少数异常值可能高达20万。值小于20表示表达式在明显高于交叉杂交水平的任何组织中都无法检测到控制。
-
最大GNF U95列(人类):显示任何组织。大多数值的范围在0到30000之间,但少数异常值的范围可能高达52000。值小于20表示在任何组织中都无法检测到表达水平显著高于杂交对照。
-
Max Rinn性别专栏(老鼠):显示成年男性和雌性小鼠组织如所述(Rinn等人,《发育细胞》,2004年)。更多信息有关生成这些数据的方法的信息,请单击“Max Rinn Sex”列收割台。
-
模块柱(酵母):显示预测的调节模块(转录因子结合位点)调节基因。这背后的方法Segal,E.等人对注释进行了描述。,从DNA序列和基因中全基因组发现转录模块表达,生物信息学19(补遗1),i273-i282(2003)。有关的更多信息使用的方法,单击Module列标题。要查看共享调节模块的基因,选择监管模块选项排序依据菜单。
-
MOE430 ID列(鼠标):显示MOE430系列芯片的Affymetrix ID(A&B)最适合每个基因。有关实验和方法的更多详细信息用于创建此数据,请单击列的标签。
-
鼠标栏(人类):显示最佳Blasp匹配的登录号UCSC小鼠基因组浏览器数据库中的已知基因蛋白质集。点击加入number显示UCSC小鼠基因组浏览器中的基因。
-
名称列:显示基因的名称。如果可能,HUGO基因显示命名委员会(HGNC)名称。如果基因还没有HGNC名称而是显示相关RefSeq或mRNA记录的GenBank登录号。单击genename选择它并将其移至列表顶部。
-
%ID列:显示基因之间在蛋白质水平上的一致性百分比和选择的基因。有关如何计算%ID的详细信息,请单击%ID列标签。
-
PDB列:显示与基因相关的所有蛋白质数据库(PDB)ID。PDB是一个具有已知三维结构的蛋白质数据库。在某些情况下,这些记录将只对应于基因的一个片段。在其他情况下,PDB记录可能包括其他蛋白质与之相互作用的分子。单击PDB条目显示相关的PDB结构资源管理器页面。
-
Pfam域栏:显示包含在基因产物。单击域将显示相关的Pfam记录。
-
PSI-BLAST E-Value列:显示PSI-BLAST E值(期望值),介于与基因相关的UniProtKB或TrEMBL蛋白以及与选定(突出显示)基因。两种蛋白质的相似性越大,E值越低相同的长蛋白质的E值为零。有关E值的更多信息计算完成后,单击E-Value列标签。点击基因的E值显示基因和所选(突出显示)基因之间的对齐。
-
Rankprop列:显示Rankprop指定的蛋白质相似性分数算法。本栏中报告的分数范围从0到1,其中1分为最高分重要。目前,Rankprop没有报告E值统计。有关的详细信息对于此算法,请单击Rankprop列标签。
-
RefSeq列:显示与基因关联的NCBI RefSeq登录,如果可用。RefSeq基因是一组非冗余的高质量mRNA序列。单击登录号显示RefSeq登录的NCBI Entrez Gene记录。如果记录显示在线孟德尔人类遗传(OMIM)的链接——用一个带有上面有一个“O”——该基因有一个OMIM记录。OMIM通常是一个优秀的人类基因信息的来源。
-
监管主题柱(酵母):显示与基因表达相关的预测转录因子结合位点。监管模块(转录因子结合位点)调节基因。这背后的方法Segal,E.等人对注释进行了描述。,从DNA序列和基因中全基因组发现转录模块表达,生物信息学 19(补充1),i273-i282(2003)。对于有关所用方法的详细信息,请单击Module列标题。
-
新加坡元ORF:显示与基因。
-
SP科目列:显示基因的UniProtKB蛋白质加入。单击条目显示蛋白质的相应UniProtKB NiceProt视图。
-
超级系列列:显示蛋白质的结构分类列表(SCOP)与蛋白质相关的超家族。基因集被映射到SCOP超家族使用Superfamily HMM库。单击条目将显示关联的超级系列记录。
-
U133 ID列(人类):显示来自HG-U133芯片的Affymetrix ID对应于每个基因。有关此列使用的选择条件的详细信息,单击U133 ID列的标签。
-
U133Plus2 ID列(人类):显示HG-U133 Plus 2.0中的Affymetrix ID最符合每个基因的芯片。有关使用的选择标准的更多信息对于此列,单击U133Plus2 ID列的标签。
-
U74 ID列(鼠标):显示U74系列芯片的Affymetrix ID(a,b、 c)最佳地对应于每个基因。有关使用的选择标准的更多信息对于此列,单击U74 ID列的标签。
-
U95 ID列(人类):显示HG-U95芯片中最佳的Affymetrix ID对应于每个基因。有关此列使用的选择条件的详细信息,单击U95 ID列的标签。
-
加州大学洛杉矶分校长表达专栏(人类):显示正常的UCLA表达式数据U133芯片上的组织。此列显示了一个基因在整个组织集相对于基因整体的表达。请参阅表达式列有关显示器的详细信息的说明以及此列的配置。有关用于生成此数据,单击UCLA Long Expression列的标签。
-
加州大学洛杉矶分校短表达专栏(人类):显示正常的UCLA表达式数据U133芯片上的组织。本栏显示了特定基因在相对于基因整体表达的组织子集。请参阅表达式列有关显示器的详细信息的说明以及此列的配置。有关用于生成此数据,单击UCLA Short Expression列的标签。
-
UniProtKB列:显示每个基因的UniProtKB蛋白质名称(如果是)可用。否则,它显示主登录号。点击蛋白质名称或accession显示蛋白质的相应UniProtKB NiceProt视图。
-
WormBase列(秀丽线虫):显示与每个相关联的ORF名称基因。单击ORF名称将显示相关的WormBase记录。
-
酵母柱:显示与酵母基因组数据库的最佳Blastp匹配(SGD)蛋白集。点击酵母ID显示相应的SGD记录。
-
斑马鱼柱:向斑马鱼基因组上的集合基因预测。点击Ensembl肽ID显示在合群斑马鱼蛋白质视图中。
配置基因分类器显示
基因分类器是高度可配置的,允许您微调显示以仅显示你感兴趣的基因和数据列的顺序最适合你的研究需要。大多数配置都是通过配置页面上的设置控制的,可以通过访问这个配置按钮。
更改显示的行数
要增加或减少表中显示的行数,请从显示下拉菜单,然后单击快走!按钮。
更改显示的列数
默认情况下,Gene Sorter只显示基因组可用的表格列的一小部分。您可以在配置页面。
配置表显示了当前选定基因组的所有可用列,如从左到右的显示顺序。要在基因排序器显示中添加或删除列,请单击打开复选框以切换设置(选中表示显示列)。收件人快速更改打开设置所有列,单击全部隐藏或全部显示按钮。单击提交按钮显示基因分类器中的更改。
更改列位置
除了添加或删除列之外,还可以将列移动到左侧或就在Gene Sorter表中。配置表中列名的顺序指示基因排序器显示中列的当前相对位置(从左到右)正确的。要将列向左移动一个位置,请单击向上的项目中的箭头职位列。同样,单击向下向右移动列的箭头。完成更改后,单击提交按钮。
更改表达式颜色
默认情况下,基因表达比率使用红/绿颜色方案显示,其中红色表示一个基因表达量越高,绿色对应的表达量越少。色盲用户可能发现将颜色从红色/绿色切换到黄色/蓝色很有帮助。为此,请选择“黄色高/蓝色低”选项表达式比率颜色下拉菜单打开配置页面,然后单击提交按钮。
更改表情颜色的亮度
要增加或减少表达式列中颜色的亮度,请编辑亮度配置表中相应条目的值。值大于小于1.0会增加亮度,而小于1.0会使颜色变暗。单击提交按钮显示新值。
更改表达式列中显示的组织数据类型
默认情况下,表达式列显示一个小的选定区域中基因表达的中位数比率一组组织。使用组织下拉菜单配置组织显示列。“所有副本”选项将显示每个实验的价值每个组织的复制品。“副本中值”选项为每个副本显示一个值代表该组织所有复制品中位数的组织。
在比率和绝对表达式值之间切换
默认情况下,表达式列显示基因的表达与基因整体。要查看绝对表达式值,请选择“绝对”选项来自值下拉菜单。
显示拼接变体
默认情况下,Gene Sorter只显示一个剪接变体:产生最大剪接变体的那个蛋白质。要显示所有拼接变体,请单击显示所有拼接变体复选框。注释在大多数情况下,列值(有时还包括名称)在变体。
恢复默认设置
在Gene Sorter会话期间的任何时候,都可以将Gene Sort表恢复为默认值布局,单击违约按钮,然后单击提交.
保存配置以备将来使用
Gene Sorter配置实用程序允许您存储多个配置以供将来使用会议。如果需要不同的布局研究用途。要保存基因分类器布局的当前配置,请单击保存按钮。在顶部的文本框中键入配置的名称页面,然后单击保存.
加载以前保存的配置
保存配置后,可以在以后的会话中将其加载回Gene Sorter。要加载配置,请单击负载按钮。基因分类器将显示保存的配置的名称列表。单击某个名称以将其高亮显示,然后点击负载根据保存的设置重新配置基因分类器。
查看保存的配置列表
要显示已保存的配置列表,请单击保存按钮上的配置页面。如果您有任何保存的配置,Gene Sorter将显示一个现有设置显示配置名称的列表。要永久删除从列表中选择配置,单击名称以高亮显示,然后单击删除现有安装程序按钮。
筛选基因显示
Gene Sorter的基因过滤功能提供了一种多功能的方式来微调显示只展示你感兴趣的基因。过滤器应用于单个基因字段,并且可以组合以增加搜索的特异性。要访问“筛选器”页面,请单击滤波器按钮。
在过滤器设置过程中的任何时候,您都可以单击列表名称按钮上的筛选页面可查看当前筛选设置为时将返回的基因列表应用于基因组。您可能会发现此列表有助于微调过滤器。
基于匹配的一个或多个术语进行筛选
基于名称、ID或其他单词的过滤器将显示限制为仅显示与其中一个匹配的基因或多个输入到搜索文本框。可以筛选的值示例这个基础包括基因名称、RefSeq登录号、基因描述、编码SNP和GO条款。
此搜索支持“*”和“?”上的通配符匹配。多个术语必须是由空格或制表符分隔。例如,基因名称字段上的搜索条件“HOXA9 FOX*”返回名为HOXA9的基因以及名称以字母“FOX”开头的任何基因。什么时候?搜索包含多个单词(GO术语、编码SNP、,Pfam域和基因描述),多单词元素必须用单引号括起来。对于例如,对描述短语“叉头盒蛋白”的搜索应输入为“叉头盒蛋白”。使用“any”和“all”选项来确定搜索是否应返回与任何词(“any”)匹配的任何基因,或只返回那些匹配所有术语的基因(“all”)。
为了便于在多个术语上进行搜索,Gene Sorter提供了粘贴或上传选项搜索词列表。要粘贴术语列表,请单击筛选器的粘贴列表按钮,然后在文本框中粘贴或键入术语。术语必须用空格、制表符或在单独的行中输入,不能包含通配符。完成列表后,单击“提交”按钮返回主过滤器页面。文件上传实用程序-通过上传列表按钮-具有类似的功能。
基于数值范围的过滤
通过指定数值范围,可以过滤几个基因字段一定会摔倒。这类字段的示例包括表达比率、Blastp数据和基因组位置。要使用此类型的筛选器,请输入限定范围的最小值和最大值你感兴趣的。在某些情况下,有效值的范围会显示在过滤器中框。
基因组位置过滤器需要染色体的名称(格式为chrN公司)英寸除了染色体的起始和终止位置。要列出染色体上的所有基因,请仅输入染色体名称。
表达式过滤器包括“any”和“all”选项,以确定如果任何组织表达值满足最小值和最大值,搜索应返回一个基因条件(“任何”)或仅当所有组织表达值满足搜索条件时(“全部”)。
保存过滤器设置
Gene Sorter提供了一种保存过滤器设置以供将来会话使用的机制。收件人保留当前筛选器配置,单击保存筛选器按钮。键入筛选器的名称,然后单击保存保存过滤器并返回过滤器第页。
加载保存的筛选器
保存过滤器配置后,您可以在以后的会话中通过将其重新加载来检索它进入你的基因分类器。要加载保存的过滤器设置,请单击加载筛选器按钮打开过滤器页面。单击要加载的筛选器的名称,然后单击负载按钮。单击提交按钮将过滤器设置应用于基因分拣机。
查看保存的过滤器列表
要显示已保存的过滤器设置列表,请单击保存按钮上的过滤器页面。如果您有任何保存的过滤器,Gene Sorter将显示一个现有设置显示筛选器名称的列表。要从列表中永久删除筛选器,请单击要删除的名称高亮显示它,然后单击删除现有设置按钮。
显示序列和基于文本的输出
基因分类器对数据的图形表示有助于直观观察关系以及显示的基因之间的模式。然而,将数据转换为基于文本的格式,可以轻松保存到文件或加载到其他程序、数据库或用于进一步分析的电子表格。基因分类器提供了一种保存电流的机制显示在以制表符分隔的文本文件中,或显示当前显示。
创建基于文本的输出
要将当前Gene Sorter表输出为文本,请单击页面顶部的文本按钮。这个Gene Sorter将在单独的以tab分隔的行上显示每行表数据。
查看基础序列
要显示当前基因排序表下的蛋白质、mRNA或基因组序列,请单击页面顶部的序列按钮。在“获取序列”页面上,选择所需序列配置设置,然后单击获取序列按钮。基因分类器将为表中显示的每个基因显示基于文本的FASTA格式记录列表。这个FASTA记录可能会被剪切并粘贴到Blat中以供进一步研究。