技术讲座

公共数据库GEO内部分析模块的使用方法

来源:秩名发布时间:2016-08-10

GEO简介

       GEO全名是Gene Expression Omnibus,相信很多人都知道它是NCBI下面的一个专门存储中、高通量数据库的公共仓库,研究者可以自由地把实验室里产生的芯片、NGS乃至定量PCR数据上传到这里供全球科研工作者共享。现在我们可以注意到的一点是很多杂志在接收文章时越来越多地要求作者把数据先放到公共数据库里去了。
 
       再说说我们今天的主角GEO2R,简单点说它是在线分析GEO内数据的系统。这个工具系统采用R语言来运行,准确点儿说是GEOquery和limma这两个R包,前者用于数据的读取,后者用于计算。
 
GEO2R最大的优点就是它是一个在线的工具,不需要我们懂哪怕一点点的R语言和芯片、测序分析知识就可以进行简单的操作。
当然,它的功能也是比较有限的。但是对于我们想快速查探GEO数据来说是一个很有用的工具。比如我们想知道某个公共数据库里和我们的课题相同实验材料或相似实验设计里某个基因的表达情况,我们不需要从GEO里把数据down下来再去分析什么的,只要在网页上简单地输入一些信息再点点鼠标,就能获取我们想要的结果了。
差不多所有的GEO内数据都可以分析,我们不需要任何生物信息学知识,也不用管是芯片还是测序数据,是用什么实验平台获取的数据,都可以搞定!
 

如何进入GEO2R?
       进入GEO2R的方法有两种:
第一,  直接从网址进入,地址是http://www.ncbi.nlm.nih.gov/geo/geo2r/
第二,  从GEO的数据记录页面(也就是GSE结果页面)进入,比如我们这里以GSE71343为例,先进入这个GSE实验记录页面
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE71343
       然后下拉到底部,看这里

 
       现在我们具体看一下GEO2R的使用界面,我截了个图,并且在图上用数字进行了标注,按照标注序号我们来一步步探索。

 
1, GSE信息部分,在这一部分我们可以输入GSE编号,然后点击【set】按钮后会自动载入该数据,并且在后面显示这个GSE的实验名称,比如图上的【Control of Peripheral Tolerance by Regulatory T Cell-Intrinsic Notch Signaling】就是这个实验的标题。
2, 样本名称及分组定义部分,点击【Samples】后面的黑色三角我们可展开或收起样本信息部分,在这里我们可以自定义分组,将多个样本合并为一组,具体一会儿会讲到。
3, 功能部分,这里包括了五个选项卡,我们在使用时会一点点儿地介绍给大家。
 
下面用一个实例来操作一下,就用我们刚才举例的GSE71343这个数据吧。
 
点开【Samples】,首先我们要自定义分组,在这里我们将15个样本分成4组,分组方法是点击【Define groups】,然后输入我们要分组的名称,每输入一个按一次回车。
这就是一个定义好的分组列表,下面我们把前三个样本编入Group1,方法是先按住shift键同时用鼠标点选这些样本(或者直接拖动光标也可以的),注意是要点击Accession那一列的名称,然后勾选要分组的名称比如Group1,下面是选择好后的效果图。

       OK,一个个来我们把所有样本都分好组,就是这样:

      
然后点击选项卡【GEO2R】的top 250按钮,进入分析流程


这是分析后的结果


 
       下面我们逐列看结果:
第一列是ID部分,表示这个芯片的探针ID,是一个不重复的标识符;
第二、三、四列是结果部分,是计算得到的统计值,我们这里设定的是4组比较,因此用的是F-检验,得到的是p值、校正后的p值(adj.P.Val)及F值。我们可以看到,结果是按照p值升序排列的,最显著的结果在顶部。
 
其余的列为注释部分,这里是芯片的数据分析因此注释来自芯片配套的注释文件,我们点击结果表格上面的【Select columns】可以勾选显示或隐藏哪些东西,这里就不展示了嗯。
 
Ok,基本的结果就是这些了。
 
下面我们再进行一些扩展,比如我们鼠标双击某行,在双击后展示的部分我们可以看到这一行对应的芯片探针在各个样本中的表达值高低分布情况,是用柱状图形式给出的。
 
鼠标双击一个ID,展开相对表达值柱状图
 
再看其余四个功能集
【Value distribution】这个是用来画整体性的箱型图的。
【Options】提供了一些参数设定,比如p值校正的几种方法,信号值有无经过log2处理等,但这个基本都是用默认值就可以的。
【Profile graph】这里输入一个ID可以看这个ID代表的基因的信号值分布图,其实和我们前面鼠标双击某一行的结果是一模一样的啊!
【R script】就是我们整个运行过程的R代码,我们可以copy下来进行研究或修改参数,毕竟GEO2R这工具本身比较死板功能有限,而我们可以灵活修改参数或调用不同的函数的话可以实现更多的功能,相信对一些会R语言的人来说是一个很有用的功能。
 
最后,我们看看两组比较时的情况,点开【Define groups】那里,原来是有我们自定义的4个groups,现在我们随便删除两个,在名称后面点击×,这样只剩下了两组,然后再点击这一行开头的【Recaculate】,刷新页面。
现在看看结果,因为是两组的比较,用的是T检验而不是F检验,因此这里出现了两组比较时才会有的倍数值logFC,也就是倍数fold change取了log2的结果。
 
GEO2R就介绍到这里,我们可以回顾一下,简单点说就是可以帮助我们快速看看别人做的实验基因是如何表达的,能够帮助我们在相同或相似的实验数据里进行前瞻性的研究,这样能够起到一个预判与启迪的作用吧。