技术讲座

高通量数据深入分析之一

来源:小博发布时间:2016-08-16

高通量数据深入分析(之一)
 
Pathway富集分析
 
   
     如果做完高通量检测后只能做1种分析,那么Pathway分析是最好的选择。
 
    目前,KEGG是有关Pathway的主要数据库。通过计算差异基因和Pathway 的超几何分布关系,每个有差异的Pathway 返回一个p-value,较小的p 值表示较高的富集程度。简单来说,P值越小,这个Pathway越重要。
 
    Pathway分析看似基础,却有一些需要注意的地方
 
第一:数据库版本
    目前,由于最权威的KEGG数据库商业版需付费,以“DAVID”为代表的在线免费Pathway富集分析大都版本陈旧。掐指一算,大概跟KEGG最新版相比缺少了1万对个基因的Pathway注释信息
 
第二:结果展示形式
    最简单的展示形式就是直接放个Excel表格,按照Pathway的P值做一下排序
 
这个样子的↓

    
    但这种展示形式不是很直观,于是,稍微高级一点点的方法是用Pathway的-lgP来展示Pathway显著性
 
这个样子的↓

   
 另外,KEGG对Pathway进行了两级的归类,top有六大类,middle有几十类,咱们可以看看自己的Pathway归属到哪一类的比较多
 
差不多这样↓
 

 
  
  接下来,我们得找到某几个P值较小或自己比较感兴趣的信号通路,看一下咱们的差异基因处于通路中的哪个位置。
 
    这一步操作可以先在KEGG中查询每个基因的KO号,然后一个一个手动输入(实测累瘫);咳,做下广告,或者可以用中康博生物的超链接一键mapping。
 
图是这样的↓ (红色上调,紫色下调)
 

 
全局信号转导网络

    在Pathway富集分析之后,咱们就找到了一些重要的Pathway,下一步就是找到核心调控基因,以及调控机制。
 
    虽然有BIND、KEGG、HPRD等极好的基因相互作用数据库,但是我们用它构建网络的时候却有一些明显的障碍:
 
第一,数据库中的基因作用关系,分布在500多个不同信号通路中,信号转导网络被割裂开
 
第二,数据库自身没有个性化的作图软件,而需要将数据库中的关系导入第三方软件中才能绘制网络图
 
第三,KEGG等数据库已经商业化,虽然保护了知识产权,但是却 要!收!费!
 
    于是,我们构建一个全局信号转到网络要经过以下几个步骤
 
1,整合数据库(经过中康博码农们的不wu懈chang努jia力ban),至今已经整合了数据库中90多万条基因、蛋白质、化合物之间的作用关系
 
2,将咱们自己的差异基因与整合后的数据库做对应,找到咱们自己的差异基因之间的全部调控关系
 
差不多这样子↓


 

3,将刚才找到的,自己特有的基因调控关系,整体导入作图软件,并计算网络中基因的直接调控能力和信号介导能力
 
差不多这个样子↓
 
 

4,对网络中的差异基因进行基于图论的运算和归类、最终找到最核心的调控基因,以及上下游基因之间清晰的调节机制
 
5,最后将基因属性关联到相应圆圈的属性上,用颜色、大小、实线/虚线、箭头类型、作用模式缩写.....等等代表基因和关系的属性,一个全局信号转导网络就大功告成啦!
 
图差不多这样↓
 
 

 

基因比较多的时候就这个样↓
 

 
有了全局信号转导网络,挑选核心基因,研究作用机制变的so easy ~
 
好了
今天先跟小伙伴们聊到这里
我得滚去分析数据了
之后会跟大家陆续聊到
lncRNA分析、miRNA分析,ceRNA分析
全转录组(mRNA、miRNA、lncRNA)联合分析
拷贝数变异分析、甲基化分析、SNP分析
等等等等~
感兴趣的小伙伴请关注我们哟