技术讲座

高通量数据深入分析(之二)

来源:小博发布时间:2016-08-16

高通量数据深入分析(之二)

今天我们严肃的讨论一下
如果左手有一组MicroRNA数据
右手有一组mRNA/lncRNA数据
如何利用多组数据
找到核心MicroRNA和重要靶基因
如何分析最近正热门的CeRNA关系
 
靶基因预测
    用倍数法或P值筛选到差异MicroRNA后,第一步要做的就是靶基因预测,靶基因预测数据库很多,常见的有这些:


↑这个用的比较多


↑也不错,但比较慢



↑优势在于可以预测MicroRNA和lncRNA的关系

↑用的也挺多


↑离线版功能强大
 
 
 
相关性分析
    靶基因预测结果通常很多,一个MicroRNA对应上千个mRNA的情况很常见,如何减少假阳性率,是靶基因预测的关键,推荐两种方法:
 
1.    多个数据库取交集,通常用2~3个数据库的共同结果,优点是可以有效减少靶基因数量,缺点是不同数据库算法不同,一不小心,交集靶基因就为0了。
 
2.     用单一数据库预测结果和mRNA高通量检测结果取交集,找到既受MicroRNA调控又有相应表达变化的靶基因(负相关)。
 
MicroRNA-Gene调控网络构建
 
    如何在几十个MicroRNA和几千个靶基因中挑选出最重要的调控因子,供下游研究,是MicroRNA分析的难点。
    
    这就需要咱们来构建一个MicroRNA-靶基因调控网络。
 
    首先确定网络中的元素:MicroRNA当然就是用差异MicroRNA,但是靶基因太多,为了避免网络太复杂,变成这样↓

 
   
    所以, 
 
    我们关键问题是如何提剔除冗余mRNA
 
    推荐在构建网络之前先对靶基因进行GO和Pathway富集,选择有显著性(P<0.05)的GO和Pathway中的基因构建网络。
 
    这样可以有效减少靶基因数量。
 
    构建一个正常的调控网络,类似这样↓
 
 

 
     
然后,利用网络中的特征值
特征值最高的MicroRNA处于网络的枢纽性地位
该MicroRNA调控能力最强
同时找到被MicroRNA调控的关键靶基因
 
 
CeRNA分析
 
    CeRNA(competing endogenous RNAs)假说揭示了一种RNA间相互作用的新机制。
    已知MicroRNA可以通过结合mRNA导致基因沉默,而ceRNA可以通过竞争性地结合MicroRNA来调节基因表达。ceRNA可以通过应答元件(microRNA response elements,MREs)与microRNA结合从而影响microRNA导致的基因沉默,这揭示了一条RNA→microRNA调节通路的存在,具有重大生物意义。
 
 
    目前,环状RNA(circRNA)研究很热,但事实上circRNA只占ceRNA的一小部分:
 

 
    上图是4月4日,Nature Reviews Genetics上发表了一篇题为“Endogenous microRNA sponges: evidence and controversy”的综述。形象的展示了CeRNA的组成。
 
如何预测CeRNA关系:

 
    如上图所示,咱们以lncRNA为例(也可以是mRNA/circRNA等)展示一下如何筛选CeRNA关系,构建CeRNA调控网络:

 
首先~
寻找mRNA和lncRNA共同结合的MicroRNA:
mRNA可直接通过靶基因预测数据库查询,lncRNA比较复杂,需要在linux下用miRanda离线版算法进行序列匹配。
 
做出来是这样的↓
 

然后~
找到与同一个MicorRNA作用的一对mRNA和lncRNA,LncRNA在这里起到竞争性结合作用,充当MicroRNA海绵。
 
最后~
剔除冗余CeRNA关系:因为虽然很多mRNA和lncRNA都和同一个MicroRNA有配对关系,但他们在体内没有竞争关系,这种lncRNA并不作为有效的CeRNA,需要在分析中剔除。
方法为通过Co-expression 算法,筛选有正相关关系的mRNA-lncRNA组合。
 
    这样,就找到了准确的CeRNA关系。再把这些关系放进网络中,就可以构建出CeRNA作用网络:
 
 
   
    通过图论的方法计算网络中每个CeRNA的权重值,可以找到起核心调控作用的CeRNA 。
 
    最后,推荐一篇CeRNA的经典文献: