技术讲座

高通量数据分析策略(基础篇)

来源:小博发布时间:2016-08-16

高通量数据分析策略(基础篇)
 
随着高通量检测(基因芯片/二代测序)价格的降低,全基因组检测也成为较为常规的实验之一。然而面对动辄几万个基因的高通量数据,后期的数据分析显得尤为重要。接下来小编就为大家介绍一下高通量检测后的数据分析策略。
 
基础分析
 
聚类分析
 
说到聚类分析,想必大家不会陌生,几乎所有做过芯片和测序的文章中,都要放几张聚类分析的图。聚类分析有各种各样类型,主要是由Cluster TreeView,和R语言 pheatmap包生成的。



为了全面直观的展示样品之间的关系及差异情况,将差异表达基因做无监督层次聚类分析(Hierarchical Clustering),以热图(heatmap)形式显示。用挑选的差异基因的表达情况来计算样品之间的相关性,同一类样品能通过聚类出现在同一个簇中,且聚在同一个簇的基因可能具有类似的生物学功能。

 
散点图(Scatter Plot)
 
芯片或测序数据经过标准化处理后,在一个二维直角坐标系平面中,绘制散点图。芯片数据的散点图常用于评估两组数据总体分布集中情况。散点图中每一个点代表芯片上的探针点,该点在二维平面中的位置根据其在不同组中的表达量,由X轴和Y轴坐标确定
 
 

火山图(Volcano plot)
 
    芯片或测序数据经T-Test分析得到P-value值与FC值,两个因素共同绘制火山图(Volcano Plot),用于显示两组样数据的显著性差异。横轴代表探针的差异倍数(Fold chang),纵轴代表探针的差异显著程度(-log10 P-value)
 
 
染色体定位图
 
    将所筛选出的差异基因组序列定位到染色体上,可以直观地看出差异基因在各染色体上的分布位置。图中红色代表上调差异基因,绿色代表下调差异基因

 
 
主成份分析 PCA
 
    PCA 分析,即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用于各个场合。坐标轴取能够最大反映方差值的三个特征值。

 

    以上就是高通量数据的常见基础分析方法,要更深入的挑选核心基因,构建网络,请点击“高通量数据分析(深入篇)”