高通量数据分析策略（基础篇）

高通量数据分析策略（基础篇）

随着高通量检测（基因芯片/二代测序）价格的降低，全基因组检测也成为较为常规的实验之一。然而面对动辄几万个基因的高通量数据，后期的数据分析显得尤为重要。接下来小编就为大家介绍一下高通量检测后的数据分析策略。

基础分析

聚类分析

说到聚类分析，想必大家不会陌生，几乎所有做过芯片和测序的文章中，都要放几张聚类分析的图。聚类分析有各种各样类型，主要是由Cluster TreeView，和R语言 pheatmap包生成的。

为了全面直观的展示样品之间的关系及差异情况，将差异表达基因做无监督层次聚类分析（Hierarchical Clustering），以热图（heatmap）形式显示。用挑选的差异基因的表达情况来计算样品之间的相关性，同一类样品能通过聚类出现在同一个簇中，且聚在同一个簇的基因可能具有类似的生物学功能。

散点图（Scatter Plot）

芯片或测序数据经过标准化处理后，在一个二维直角坐标系平面中，绘制散点图。芯片数据的散点图常用于评估两组数据总体分布集中情况。散点图中每一个点代表芯片上的探针点，该点在二维平面中的位置根据其在不同组中的表达量，由X轴和Y轴坐标确定

火山图（Volcano plot）

芯片或测序数据经T-Test分析得到P-value值与FC值，两个因素共同绘制火山图（Volcano Plot），用于显示两组样数据的显著性差异。横轴代表探针的差异倍数（Fold chang），纵轴代表探针的差异显著程度（-log10 P-value）

染色体定位图

将所筛选出的差异基因组序列定位到染色体上，可以直观地看出差异基因在各染色体上的分布位置。图中红色代表上调差异基因，绿色代表下调差异基因

主成份分析 PCA

PCA 分析，即主成分分析，是一种对数据进行简化分析的技术，这种方法可以有效的找出数据中最“主要”的元素和结构，去除噪音和冗余，将原有的复杂数据降维，揭示隐藏在复杂数据背后的简单结构。它的优点是简单，而且无参数限制，可以方便的应用于各个场合。坐标轴取能够最大反映方差值的三个特征值。

以上就是高通量数据的常见基础分析方法，要更深入的挑选核心基因，构建网络，请点击“高通量数据分析（深入篇）”

高通量数据分析策略（基础篇）

在线时间