Dimensionality Reduction with the tSNE Algorithm
: FlowJo University

← Back to Index

Dimensionality Reduction with the tSNE Algorithm

新しいハイパラメータサイトメトリー装置を使用できるようになった方々、15 以上のパラメータパネルがあなたを呼んでいます。こんなにたくさんのマーカーをどう扱いますか? どの表現型を見ればよいかも分からないのに、疾患モデルにおけるコントロールと処理済みサンプルとの差をどうやって見つけていけばよいのでしょう?

1 つの方法は次元縮退アルゴリズムを使用することです。このアルゴリズムは、データ構造を保ちながら、N 次元のデータ空間を 2 次元に縮退します。

FlowJo V10 には、tSNE (t-Distributed Stochastic Neighbor Embedding) という次元縮退アルゴリズムのプラグインが搭載されています。tSNE アルゴリズムは、ユーザー定義のサイトメトリーパラメータ群から 2 つのパラメータを新たに算出します。tSNE で作成されたパラメータは、高次元の生データにおいて接近していたデータポイントどうしが縮退データ空間でも接近するように最適化されています。

fig1

図 1. tSNE による 2 次元データ空間への縮退後の 15 色フローサイトメトリーパネルの例。手動ゲーティングにより得られた既知の表現型の集団を、FlowJo レイアウトエディタで tSNE 空間に重ね合わせています。異なる表現型を持つイベントサブセットがそれぞれクラスタ化し、大陸のような構造で異なる領域に集中している様子が分かります。

tSNE は効果的な表示法ですが、このアルゴリズムは計算に頼る部分が多く、また出力も決定的なものではありません。つまり、1) 適正な時間内に計算が終わるようにするには、アルゴリズムに入力するイベント数を制限する必要があります。また、2) 2 つの別々のサンプルでアルゴリズムを実行する場合など、アルゴリズムを複数回実行すると、tSNE で作成される 2 次元データ空間がサンプル間で異なってきます。

したがって、サンプルを効果的に比較する唯一の方法は、イベント数を減らし (ダウンサンプリング処理)、サンプルを 1 つの FCS ファイルにまとめてから (連結処理)、連結データセットで次元縮退を行うことです。

連結ステップでは、キーワード/値のペアに基づいて、任意で新しい導出パラメータを作成できます。こうしておくと、tSNE で作成された共通の次元縮退データ空間内で、異なるサンプルや異なる実験条件 (タイムポイント、処理グループ、シミュレーションなど) からイベントを分離できます。


ワークフローの例 :

シグナル応答とサイトカイン発現を誘発する薬剤で処理する時間を変えた、4 つのサンプルがある場合の解析

  1. データの整理 — 最高の分析は生データを整理するところから始まります。そこで手動ゲーティングにより、ダブレット、デブリ、死細胞をそれぞれのサンプルから除去します。このステップによりデータのノイズが減少するため、tSNE アルゴリズムの出力が改善されます。
  2. ダウンサンプル — tSNE 計算の計算時間は、アルゴリズムに入力されるイベント数に比例します。このため、(50,000 イベントや 100,000 イベントではなく) 20,000 イベントを含むゲート集団で計算を開始すると、計算時間が大幅に短縮されます。図 2 では、Plugins メニューの DownSample ゲートツールで、限定数のイベントを含むダウンサンプルゲートを、ゲート集団 "Live" のそれぞれについて作成しています。

    fig2

    図 2 DownSample プラグインの起動

  3. 集団の連結 — 次に 4 つのダウンサンプルゲートを [Export/Concatenate Populations] ツールで連結します。連結処理ではキーワードベースの新しい導出パラメータを作成します。こうしておけば、異なる刺激条件を表す個々のサンプルを連結ファイル内で分離できます。(キーワードを選択しなくても Sample ID という名前の新しいパラメータが作成され、それによって個々のサンプルのデータが区分されます。)

    fig3

    図 3.集団の連結

  4. tSNE — 連結ファイルで次元縮退 (tSNE パラメータの作成) を行います。

    fig4

    図 4.tSNE プラグインの起動

  5. キーワードパラメータによる分離 — Sample ID パラメータ、またはキーワードによる新しいパラメータで連結データを分離できます。一意のサンプル ID またはキーワード値で区別されるサンプルグループ同士を分離します。ここでは、キーワードパラメータは "*Condition" というもので、サンプルがそれぞれ *Condition 値として 1、2、3、4 を持っているため、この順番でサンプルを連結ファイル内で並べることができます。 図 5 では、連結ファイルを選択して *Condition パラメータで分離してから、tSNE データ空間で未知の集団を分離し、この Unknown Pop1 ゲートをそれぞれの *Condition ゲートの子ゲートとしました。この集団が特に Stim1 条件で高密度となることが分かります。

    fig5

    図 5.キーワードベースの導出パラメータによるゲーティングで連結ファイル内の個々のサンプルを分離

  6. 未知の集団のゲーティングと表現型の同定 — tSNE 次元縮退空間でゲーティングを行い、ゲート集団におけるあらゆるマーカーの表現型発現を評価できます。図 6 では、レイアウトエディタのヒストグラムマルチグラフ機能を使用して Unknown Pop1 ゲート内のイベントの表現型を判定しやすくしています。この場合は表現型 (HLADR-CD3-Perforin+CD38+CD4-CD8+/-) から、未知の集団は自然免疫系のナチュラルキラー細胞である可能性が高いと察しがつきます。次に、手動作成によるゲートを次元縮退データ空間に重ねて表現型分布を検証します。Stim1 の Unknown Pop1 (オーバーレイグラフの紫色) は、連結ファイルでの HLADR-CD3- 集団 (オーバーレイグラフの青) の中に含まれています。

    fig6-1

    fig6-2

    図 6.マルチグラフヒストグラムプロットによる表現型発現の判定と手動作成ゲートによる検証