scEpathの解説
scEpathの論文のメソッドのざっくりした解説,というかメモ.エネルギー最高のクラスタから単純にエネルギーが下がっていくって方針を取っているので,複数の経路を再現するとかはできない.悲しみ.
scEnergyの導入
遺伝子遺伝子間相互作用gene-gene interactionのネットワークを作る.つまり,遺伝子が$n$あるとして,そのグラフを考える.$i$番目の遺伝子と$k$番目の遺伝子が繋がっていれば$a_{ik}=1$,そうでなければ$a_{ik}=0$とする(隣接行列adjacency matrix).詳しくは,$m$個の細胞での$i$番目の遺伝子と$k$番目の遺伝子の発現をそれぞれ,$x_i=(x_{i1},\ldots,x_{im}),x_k=(x_{k1},\ldots,x_{km})$とする.この時,
カノニカル分布(正準分布)にいついて.系がエネルギー$E_i\ (i=0,1,\ldots)$を取るとき,系のエネルギーが$E_j$である確率$p_j$は
で与えられる.特に,分母の$\sum_j\exp(-\beta E_j)$を分配関数$Z$と呼ぶ.
scEpathでは$\beta=1$としている 1.つまり,遺伝子発現が$y$である細胞が状態$j$にある確率は,細胞が取るステージの総数,もっと言えば,分化していくときに異種とみなす細胞の数を$m$とすれば,
となる.ステージは適当なunsupervised clusteringでのclusterなどを使う.この場合,$m$はクラスターの数.
$E_j(y)$(遺伝子発現が$y$である$j$番目の細胞のエネルギー)については,状態$j$の細胞での$i$番目の遺伝子の発現レベルを$x_{ij}$として,標準化発現レベル$y_{ij}$を
で定義する.ただし,$x_j^\text{max},x_j^\text{min}$は$j$番目の細胞の中にある全遺伝子の発現レベルのうちの最大値,最小値である.
$E_j(y)$(遺伝子発現が$y$である$j$番目の細胞のエネルギー)については,$j$番目の細胞での$i$番目の遺伝子の標準化発現レベルを$y_{ij}\ (0\leq y_{ij}\leq1)$を使って,
$N(i)$は,$(1)$で考えたネットワークで,$i$番目の遺伝子の隣のある遺伝子の集合.さらに,これを標準化した
を使う.ただし,$\bar{E}(y)$は,全細胞(仮に$m’$個とする)についての$E_j(y)$の平均である:
メタ細胞
各クラスタ(主成分分析を行い,2成分からなっている)2でクラスタのエネルギーの$\theta_1=80$%を占める細胞たちをメタ細胞metacellとして定義する.クラスタの数を$N$個とすれば,それぞれのメタ細胞のエネルギー$E_k^\text{M}$は,トリム平均trimeanを取る(外れ値を弾くことができる).すなわち,$k$番目のメタ細胞のエネルギーの四部位数を下から$Q_1,Q_2,Q_3$として,
$(2)$と同様に3すれば,ある細胞が$k$番目のメタ細胞にある確率 $p_k^\text{M}$は,
で与えられる.ここで,$k$番目のメタ細胞に属する細胞のエネルギーは大体,$E_k^\text{M}$だと仮定している4.もちろん,メタ細胞,つまり,ある細胞が取りうる状態は$N$個あるので分配関数は$N$個の和になっている.また,ある細胞が$k$番目のメタ細胞に残る確率は$p_k^\text{M}$,それ以外のメタ細胞へ遷移する確率は$1-p_k^\text{M}$である.
Markov過程
時間的に定常なMarkov過程において,時刻が$1$経過して,$i$から$j$になる確率は,
で与えられる.ここで,あるベクトル$\boldsymbol{\pi}$を考える.$\boldsymbol{\pi}$が
を満たす時,$\boldsymbol{\pi}$を定常分布stationary distributionと呼ぶ.
主成分分析で得られた2次元空間で,$k$番目のメタ細胞から$l$番目のメタ細胞に遷移する確率は,これらの距離に反比例すると仮定する.メタ細胞間の隣接行列を,距離によって次のように定義する:
ただし,$z_k$は2次元空間におけるメタ細胞の中心,$\varepsilon$はメタ細胞間の距離の最大値である.$G_{kl}$を規格化すれば遷移行列が得られる:
遷移行列$\tilde{G}_{kl}^\text{asym}$は非対称であるが,次に示す定常状態$\boldsymbol{\pi}_k\ (1\leq k\leq N)$を持つ:
また,$G_{kl}$が対称であることに注意すれば,容易に分かるように,
が成立する.よって,
を定義すれば,これは対称な遷移行列となる.
遷移確率
メタ細胞の項の最後にも述べたことに注意すると,$k$番目のメタ細胞から$l$番目のメタ細胞に遷移する確率行列$T$は,
となる.
遷移確率行列$T$は2つのメタ細胞間がお互いに遷移する確率($T_{kl},T_{lk}$)を含む.つまり,この状態ではメタ細胞の集合は双方向性のあるグラフになる.しかし,実際に細胞が時間発展していく場合はエネルギーが減少する経路のみを取るので,グラフは一方向性なはずである.よって,Wilcoxonの順位和検定によって,2つのメタ細胞を比較する.この場合の帰無仮説$\text{H}_0$は2つのメタ細胞間のエネルギー(のトリム平均)に差がないことである.scEpathでは,p値が$\alpha=0.01$以下の場合は帰無仮説が棄却される.これらのことを考慮すれば,向き付けを考慮したメタ細胞のグラフの遷移確率行列$W$は
となる.$p$は$k$番目と$l$番目のメタ細胞を検定した時の$p$値.帰無仮説が採用された場合は,$k$番目と$l$番目のメタ細胞のエッジは双方向性となる.これによって,メタ細胞をノードとするグラフはエネルギーが増加しない遷移のみを許す有向グラフとなる.その遷移確率行列は$W$である.
scEpathを求める
細胞の実際の経路を求める場合は,最もエネルギーが高いメタ細胞から,遷移確率が最も高いような経路を辿ることになる.これは最もエネルギーが高いメタ細胞を根とし,各エッジの重みを$1-W$として構成した最小全域木minimum directed spanning tree (MDST)を見つけるのに等価である.
メタ細胞の中心をあらかじめ求めておき,その中心から$\theta_2=0.75$分位数より内側にある細胞をコア細胞とする.そして,先程求めた経路をコア細胞に限定してprincipal curveでフィッティングし,それを$[0,1]$にスケール変換する.そして,psudotime reconstruction score (PRS)を,他のデータを使って次のように定める:
ただし,$c$は一致した細胞の数,$c^\prime$は一致しなかった細胞の数である.
pseudotime依存的なTF
pseudotime依存的な遺伝子を見つけるため,pseudotimeを10個に分割する.さらに,各部分での遺伝子発現のトリム平均を取る.各遺伝子の発現の平均を3次スプライン曲線で滑らかにする.細胞の順番をランダムに並び替えたものと比べて,標準偏差が$0.5$以上,Bonferroni調節p値が$0.01$以下のものをpseudotime依存的な遺伝子とする.
既存の転写因子(TF)の中から,pseudotime依存的な遺伝子を探し,細胞系列で発言が有意に変化している(系列に含まれるクラスター間で比べた際,Bonferroni調節p値が$0.01$以下,少なくとも閾値倍以上の変化がある)ものを,pseudotime依存的なTFとする.
さらに,TFのネットワークを構成し,Spearmanの順位相関係数を使ってp値が$10^{-5}$以下のものは相関がないとし,そうでなければ,相関があるとして結ぶ.この操作を$90$%の細胞で1000回繰り返し,どの操作でも結ばれたTFは,真に関係があると結論づける.