連鎖不平衡解析

 連鎖不平衡とは

 連鎖とはメンデルの独立法則の例外である事は周知であろう。連鎖不平衡とは連鎖のある2つ以上の遺伝子座に観察される現象である。連鎖が無ければ連鎖不平衡はあり得ないが連鎖があっても連鎖不平衡があるとは限らない(見かけ上,連鎖不平衡と同じ現象が見られることはある)。

  多少幼稚な例えで申しわけないが次の様に考えていただきたい。小学校の1年生100名が横一列に手をつなぎ校庭の端から端へ走って移動するとする。最初のうちは列は完全につながっているが,あそこで転びあちらで手が離れ,最後には列はバラバラになるであろう。それでもなお,数人づつの手はつながっている場合が多い。最初の列全体を一つの染色体と考えると最初出発してまもなくの間の現象が連鎖,最後の状態が連鎖不平衡と考えれば良い。連鎖不平衡とは正確分配には家系のつながりが完全にわかっていない場合に見られる,異なる遺伝子座間のアレルの非独立を言う。しかし,このような定義ではわからないという人も多いと思うので,先程の小学生の例を説明したのである。その例でわかるように連鎖不平衡も,やはり個人間の家系(と言っても極めて古い過去の)的つながりによって表れる現象なのである。従って例えば日本人における連鎖不平衡とヨーロッパ人における連鎖不平衡は当然異なる。異なる2つの集団を混合すると偽の連鎖不平衡が見られるので注意を要する(集団の構造化)。

  今,最も単純な場合として,それぞれの座位に二つのアレルを持つ二つの座位を考える。連鎖不平衡とはこのなかの第一の座位の一つのアレルと第二の座位の一つのアレルが関係する事である。今,この二つの遺伝子座のみに関するハプロタイプを考える。第一座位のアレルを12とし,その頻度をp11-p1,第二座位のアレルを34,その頻度をp31-p3とする。ハプロタイプは1-31-42-32-4が存在することになるが,もし第一座位と第二座位のアレルどうしに相関が全く無ければ(例えば染色体が異なる),ハプロタイプ1-3の頻度はp1 p3となるであろう。同様に,他のハプロタイプの頻度は表1により表される。
 
 

表1 ハプロタイプ頻度

ハプロタイプ 頻度
1-3 p1 p3
1-4 p1 (1-p3)
2-3 (1-p1) p3
2-4 (1-p1) (1-p3)

 しかし,実際には二つの座位の連鎖不平衡のため,このハプロタイプはこの頻度からずれる。例えば,第一座位の1と第二座位の3の結び付きが強いとすると1-3ハプロタイプはp1 p3より高くなる。
 
 
 連鎖不平衡解析による疾患遺伝子座の同定

 最もしばしば問題になるのは疾患遺伝子座と,それと連鎖した遺伝子座(マーカー遺伝子座)との連鎖不平衡である。なぜなら,この間に連鎖不平衡があることを利用して,疾患遺伝子座をマップするのが,パラメトリック連鎖解析,ノンパラメトリック連鎖解析以外の方法だからである。疾患遺伝子とマーカー遺伝子の間に連鎖不平衡が見られる理由は,一つの集団においては,比較的頻度の高い一つの疾患の病因遺伝子の多くは少数の突然変異の起源によると推定されるからである(Common disease-common variant hypothesis)。

  古くからハプロタイプが問題となったのはHLAとRh血液型である。例えば,HLAではA,B,C,DR,DQ,補体C2などの遺伝子座が連鎖しているため,一つの染色体で考えて,それぞれの遺伝子座のアレルが一塊となって世代を超えて伝えられる。一人の個体の遺伝子型すべてがわかったとしてもハプロタイプがわかるとは限らない(これを相が特定できない,という)。それは,もう一方の染色体上のアレルと混合した状態でしか識別できないからである。しかし,世代交代で一塊となって移動することを考慮すれば,親族の遺伝子型がわかれば,その個体のハプロタイプも確定する場合も多い事が理解できるであろう。しかし,それでもなお,確率的にしか予測できない場合もある。

  一般に,連鎖不平衡が無い場合はハプロタイプは重要ではない。しかし,連鎖不平衡があると,集団の中で高頻度ハプロタイプと低頻度ハプロタイプが存在することになる。例えば,連鎖する遺伝子座123,...,nがあり,それぞれの上のアレル,a1a2a3,...,anの頻度をf1f2f3,...,fnとする。もし,連鎖不平衡が無ければa1-a2-a3-...anというハプロタイプの頻度は

のはずである。しかし,連鎖不平衡がある場合はその頻度は異なる。予想される頻度より非常に高頻度で存在するものもあれば,予想される頻度より低頻度のものもある。もし,遺伝子座3a3が実はある優性遺伝の原因遺伝子であり,a1-a2-a3-...anが高頻度ハプロタイプであるとすると患者集団のa1a2a3,...,anは軒並みコントロールより高いであろう。全くこの事実を知らずに相関解析を行えば,容易にa1を原因遺伝子と考える研究者もいるであろう。また,逆に,病気を抑えるように見えるアレルも容易に発見できる。即ち,疾患関連遺伝子座の,疾患に陽性に働く(疾患を起こしやすくする)アレルと高頻度ハプロタイプにある,連鎖する遺伝子座のアレルも相関解析では陽性とでる。
 
 
 連鎖不平衡の存在の検定とハプロタイプ頻度の推定

 連鎖不平衡の存在はハプロタイプの頻度が,各遺伝子座でのアレルの頻度から予想される値とずれていることから生じる。従って,ハプロタイプがすべて確定している場合に,連鎖不平衡の存在を検定することはそれほど問題なく行える。例えば,二つの連鎖する遺伝子座間の連鎖不平衡の有無を検定するとする。遺伝子座1のアレル数をm,遺伝子座2のアレル数をnとするとハプロタイプはm x n通りある。すべてのハプロタイプをm x n分表で表すことができる。従って,それぞれのハプロタイプを数え,それをこの表の中のセルに記入すると,連鎖不平衡は本質的に独立性の検定であるから,カイ自乗検定を行うことができる。この時の自由度は(m-1) x (n-1)である。

  しかし,一般的にハプロタイプを確定することは容易ではない。それぞれの個体についてハプロタイプを確定できるのは,n個,連鎖する遺伝子座があるとして,その中の1個のみがヘテロ接合体の場合である。それでは,家系データが全く得られない場合は連鎖不平衡の存在の検定やハプロタイプ頻度の推定は行えないのであろうか。

  ここで連鎖する2つの遺伝子座を考え,それぞれの遺伝子座に2つのアレルがあるとする(この仮定はSNPなどでは実際的である)。第1遺伝子座のアレルを a1a2,第2遺伝子座のアレルをb1b2とする。例えばある個体の遺伝子型がa1/a1b1/b2であったとするとハプロタイプはa1-b1/a1-b2と確定する。しかし,a1/a2b1/b2だとすると,ハプロタイプはa1-b1/a2-b2の可能性と,a1-b2/a2-b1の可能性があり,ハプロタイプを含めた遺伝子型を確定できない(二重ヘテロ接合体)。このような場合は,ハプロタイプ数を数える時に二重ヘテロ接合体を除外するという方法がある。しかし,当然のことであるが,このような個体だけを除外することは,biasとなり恣意的に結果をねじまげる行為である。

  できるなら,二重ヘテロ接合体も除外せずにハプロタイプ頻度を推定したい。近年,このような問題を考える場合,最尤法がしばしば用いられる。例えば大きさnの個体の集団の遺伝子型のデータからハプロタイプ頻度を推定したいとする。この時,最尤法では,各ハプロタイプ頻度をパラメータとし,そのパラメータを変数として,n人の2遺伝子型の得られる尤度を関数で表す。そして,この尤度を最大化するパラメータを求めるのである。
 また,この方法により連鎖不平衡の有無の検定も可能である。即ち,連鎖不平衡が無い場合の尤度との比(LR)を考える。

LR = 連鎖不平衡がある場合の尤度/連鎖不平衡が無い場合の尤度

 この比が閾値を超えた場合に有意に連鎖不平衡があると考える。一般にnが大きい場合,尤度比は次の式で近似的にカイ自乗値に変換できる。

 ここでH0は連鎖無し,H1は連鎖ありに相当する。従って,カイ自乗の閾値の表からpが計算できる。これらの分析ができるソフトウェアも発表されている。

    最近ではEMアルゴリズムを用いたハプロタイプ頻度の推定が主流である。それについては後述する。
 連鎖不平衡の指標

     今、連鎖する二つの座位があるとする。どちらも対立遺伝子が二つ存在する(SNPの様な二対立遺伝子座位: biallelic loci)とし、第一の座位の対立遺伝子を1, 2、第二の座位の対立遺伝子を1,2とする(言うまでもなく、第一遺伝子座と第二遺伝子座の対立遺伝子1は別のもの)。もし、第一座位と第二座位に連鎖不平衡がなければ、染色体が第一遺伝子座の1, 2のどちらを持っているかと、第二遺伝子座の1,2のどちらを持っているかで4つのハプロタイプがあることになる。
それぞれのハプロタイプの頻度を次のようにする。

表2 ハプロタイプ頻度

ハプロタイプ
(第一遺伝子座-第二遺伝子座)
頻度
1-1 p11
1-2 p12
2-1 p21
2-2 p22

そうすると、それぞれの遺伝子座における対立遺伝子1,2の頻度は次のようになる。

表3 対立遺伝子頻度

対立遺伝子 頻度
第一遺伝子座の対立遺伝子1 p1・=p11+p12
第一遺伝子座の対立遺伝子2 p2・=p21+p22=1-p1・
第二遺伝子座の対立遺伝子1 p・1=p11+p21
第二遺伝子座の対立遺伝子2 p・2=p12+p22=1-p・1

・は積の記号ではなく、ドットである。p1・ は一つの変数。

もし、連鎖不平衡が無ければ1-1のハプロタイプの頻度は第一遺伝子座、第二遺伝子座の対立遺伝子1の頻度の関である。
即ち、連鎖不平衡が無ければ、

p11=p1・   p・1。

     しかし、連鎖不平衡があるとそうはならない。そのずれの程度を下式のようにDで表すと、

D = p11-p1・ p・1

そうすると、4つのハプロタイプの頻度は対立遺伝子の頻度とDを用いて次のように表すことができる。

表4 連鎖不平衡の存在下のハプロタイプ頻度

対立遺伝子 頻度
1-1 p11=p1・ p・1+D
1-2 p12=p1・ p・2-D
2-1 p21=p2・ p・1-D
2-2 p22=p2・ p・2+D

Dを連鎖不平衡係数という。Dは次のようにも表すことができる。

D = p11 p22 - p12 p21

連鎖不平衡が無いとき、D = 0であり、D > 0のとき、正の連鎖不平衡という。
rを組み換え割合とすると、Dは世代あたりrの割合で減少する。即ち、ある世代の連鎖不平衡係数をDとすると、n 世代後の連鎖不平衡係数Dnは、

Dn = (1-r)n D

実は、すべてのハプロタイプ頻度と対立遺伝子頻度が0と1の間の値を取るという要請から、Dの範囲は以下のように限られている。
即ち、D>0 or D=0の場合は、Dの取り得る最大値は、

Dmax = min (p1・ p・2, p2・ p・1)

D<0の場合は Dの取り得る最小値は

Dmin = max (-p1・ p・1, -p2・ p・2)

従って、以下のように連鎖不平衡係数を標準化した次の値で表すこともある。

D' = D/Dmax (Dが正の場合)
D' = D/Dmin (Dが負の場合)   [ただし、D<0の場合、D'=-D/Dminとしている論文もある。]

上のように定義した場合、D'は必ず正または0となる。[しかし、[]内のようにすればD<0となる。]

DやD'以外にも、次のρが用いられることもある。ρ2はχ2/nに等しく、しばしばΔ2と表される。

 Δ22 = D2/(p1・ p2・ p・1 p・2)

これらを含め、しばしば用いられる連鎖不平衡の指標を示す。

これらのすべての分子はDまたは、その二乗であることに注意。

この内、Δは2 x 2 表の、いわゆる相関係数である。
Δ2がχ2/nと一致することは前述した。
 


表5 ハプロタイプ頻度

第一遺伝子座
第二遺伝子座 1
第二遺伝子座   2 
1
0.3
x
2
0.1
1-0.3-0.1-x

上のようなハプロタイプ頻度の場合、上記の連鎖不平衡のパラメータがどのように動くか見ると、

このようにDやΔは負になるがΔ2は負にならない。
いずれも0.45の時、0の値を取る。このとき、連鎖負平衡が無い状態である。

次に、D'は

必ず-1から1の値を取る。0.45で0になる点は同じである。

次に、dQ、δは、

以上のように、二つの遺伝子座の二対立遺伝子の場合についても、連鎖不平衡の程度を示すための種々の指標がある。
そのどれが最も優れているかはいちがいには言えない。

上式からわかるように、Dの取り得る最大値は対立遺伝子の頻度に依存する。D'はそれを修正したものである。Dは0.25より低く、D'は最大1である。しかし、D'は一方の対立遺伝子の頻度が極めて低い場合には(例えばサンプル内に1個)1となってしまう。

連鎖不平衡の尺度については、別項も参照。
 
 連鎖不平衡解析

 連鎖不平衡解析は前述のように,common disease-common variant-common originが正しいと仮定し,連鎖不平衡を利用して疾患に関係する遺伝子座を探す方法である。連鎖不平衡解析では単なる相関解析より偽陽性が出にくいと考えられる。なぜなら,前者ではアレル頻度に加え,連鎖不平衡の情報も加わるからである。それでもなお,集団の構造化があり,それがアレル頻度だけではなく,連鎖不平衡にも影響しているとすると問題は解消しない。

 連鎖不平衡解析のソフトウェア (EMアルゴリズムによる最尤ハプロタイプ頻度の推定)

   互いに家族関係が無く、複数の連鎖した座位において、相が不明の遺伝子型を持つ多数の個体のハプロタイプを推定することは非常に重要な問題になりつつある。真の疾患座位発見や、連鎖不平衡解析の手段として用いられる。

    Hardy-Weinberg平衡にある集団からの個体サンプルからの、相が解らない場合に、最尤法により個体のハプロタイプを推定する方法がいくつか発表されている。多くはEMアルゴリズムを用いたものである。

    以下のプログラムに、そのような推定のできる機能が加えられている。

     Haplo (ftp: paella.med.yale.edu/pub/haplo/)
     Arlequin (http://acasun1.unige.ch/arlequin/)

    しかし、残念ながら、我々はそのようなソフトの使用経験が無く、搭載されているアルゴリズムも分析していない。従って、我々が解説を書くことはできないので、詳細な解説は説明書を読んで欲しい。

     ただし、我々も、多くの個体の遺伝子型の列を入力としてEMアルゴリズムにより集団のハプロタイプの最尤頻度を推定し、個々の個体の最尤の相を推定するプログラムを開発している。このプログラムによって推定されたハプロタイプは、驚く程現実に一致している。

     我々の自作のプログラムを用いてハプロタイプの解析や連鎖不平衡解析を希望する場合は、

    下のアドレスにデータ解析依頼ができる。

     kamatani@ior.twmu.ac.jp

 連鎖不平衡解析のソフトウェア (EHプログラム)

 EHは連鎖不平衡解析やハプロタイプの頻度推定などを家系情報なしに行なうプログラムである。家系情報が存在する場合はLINKAGE packageの中にあるソフトウエアを用いてハプロタイプなどの推定をすることができる。

  EHには複数のマーカー遺伝子座間の連鎖不平衡を検定するオプションと,case-control studyで疾患とマーカー遺伝子座間の連鎖不平衡を検定するオプションがある。前者の場合は一集団のサンプルを取り扱い,後者ではcaseとcontrolの二集団のサンプルを取り扱う。

  まず,第一の単一集団の連鎖不平衡について考えてみる。二つのアレルを持つ二つの遺伝子座12を考え,遺伝子座1のアレルをab,遺伝子座2のアレルをcdとする。この二つの遺伝子座について,可能性のあるハプロタイプはa-ca-db-cb-dの4つである。もし,遺伝子座12の間に連鎖不平衡がなければハプロタイプの頻度はそれぞれのアレルの頻度の積となる。もし,それぞれのハプロタイプの頻度が測定できれば連鎖不平衡があるかないかは独立性の検定で容易に行なう事ができる。しかし,一般に家系情報が存在しない時にはハプロタイプが決定できるとは限らない。それは二つの遺伝子座ともヘテロ接合(double heterozygosity)の場合である。

  もし,集団からdouble heterozygotesをすべて除外してハプロタイプ頻度を計測すれば恣意的に一部のデータを除外する事になり不当である。Hardy-Weinverg平衡を仮定し,最尤法を用いれば連鎖不平衡のある場合,連鎖不平衡の無い場合についてハプロタイプの最尤推定を行ない,尤度比検定を行なう事が可能である。

  EHは家系情報の無い単一集団のサンプルを用い,尤度比検定により連鎖不平衡の有無を検定し,連鎖不平衡がある場合のハプロタイプ頻度の最尤推定を行なう。 さらに,EHはcaseとcontrolの二集団のサンプルについて,未知の疾患関連遺伝子座とマーカー遺伝子座間で連鎖不平衡の有無の検定を行なう。この検定では,検索中の集団において疾患関連遺伝子と周辺のマーカー遺伝子の間に連鎖不平衡があるであろう,という予測を前提としている。それは,一般に頻度の比較的高い疾患の関連遺伝子は共通の突然変異により成り立っており,それは共通の起源を有するという仮説に依存している。いわゆるcommon disease-common variant-common origin hypothesisである。case-control studyのデータを分析する場合はそれぞれの集団について遺伝子型のデータを持ったファイルを作りEHプログラムに入力し,いくつかのパラメータを入力すると尤度比が得られる。尤度比とカイ自乗値の間には一定の関係がある事が知られているので,連鎖不平衡が無いという帰無仮説を否定する危険率を計算できる。

 (1) パッケージの取得

     以下のftpサイトより入手可能である。

     ftp://linkage.rockefeller.edu/software/eh

     Pascalで書かれており、基本的にはPC-DOS (MS-DOSでも動く)で動くプログラムである。英語環境で用いた方がいいようである。
 (2) 入力ファイル

 単一集団の連鎖不平衡の解析

  単一集団の連鎖不平衡の解析では入力ファイルは一つである。このオプションではマーカー座位間の連鎖不平衡を検定し,ハプロタイプ頻度を推定するが,疾患遺伝子とマーカー遺伝子座間の連鎖不平衡は取り扱えない。

     EHの入力ファイルは2座位で、いずれも二対立遺伝子の場合は以下のようなものである。

2 2
11 23 9
21 42  10
15 30  12

     最初の一行は、第一、第二座位の対立遺伝子の数、
第二行は、第一座位について、1/1の遺伝子型を持つ個体の中で、第二座位について1/1, 1/2, 2/2の遺伝子型を持つ個体の数を示す。
第三行は、第一座位について、1/2の遺伝子型を持つ個体の中で、第二座位について1/1, 1/2, 2/2の遺伝子型を持つ個体の数を示す。
三行は、第一座位について、2/2の遺伝子型を持つ個体の中で、第二座位について1/1, 1/2, 2/2の遺伝子型を持つ個体の数を示す。

 case-control studyの連鎖不平衡の解析

  EHではcase-control studyのデータを分析するオプションも搭載されている。入力ファイルを二つ作る必要があるだけでなく、有病率なども入力する必要がある。詳細については解説を読んで欲しい。
 
 


[形質マッピングホームページTOP]