|
SLINKソフトウェアを用いたシミュレーション |
|
SLINKの概要 |
現在は,プログラムの高速化を行なったFASTSLINK(機能はSLINKと同じ)が主に用いられている。FASTSLINKはCで書かれたプログラムであり,ソースファイルをダウンロード(入手方法はこちら)してコンパイルすることによってUnix環境で使用することができる(linuxにもインストール可能である)。
また,SLINKはMS-DOS環境(Win9xを含む)における実行ファイルの形式でも入手することができる(Pascalで書かれたソースファイルもある)。
|
SLINKの目的 |
SLINKは,与えられた家系を生じさせうる遺伝子型の組み合わせをシミュレーションによって多数作成し,研究者が集めた家系データにおける連鎖の検出力を計算するためのソフトウェアである。具体的には,家系内のfounderには乱数によってランダムに遺伝子型を与え,non-founderには条件付き確率に基づいて計算した遺伝子型をランダムに割り当てることによって家族の遺伝子型を決定する。シミュレーションによって作成された家系のそれぞれについてLod scoreを計算し,Lod scoreの期待値や連鎖の検出力を算出することができる。
|
前提となる知識 |
|
SLINKの入手方法 |
|
入力ファイルとファイル形式 |
(1)simped.datファイル
simped.datファイルの概要
標準のLINKAGEパッケージで用いるpedファイル形式のファイル。内容はLINKAGEパッケージで用いるpedファイルとほとんど同じであるが,唯一異なる点は,マーカーの情報が手に入るかどうか,与えられた形質の情報をそのまま用いるかどうかを示すavailability codeを最後に追加することである。
availability codeは,以下の4つのうちのどれか1つを用いる。
| Code | Codeの意味 | |
|---|---|---|
| マーカーの情報 | 形質の情報 | |
| 0 | 入手不可能 | 与えられた形質を使用する(simped.datファイルに記述された形質を用いる) |
| 1 | 入手可能 | 与えられた形質を使用しない(シミュレーションによる値を用いる) |
| 2 | 入手可能 | 与えられた形質を使用する |
| 3 | 入手不可能 | 与えられた形質を使用しない |
ここで,「マーカーの情報が入手可能である」とは,その人のDNAサンプルを入手することが可能であり,あるマーカーのタイピングが可能であることをいう。すでに死亡していたり,研究への協力を拒否している等の理由によりDNAサンプルを入手することが不可能である人の場合は,「マーカーの情報が入手不可能である」とする。
また,すでに死亡している等の理由により形質の情報が得られない人の場合は,simped.datファイル内で形質を示す遺伝子座のタイプをunknown(すなわち0)とし,与えられた形質を使用することとして,マーカーの情報が入手可能であるかどうかに応じたavailability code(すなわち0または2)を記述する。
マーカーのデータだけをシミュレーションに使用する場合は,以下の2つのavailability codeを用いる。
| Code | Codeの意味 |
|---|---|
| マーカーの情報 | |
| 0 | 入手不可能 |
| 1 | 入手可能 |
simped.datファイルの作り方
まず,与えられた家系図をもとに,availability codeを追加した形式でpreファイル(ここではsimpre.datとする。)を作成する。次に,MAKEPEDプログラムを用いてpreファイルをpedファイルに変換する。コマンドラインから,makeped simpre.dat simped.datと入力すればよい。
(2)simdata.datファイル
simdata.datファイルの概要
標準のLINKAGEパッケージで用いるdataファイル形式のファイル。MLINKで用いるフォーマットで作成する。
simdata.datファイルの作り方
PREPLINKプログラムを用いる。PREPLINKプログラムを使用するには,コマンドラインから,preplink と入力すればよい。preplinkプログラムは,変更したいパラメータをメニューから選択する形式でパラメータの指定ができるので,マーカーの数や種類,組換え割合等を目的に応じて変更し,結果をsimdata.datの名前で保存する。
(3)slinkin.datファイル
slinkin.datファイルの概要
シミュレーションに必要なパラメータを記述したファイル。内容は以下のとおり。
・乱数発生のための初期値・・・初期値は3つ与える。値は1から30323までの整数で,比較的大きな数(25000以上)を与えるのがよい。一回のシミュレーションが終了するたびに,SLINKプログラムはこの3つの値を書き換える。
・シミュレーションによって発生させる家系の数
・形質を示す遺伝子座の番号・・・simdata.datファイルにおける形質の遺伝子座の位置を記述する。たとえば,simdata.datファイルで形質の遺伝子座を最初においた場合は1と記述する。形質の遺伝子座が存在しない場合は0と記述する。
・unlinked familyの割合・・・homogeneityを仮定し,すべての家族において形質に関係する遺伝子座が同じであると考える場合は0を記述する。
slinkin.datファイルの作り方
テキストエディタ等を用いて,上で説明した値を順に記述したファイルを作成し,slinkin.datの名前で保存する。 たとえば,以下のように記述する。
27983 18176 20673 200 1 0.000000
|
シミュレーション |
|
シミュレーションの評価 |
以下,シミュレーションの評価の手順を説明する。評価用のプログラムを実行するためには,以下の5つの入力ファイルが必要である。
(1)datafile.datファイル
datafile.datファイルの概要
標準のLINKAGEパッケージで用いるdataファイル形式のファイル。
datafile.datファイルの作り方
PREPLINKプログラムを用いる。マーカーの数や種類,組換え割合等をシミュレーションの評価目的に応じて変更し,結果をdatafile.datの名前で保存する。評価用プログラムとしてMSIMを用いる場合はMLINKで用いるフォーマット,同様にISIMの場合はILINKフォーマット,LSIMの場合はLINKMAPフォーマットで作成する。
(2)ipedfile.datファイル,(3)speedfile.datファイル
概要
LINKAGEパッケージのUNKNOWNプログラムにより作成されるファイル。
作り方
SLINKを実行して作成されたpedfile.datファイルと,上記のdatafile.datファイルを同じディレクトリにおき,UNKNOWNプログラムを実行する。コマンドラインから,unknown と入力すると,UNKNOWNプログラムが起動し,ipedfile.datファイルとspeedfile.datファイルが作成される。
(4)limit.datファイル
limit.datファイルの概要
シミュレーションの評価に用いるロッドスコアのしきい値を記述したファイル。しきい値は3つ指定できる。シミュレーションの評価では,limit.datファイルに記述された各しきい値を超えるロッドスコアを示す家系数が計算され,結果として出力される。
limit.datファイルの作り方
テキストエディタ等を用いて,しきい値を記述したファイルを作成し,limit.datの名前で保存する。たとえば,以下のように記述する。
1 2 3
(5)simout.datファイル
SLINKを実行すると作成されるファイル。
上記の5つのファイルを同じディレクトリにおき,MSIM,ISIM,LSIMのプログラムを実行する。たとえば,MSIMプログラムを実行する場合は,コマンドラインから,msim と入力すればよい。評価結果は,msim.datファイル(ISIMの場合はisim.datファイル,LSIMの場合はlsim.datファイル)に保存される。