アミノ酸の記述子を求めて
このページでは,ソフトウェアの開発やタンパク質の研究に利用する目的で,アミノ酸の性質を数値的に表現する方法について考えています.
例えば,酸性アミノ酸残基,塩基性アミノ酸残基などでタンパク質に色を付ければ,電荷の位置が一目瞭然になります.
また,アミノ酸どうしの関係を何らかの形で数値化できれば,色分けはもちろん,アライメント用のアミノ酸置換行列を作成できるかもしれません.
ひょっとしたら,「似たアミノ酸どうしは置換しやすい」というポイントミューテーションの傾向について,数値的な知見が得られるかもしれません.
本サイトで開発している libuilcule や 分子表示ソフト Detrial では,以下の機能を実装しています.
方法を探し続けて,面白いアミノ酸記述子が見つかれば,開発に取り込むつもりです.
- 古典的な配列アライメント:アミノ酸置換行列 BLOSUM62 や PAM250 を使った,動的計画法
- 構造アライメント:アミノ酸置換行列の代わりに,数残基程度のペプチドの立体構造を比較して類似度とする方法
- 試験的に,分子表示ソフト Detrial でアミノ酸の色分けをおこなっています.この機能は Builcule に統合する予定です
最終的に AAindex: Amino acid index database を参照することになるような気もしますが,回り道をしていろいろ考えてみようというわけです.
目次(ページ内リンク)
アミノ酸置換行列として使えるフィンガープリント類似性はあるか
物理化学的な性質によるアミノ酸の表現
アミノ酸置換行列として使えるフィンガープリント類似性はあるか
配列アライメント等に使われるアミノ酸置換行列は観測値です.
そのスコアは,言ってみればポイントミューテーションの固定化されやすさを示す値です.これは,アミノ酸の生物学的な類似性に大きく依存していると思います.
一方,RDKit では種々のフィンガープリントが作成可能です.フィンガープリントを比較して類似性を計算するメソッドもいくつかあります.
この機能を使うと,アミノ酸の類似性を計算することができます.
これらを組み合わせると,アミノ酸置換行列として使えるフィンガープリント類似性が見つかるかもしれません.
すなわち,アミノ酸が変異する傾向を理論値で説明できるかもしれません.
アトムペアフィンガープリントの類似度とアミノ酸置換行列との比較
アトムペアフィンガープリントは分子全体の特性を表すと期待して,アトムペアフィンガープリントの類似度とアミノ酸置換行列とを比較しました.
散布図を画像に示します.
アトムペアフィンガープリントの大雑把なイメージを記すと,下のようになるらしいです.
- どのような分子でも,原子のペアは,性質(元素,結合数,グラフ距離,など)に従って分類でき,したがって各々インデックス番号を付けることができる
- インデックス番号の個数は有限個とする.インデックスを一列に並べれば,一次元の一覧表(ベクトル)が作成できる
- フィンガープリントを作成する分子を考える.その分子内の全ての原子ペアについて,対応するインデックス番号を調べるか,ペアの個数を数え上げる
- インデックスに対応するペアの有無または個数を,一次元の一覧表に格納する.これがアトムペアフィンガープリントである
- 分子の類似性はベクトルどうしの類似性ということになる,フィンガープリントの類似性は,ベクトルのインデックスの一致数や不一致数を基にして計算する
散布図の上段は,Blosum62 vs Pam250 の散布図です,下段はアトムペアプフィンガープリント vs Blosum62 / Pam250 です.
アトムペアフィンガープリントによる類似性と,Blosum62 や Pam250 とは高い相関関係を示しました.
ただし,Blosum62 vs Pam250 よりは低い相関係数です.
同じアミノ酸どうしの類似度は 1.0 になるので,これらは,下の散布図の横軸 1.0 上に縦並びになっています.
もう少し細かい条件を記しておくと,
- 各アミノ酸のアトムペアフィンガープリントとしてイントベクトルを作成
- イントベクトル間の Dice 類似性を計算
フィンガープリントによるアミノ酸の類似性
散布図に使った類似性を出力してみました.
アミノ酸置換行列として使えそうな雰囲気ではあります.
アミノ酸置換行列との違いを探すと,同じアミノ酸どうし(右下がりの対角線上の値)の類似度が 1 となっていることでしょうか.
アミノ酸置換行列では,アミノ酸ごとに異なった値となっています.
| - | Cys | Ser | Thr | Pro | Ala | Gly | Asn | Asp | Glu | Gln | His | Arg | Lys | Met | Ile | Leu | Val | Phe | Tyr | Trp |
| Cys | 1.000 | 0.714 | 0.408 | 0.408 | 0.556 | 0.387 | 0.526 | 0.526 | 0.455 | 0.455 | 0.395 | 0.345 | 0.455 | 0.526 | 0.386 | 0.526 | 0.408 | 0.345 | 0.303 | 0.175 |
| Ser | 0.714 | 1.000 | 0.612 | 0.408 | 0.556 | 0.387 | 0.526 | 0.526 | 0.455 | 0.455 | 0.395 | 0.345 | 0.455 | 0.526 | 0.386 | 0.526 | 0.408 | 0.345 | 0.303 | 0.175 |
| Thr | 0.408 | 0.612 | 1.000 | 0.214 | 0.512 | 0.316 | 0.375 | 0.406 | 0.274 | 0.274 | 0.265 | 0.213 | 0.274 | 0.312 | 0.656 | 0.344 | 0.750 | 0.234 | 0.208 | 0.150 |
| Pro | 0.408 | 0.408 | 0.214 | 1.000 | 0.279 | 0.158 | 0.312 | 0.312 | 0.411 | 0.411 | 0.265 | 0.383 | 0.466 | 0.469 | 0.344 | 0.312 | 0.214 | 0.213 | 0.189 | 0.135 |
| Ala | 0.556 | 0.556 | 0.512 | 0.279 | 1.000 | 0.480 | 0.392 | 0.392 | 0.333 | 0.333 | 0.286 | 0.247 | 0.333 | 0.392 | 0.431 | 0.431 | 0.512 | 0.247 | 0.215 | 0.167 |
| Gly | 0.387 | 0.387 | 0.316 | 0.158 | 0.480 | 1.000 | 0.348 | 0.391 | 0.327 | 0.291 | 0.215 | 0.158 | 0.255 | 0.261 | 0.261 | 0.261 | 0.316 | 0.184 | 0.159 | 0.104 |
| Asn | 0.526 | 0.526 | 0.375 | 0.312 | 0.392 | 0.348 | 1.000 | 0.778 | 0.519 | 0.568 | 0.462 | 0.314 | 0.395 | 0.417 | 0.361 | 0.444 | 0.375 | 0.412 | 0.368 | 0.170 |
| Asp | 0.526 | 0.526 | 0.406 | 0.312 | 0.392 | 0.391 | 0.778 | 1.000 | 0.519 | 0.444 | 0.462 | 0.294 | 0.370 | 0.417 | 0.389 | 0.417 | 0.406 | 0.412 | 0.404 | 0.156 |
| Glu | 0.455 | 0.455 | 0.274 | 0.411 | 0.333 | 0.327 | 0.519 | 0.519 | 1.000 | 0.800 | 0.320 | 0.396 | 0.467 | 0.519 | 0.395 | 0.444 | 0.274 | 0.288 | 0.276 | 0.227 |
| Gln | 0.455 | 0.455 | 0.274 | 0.411 | 0.333 | 0.291 | 0.568 | 0.444 | 0.800 | 1.000 | 0.320 | 0.432 | 0.511 | 0.519 | 0.395 | 0.420 | 0.274 | 0.288 | 0.260 | 0.240 |
| His | 0.395 | 0.395 | 0.265 | 0.265 | 0.286 | 0.215 | 0.462 | 0.462 | 0.320 | 0.320 | 1.000 | 0.347 | 0.300 | 0.330 | 0.264 | 0.330 | 0.265 | 0.595 | 0.541 | 0.275 |
| Arg | 0.345 | 0.345 | 0.213 | 0.383 | 0.247 | 0.158 | 0.314 | 0.294 | 0.396 | 0.432 | 0.347 | 1.000 | 0.577 | 0.412 | 0.314 | 0.294 | 0.213 | 0.227 | 0.306 | 0.199 |
| Lys | 0.455 | 0.455 | 0.274 | 0.466 | 0.333 | 0.255 | 0.395 | 0.370 | 0.467 | 0.511 | 0.300 | 0.577 | 1.000 | 0.519 | 0.395 | 0.370 | 0.274 | 0.270 | 0.309 | 0.213 |
| Met | 0.526 | 0.526 | 0.312 | 0.469 | 0.392 | 0.261 | 0.417 | 0.417 | 0.519 | 0.519 | 0.330 | 0.412 | 0.519 | 1.000 | 0.472 | 0.444 | 0.312 | 0.294 | 0.263 | 0.156 |
| Ile | 0.386 | 0.386 | 0.656 | 0.344 | 0.431 | 0.261 | 0.361 | 0.389 | 0.395 | 0.395 | 0.264 | 0.314 | 0.395 | 0.472 | 1.000 | 0.500 | 0.688 | 0.235 | 0.211 | 0.142 |
| Leu | 0.526 | 0.526 | 0.344 | 0.312 | 0.431 | 0.261 | 0.444 | 0.417 | 0.444 | 0.420 | 0.330 | 0.294 | 0.370 | 0.444 | 0.500 | 1.000 | 0.406 | 0.294 | 0.263 | 0.170 |
| Val | 0.408 | 0.408 | 0.750 | 0.214 | 0.512 | 0.316 | 0.375 | 0.406 | 0.274 | 0.274 | 0.265 | 0.213 | 0.274 | 0.312 | 0.688 | 0.406 | 1.000 | 0.234 | 0.208 | 0.150 |
| Phe | 0.345 | 0.345 | 0.234 | 0.213 | 0.247 | 0.184 | 0.412 | 0.412 | 0.288 | 0.288 | 0.595 | 0.227 | 0.270 | 0.294 | 0.235 | 0.294 | 0.234 | 1.000 | 0.764 | 0.409 |
| Tyr | 0.303 | 0.303 | 0.208 | 0.189 | 0.215 | 0.159 | 0.368 | 0.404 | 0.276 | 0.260 | 0.541 | 0.306 | 0.309 | 0.263 | 0.211 | 0.263 | 0.208 | 0.764 | 1.000 | 0.339 |
| Trp | 0.175 | 0.175 | 0.150 | 0.135 | 0.167 | 0.104 | 0.170 | 0.156 | 0.227 | 0.240 | 0.275 | 0.199 | 0.213 | 0.156 | 0.142 | 0.170 | 0.150 | 0.409 | 0.339 | 1.000 |
利用可能なフィンガープリント
このセクションは,Python 上で RDKit により計算しています.オリジナルのドキュメント,The RDKit Documentation — The RDKit 2023.09.3 documentation を挙げておきます.このなかにフィンガープリントの計算法も紹介されています.
RDKit のメソッドには,覚えきれないほどのオプションがあります.頻繁に使うのでなければ,都度 Python API Reference — The RDKit 2023.09.4 documentation を参照すればよさそうです.
上記ドキュメント以外にも,Web 上には素晴らしい独自ドキュメントが見つかります.
フィンガープリントの例をいくつか挙げておきます.
- トポロジカルフィンガープリント
- アトムペアフィンガープリント
- Flaggle フィンガープリント
- ドナーアクセプターフィンガープリント
- 2D ファーマコフォアフィンガープリント
- Morgan フィンガープリント
- MACCS キーフィンガープリント
- トポロジカルトーションフィンガープリント
物理化学的な性質によるアミノ酸の表現
このセクションでは,以下のデータを一覧表にまとめたところまで進みました.
- PubChem で公開されているアミノ酸の性質
- 密度汎関数法で計算した側鎖の予測値
データはまだまだ蓄積できそうです.
単独の物理化学的性質でもタンパク質の着色に使えそうです.
いくつかの性質例えば,大きさと静電的性質を結合すれば,アミノ酸置換行列の代替物が作成できるかもしれません.
PubChem から入手したデータ
これらの値は,PubChem から入手しました.計算値には上付き (a) を,測定値には上付き (b) を付けてあります.
述語の意味は,Glossary - PubChem に書いてあります.
- 溶解度は,g/L at 25 °C の値です
- 極性表面積:Topological Polar Surface Area の訳です
- 回転可能結合数:Rotatable Bond Count の私訳です
極性表面積をみると,Ala,Gly,Ile,Leu,Phe,および Val が同じ値 63.3 で,Pro が最小値49.3 となっています.これらは主鎖の値とみなせるかもしれません.
回転可能結合数とは,分子から水素と水素の共有結合を除き,残りの共有結合数から,末端の共有結合数,環を成す共有結合数,およびアミド C-N 結合数を除いた残りの数とのことです.
分子の「ぐにゃぐにゃ度」を表す指標と言えそうです.Gly,Ala,および Pro の値が 1 であるのは,Cα-C 結合のみ残るからです.
Tyr の pKa3 は,フェノール性ヒドロキシ基の値です.
| - | Ala | Arg | Asn | Asp | Cys | Gln | Glu | Gly | His | Ile | Leu | Lys | Met | Phe | Pro | Ser | Thr | Trp | Tyr | Val |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 分子量(a) | 89.09 | 174.2 | 132.12 | 133.1 | 121.16 | 146.14 | 147.13 | 75.07 | 155.15 | 131.17 | 131.17 | 146.19 | 149.21 | 165.19 | 115.13 | 105.09 | 119.12 | 204.22 | 181.19 | 117.15 |
| XLogP3(a) | -3 | -4.2 | -3.4 | -2.8 | -2.5 | -3.1 | -3.7 | -3.2 | -3.2 | -1.7 | -1.5 | -3 | -1.9 | -1.5 | -2.5 | -3.1 | -2.9 | -1.1 | -2.3 | -2.3 |
| 極性表面積(a) | 63.3 | 128 | 106 | 101 | 64.3 | 106 | 101 | 63.3 | 92 | 63.3 | 63.3 | 89.3 | 88.6 | 63.3 | 49.3 | 83.6 | 83.6 | 79.1 | 83.6 | 63.3 |
| complexity(a) | 61.8 | 176 | 134 | 133 | 75.3 | 146 | 145 | 42.9 | 151 | 103 | 101 | 106 | 97 | 153 | 103 | 72.6 | 93.3 | 245 | 176 | 90.4 |
| 水素結合供与体数(a) | 2 | 4 | 3 | 3 | 3 | 3 | 3 | 2 | 3 | 2 | 2 | 3 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 2 |
| 水素結合受容体数(a) | 3 | 4 | 4 | 5 | 4 | 4 | 5 | 3 | 4 | 3 | 3 | 4 | 4 | 3 | 3 | 4 | 4 | 3 | 4 | 3 |
| 回転可能結合数(a) | 1 | 5 | 3 | 3 | 2 | 4 | 4 | 1 | 3 | 3 | 3 | 5 | 4 | 3 | 1 | 2 | 2 | 3 | 3 | 2 |
| 溶解度(b) | 164 | 182 | 29.4 | 5.39 | 277 | 41.3 | 8.57 | 249 | 45.6 | 34.4 | 21.5 | 1000 | 56.6 | 26.9 | 162.0 | 425 | 97 | 13.4 | 0.479 | 58.5 |
| LogP(b) | -2.85 | -4.2 | -3.82 | -3.89 | -2.49 | -3.64 | -3.69 | -3.21 | -3.32 | -1.7 | -1.52 | -3.05 | -1.87 | -1.38 | -2.54 | -3.07 | -2.94 | -1.06 | -2.26 | -2.26 |
| pKa1(b) | 2.34 | 2.18 | 2.02 | 1.92 | 1.71 | 2.17 | 2.19 | 2.34 | 1.78 | 2.36 | 2.38 | 2.18 | 2.28 | 1.83 | - | 2.21 | 2.63 | 2.38 | 2.20 | 2.30 |
| pKa2(b) | 9.69 | 9.09 | 8.80 | 3.87 | 8.33 | 9.13 | 4.25 | 9.60 | 5.97 | 9.68 | 9.61 | 8.95 | 9.21 | 9.13 | - | 9.15 | 10.43 | 9.39 | 9.11 | - |
| pKa3(b) | - | 13.2 | - | 9.87 | 10.78 | - | 9.67 | - | 8.97 | - | - | 10.53 | - | - | - | - | - | - | 10.07 | - |
密度汎関数法による計算値
分子モデル
計算に使った分子モデルは,Builcule で作成しました.
計算は PSi4 を使いました.PSI4 の練習記録が [科学ツールの導入] ディレクトリに置いてあります.
側鎖のみの値を得るために,主鎖のアミノ基およびカルボキシル基を水素に置き換えています.ただし,Gly の値も計算したいので,α 炭素を残しました.
つまり,Gly はメタンの Ala はエタンの計算値ということになります.また,Pro は,n-ブタンの計算値を充てています.
計算条件
- 密度汎関数法による計算ソフトウェア:PSI4
- 汎関数:b3lyp
- 基底関数:電気的に中性の場合は 6-31G*,負電荷をもつ場合は 6-31+G*,正電荷をもつ場合は 6-31G**
| - | Ala | Arg | Asn | Asp | Cys | Gln | Glu | Gly | His | Ile | Leu | Lys | Met | Phe | Pro | Ser | Thr | Trp | Tyr | Val |
| 双極子(非解離型) | 0.000 | 3.072 | 3.589 | 1.672 | 1.828 | 3.491 | 4.135 | 0.000 | 3.872 | 0.061 | 0.060 | 1.505 | 1.790 | 0.280 | 0.000 | 1.674 | 1.616 | 2.077 | 1.354 | 0.085 |
| 双極子(解離型) | - | 7.809 | - | 5.210 | - | - | 7.501 | - | 3.821 | - | - | 11.657 | - | - | - | - | - | - | - | - |
| HOMO(非解離型) | -0.340 | -0.222 | -0.244 | -0.271 | -0.235 | -0.244 | -0.271 | -0.389 | -0.215 | -0.309 | -0.309 | -0.227 | -0.215 | -0.236 | -0.318 | -0.263 | -0.261 | -0.193 | -0.211 | -0.318 |
| HOMO(解離型) | - | -0.439 | - | -0.038 | - | - | -0.040 | - | -0.432 | - | - | -0.440 | - | - | - | - | - | - | - | - |
| LUMO-HOMO(非解離型) | 0.445 | 0.283 | 0.277 | 0.280 | 0.263 | 0.277 | 0.389 | 0.507 | 0.249 | 0.395 | 0.395 | 0.310 | 0.262 | 0.241 | 0.412 | 0.339 | 0.335 | 0.192 | 0.235 | 0.404 |
| LUMO-HOMO(解離型) | - | 0.284 | - | 0.169 | - | - | 0.151 | - | 0.233 | - | - | 0.272 | - | - | - | - | - | - | - |