アミノ酸の記述子を求めて

このページでは,ソフトウェアの開発やタンパク質の研究に利用する目的で,アミノ酸の性質を数値的に表現する方法について考えています.
例えば,酸性アミノ酸残基,塩基性アミノ酸残基などでタンパク質に色を付ければ,電荷の位置が一目瞭然になります.
また,アミノ酸どうしの関係を何らかの形で数値化できれば,色分けはもちろん,アライメント用のアミノ酸置換行列を作成できるかもしれません.
ひょっとしたら,「似たアミノ酸どうしは置換しやすい」というポイントミューテーションの傾向について,数値的な知見が得られるかもしれません.

本サイトで開発している libuilcule や 分子表示ソフト Detrial では,以下の機能を実装しています.
方法を探し続けて,面白いアミノ酸記述子が見つかれば,開発に取り込むつもりです.

最終的に AAindex: Amino acid index database を参照することになるような気もしますが,回り道をしていろいろ考えてみようというわけです.


目次(ページ内リンク)


アミノ酸置換行列として使えるフィンガープリント類似性はあるか
物理化学的な性質によるアミノ酸の表現

アミノ酸置換行列として使えるフィンガープリント類似性はあるか

配列アライメント等に使われるアミノ酸置換行列は観測値です.
そのスコアは,言ってみればポイントミューテーションの固定化されやすさを示す値です.これは,アミノ酸の生物学的な類似性に大きく依存していると思います.

一方,RDKit では種々のフィンガープリントが作成可能です.フィンガープリントを比較して類似性を計算するメソッドもいくつかあります.
この機能を使うと,アミノ酸の類似性を計算することができます.

これらを組み合わせると,アミノ酸置換行列として使えるフィンガープリント類似性が見つかるかもしれません.
すなわち,アミノ酸が変異する傾向を理論値で説明できるかもしれません.

アトムペアフィンガープリントの類似度とアミノ酸置換行列との比較

アトムペアフィンガープリントの類似度とアミノ酸置換行列との比較

アトムペアフィンガープリントは分子全体の特性を表すと期待して,アトムペアフィンガープリントの類似度とアミノ酸置換行列とを比較しました. 散布図を画像に示します.
アトムペアフィンガープリントの大雑把なイメージを記すと,下のようになるらしいです.

散布図の上段は,Blosum62 vs Pam250 の散布図です,下段はアトムペアプフィンガープリント vs Blosum62 / Pam250 です.
アトムペアフィンガープリントによる類似性と,Blosum62 や Pam250 とは高い相関関係を示しました.
ただし,Blosum62 vs Pam250 よりは低い相関係数です.

同じアミノ酸どうしの類似度は 1.0 になるので,これらは,下の散布図の横軸 1.0 上に縦並びになっています.

もう少し細かい条件を記しておくと,

フィンガープリントによるアミノ酸の類似性

散布図に使った類似性を出力してみました.
アミノ酸置換行列として使えそうな雰囲気ではあります.
アミノ酸置換行列との違いを探すと,同じアミノ酸どうし(右下がりの対角線上の値)の類似度が 1 となっていることでしょうか.
アミノ酸置換行列では,アミノ酸ごとに異なった値となっています.

-Cys Ser Thr Pro Ala Gly Asn Asp Glu Gln His Arg Lys Met Ile Leu Val Phe Tyr Trp
Cys1.0000.7140.4080.4080.5560.3870.5260.5260.4550.4550.3950.3450.4550.5260.3860.5260.4080.3450.3030.175
Ser0.7141.0000.6120.4080.5560.3870.5260.5260.4550.4550.3950.3450.4550.5260.3860.5260.4080.3450.3030.175
Thr0.4080.6121.0000.2140.5120.3160.3750.4060.2740.2740.2650.2130.2740.3120.6560.3440.7500.2340.2080.150
Pro0.4080.4080.2141.0000.2790.1580.3120.3120.4110.4110.2650.3830.4660.4690.3440.3120.2140.2130.1890.135
Ala0.5560.5560.5120.2791.0000.4800.3920.3920.3330.3330.2860.2470.3330.3920.4310.4310.5120.2470.2150.167
Gly0.3870.3870.3160.1580.4801.0000.3480.3910.3270.2910.2150.1580.2550.2610.2610.2610.3160.1840.1590.104
Asn0.5260.5260.3750.3120.3920.3481.0000.7780.5190.5680.4620.3140.3950.4170.3610.4440.3750.4120.3680.170
Asp0.5260.5260.4060.3120.3920.3910.7781.0000.5190.4440.4620.2940.3700.4170.3890.4170.4060.4120.4040.156
Glu0.4550.4550.2740.4110.3330.3270.5190.5191.0000.8000.3200.3960.4670.5190.3950.4440.2740.2880.2760.227
Gln0.4550.4550.2740.4110.3330.2910.5680.4440.8001.0000.3200.4320.5110.5190.3950.4200.2740.2880.2600.240
His0.3950.3950.2650.2650.2860.2150.4620.4620.3200.3201.0000.3470.3000.3300.2640.3300.2650.5950.5410.275
Arg0.3450.3450.2130.3830.2470.1580.3140.2940.3960.4320.3471.0000.5770.4120.3140.2940.2130.2270.3060.199
Lys0.4550.4550.2740.4660.3330.2550.3950.3700.4670.5110.3000.5771.0000.5190.3950.3700.2740.2700.3090.213
Met0.5260.5260.3120.4690.3920.2610.4170.4170.5190.5190.3300.4120.5191.0000.4720.4440.3120.2940.2630.156
Ile0.3860.3860.6560.3440.4310.2610.3610.3890.3950.3950.2640.3140.3950.4721.0000.5000.6880.2350.2110.142
Leu0.5260.5260.3440.3120.4310.2610.4440.4170.4440.4200.3300.2940.3700.4440.5001.0000.4060.2940.2630.170
Val0.4080.4080.7500.2140.5120.3160.3750.4060.2740.2740.2650.2130.2740.3120.6880.4061.0000.2340.2080.150
Phe0.3450.3450.2340.2130.2470.1840.4120.4120.2880.2880.5950.2270.2700.2940.2350.2940.2341.0000.7640.409
Tyr0.3030.3030.2080.1890.2150.1590.3680.4040.2760.2600.5410.3060.3090.2630.2110.2630.2080.7641.0000.339
Trp0.1750.1750.1500.1350.1670.1040.1700.1560.2270.2400.2750.1990.2130.1560.1420.1700.1500.4090.3391.000

利用可能なフィンガープリント

このセクションは,Python 上で RDKit により計算しています.オリジナルのドキュメント,The RDKit Documentation — The RDKit 2023.09.3 documentation を挙げておきます.このなかにフィンガープリントの計算法も紹介されています.
RDKit のメソッドには,覚えきれないほどのオプションがあります.頻繁に使うのでなければ,都度 Python API Reference — The RDKit 2023.09.4 documentation を参照すればよさそうです.

上記ドキュメント以外にも,Web 上には素晴らしい独自ドキュメントが見つかります.
フィンガープリントの例をいくつか挙げておきます.


物理化学的な性質によるアミノ酸の表現

このセクションでは,以下のデータを一覧表にまとめたところまで進みました.

データはまだまだ蓄積できそうです.
単独の物理化学的性質でもタンパク質の着色に使えそうです.
いくつかの性質例えば,大きさと静電的性質を結合すれば,アミノ酸置換行列の代替物が作成できるかもしれません.

PubChem から入手したデータ

これらの値は,PubChem から入手しました.計算値には上付き (a) を,測定値には上付き (b) を付けてあります.
述語の意味は,Glossary - PubChem に書いてあります.

極性表面積をみると,Ala,Gly,Ile,Leu,Phe,および Val が同じ値 63.3 で,Pro が最小値49.3 となっています.これらは主鎖の値とみなせるかもしれません.

回転可能結合数とは,分子から水素と水素の共有結合を除き,残りの共有結合数から,末端の共有結合数,環を成す共有結合数,およびアミド C-N 結合数を除いた残りの数とのことです.
分子の「ぐにゃぐにゃ度」を表す指標と言えそうです.Gly,Ala,および Pro の値が 1 であるのは,Cα-C 結合のみ残るからです.

Tyr の pKa3 は,フェノール性ヒドロキシ基の値です.

-AlaArgAsnAspCysGlnGluGlyHisIleLeuLysMetPheProSerThrTrpTyrVal
分子量(a)89.09174.2132.12133.1121.16146.14147.1375.07155.15131.17131.17146.19149.21165.19115.13105.09119.12204.22181.19117.15
XLogP3(a)-3-4.2-3.4-2.8-2.5-3.1-3.7-3.2-3.2-1.7-1.5-3-1.9-1.5-2.5-3.1-2.9-1.1-2.3-2.3
極性表面積(a)63.312810610164.310610163.39263.363.389.388.663.349.383.683.679.183.663.3
complexity(a)61.817613413375.314614542.91511031011069715310372.693.324517690.4
水素結合供与体数(a)24333332322322233332
水素結合受容体数(a)34454453433443344343
回転可能結合数(a)15332441333543122332
溶解度(b)16418229.45.3927741.38.5724945.634.421.5100056.626.9162.04259713.40.47958.5
LogP(b)-2.85-4.2-3.82-3.89-2.49-3.64-3.69-3.21-3.32-1.7-1.52-3.05-1.87-1.38-2.54-3.07-2.94-1.06-2.26-2.26
pKa1(b)2.342.182.021.921.712.172.192.341.782.362.382.182.281.83-2.212.632.382.202.30
pKa2(b)9.699.098.803.878.33 9.134.259.605.979.689.618.959.219.13-9.1510.43 9.399.11-
pKa3(b)-13.2-9.8710.78-9.67-8.97--10.53------10.07-

密度汎関数法による計算値

分子モデル

計算に使った分子モデルは,Builcule で作成しました.
計算は PSi4 を使いました.PSI4 の練習記録が [科学ツールの導入] ディレクトリに置いてあります.
側鎖のみの値を得るために,主鎖のアミノ基およびカルボキシル基を水素に置き換えています.ただし,Gly の値も計算したいので,α 炭素を残しました.
つまり,Gly はメタンの Ala はエタンの計算値ということになります.また,Pro は,n-ブタンの計算値を充てています.

計算条件

-AlaArgAsnAspCysGlnGluGlyHisIleLeuLysMetPheProSerThrTrpTyrVal
双極子(非解離型)0.0003.0723.5891.6721.8283.4914.1350.0003.8720.0610.0601.5051.7900.2800.0001.6741.6162.0771.3540.085
双極子(解離型)-7.809-5.210--7.501-3.821--11.657--------
HOMO(非解離型)-0.340-0.222-0.244-0.271-0.235-0.244-0.271-0.389-0.215-0.309-0.309-0.227-0.215-0.236-0.318-0.263-0.261-0.193-0.211-0.318
HOMO(解離型)--0.439--0.038---0.040--0.432---0.440--------
LUMO-HOMO(非解離型)0.4450.2830.2770.2800.2630.2770.3890.5070.2490.3950.3950.3100.2620.2410.4120.3390.3350.1920.2350.404
LUMO-HOMO(解離型)-0.284-0.169--0.151-0.233--0.272-------