ホモロジーモデリングによるタンパク質立体構造予測
タンパク質が関わる機能には、発生や分化などの組織や細胞レベルのものから、糖鎖の加水分解やホルモンの認識などの分子レベルのものまで様々なレベルのものがあります。この中で、触媒反応や分子認識などのいわゆる生化学的な機能は、そのタンパク質がとる立体構造と密接に関係しています。
筋肉中で酸素を貯蔵する分子であるミオグロビンから始まってこれまでに、様々なタンパク質の立体構造決定されています。立体構造がわかることにより、そのタンパク質において生化学的な機能がどのようなメカニズムにより生じているかが明らかになったという例が多数存在します。また、特定のタンパク質を標的とした医薬を設計する際にも、そのタンパク質の立体構造情報を使ってコンピュータ上で候補化合物を探すことが広く行われています。
このようにタンパク質の立体構造情報は非常に有用ですが、個々のタンパク質の立体構造を実験的に決定することは手間のかかる仕事です。近年X線結晶解析やクライオ電子顕微鏡の技術改良が進み、実験によって決定される立体構造の数は急速に増えてきてはいますが、それでもその数は構成するアミノ酸の並び(アミノ酸配列)がわかっているタンパク質の数に比べるとまだまだ少ないのが現状です。
タンパク質がどのような立体構造を形成するかは、基本的にそのタンパク質を構成しているアミノ酸配列だけで物理化学的に決まると考えられています。そのため原理的には、アミノ酸配列が与えられれば物理化学的な計算に基づいて立体構造を予測できるはずです。
しかし、タンパク質がとる可能性のある立体構造の数は、単純に考えるとそのタンパク質を構成している個々のアミノ酸がとれる構造の数の組み合わせであり、非常に膨大な数になってしまいます。その中から物理化学的な計算を使って正しい立体構造を選び出すには大きな計算コストがかかります。
近年では、データベースに蓄積した立体構造情報とアミノ酸配列情報をディープラーニング技術によって学習することで、人工知能(AI)により立体構造を予測することができるようになっています。特に2020年には、DeepMind社が開発したAlphaFold2が、立体構造の予測コンテストCASP14において他の方法を圧倒する精度で立体構造を予測したことが話題となりました。
AlphaFold2のようなAIを使った立体構造予測が作られる前によく使われていた立体構造予測法が「ホモロジーモデリング法」です。ホモロジーモデリング法は、物理化学計算のみによる予測だけでなくAlによる予測に比べても計算コストがかからないにも関わらず、タンパク質によっては高い精度で立体構造を予測することが可能な方法です。
塩生研ではこれまで、本学の構造生物学研究室との共同研究で、SARS-CoV-2のタンパク質と治療薬の候補となりうる分子との複合体構造をホモロジーモデリングにより推定して報告しています(Hijikata et al. 2020)。また、愛知医科大学との共同研究において、コンドロイチン硫酸合成酵素のスプライシングアイソフォームの機能の差異についてホモロジーモデリングにより推定した構造に基づいた考察を報告しています(Ogawa et al. 2010)
ドッキングによるタンパク質の構造予測
タンパク質が機能する際は、他の分子と複合体を形成する場合がほとんどです。特に、タンパク質どうしで複合体を形成することが多くあります。
タンパク質どうしの複合体は大きく2種類に分類することができ、1つは生体内で基本的に常に複合体を形成しているものであり、もう1つは機能する時にだけ一時的に複合体を形成するものです。特に後者は複合体が不安定なため立体構造の決定が難しく、複合体構造がわかっていないものが多く存在します。
そのようなタンパク質の複合体構造を、個々のタンパク質の立体構造を用いて予測する方法がタンパク質ドッキングです。タンパク質ドッキングは、ホモロジーモデリングのように既知の複合体構造を参考にして個々のタンパク質を配置することで複合体構造を予測するもの(ホモロジードッキング)と、個々のタンパク質の形状に基づいて複合体形成しやすい配置を0から探索するもの(アブイニシオドッキング)の2種類があります。
塩生研では、サントリー生命科学財団および本学の構造生物学研究室との共同研究において、イモリの肢の再生を制御するタンパク質が膜上でどのように会合しているかをアブイニシオドッキングを用いて予測し、報告しました(Nomura et al. 2017)。また、本学の構造生物学研究室および東北大学との共同研究において、真珠貝の真珠層の形成に関与するタンパク質と真珠成分のカルサイトの結合様式をタンパク質のアブイニシオドッキングの手法を応用して予測し、報告しています(Nakae et al. 2018)。
100〜200個のアミノ酸から作られている水に溶けるタンパク質は、表面が水になじみやすい親水性のアミノ酸から、内部は水になじみにくい疎水性のアミノ酸からできていて、基本的に球状の形をしています。このようなタンパク質は球状タンパク質と呼ばれています。
これまでに知られているタンパク質の中で、最も多くのアミノ酸で構成されるタンパク質は、ヒトなどが持つTitinで、3万個以上のアミノ酸からできています。このようなタンパク質の場合、3万個のアミノ酸残基全体で球状をしてはおらず、100〜200残基程度の「球状ドメイン」と呼ばれる構造がたくさんつながっています。
Titinの例の様に、ヒトをはじめとする高等真核生物由来のタンパク質は、タンパク質が平均的に大きく、その多くが複数の球状ドメインからなるマルチドメインタンパク質です。マルチドメインタンパク質は実験的に扱いが難しいため、機能的に重要なドメインを切り出してX線結晶解析やNMRなどで立体構造が決定されることが非常に多くあります。このようなことができるのは、球状ドメインがそれ単体でも安定な立体構造を作ることができ、そのドメインが担う生化学的な機能も保持されていることが多いためです。
球状ドメインを切り出して立体構造が決められても有用な情報を得ることはできますが、タンパク質全体の生化学的機能は、各球状ドメインがどのような空間的配置にあり、各球状ドメインの持つ機能部位がどのような位置関係にあるかを知ることが重要になります。そこで、塩生研では、個々のドメイン構造(実験的に決められたもの、もしくは、ホモロジーモデリングなどの構造予測法により推定されたもの)をタンパク質のアブイニシオドッキングの手法によりドッキングさせてドメインがつながった状態の構造を予測する方法を開発して報告しています(Hirako and Shionyu, 2012)。
なお、現在はクライオ電子顕微鏡の性能が向上し、マルチドメインタンパク質全体の立体構造が原子分解能で決定できる例も増えています。また、AlphaFold2は、個々のドメインの立体構造を予測するだけでなく、1000残基程度の大きさのマルチドメインタンパク質の構造も精度良く推定できる場合があることが示されています。