BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や...

17
BIOVIA MATERIALS STUDIO アプリケーションガイド QSAR

Transcript of BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や...

Page 1: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

BIOVIA MATERIALS STUDIOアプリケーションガイド

QSAR

Page 2: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

はじめに発見を支援する強力な研究ツールBIOVIA社のQSAR (定量的構造活性相関) はモデリングやシミュレーションをPC上で実現する先進ソフトウェア;BIOVIA Materials Studio を介して利用することができます1。QSARは既存のデータセットの中からパターンと相関を見出す手法です。相関は、構造上の特徴を物質中で観測される性質と結びつけるモデルを構築するために用いられます。後にこれらのモデルは、例えば高分子や表面、分子結晶や無機結晶、ゼオライトの一連の物質や分子の性質を予測するのに用いられます。1868年にCrum BrownとFranzerにより、化学組成と生理活性の間に定量的な相関があることが初めて発表されました2。1960年代初頭にはCorwin Hansch 教授によって生物学的な系に応用され、これを理解する上での手がかりになりました。この方法は、生物学的な系において生物学的な分子の構造がどのようにその活性を決定付けているのか更に簡単に説明するQSAR(定量的構造活性相関)と改めて呼ばれるようになりました。今や40年以上の間、QSARは生化学的にも化学的にも発見へのプロセスにおいて重要な手法であり、研究者が有望な新規標的分子の速やかなスクリーニングを可能にする予測モデルを構築することを可能にしました。今日の計算機能力と有効かつ進歩的な統計学的なアルゴリズムにより、標準的なPC上で簡単に利用できるQSARソフトウェアを用いて、複数の要因に依存した複雑な特性を予測することが可能になりました。さらに、この手法をコンピューター上で行うことにより、研究者は化学的な現象をよりよく理解できる高性能な仮想実験を行うことができます。BIOVIA社のQSARでは構造解析や特性モデルの構築、およびGFAアルゴリズムを用いた候補化合物の予測特性の迅速な推定が可能であり、これは最先端な物質や化学の探索研究における一つの解決法です3。このような計算機モデリング・シミュレーションおよび解析ツールは標的を絞った探索や解決手法に基づくR&Dにおいて非常に価値ある手法となります。QSARは企業における探索研究において、分子のどの構造や電子的な特性が活性に寄与しているのか?また、この活性を向上させるためには何を変えれば良いのか?という基本的で重要な二つの問題に対応できます。Lubrizol社の Douglas Barr博士は、QSARは「基本的な理解を向上させ、より良い解決法を導き出し」だからこそ課題のパラメータを実質的に理解する上で計り知れないほど貴重であり、「試験の実施可能性やコストが厳しく制限されるような商業分野で、自信を持って“仮想実験に”着手することができるようになる。」と明言しています4。従来は、手間と時間のかかる実験が新規分子の発見の手段であり、そのために市場に新しい製品を送り出すことが滞りがちであったでしょう。Continental Tireの Michael Yorkは「実験は人手と試薬と装置とエネルギーと時間がかかる。計算化学は一人のオペレータで一日24時間、多様な化学反応を行うことを可能にした。結果的に実験コストと工数を大幅に引き下げることができる」と述べています。計算機ツールを用いることで,研究者は費用のかかる実験をする前に “in silico“ に最適な物理化学特性を持つ化合物を特定することが可能になりました。これは時間と費用の両方を節約することになり、実験を始める前に劣った候補化合物を切り捨てることが出来るようになります。計算機ツールを整備・利用した場合にもたらされる投資利益率は、科学的研究プロセスの強化と言った面よりむしろ重要なポイントとなります。最近の企業の技術投資に関する文献によれば、IT市

場の情報活動の専門機関であるIDCは、モデリングやシミュレーションソフトウェアを従来の実験研究に組み合わせて活用する事から得られる投資利益は極めて大きいと結論付けています。彼らは累積の投資利益率は、これらのツールと専門家に対する投資1ドルあたり約3ドルから9ドルであると示しています。Continental Tireはソフトウェアとハードウェアに対する初期投資を,計算機ツールを用いた工業的プロセスの解決により12ヶ月以内に回収することができました5。このような幅広い支持と利用により、QSARの理論的仕組みは面白い発展局面に入りつつあります。使用可能で有用な記述子のリストが次々と拡張されており、既に以前より、分子を単に二次元の記述子で取り扱っていた頃とは比べ物にならないほどに進歩しています。BIOVIAのQSARツールキットは今やHOMO/LUMOエネルギーや個々の原子電荷のような量子的要素を含んでおり、研究者が分子を調査したり理解したりする上での更に強力なツールとなっています。このアプリケーションガイドは多くのQSAR成功例の一握りを例示するだけですが、この手法があらゆる研究者の研究ツール群に強力な一員を加えるものであることを示します。QSARは今や問題解決、製品の革新、コスト削減などの面で別格に位置する有用なツールと言えます。

参考文献1. Materials Studioに関するより詳細な資料は, www.accelrys.com のMS Modeling及び

QSARの項目を参照下さい。2. Crum Brown, A., and Frazer,T.,Transactions of the Royal Society of Edinburgh, 25,

151-203 (1868-9).

3. Rogers, D. and Hopfinger, A. J., “Application of Genetic Function Approximation

to Quantative Structure Activity Relationships and Quantative Structure Property

Relationships”, J. Chem. Inf. Comp. Sci., 1994, 34, 854-866

4. Statistical Innovation at the Lubrizol Company - an Interview with Dr Douglas

Barr,Technology Manager, Engine Oils, The Lubrizol Corp.

5. Modeling at Continental Tire - an Interview with Michael York

6. Swenson, M., Languell, M., and Golden, J., Modeling and Simulation: the Return on

Investment in Materials Science, 2004 (white paper)

Page 3: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

OHPフィルム用コーティング剤のQSAR研究カラーレーザー・プリンタや固体インクジェット・プリンタに用いられる透明フィルムは、米国3M社の主力商品です。この研究の科学的なねらいは、インクの染みをきれいに捕捉し、所定の位置にしっかりと定着させ、インク周辺における光線の拡散を最小限に抑えることができるコーティングを開発することです。3Mには日常的に使用しているコーティングがかなりの数あり、それぞれに関する実験情報も数多くあるため、フィルムの散乱および吸収特性に影響を及ぼす分子の特性の解析にQSAR(定量的構造活性相関法)ツールを用いるのは自然な流れでした。データセットの導出には,BIOVIAのQSARモジュールに実装されたロジャーの遺伝的アルゴリズム(GFA)が使われました。

分子の特性分析に最適のツールGFAでは、決定的な記述子が次世代の関係へと受け継がれ、重要でない分子の特性は淘汰され、次々と進化したデータセットを益々正確なものにします。最終結果は、望ましい分子活性がいくつかの記述子の複雑な関数として表現された数学的な記述となります。その結果得られた関係を使い、候補となるコーティング剤を予測的に選別したり、適切な材料の種類を提示することができます。さらに、分子のどの特性が重要であるかという知識を、将来的な開発の指針として用いることもできます。最初の作業は、性能あるいは有効度指数として働く特性を決定することでした。Qファクター(光の散乱の尺度)および「線消去長さ」(コーティングとフィルムの接着の尺度)の二つが選ばれました。これらの量は、透明化技術では非常に重要なもので、実験で測定し、有効度指数として理想的に選択することができます。

革新的 コーティング剤の発見と製造コーティング材料の品質を判断するのに役立つことが証明された記述子には、コーティング分子の表面における電荷分布および全極性表面積が含まれました。良い相関が見られましたが、線消去の長さについては使用するプリンタによって実験値が著しく異なるため、同じプリンタでフィルムを染色しなければ予測値と実験値が一致しないことが分かりました。3M社のQSAR式は競合製品の分析に用いられており、特にこのような比較は時間の問題であるため3M社は市場での競争に有利になっています。また候補コーティング剤はQSAR式でその実現可能性を素早く予測して選別され、必要な実験

回数を減らすことになります。

参考文献1. Rogers, D. and Hopfinger, A.J.,“Application of Genetic Function Approximation to

Quantitative Structure Activity Relationships and Quantitative Structure Property

Relationships,” J. Chem. Inf. Comp. Sci., 1994, 34, 854-866.

Organization3M社,米国

図1この画像はトナー粒子がフィルムのコーティングと相互に作用する様子を示したものです。上に示す不活性コーティングでは、不要な光の散乱原因となっています。下に示す活性コーティングでは、インクが吸収されて光の散乱が抑えられるため、よりくっきりした画像が得られます。

図2.このグラフは、線消去の長さをQSAR表示した場合の精度を表しています。長さの実験値と予想値には密接な相関があります。

Page 4: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

白檀香のQSARモデリングウィーン大学の研究者達はノースカロライナ大学と共同し、BIOVIAのソフトウエアを活用した広範囲の不整α-カンフォレン誘導体の香り特性の研究を実施しました1。不整は自然界にはしばしば見られるものですが、異なる不整エナンチオマー分子は非常に異なった物性を示すものです。例えば白檀香を有するα-カンフォレン誘導体であるはMadrolは、単離されたエナンチオ構造に依存して白檀香やミルク香を発します。

エナンチオマーの分子構造と白檀香との相関この研究ではQSAR手法を用いて種々のエナンチオマーの構造とその白檀香との関係が解析されました。44種のカンフォレニックが研究対象に選ばれ、ここからランダムに38種がトレーニングセットとして、残りの化合物はテストセットとして選ばれました。これらの誘導体は12の共通する殻構造をもち、それぞれの殻に5種の置換基を持つものです。一番の課題はどの香りの特性を予測に用いるかと言うことでした。と言うのは情報がそれぞれ別個の測定法を用いた、異なった起源をもつからです。結局2つのスケールを作り出しましたが、一つは等間隔のスケールで他の一つはより分布が一様になるような非等間隔スケールです。QSARモデルはleave-one-out交差検定を伴った多重線形回帰(MLR)法で求めました。分子記述子が計算され関係のあるものが相関解析により選択されました。解析により3化合物が異常種と分かりトレーニングセットからは除外されました。

同じ6種の記述子が2つのモデルとスケールに対して適用されました。しかしながら、スケール2・・不均一スケール・・のモデルがスケール1を用いたものより良い予測性があることが分かりました。これは統計的な解析により分かったことですが、モデル1はRo2が0.86、Ro’2が0.86であるのに対し、モデル2ではそれぞれ0.95および0.94でした。この研究は置換基が重要だと言うことも示しました。例えば、親油性の置換基と官能化メチル基間の相互作用が白檀香を発現すると言うことです。さらに、5員環上の置換基に関係する記述子がモデル1にもモデル2にも現れていることです。このことはメチル基の数と位置が重要であることを示しています。

この研究によりQSAR手法が香りの予測のための正確なモデル作成に使えることが示されました。また、将来の白檀香誘導体の最適化に役立つ、香りの発現に対する置換基の役目に関する情報が得られました。

参考文献1. A Kovatcheva, G. Buchbauer, A. Golbraikh, P.Welshman, 'QSAR Modeling of

Campholenic Derivatives with Sandalwood Odor', J. Chem. Inf. Comput. Sci. 2003, 43,

259-266

OrganizationVienna大学North Carolina大学

図1. この画像はトナー粒子がフィルムのコーティングと相互に作用する様子を示したものです。上に示す不活性コーティングでは、不要な光の散乱原因となっています。下に示す活性コーティングでは、インクが吸収されて光の散乱が抑えられるため、よりくっきりした画像が得られます。

表1.香り強度の序列化に用いられたスケール。スケール2は弱-強-平均間の差を大きくするために導入されました。

Page 5: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

一連の界面活性剤の臨界ミセル濃度の決定この原子論的なQSAR研究は、分子ダイバーシティ設計の利点と、確固とした予測のできる方程式を作るための原子論的記述子の使用について示しています。

GFAの活用による異なるタイプの界面活性剤向け 強力QSARモデルニュージャージー州エッジウォーターのナショナルスターチ社(旧ユニリーバ・リサーチ)から、界面活性剤に関する研究が発表されました。この研究で、彼らは臨界ミセル濃度(CMC)の予測を試みています。彼らは、CMCの適当な基準として、オクタノール水分配係数を割り出しました。彼らの研究では、適当な精度でCMCを予測することはできましたが、2つの欠点があったことが示されています。第1に、用いた記述子が総合的な分子双極子モーメントと全分子容であったことです。第2に、会社のデータベースから選ばれた化学物質の試験セットが、予想に使うのに適当なものではなかったことです。BIOVIAの科学者達は、C2・Vizualiserを用いて界面活性剤分子群の分子モデルを構築しました。次にこれらを最小化し、Qeq法を用いて電荷を決定しました。さらに、それらをQSARスプレッドシートに入力し、記述子の拡張範囲を計算しました。記述子には、バラバン指数、形状と容積のためのジャース指数、拡張したKier & Hallセット(5番目のオーダーまでインデックスを付けた)が含まれていました。そして、エクセルのファイルからデータを変換して取り込み、遺伝的アルゴリズムを使った非線状モデルと一次スプラインモデルを使用して回帰分析を行いました。GFAは、データセットの中で正確に電荷特性を同定しましたが、双極子記述子が低くなってしまいました。これは、データがもともと3つの領域からなることを示しています。領域の範囲は、記述子塩基度に依存したものでした。この記述子は準経験則を使って計算された量子力学的電荷から導き出されます。更なる分析によって、このデータセットにおいて分子群が3つのクラスに及んでいたこと、この観測された分離挙動は分子群の化学を反映するものであったことが確認されました。これはユニリーバ社、プロクター&ギャンブル社、シェル社、BASF社、およびヘキスト社などの界面活性剤メーカーによって行われた研究の典型的なものです。

OrganizationNational Starch (旧Unilever Research)

図1.異なるタイプの界面活性剤の挙動を表す一つのモデル

Page 6: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

合成ポリマーの多様化および 集中化コンビナトリアルライブラリーの設計コンビナトリアル・スクリーニング用の医薬化合物の合成ライブラリを設計するためにコンピュータ技術が広く使われています。使用される技術は、生物活性を解析して多様化ライブラリまたは焦点化ライブラリを作るためのQSAR技術を利用した分子ダイバーシティ、分子類似性です。

ポリマーの集中化ライブラリ-の設計ローム・アンド・ハース社のCharles Reynolds氏は、高分子の一群を解析するために、上記と同じ技法を使用しました1

。同氏が使用した高分子のセットは、Brocchini氏らの高分子ライブラリ2,3で、これはコンビナトリアル手法を用いた合成高分子の小規模ライブラリーの並列合成の最初の実例の1つです。Reynolds氏は、仮想ライブラリを列挙するためにBIOVIAのソフトウェアパッケージを使用しました。同氏は、共重合体の多様化ライブラリおよび集中化ライブラリを設計するために、BIOVIAで用いられている方法から誘導された、確率的クラスタ分析4(およびQSARモジュールのGFAと連携させた遺伝的アルゴリズム駆動QSPR5,4)を使用しました。Reynolds氏は、ライブラリーを設計するために生物活性を使う代わりに共重合体の物性値を使いました。これらはガラス転移温度、Tg、および親水性の尺度である空気・水-接触角ですが、共に崩壊性バイオ材料用のポリマーの性能予測に重要な物性です。112の縮合ポリマー全ライブラリーから17の選択ライブラリーを選ぶためにトポロジカル記述子と確率的多様化法を使いました。この小さな選択ライブラリーが以降のQSARモデルの作成に使われました。選択ライブラリーのTg、CAの実験データがQSARのトレーニングセットとして使われ、その後QSARモデルが全データセット中の残りのポリマーのTgとCAを計算するのに使われました。これらのQSARモデルはTgとCAの特定の組み合わせを持つポリマーの集中化ライブラリーを作成するのに利用できます。集中化ライブラリーの二つの例は、高Tg/低CA群 (Tg計算値が60-80℃、CA計算値が60-80°)と低Tg/高CA群 (Tg計算値;0-20℃,CA計算値;80-100°)で、これらは図4に示されています。集中化ライブラリーの成功度合いを評価する一方法として、合成、評価されたポリマーに対してヒット数を計算する方法があります。結果は印象的なものでした:• 低Tg-高CA集中化ライブラリーでは、25評価ポリマー(選択ライブラリーの17種と集中化ライブラリーの8種)中ヒット数は5。

• 比較として、112候補ポリマーの全ライブラリ-から25ポリマーをランダムにテストした場合は、全ラーブラリー中、Tg、CAの両条件を満足するポリマーとしてわずか2 ヒットしか期待できない。

Reynols氏は、生物活性な低分子化合物の設計に有用性が証明されている類似性と多様性の概念が、合成ポリマーの設計にもうまく利用できることを見いだしました。

OrganizationRohom and Haas, USA

図1.合成ポリマーライブラリーのコンビナトリアル合成

図2,TgのQSAR相関。赤い点は多様化トレーニングセット化合物を示す。

図3.CAのQSARモデル。. 赤い点は多様化トレーニングセット化合物を示す。

図4.TgとCA QSARモデルを使い選ばれた焦点化ライブラリ。 赤の四角および青の点は,実験で得られたTg-CA分布空間における集中化ライブラリーとして選ばれた化合物を示す。

Page 7: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

参考文献1. Charles H Reynolds, “Designing Diverse and Focused Combinatorial Libraries of

Synthetic Polymers”J. Comb. Chem., 1999, I, 297-206

2. Brocchini S., James K., Tangpasuthadol V, Kohn J, “A Combinatorial Approach for

Polymer Design”, J. Am. Chem. Soc., 1997, 119, 4553-4554.

3. Brocchini S., James K., Tangpasuthadol V, Kohn J, “Structure-Property Correlations in

a combinatorial library of degradable biomaterials”, J. Biomed. Mater. Res., 1998, 42,

66-75.

4. Reynolds, C. H.; Druker, R.; Pfahler, L. B. “Lead Discovery Using Stochastic Cluster

Analysis (SCA): A New Method for Clustering Structurally Similar Compounds”J.

Chem. Inf. Comput. Sci. 1998, 38, 305-312.

5. Rogers D, Hopfinger A J, “Application of Genetic Functional Approximation to

Quantitative Structure- Activity Relationships and Quantitative Structure- Property

Relationships”J. Chem. Inf. Comput. Sci., 1994, 34, 854-66.

Page 8: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

自動車タイヤの物理特性の解析とQSARモデル自動車タイヤを構成する予測方程式を計算してタイヤの総合特性を最適化するために、BIOVIAのQSARソフトウェアが用いられました。

物理特性と複雑な因子間の相関の決定自動車タイヤを構成する予測方程式を計算してタイヤの総合特性を最適化するために、BIOVIAのQSARソフトウェアが用いられました。自動車のタイヤは通常、架橋ブタジエンゴム、充填剤(二酸化珪素基剤が増えている)、アクリル高分子化合物、カーボン・ブラック、および架橋剤、ゲル化促進剤、およびオゾン耐性剤などの様々な微量成分が複雑に組み合わさって構成されています。タイヤの設計では、様々な環境や負荷(自動車、軽トラックおよびスポーツ汎用車)に対して、ある一定範囲の性能を満足することが求められます。

タイヤは使用環境での劣化に耐えることができなければなりませんが、使用後に廃棄物として問題とならないようにもしなければなりません。一連の実験は、モンサントのナイロン・グループに勤務しているAndy Coran氏とStan Lee氏が行いました。この実験は、アメリカのゼネラル・タイヤと共同で行われました。実験計画法(単純な全実施要因計画)は、3つの構成要素がそれぞれ5水準になるよう開発されています。この実験では、3水準の可塑剤(ジオクチル・アジペート DOA)、3水準のアクリレートゴム(ACR)および3水準のニトリルブチルゴム(NBR)を設定しました。その後、修正された一部実施要因計画の実験を実施しました。その結果、14バッチのポリマー(13個は別個で1つは複製)になりました。その後このシステムに加硫し、機械的特性を試験しました。試験したのは、ヤング率、最大抗張力、ならびにオゾン劣化や熱膨張係数など、いくつかの摩耗特性を含む様々な物理的特性でした。元々の分析では、多重直線回帰法を用いてモデルの組成と物理的特性の関係を判断しました。この分析では新しい組成パラメータが追加され、構成要素の相乗効果が示されました。この事例では、BIOVIAの研究者たちはこれら主要変数の組み合わせを示す変数を構築し、物理的観測結果と非直線的な関係があるかどうかを分析しました。これらの観測結果には、ヤング率や最大抗張力だけでなく、より複雑な時間の関数であるオゾン劣化率などのマクロ的現象も含まれていました。

この研究では、遺伝的関数近似(GFA)回帰を実施した後に、完全な相互検証分析が行われました。2つの方法、すなわち多重直線回帰と直線および非直線モデルに対する遺伝的関数から得られた結果を、ショア硬度、オゾン劣化および最大抗張力について比較しました。GFAの解からは、「オゾン劣化」のデータセットを非常によく説明できる簡単な4項の関数が見つかりました。GFAの解は、システムの全特性に対するXVR2の許容値を用いて識別することができました。オゾン劣化の様な特性は同時に作用し結果を左右する色々な要因に依存し、その改良は昔から費用と時間のかかるものでした。コンピューターソフトウエアを利用し、特性値とそれに複合的に影響する因子群間の関係を決定することで非常に多くの実験と研究資源が節約できるようになります。GFAで構築されたモデルを使うことにより将来の実験を理論的に成果が見込まれた方向に目標設定することを可能にします。Continental Tire社では同様なソフトウエアを活用することにより年間150万ドルの節減を見込んでいます。

OrganizationMonsanto General Tire Corp.

Page 9: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

Lubrizol社におけるエンジン潤滑油のQSAR最適化コンビナトリアル・スクリーニング用の医薬化合物の合成ライブラリを設計するためにコンピュータ技術が広く使われています。使用される技術は、生物活性を解析して多様化ライブラリまたは焦点化ライブラリを作るためのQSAR技術を利用した分子ダイバーシティ、分子類似性です。Lubrizol (www.Lubrizol.com) の研究者たちはエンジン潤滑油の性能の研究と最適化に定量的構造活性相関(QSAR)の手法を用いました。この手法により、他のモデリングテクニックでは解決できなかった新規トラクション流体の活性予測を行い、改善された新しい潤滑油を設計しました。時間と資源の節約のため、公開されている実験的な試験がQSARモデルの構築に用いられました。トロイダル変速機がエンジンで効率よく稼動するためにはトラクション流体がシステムを潤滑することが必要です。もっとも有効なトラクション流体はすべりを防ぎ、変速機から最大の力を引き出すことができるために高いトラクション係数が要求されます。トラクション流体は基材油と添加剤の組成物です。トラクション係数は基材油に固有の特性ですが、酸化防止剤や分散剤のような添加剤により性能が向上するように調整することができます。

トラクション流体係数は、金属板とボールの間に流体を置いた小型のトラクション装置を用いて測定され、係数が計算されます。これは長い時間がかかる試験であり、新しいトラクション流体の開発にかかる時間を抑えるのには試験の数を最小限に抑えることが重要です。油およびガス新しい改良潤滑油の設計量子力学や古典力学のような従来のモデリング手法をこれらの系に用いることは挑戦的な試みでした。Lubrizol社はこの問題の解決のためにQSARテクニックを採用しました。QSARは、この場合トラクション流体係数のような既知の実験データと計算された記述子との間に数学的な相関、すなわちモデルを生成します。分子の表面積のような分子記述子や処方データのような、種々なものが記述子となり得ます。ひとたび良いモデルが得られれば新しい分子セットの活性予測に利用することができます。

既に報告されていた結果から21分子のトラクション係数を入手しました。Lubrizol社はこれらの結果を利用したので、この仕事を始める前に測定試験を行なう必要は全く有りませんでした。これらはモデルとテスト分子セットの構築のためにトレーニングセット中に取り込まれました。テスト分子セットは「このモデルはトレーニングセット外の分子についても予測可能であるだろうか?」という問いに答えるようにモデルの検証に使われます。

予測可能な回帰モデルを構築するためにLubrizol社はBIOVIA社の Generic Function Approximation (GFA) 法を用いました。GFA法は最も良い記述子を選別するために自然淘汰の技術を用いる進化したアルゴリズムです。GFAは多くの選択肢の中からいくつかの最も重要な記述子を選択出来るので、このことは重要なことです。Lubrizol社は卓越したr2値を持つ数種のモデルを構築するためにGFAを用い、r2値の交差検定を実施しました。r2値が0.98の最も良い式では、Jurs3, Shadow indices4や分子屈折5の記述子が含まれていました。これらの記述子は全て、化学者たちが直感的にトラクション流体の設計に重要であると感じていた分子の形や柔軟性に関するものです。

このモデルはその後テストセットから選んだ3分子のトラクション係数の予測に用いられました。三分子の予測値と実験値は上に示す通り、非常によく一致しています。

OrganizationRohom and Haas, USA

図1.合トレーニングセットのトラクション係数の実験地、予測の相関

図2.テストセットの分子の一例

表1. 3つのテスト分子でのトラクション係数の予測値と実験値

Page 10: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

参考文献1. M. P. Dare-Edwards; Synth. Lubr., 1991, 8(3), 197

2. Rogers, D. and Hopfinger, A.J., "Application of Genetic Function Approximation to

Quantitative Structure Activity Relationships and Quantitative Structure Property

Relationships," J. Chem. Inf. Comp. Sci., 1994, 34, 854-866.

3. Stanton D., Jurs P., Anal. Chem. 1990, 62, 2323

4. Roxburgh, Jurs, Anal. Chim. Acta., 1987, 199, 99

5. Leffler,J.E.;Grunwald,E.,Rates and Equilibrium Constants of Organic Reactions,

JohnWiley & Sons,NewYork (1963)

Page 11: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

油田での腐食防止剤のQSAR解析トラビスケミカルズ社の科学者たちは、油田侵食阻害剤の活性予測にマテリアル・サイエンスにおけるQSAR法を応用するために、BIOVIA社のCerius2ソフトウェアを使用しています。油田侵食阻害剤の侵食保護能の測定に利用するインピーダンスデータを解析するために、QSAR法を採用しています。

新しい腐食防止剤の活性予測BIOVIAのQSARソフトウェアのGenetic Function Approximation(GFA)アルゴリズムを予備的な阻害剤分子セットに適用しました(総数25種類)。ついで、得られたモデルを用いて、試験的な分子セットの性能を予測しました(総数8種類)。インピーダンス実験により、ふたつのセットの実験活性(さまざまな時間間隔での侵食率)を得ました。GFAモデルはいずれも、予備的セットについての実験値ときわめて類似した侵食率が得られました(図参照)。これらの分子の侵食率と、BIOVIA社のソフトウェアで得られたある種の分子記述子とのあいだには強い相関関係があることがわかりました。

この相関関係から、試験分子セットの性能を予測することが可能でした。この最初の研究の結果は有望なものであり、ほとんどの分子について、予測された侵食率は係数2の範囲内でした。これらの研究から、新しい腐食防止剤の活性予測にQSARが適用できる可能性が示されます。この技術は現在トラビスケミカルズ社でのこうした化合物のデザインに応用されています。

OrganizationTravis Chemivcals,Canada

図1. 腐食速度の計算値、実験値に対するGFAモデル.

Page 12: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

QSAR活用の意義をさらに知るには応用事例上に挙げたQSARや他のソフトウアツールに関する実例、インタビュー、文献はBIOVIAの実例ライブラリのほんの一部です。応用事例の全リストの閲覧には、www.accelrys.co.jp/resource-center/case-studies にアクセスしてください。

MS Modeling Overview CDQSARはBIOVIAのモデリングおよびシミュレーションパッケージプログラムに不可欠な部分です。次の項目を含むMS Modeling Overview CD を入手することができます:• 簡単な概要 - MS Modelingで出来ることを簡単に説明します。

• BIOVIA Materials Studio Visualizer - 簡単な分子の描画からReaction Preview tool までのBIOVIA Materials Studio Visualizerの機能性をカバーします。

• アプリケーションモジュールと例 - モジュール情報と、結晶・高分子と軟質材料・触媒という三つの重要な分野からの応用例

• Client-server - Materials Studio と サポートされているプラットフォームで採用されている柔軟なクライアント-サーバーの基本設計概念を説明

BIOVIA Materials Studio VisualizerMS Modelingパッケージソフトの主力製品であるBIOVIA Materials Studio Visualizerは、ポリマービルダーや表面ビルダーなどの強力な構造作成、描画ツールと可視化や基本的な統計解析ツールとの連携を実現しており、さらには特にQSAR手法に向けて設計されたスタディテーブルのような広範囲のドキュメント形式をサポートしています。

強力な構造作成 描画、可視化、統計解析ツールの連携BIOVIA Materials Studio Visualizer は Windows 環境用に設計され、他のWindowsツールと統合することが可能です。Windows仕様のインターフェースは習得が簡単であり、どんなQSARモデルから得られた結果も他のMS Modelingユーザーと簡単に共有することができます。

実験からより多くの情報を抽出QSARモジュールを用いればMaterials Visualizerにある機能より更に進んだ統計手法の実行が可能になります。このモジュールによりクラスタリングアルゴリズム、主成分分析のようなデータ整理の技術や、多重線形回帰、部分的最小二乗法のような回帰法を使うことが出来るようになります。QSARを利用して何ができるのか?• 実験から更なる情報を引き出すことが可能になります• 迅速に候補化合物を選別できます• バルクの問題にどの分子特性が影響するかを知る手がかりを与えます

• 実行しようとしている評価試験の最適化ができます

FAST Descriptors:トポロジカル および熱物理特性の利用Fast Descriptors moduleはQSARが提供する基本的な記述子を、さらに位相的(トポロジカル)および熱物理的特性を含むように拡張します。これらの記述子の適用範囲には、薬物探索でのコンビナトリアルライブラリーの解析、配合研究での添加剤のスクリーニングや選択、混和性の評価、高分子の設計などが含まれます。

GFA:高度な遺伝アルゴリズムと 強力な統計解析の連携強力な統計解析と組み合わされた最新の遺伝的アルゴリズムを用いることで、QSARのGenetic Function Approxi-mation (GFA) moduleは統計学的に妥当な構造活性モデルのランダム化された集団を迅速に作成します。

多数の統計的に有意な構造活性モデルを高速に生成“適者生存”の進化スタイルのアプローチを用いることで、GFAは候補リストから数千の候補QSARモデルを構築し,それはユーザーが選んだ活性に対してテストが行われます。これらの中で劣ったモデルは切り捨てられ、一方で有効あるいは優れているモデルは保存され、次のラウンドのテストに“親モデル”の次の新しい世代として生き残るよう利用されます。これが、アルゴリズムが収束するまで反復して繰り返されます。この方法からは二つの主要な結果が得られます。先ず第一は、質の高い有効なQSARモデル集団です。これは元のテストデータからは明らかではないような統計モデルやSAR相関を含むことがあります。さらには,得られたモデルは元のデータの多面な解釈に基づき構成されますので、それまで気づかなかったような、元々の検討課題への深い洞察をもたらします。

MS Modeling の主力製品、BIOVIA Materials Studio Visualizerの画面。MS Modeling はバルクの非晶ポリマーから有機、無機結晶にわたる広範囲の材料の表示ができます。

新しいモデルを生成する為のGFAで用いられる組み替えモデルのダイアグラム

Page 13: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

VAMP:多重極モーメントなどの正確な 電子物性計算に理想的VAMPは半経験的量子力学計算プログラムであり、有機や無機分子の系に分子軌道法を用いることを可能にします。これは分子力場計算と第一原理による方法の中間に位置するモジュールであり、多くの特性を迅速に計算することができます。それゆえVAMPは多重極モーメントや軌道エネルギー、平均分極率のような精密な電子特性を作成するのに理想的なモジュールと言えます。統合的なQSARモジュールとして、これらの特性は一点計算エネルギーから計算することが可能です。VAMPはstudy table内で構造最適化を行うことにより構造の評価のために利用することも出来ます。

VAMP結果、分子の軌道表示

Page 14: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

QSAR ワークフロー前述の例にて描かれていたように、材料科学におけるQSARには、原子論的QSARと配合設計向けQSARという二つの主要なカテゴリーがあります。原子論的QSARでは記述子を抽出できる化学構造が必要となりますが、これがもっとも有名なQSAR法です。配合設計QSARは配合データと、関連した実験データが記述子となるため、化学構造を全く必要としないということが特徴的です。このワークフロー(解析の流れ)では原子論的QSARの基本的な手法の要点を述べ、最後に手短に配合設計でのワークフローを示します。原子論的QSARに関連する主な項目はstudy tableの作成と評価、記述子の計算、モデルの構築、モデルの検証と新しい特性の予測の4つです。これらの全ての項目はMS ModelingのQSARの中で統合されています。

スタディテーブルの作成と評価

QSAR計算を行なう際の最初のステップは分子とそれらの既知の活性のトレーニングセットを作成することです。これは最も重要なステップで、トレーニングセットのサイズやトレーニングセット中の分子の多様性、活性データの精度がモデルの成功の鍵を握る事になるからです。例えば、もし幅広い分子構造の活性予測を行いたいのであれば、単純な同族列を計算する場合より大きなトレーニングセットが必要になります。同様に、SARモデル構築の際に利用する回帰法も、活性データが正規分布を示すような活性データセットを用いることにより効果が強化されることになります。もし、次のステップで、双極子モーメントやそれらの成分のような三次元記述子を計算しようとしている場合には幾何学的構造が非常に重要になる事になります。MS Modelingの QSARツールを用いればMaterials Visualizer中の強力な描画ツールを使って構造を描き、それをStudy tableに挿入することが出来ます。一方、もしこれらの構造を.sdのような工業で標準的なファイル形式で保存している場合には複数の構造と活性情報を一度の操作でstudy table中に取り込むことができます。最終的には、二次元描画ソフトから直接study table中にコピー&ペーストすることも出来ます。一旦、構造をstudy table中に書き込んでしまえば次にしなければならないことは評価です。例えばもし三次元記述子を計算したい場合は、全ての分子を同じ手法で最適化しなければなりません。構造最適化にはそれぞれ経験的、半経験的な構造最適化の手法であるForcite と VAMPを使うことができ、Models dialogから簡単に選ぶことができます。また、幾何構造が整合しているかをチェックするために各構造の3D表示画面を開くことが出来ます。例えば、全ての分子のアルキル連鎖を全transの配座にする、と言うような場合です。もし不一致を見つけた場合はstudy table中で修正することが出来ます。もし、まだ活性データを構造とともに取り込んでいない場合は、個々のセルに入力することも出来ますし、スプレッドシートからコピー&ペーストすることもできます。いったんデータがstudy table中に入力されると、平均・中央値・分散・分布データなどの種々の統計学的な情報が得られる単変量解

析を行うことが出来ます。もしデータが正規分布でない場合、別々の変換法をtransform-data(データ変換)ツールが素早くテストし、そのデータに最適なデータ変換法を選べるようになります。

記述子の計算

原子論QSARでは記述子は分子の主要な特性を表すモデルです。これらは分子量のような単純な記述子から多重極モーメントのような三次元記述子のように複雑なものまでに及びます。しかしながら、記述子はMS Modeling内で計算される特性に限る必要はありません。すなわち、簡単に測定したり、実験情報から解明した物理特性であっても良いわけです。MS ModelingのQSARには多くの異なる記述子があります。主な記述子はChi, Kappa, Balaban, Wienerのようなトポロジーインデックスを含むFast 記述子群です。MS Modelingの広範囲などのモジュールもまた記述子を作成するために利用することも出来ます。QSARに実装されている記述子モデルのほか、ExcelなどのWindows製品から単にコピー&ペーストすることにより独自の記述子を加えることも出来ます。現在、記述子生成のために特別に設計されたインターフェースを備えたモジュールがMS Modeling中に二つあります。それは分子力場計算モジュールのForciteと半経験的量子力学計算モジュールのVAMPです。電子的な記述子を加える以外に、VAMPモデルを利用することで特定の原子の原子特性を記述子として利用することが出来るようになります。例えば、全ての構造に共通な原子上の電荷の場合などです。将来は、特定原子上のFukui関数のような反応性指数を与えるDmol3など、他のMS Modelingモジュールで得られる原子的特性をカバーするように拡張されます。全ての記述子は共通のダイアログからアクセスできます。ユーザーの望む記述子を選択しRunをクリックするだけです。計算が完了するとすぐに、study tableの選択した記述子の情報が更新されます。いったん記述子の計算が終われば、すぐにモデル構築に進むこともできますし、代わりに高い相関を持つ記述子を捜すことも出来ます。相関行列の自動計算機能はMS Modelingの中に提供されています。

モデルの構築

このプロセスでの次の段階は、興味のある特性を一つ以上の記述子の組み合わせと相関づける回帰モデルを構築することです。ここで有効な統計的手法はたくさんありますが、MS Modelingの QSAR 中で使える手法は、線形回帰(MLR)、部分的最小二乗法(PLS)、GFAです。MLRとPLSは両者と

Tableの 作成

記述子の計算

モデルの構築

モデルの検証

Tableの 作成

記述子の計算

モデルの構築

モデルの検証

Tableの 作成

記述子の計算

モデルの構築

モデルの検証

Page 15: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

もよく知られたアルゴリズムなので、これ以上の説明は省きます。

GFAは非線形のデータや記述子の数に比べて少ないデータしかない場合に相関を作成する最先端のアルゴリズムです。GFAは初期のランダムに生成された一連のモデルに交叉や突然変異の操作を行うことで最適なモデルの集団を作り出すという進化論を用いたアルゴリズムです。交叉は二つの親モデルを二つの新しい子モデルを作り出すために分割することです。もし子モデルが親モデルよりも良い場合、それらは集団の中に維持されます。このようにしてよい特徴または記述子が親から子へ受け継がれていき、最適な記述子を持つモデルを提案できるようにSAR式が進化します。GFAには従来の回帰法より優れた、次のような幾つかの利点があります。• 多様なモデルの生成により、内在する構造特性を見抜くことが出来る

• スプライン関数により非線形のモデルをフィットできる• lack-of-fitの項目により生成するモデルのサイズを制限し、過剰なフィッティングを抑えることができる。各回帰計算の結果は予測された変数値、残査、数式データ、統計的な妥当性、入力パラメータの概要を含んだグリッドドキュメントに保存されます。これにより各計算の完全な進行記録が保存されるため、仕事と進捗状況を追跡することが容易です。統計的な検証は非常に重要で、r2値、クロスバリデーションのr2、F検定値のような統計的なテストを含んでいます。これらの情報は一つの、タブつきのグリッドドキュメントに書かれているので、簡単に生成したモデルと統計的情報を関連付けることができます。

モデルの検証

モデル構築の段階での統計的な検証では、得られたモデルがどの程度良いのかという最初の概算を行います。更に完璧な評価を行うためには、活性既知の化合物のテストセットをトレーニングセットから切り離しておかねばなりません。これ

らの化合物に対してモデルがどの程度良く適合するかをテストできます。そして最適なモデルを後の予測のために使います。いったん良いSAR modelが得られると、新しい分子を現在のstudy tableに追加するだけで特性を予測することが出来ます。または、得られたSAR modelを新しいstudy tableに適用でき、したがって優位な化合物や組成を別のstudy tableに分けておくこともできます。もし、他の共同研究者とSARモデルを共有したい場合は、書き出して共同研究者へ送ることも出来ます。共同研究者は簡単に MS Modeling内に読み込み、記述子を計算することができ、モデルは自動的にMS Modelingの記述子を認識し、特性を予測します。この簡単な共有方法は共同作業を活性化するために設計されたものです。

GFAダイアログ: 線形や二次などの追加項が選択できます。

Tableの 作成

記述子の計算

モデルの構築

モデルの検証

Page 16: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

QSAR 活用の実例QSARをどのように実験計画に活用できるかという実例をここに示しておきます。この手法は実験結果の評価、実験的な配合研究ワークフローの改善、配合プロセスの効率化に活用することができます。

遺伝アルゴリズムによる 実験設計(GFAXD)法工業的な研究開発では、プロセスのモデル開発のために統計学的実験計画法が用いられています。そこでは、一連の特定条件の下でのプロセスの操作をシミュレートする実験の中から情報を抽出し、その後に次のことを調べます。• プロセスの成果を支配する独立変数を、そうでないものから分離する

• 上述の独立変数を従属変数に関連付ける数学的モデルを導き出す

• これらのモデルを用い、実験的にまだ試していない条件下での今後の実験性能を予測する実験設計法には幾つかの制限があります。まず、検討中の変数が増えるとともに必要な実験の数が指数関数的に増えます。次に、すべての変数範囲に対し連続変数が仮定されますが、これは必ずしも妥当な仮定であるとは限りません。最後に、実験計画法による検討結果と探索的な実験の結果を統合することが困難なことです。

Monsanto社のThomas Kowar博士はRogersの遺伝アルゴリズム(GFA)を統計学的実験計画法と同様の目標を達成するために利用しました。Rogersの GFAアルゴリズムはQSAR解析に応用することに成功したので、実験計画法にもまた有効であることがわかるだろうと予想されました。Kowarは実験計画法においてGFAを利用すればプロセス開発をより効率的にできると期待しました。Kowarは実験計画法の解析にBIOVIA社のソフトウェアを用い、GFA計算を行いました。まず、Box、Hunter、Hunterの24の設計例についてGFAを当てはめることからはじめ、実験計画法によって見出されたモデルをGFAを用いても決めることができるのかを検討しました。Kowarは、統計学的実験設計解析を用いて導き出された回帰式と同じ式を含む一連のモデル式をGFAアルゴリズムを用いて見出しただけでなく、その結果、実験研究者が得られる情報の質と量が向上することを見出しました。彼はこの応用手法を遺伝アルゴリズム実験計画(GFAXD)法と名づけました。

GFAXD法には次のような基本的な特徴があります。・全ての可能な独立変数が制御可能か否かにかかわらず検討される• 制御可能な各独立変数の実際的範囲の全体が検討される• 制御可能な独立変数の目標値は、ランダムに発生される• 目標値の正確な近似が制御可能な独立変数に対し決定される

• 非制御独立変数については、正確な付随的変数が決定される

• 実験結果の解析をGFAアルゴリズムを用いて行う• 実験研究者はモデルのGFA populationを推算し、科学的な理由と確認実験を基に最適なプロセスモデルを選択する

KowarのGFAXD法により実験研究者は、従来の実験計画法の実際的な利用に比べ、より多くの要因を検討できるようになりました。

参考文献1. ogers, D., Hopfinger, A. J., "Application of Genetic Function Approximation to

Quantitative Structure Activity Relationships and Quantitative Structure Property

Relationships". J. Chem. Inf. Comp. Sci., 1994,34, 854-866.

2. Box, G. E. P., Hunter, W. G., Hunter, J. S., "Statistics for Experimenters: An

Introduction to Design, Data Analysis, and Model Building", John Wiley & Sons, New

York, 1978, pp 324-334.

3. Kowar, T.R., "Genetic Function Approximation Experimental Design (GFAXD): A New

Method for Experimental Design", J. Chem. Inf. Comp. Sci., 1998, 38, 858-866

OrganizationMonsanto社

Page 17: BIOVIA MATERIALS STUDIOQSARは企業における探索研究において、分子のどの構造や 電子的な特性が活性に寄与しているのか?また、この活性を

©20

14 D

assa

ult S

ystè

mes

. All

righ

ts re

serv

ed. 3

DEX

PER

IEN

CE、C

ATI

A、S

OLI

DW

OR

KS、E

NO

VIA

、DEL

MIA

、SIM

ULIA

、GEO

VIA

、EXA

LEA

D、3

D V

IA、3

DSW

YM、B

IOVI

A、お

よび

NET

VIB

ESは

アメ

リカ

合衆

国、ま

たは

その

他の

国に

おけ

る、

ダッ

ソー・

シス

テム

ズま

たは

その

子会

社の

登録

商標

また

は商

標で

す。そ

の他

のブ

ラン

ド名

や製

品名

は、各

所有

者の

商標

です

。ダッ

ソー・

シス

テム

ズま

たは

その

子会

社の

商標

を使

用す

る際

には

、書面

によ

る明

示の

承認

が必

要で

す。

ダッソー・システムズの3Dエクスペリエンス・プラットフォームでは、12の業界を対象に各ブランド製品を強力に統合し、各業界で必要とされるさまざまなインダス トリー・ソリューション・エクスペリエンスを提供しています。ダッソー・システムズは、3Dエクスペリエンス企業として、企業や個人にバーチャル・ユニバースを提供することで、持続可能な イノベーションを提唱します。世界をリードするダッソー・システムズのソリューション群は製品設計、生産、保守に変革をもたらしています。ダッソー・システムズのコラボレーティブ・ソリューションはソーシャル・イノベーションを促進し、現実世界をより良い ものとするためにバーチャル世界の可能性を押し広げています。ダッソー・システムズ・グループは140カ国以上、あらゆる規模、業種の約19万社のお客様に価値を提供しています。より詳細な情報は、www.3ds.com(英語)、www.3ds.com/ja (日本語)を ご参照ください。

Dassault Systèmes CorporateDassault Systèmes10, rue Marcel DassaultCS 4050178946 Vélizy-Villacoublay Cedex France

BIOVIA AmericasBIOVIA 5005 Wateridge Vista Dr., San Diego, CA 92121 USA

BIOVIA Asia Pacificダッソー・システムズ株式会社141-6020 東京都品川区大崎 2-1-1 ThinkPark Tower