2018 松尾晃子

GC/MSメタボロミクスにおける未同定代謝物同定の効率化および品質向上に向けた

保持指標予測モデルの構築とその応用

大阪大学大学院 工学研究科 生命先端工学専攻 生物工学コース

生物資源工学領域(福崎研究室) 松尾晃子

第一章 緒論

ノンターゲットメタボロミクスは,生体サンプル中の代謝物を一斉に測定・解析することで新たな生物学的知見を得るオミクス解析である.GC/MS(gas chromatography/mass spectrometry)は,堅牢性と再現性の高さからよく使用される測定機器の一つである.ノンターゲットメタボロミクスは測定する代謝物を事前に決定しないため,代謝物同定が重要な手順となる.GC/MSでは,保持指標(GC由来の情報,保持時間をアルカンなどの基準物質を元に規格化した数値)と,EIスペクトル(electron ionization,MS由来の情報)から代謝物を同定する.GC/MSは理論段数が高く,クロマトグラムには数百-千近くのピークが現れる.これらを一つずつ構造解析することは非現実的である.そこで標準物質の測定結果を格納したライブラリと呼ばれるデータベースから,未同定のピークと類似した測定結果を示す代謝物(以下,候補化合物と呼ぶ)を探索する.その後,共溶出やマトリクス効果による誤同定を避けるために,候補化合物の標準物質を添加したサンプルを測定することでバリデーションをとる.

EIスペクトルの再現性は高く,ライブラリには数十万種のスペクトルが登録されている.一方,保持指標ライブラリの登録数は1万種ほどにとどまっている.EI法ではイオン化された代謝物の大半はフラグメントイオンとなるため,分子イオン(フラグメント化されなかったイオン,分子量を示す)の信号強度は極めて低い.そのためEIスペクトルの類似性のみに基づいた代謝物同定では,多くの偽陽性の候補化合物が現れる.さらにノンターゲットメタボロミクスでは,データに数百以上のピークが存在する.これら全てに対して,代謝物同定を実施するには多大な労力がかかってしまう.代謝物同定の効率化には,同定すべきピークとEIスペクトルの探索から得られた候補化合物の両方を精査する必要がある.

試薬由来の不純物や剥離したカラムの装飾基などの代謝物以外の成分に由来するピークを取り除く手法として,S/N(Signal/Noise)やQCサンプル(Quality control;測定の安定性を評価するサンプル,全種類のサンプルを混合したものなどが使用される)によるスクリーニングが行われている.これらの手法では,閾値の設定が解析者の経験に依るという問題がある.また保持指標ライブラリに登録されていない候補化合物の絞り込みには,代謝物の構造から保持指標を予測するQSRR法(quantitative structure-retention relationship)が解決法となりうる.しかし,多くのQSRR法の先行研究では特定の代謝物群(例:テルぺノイド,アミノ酸など)を予測の対象としているため,測定代謝物が多岐に渡るノンターゲットメタボロミクスへの応用はほとんど報告されていない.

以上の現状を踏まえ本研究では,QCサンプルの希釈系列に基づくピークピッキング法とノンターゲットメタボロミクスに適した保持指標予測モデルの構築法の組み合わせを提案し,代謝物同定のスループット向上を試みた.この戦略を生体サンプルへ応用し,三種類の新規代謝物を定性した.

第二章 保持指標予測モデル構築について

本章では保持指標予測モデルの構築を行った.トレーニングセットには福崎研究室で測定された,親水性代謝物の誘導体化物が登録されたライブラリを用いた.登録されている代謝物の.SDFファイル(代謝物の構造を記述する形式の一種)をPubchem Download Serviceから取得し,MetaboloDerivatizerによってin-silicoの誘導体化を行った.PaDEL descriptorによって誘導体化された代謝物の記述因子(化合物構造の数量的な表現)を計算した.保持指標との相関係数が0.8以上となる記述因子を説明変数とし,純粋な標準品から得られた保持指標の実測値を目的変数として重回帰分析を行った.その結果,以下の保持指標予測式を得た.

Predicted RI = -495.2*ATSc1 + 29.8*topoDiameter + 101.4*MLFER_L + 27.9*ETA_Beta + 388.7

Predicted RIは保持指標の予測値を示し,記述因子のATSc1は代謝物内の繰り返し構造を,topoDiameterは分子の大きさ,MLFER_Lは固定相と移動相の相関,ETA_Betaは分子内の電荷の分布を表している.予測された保持指標値と実測値のプロットのR2は0.93となり,高い直線性となった.保持指標の実測値と予測値の誤差の標準偏差は,78-88となった.この値は異なる機関で測定された同一代謝物の保持指標が示す標準偏差(81)と同程度となった.以上から,EIスペクトルから得られた候補化合物のさらなる絞り込みに活用可能な,保持指標予測モデルの構築に成功したと結論付けた.

第三章 生薬川芎(センキュウ)中の未同定代謝物の定性

本章では第二章で構築したモデルを,生薬の一種である川芎(センキュウ,Condium officinale Makino, Ligusticum chuanxiong Hort)の未同定代謝物の定性に適用し,アルコール(Butane-1,2,3-triol),還元糖(3-Deoxyglucosone),糖アルコール(Palatinitol)を新たに同定した.(表)

全6種類の川芎(センキュウ)の親水性代謝物をGC/MSで測定した.サンプルの測定と同時に,全種類のサンプルを等量比で混合したQCサンプルの希釈系列を分析した.QCサンプルの希釈系列からピークごとに検量線を作成し,その直線性(R2>0.9)やRSD(relative standard deviation, <20%)を元に代謝物に由来するピークを選抜した.この結果,クロマトグラム上の11974ピークから457ピークが選択された.選択されたピークから成るデータ行列をPCA(principal component analysis)に供した.主成分軸1(寄与率29.4%)と主成分軸2(寄与率15.8%)のスコアプロットにおいて,サンプルは種類ごと分かれた.さらにこれらのローディング値に対する仮説検定に基づいた変数選択法(Yamamoto H. et al, BMC Bioinf., 2014)によって,245個のピークが異なる種類のサンプルするバイオマーカー候補として選ばれた.このうち170ピークは研究室内のライブラリでは定性されなかった.

未同定ピークの定性では,まずEIスペクトルのライブラリ(MassBank, Wiley)を格納したMS-Finderによって,類似したEIスペクトル(Similarity>0.8)を持つ化合物を検索した.この手順によって得られた候補化合物の総数は,表の①に記載した.次に候補化合物の保持指標値を,第二章の予測式によって計算した.その後,未同定ピークの保持指標値(実測値)と,計算によって得られた候補化合物の予測値の差分が100未満となった候補化合物を選び出した.表の②は,保持指標による絞り込み後の候補化合物の総数である.この結果から,保持指標の予測によって候補化合物の数を大幅に減らすことが可能であることが示された.表の③は同定された代謝物(Butane-1,2,3-triol,3-Deoxyglucosone,Palatinitol)の,保持指標を予測した結果であり,同定結果と,表の④の結果は,純粋な標準品を添加したサンプルの測定によって得られたものである.表の③,④の数値が示す残差は78以下となり,第二章で保持指標予測モデルが示した標準偏差より低い値となった.以上から,構築したモデルの実サンプル中の未同定代謝物の定性への応用が達成された.

第四章 総括と展望

本研究では,QCサンプル希釈系列と,保持指標予測モデルの構築の組み合わせによる,新規代謝物の定性に成功した.本手法は特別なサンプルやソフトウェアを必要とせず,汎用性が高いという利点を持ち,GC/MSノンターゲットメタボロミクスの普及の一助になることが期待される.

本学位論文に関与する論文

1) Teruko Matsuo, Hiroshi Tsugawa, Hiromi Miyagawa, Eiichiro Fukusaki: Integrated strategy for unknown EI–MS identification using quality control calibration curve, multivariate analysis, EI–MS spectral database, and retention index prediction. Analytical chemistry, 89 (12), 6766–6773 (2017)

本論文の二章,三章は本論文に基づいて構成された.