研究内容

次世代シーケンサおよび質量分析機から出力される計測データをハイスループットに解析する情報科学的手法を開発しています。近年、生物学で計測される電子データは増加の一途をたどっており、大量の生物学データを標準的な方法で処理することがすでに困難な課題となっています。加えて、異なる次元のデータを統合し、従来モデル化が難しいデータに対しても関連性を見出すためには、ビッグデータ解析技術や機械学習の最新の成果(データサイエンス)を取り入れて情報解析を行うことが不可欠になっています。以下の研究を行っています。

(1)エピトランスクリプトームの情報解析技術

RNAは転写後様々に化学的に修飾され、スプライシング、エクスポート、翻訳、相転移といった、転写から翻訳における基本的な機能に深く関わることが解明されつつあり、エピトランスクリプトミクスと呼ばれる新たな研究分野を形成しています。RNA上の塩基修飾を解析する既存の方法は、複数のRNA修飾を同時に見分けることができないことに加え、精度や感度に問題があるため、エピトランスクリプトミクスの発展には、統合的なRNA塩基修飾解析手法の開発が不可欠です。そこで、ナノポアシーケンサを用いたRNA修飾の解析が試みられています。ナノポアシーケンサ解析では、RNA分子が直接ナノスケールの穴を通過し、その際の分子の抵抗に応じた電流値が計測される仕組みで、原理的にはRNAの塩基配列に加え、修飾を検出することができます。しかし、大量且つ複雑なナノポアシグナルデータを解析し、多種のRNA修飾を網羅的に検出するには、大規模並列処理によるデータ解析と深層学習の連携が必要であり、クラウドコンピューティングとGPUを連携させることで、直接複数のRNA修飾をトランスクリプトームワイドに検出する方法の開発を進めています。解析アルゴリズムの一部は、以下の論文に公開しています。

Ueda, H. nanoDoc: RNA modification detection using Nanopore raw reads with Deep One-Class Classification.
bioRxiv 2020.09.13.295089 (2020) doi:10.1101/2020.09.13.295089.

GitHub

(2)がんゲノミクスの情報解析技術

がん細胞のゲノムに生じた体細胞変異を網羅的に検出することが可能になり、研究のみならず、臨床応用においても積極的な次世代シーケンサの活用が進んでいます。がんの検体では腫瘍細胞の純度(腫瘍率)が低いことも多く、解析を難しいものとしています。これまでの研究で、ノイズの多い環境下であっても、高い精度でがん細胞における体細胞変異、コピー数変異、腫瘍率を算出するアルゴリズムの開発を行い、先端研を含む複数の組織で研究に活用されています。

karkinos download

また、東大オンコパネルにおいても当研究室のプログラムが活用されています。

東大病院臨床研究支援センター

(3)データサイエンスを用いた生命情報データ解析基盤

大量のゲノムデータの中から生物学的な意味や関連性を見出すには大規模にデータを集約させ、分散処理を行う必要があります。将来的な大規模クラウド運用を見据えて、Hadoop/Sparkといったクラウドで標準的な分散技術や深層学習のライブラリを用いた生命情報の解析基盤を開発しています。

VoltMR download

(4)その他

共同研究により、がんの体細胞変異とRNA解析から、HLA結合ネオアンチゲンを同定する手法を確立するための情報解析や、1細胞RNAデータの解析などバイオインフォマティクス特にゲノム解析の広い分野の研究を行っています。

ラボ研究紹介pdf

東京大学先端科学技術研究センター
システム生物医学ラボラトリー

〒153-8904
東京都目黒区駒場4-6-1
駒場リサーチキャンパス 4号館121室

Copyright © Biological Data Science
トップへ戻るボタン