The Open Fern Tree of Life:
常に最新の状態を保つ
全シダ植物系統樹に
向けて

Joel Nitta1, Eric Schuettpelz2, Santiago Ramírez-Barahona3, Wataru Iwasaki1

1: 東大・大学院・新領域, 2: Smithsonian Institution, 3: Universidad Nacional Autónoma de México https://joelnitta.github.io/shinka_2022 日本進化学会第24回大会 E1

全生物の系統樹の構築:ダーウィン以来の大きな目的


Darwin (1837)


Hinchliff et al. (2015)

配列データの増加によって、現実的になりつつある


Gauthier et al. (2019)

(自動的なパイプラインを使えば)

Antonelli et al. (2016)

問題その1:性能とスケーラビリ
ティのトレードオフ

  • どんな自動的なパイプラインでも、いくつかの前提単純化がある

  • 一方で、手動でシーケンスを全部確認すればより正確な系統樹が得られるはずだが、データが大量にあると現実的ではない

問題その2:すぐに古くなって
しまう

  • GenBankのデータの著しい増加によって系統樹がすぐに古くなってしまう

本研究の試み:自動化とカスタマイズを両方取り入れる

本研究の目的:シダ植物を用いて、分類学的に高精度
種数の多い系統樹を自動的に作るシステムを開発

なぜシダ?

多様で、生態学的に重要な役割を果たしている植物

被子植物と比べて、調べやすい

  • シダ植物:約1万2千種、うち4-5割のシーケンスあり
  • 被子植物:約35万種、2-3割のシーケンスあり

方法

GenBankのデータマイニング:
葉緑体シングルコピー遺伝子


サンガー法

  • 7遺伝子
  • 約5,100種

次世代(全葉緑体)

  • 79遺伝子(サンガー法遺伝子を含む)
  • 約400種

種名の統一

query matched_name resolved_name
Anemia collina Sm. Anemia collina Sm. Anemia collina Raddi
Pteris flava Merr. Pteris flava Merr. Pteris linearis Poir.

… (合計:6,475列)

自動的な種の誤同定の排除

  • all-by-all BLAST (Camacho et al. 2009) をかける

  • クエリー(種)が異なる科と一致した場合、誤同定と
    して排除する

species accession locus query family match family
Abacopteris_gymnopteridifrons JF303974 rbcL Thelypteridaceae Athyriaceae
Angiopteris_evecta AY344778 trnL-trnF Marattiaceae Ophioglossaceae

… (合計:70件)

系統解析:バックボーンツリー

系統解析:全体のツリー

  • MAFFTによってシーケンスをアライン

  • IQ-TREE (Nguyen et al. 2015) を用いてバックボーンツリーを制約にして最尤法によって系統樹を推定する

  • treePL (Smith and O’Meara 2012) によって分岐年代推定を行う

結果

バックボーンが綺麗に
決まった

  • 93%の分岐点が100%支持

  • 議論のあった分岐点も綺麗に決まった

分岐年代の
再評価

  • 化石の校正点51点(今までの倍近く

分岐年代の
再評価

  • 多くの科の分岐年代を約1〜3千万年より古いと推定

  • 被子植物の「影」で進化したわけではない?

https://fernphy.github.io/

  • データのダウンロードや可視化

  • 系統樹の更新

R パッケージ ftolr

https://github.com/fernphy/ftolr

  • 直接Rに系統樹やアラインメントを読 み込む

  • 外群の有無などのオプション

library(ftolr)
ft_tree(drop_og = TRUE)

Phylogenetic tree with 5582 tips and 5581 internal nodes.

Tip labels:
  Acrostichum_danaeifolium, Acrostichum_speciosum, Acrostichum_aureum, Ceratopteris_richardii, Ceratopteris_cornuta, Ceratopteris_shingii, ...
Node labels:
  100/100, 100/100, 100, 100/100, 100, 100/100, ...

Rooted; includes branch lengths.

まとめ

自動化とカスタマイズのバランスを取れた「ちょうど良い」アプローチ

  • GenBankデータを自動的にダウンロードし、系統樹に
    する

  • シダ植物専用の分類システムを導入

  • 他の研究者が簡単に使える

  • 他の生物でも同様にできる?

今後の予定・目標

  • FTOLを完成させる

    • 植物標本庫に収まっている標本のゲノムスキミング
  • 将来的にファイロゲノミクスに切り替える

謝辞

  • 日本学術振興会

  • Smithsonian National Museum of Natural History Peter Buck Fellowship

  • 東京大学大学院新領域創成科学研究科先端生命科学専攻岩崎研のメンバー

  • A.E. White

  • S. Fawcett

  • M. Hassler

全体のまとめ

  • 自動化とカスタマイズのバランスを取れた「ちょうど良い」アプローチ

  • https://github.com/fernphy/ftolrにて常に更新、公開

  • 他の生物でも同様にできる

  • これからはFTOLを完成させることを目指す

References

Antonelli, A., H. Hettling, F. L. Condamine, K. Vos, R. H. Nilsson, M. J. Sanderson, H. Sauquet, R. Scharn, D. Silvestro, M. Töpel, C. D. Bacon, B. Oxelman, and R. A. Vos. 2016. Toward a self-updating platform for estimating rates of speciation and migration, ages, and relationships of taxa. Systematic Biology 66:152–166.
Benton, M. J., P. Wilf, and H. Sauquet. 2022. The Angiosperm terrestrial revolution and the origins of modern biodiversity. New Phytologist 233:2017–2035.
Camacho, C., G. Coulouris, V. Avagyan, N. Ma, J. Papadopoulos, K. Bealer, and T. Madden. 2009. BLAST+: architecture and applications. BMC Bioinformatics 10:421.
Gauthier, J., A. T. Vincent, S. J. Charette, and N. Derome. 2019. A brief history of bioinformatics. Briefings in Bioinformatics 20:1981–1996.
Hassler, M. 2022. World Ferns. Synonymic Checklist and Distribution of Ferns and Lycophytes of the World. www.worldplants.de/ferns/.
Hinchliff, C. E., S. A. Smith, J. F. Allman, J. G. Burleigh, R. Chaudhary, L. M. Coghill, K. a. Crandall, J. Deng, B. T. Drew, R. Gazis, K. Gude, D. S. Hibbett, L. a. Katz, H. D. Laughinghouse, E. J. McTavish, P. E. Midford, C. L. Owen, R. H. Ree, J. a. Rees, D. E. Soltis, T. Williams, and K. a. Cranston. 2015. Synthesis of phylogeny and taxonomy into a comprehensive tree of life. Proceedings of the National Academy of Sciences:201423041.
Katoh, K., K. Misawa, K. Kuma, and T. Miyata. 2002. MAFFT: A novel method for rapid multiple sequence alignment based on fast Fourier transform. Nucleic Acids Research 30:3059–3066.
Nguyen, L.-T., H. A. Schmidt, A. von Haeseler, and B. Q. Minh. 2015. IQ-TREE: A fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies. Molecular Biology and Evolution 32:268–274.
Portik, D. M., and J. J. Wiens. 2020. SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets. Methods in Ecology and Evolution 11:763–772.
Rothfels, C. J., F.-W. Li, E. M. Sigel, L. Huiet, A. Larsson, D. O. Burge, M. Ruhsam, M. Deyholos, D. E. Soltis, C. N. Stewart, S. W. Shaw, L. Pokorny, T. Chen, C. DePamphilis, L. DeGironimo, L. Chen, X. Wei, X. Sun, P. Korall, D. W. Stevenson, S. W. Graham, G. K.-S. Wong, and K. M. Pryer. 2015. The evolutionary history of ferns inferred from 25 low-copy nuclear genes. American Journal of Botany 102:1–19.
Schuettpelz, E., and K. M. Pryer. 2009. Evidence for a Cenozoic radiation of ferns in an angiosperm-dominated canopy. Proceedings of the National Academy of Sciences of the United States of America 106:11200–11205.
Smith, S. A., and B. C. O’Meara. 2012. treePL: divergence time estimation using penalized likelihood for large phylogenies. Bioinformatics 28:2689–2690.
Smith, S. A., and J. F. Walker. 2019. PyPHLAWD: A python tool for phylogenetic dataset construction. Methods in Ecology and Evolution 10:104–108.
Testo, W., and M. Sundue. 2016. A 4000-species dataset provides new insight into the evolution of ferns. Molecular Phylogenetics and Evolution 105:200–211.