はじめに

Last updated on 2024-03-12 | Edit this page

Overview

Questions

  • なぜ再現性にこだわる必要がありますか?
  • targets は再現性の達成にどう役立ちますか?

Objectives

  • 科学にとってなぜ再現性が重要なのかを説明しましょう。
  • 再現性を高めるtargetsの特徴を説明しましょう。

再現性とは?


再現性とは、他の人(未来の自分を含む)があなたの分析を再現できる能力のことです。

私たちは、科学的な分析結果が再現できる場合にのみ、その結果を信頼することができます。

しかし、再現性は二項対立的な概念(再現可能か再現不可能か)ではなく、再現性が低いものから高いものまでの尺度がある。

targetsは、あなたの分析をより再現性の高いものにするために大いに役立ちます。

再現性をさらに高めるために、Docker、conda、renvのようなツールを使ってコンピューティング環境を整えることもできますが、このワークショップではそれらをカバーする時間がありません。

targetsとは?


targetsはウィル・ランドーによって開発・管理されているRプログラミング言語用のワークフロー管理パッケージです。

targetsの主な特徴は以下の通りです:

  • ワークフローの自動化
  • ワークフロー・ステップのキャッシュ
  • ワークフロー・ステップの一括作成
  • ワークフローの段階での並列化

これにより、以下のことが可能になります:

  • 別の作業をしてから元のプロジェクトに戻る際、混乱したり、何をしていたか思い出そうとしたりすることなく、すぐに中断したところから再開できます。
  • ワークフローを変更し、変更の影響を受ける部分のみを再実行できます。
  • 個々の機能を変更することなく、ワークフローを大幅に拡張できます。

… もちろん、これらはあなたの分析を他の人が再現するのにも役立ちます。

誰が targets を使うべきか?


targetsは決して唯一のワークフロー管理ソフトではありません。 似たようなツールは数多くあり、それぞれ機能や使用例が異なります。 例えば、 snakemakeはpython用の人気のあるワークフローツールで、makeはbashスクリプトを自動化するためのツールです。 targetsはR専用に設計されているので、Rを主に使う場合、あるいは使う予定がある場合は、targetsを使うのが最も理にかなっています。 他のツールでコーディングすることが多いのであれば、別の方法を検討したほうがいいかもしれません。

このワークショップのゴールは、Rで再現可能なデータ解析行うために**targetsの使用方法**を学ぶことです。

詳細情報


targetsは洗練されたパッケージであり、このワークショップではカバーしきれないほど学ぶべきことがたくさんあります。

targetsの旅を続けるためにお勧めのリソースをいくつか紹介します:

サンプルデータセットについて


このワークショップでは、南極大陸のパーマー群島の島々で観察されたアデリー、ヒゲペンギン、ジェンツーペンギンの成鳥の採食行動に関する測定データセットの例を分析します。

データは palmerpenguins Rパッケージから入手できます。 ?palmerpenguinsを実行すれば、データに関する詳細な情報を得ることができます。

palmerpenguinsデータセットに含まれる3種のペンギン。 @allison_horstによる
palmerpenguinsデータセットに含まれる3種のペンギン。 @allison_horstによる

分析の目的は、線形モデルを用いて嘴の長さと深さの関係を明らかにすることです。

このレッスンを通して徐々に分析を積み上げていきますが、最終版は https://github.com/joelnitta/penguins-targetsで見ることができます。

Key Points

  • 科学的な分析結果は、他の人(未来の自分を含む)にも再現できるものでなければ信頼できなません。
  • targetsは、ワークフローを自動化することで再現性の達成を支援します。
  • targetsはRプログラミング言語で使います。
  • このワークショップのデータセットには、南極のペンギンの測定値が含まれています。