はじめに
Last updated on 2024-03-12 | Edit this page
Overview
Questions
- なぜ再現性にこだわる必要がありますか?
-
targets
は再現性の達成にどう役立ちますか?
Objectives
- 科学にとってなぜ再現性が重要なのかを説明しましょう。
- 再現性を高める
targets
の特徴を説明しましょう。
再現性とは?
再現性とは、他の人(未来の自分を含む)があなたの分析を再現できる能力のことです。
私たちは、科学的な分析結果が再現できる場合にのみ、その結果を信頼することができます。
しかし、再現性は二項対立的な概念(再現可能か再現不可能か)ではなく、再現性が低いものから高いものまでの尺度がある。
targets
は、あなたの分析をより再現性の高いものにするために大いに役立ちます。
再現性をさらに高めるために、Docker、conda、renvのようなツールを使ってコンピューティング環境を整えることもできますが、このワークショップではそれらをカバーする時間がありません。
targets
とは?
targets
はウィル・ランドーによって開発・管理されているRプログラミング言語用のワークフロー管理パッケージです。
targets
の主な特徴は以下の通りです:
- ワークフローの自動化
- ワークフロー・ステップのキャッシュ
- ワークフロー・ステップの一括作成
- ワークフローの段階での並列化
これにより、以下のことが可能になります:
- 別の作業をしてから元のプロジェクトに戻る際、混乱したり、何をしていたか思い出そうとしたりすることなく、すぐに中断したところから再開できます。
- ワークフローを変更し、変更の影響を受ける部分のみを再実行できます。
- 個々の機能を変更することなく、ワークフローを大幅に拡張できます。
… もちろん、これらはあなたの分析を他の人が再現するのにも役立ちます。
誰が targets
を使うべきか?
targets
は決して唯一のワークフロー管理ソフトではありません。
似たようなツールは数多くあり、それぞれ機能や使用例が異なります。
例えば、 snakemakeはpython用の人気のあるワークフローツールで、make
はbashスクリプトを自動化するためのツールです。
targets
はR専用に設計されているので、Rを主に使う場合、あるいは使う予定がある場合は、targets
を使うのが最も理にかなっています。
他のツールでコーディングすることが多いのであれば、別の方法を検討したほうがいいかもしれません。
このワークショップのゴールは、Rで再現可能なデータ解析行うために**targets
の使用方法**を学ぶことです。
詳細情報
targets
は洗練されたパッケージであり、このワークショップではカバーしきれないほど学ぶべきことがたくさんあります。
targets
の旅を続けるためにお勧めのリソースをいくつか紹介します:
-
targets
の作者であるウィル・ランドーによるtargets
Rパッケージ・ユーザーマニュアルは、targets
に真剣に興味を持つ人の必読書であす。 -
targets
の掲示板は、質問したり助けを求めたりするのに最適な場所です。 しかし、質問をする前に、必ず助けを求めることに関するポリシーを読みましょう。 -
targets
パッケージのウェブページには、すべてのtargets
の関数の説明が載っています。 -
tarchetypes
パッケージのウェブページには、すべてのtarchetypes
の関数の説明が載っています。tarchetypes
はtargets
と一緒に使うことがほとんどなので、両方参照するのがおすすめです。 -
Reproducible
computation at scale in R with
targets
は、Kerasで顧客離れを分析するウィル・ランドーによるチュートリアルです。 -
targets
のREADMEに記載されている録画とプロジェクトの例。
サンプルデータセットについて
このワークショップでは、南極大陸のパーマー群島の島々で観察されたアデリー、ヒゲペンギン、ジェンツーペンギンの成鳥の採食行動に関する測定データセットの例を分析します。
データは palmerpenguins
Rパッケージから入手できます。
?palmerpenguins
を実行すれば、データに関する詳細な情報を得ることができます。
分析の目的は、線形モデルを用いて嘴の長さと深さの関係を明らかにすることです。
このレッスンを通して徐々に分析を積み上げていきますが、最終版は https://github.com/joelnitta/penguins-targetsで見ることができます。