Generative and Analytical Models for Data Analysis

Roger Peng 2019/04/29

データ分析の作成方法を説明することは、私にとって非常に興味のあるテーマで、それについて考えるいくつかの異なる方法があります。 データ分析についての 2 つの異なる考え方は、私が「生成的」アプローチと「分析的」アプローチと呼ぶものです。 もうひとつは、より非公式な方法ですが、「生物学的」モデルと「医師」モデルという考え方もあります。 データ解析のプロセスに関する文献を読むと、多くの人が後者ではなく前者に焦点を当てているようで、これは新しく興味深い研究の機会を提供すると思います。 ステップ 1 からステップ 2、ステップ 3 などに移行するために行われる決定について理解を深めることは、データ分析を再現または再構築するのに役立ちます。 このように再構築することがデータ分析を研究する目的ではないかもしれないが、プロセスをよりよく理解することで、プロセスの改善に関する扉を開くことができる。

データ分析プロセスの主な特徴は、それが通常データ分析者の頭の中で行われるため、直接観察することが不可能であるということである。 測定は、ある時間に何を考えていたかを分析者に尋ねることによって行うことができますが、被験者の記憶に依存する他のデータと同様に、さまざまな測定誤差が発生する可能性があります。 また、分析者が一連のレポートを通じて思考プロセスを書き留めた場合や、チームが関与している場合、プロセスに関するコミュニケーションの記録がある場合など、部分的な情報が得られる場合もある。 このような情報から、「どのように物事が起こるか」の合理的なイメージを集め、データ分析を生成するプロセスを記述することができる。

このモデルは「生物学的プロセス」、すなわちデータ分析がどのように作られるかの根本的なメカニズム、時に「統計思考」とも呼ばれる、を理解するのに有用である。 このプロセスは、教育目的でも、応用的な仕事を理解する上でも、本質的な面白さがあることは間違いない。

分析モデル

データ分析について考える2番目のアプローチは、データ分析を生成するのに役立つ基本的なプロセスを無視し、代わりに分析の観察可能な出力に目を向けます。 そのような出力は、Rマークダウン文書、PDFレポート、あるいはスライドデッキ(Stephanie Hicks氏と私はこれを分析コンテナと呼んでいます)であるかもしれません。 この方法の利点は、分析出力が実在し、直接観察することができることです。 もちろん、アナリストがレポートやスライドデッキに書き込む内容は、通常、完全なデータ分析の過程で生み出されたもののごく一部に過ぎません。

私はこれまで何度もデータ分析のアナロジーとして音楽理論を使ってきました。 私たちが音楽を聴いたり調べたりするとき、その音楽がどのように生まれたかについての知識は基本的にありません。 モーツァルトやベートーベンがどのように作曲したかをインタビューすることはもうできない。

  • 分析し理論化する。 私たちは、聴いた音楽(と、もしあればその書かれた表現)を分析し、異なる音楽が互いにどう違うか、あるいは類似点を共有しているかについて話すことができる。 ある作曲家が、あるいは多くの作曲家が共通して行っていることについて感覚を養い、どのようなアウトプットがより成功しているか、あるいは成功していないかを評価することもできるだろう。 何世紀も隔てた異なる種類の音楽の間につながりを持たせることさえ可能だ。 このどれもが、根本的なプロセスの知識を必要としません。
  • フィードバックをする。 学生が作曲を学ぶとき、そのトレーニングの不可欠な部分は、他の人の前で音楽を演奏することです。 聴衆は、何がうまくいき、何がうまくいかなかったかについてフィードバックを与えることができます。 たまに、「何を考えていたんですか」と聞かれることもありますが、たいていの場合、その必要はないでしょう。 もし何かが本当に壊れているのであれば、何らかの是正措置(たとえば、「これはDコードではなくCコードにしなさい」)を処方することも可能でしょう。 対照的に、Song Exploder ポッドキャストは、アーティストに創作プロセスについて話してもらうことで、より「生成的なアプローチ」をとっています。

    私がこのデータ分析の分析モデルを「医師」アプローチと呼んだのは、それが、基本的には医師が直面する問題を反映するものだからです。 患者が到着したとき、一連の症状と患者自身の報告書/履歴があります。 その情報に基づいて、医師は行動方針を指示しなければならない(通常は、さらにデータを収集する)。 しかし、医師には豊富な個人的経験や、様々な治療法を比較した臨床試験の文献があり、それを参考にすることができます。

    データ解析を見るとき、教師として、査読者として、あるいは廊下にいるただの同僚として、タイムリーにフィードバックを与えるのが私の仕事です。 そのような状況では、分析の開発プロセスについて、たとえそれが実際に有用であったとしても、広範なインタビューをする時間は通常ありません。 それよりも、観察されたアウトプットと、おそらく簡単なフォローアップの質問に基づいて判断する必要があるのです。 分析の質を向上させるようなフィードバックを提供できるのは、分析を成功させるためのセンスがあるからです。

    The Missing Ingredient

    Stephanie Hicks と私は、データ分析の要素は何か、また、分析の開発を導く原則は何であろうかと議論してきました。 新しい論文では,分析者と聴衆の間の原則の一致に基づいて,データ分析の成功について説明し,特徴づけを行っています。 これは、このブログやヒラリー・パーカーとのポッドキャストで以前にも触れたことですが、一般的にはもっと手探りなものでした。 Stephanie と私がここで行ったように、より正式なモデルを開発することは有用であり、いくつかの追加的な洞察を得ることができました。

    データ分析の生成モデルと分析モデルの両方において、欠けている要素は、何がデータ分析を成功させるかについての明確な定義でした。 そのコインの裏側は、もちろん、データ分析がいつ失敗したかを知ることである。 分析的アプローチは、分析を分析者から切り離し、観察された特徴に従って分析を分類することができるため、有用である。 しかし、成功の概念がなければ、分類は「無秩序」である。 成功の定義がなければ、分析を正式に批判し、論理的に理由を説明することができない。

    生成的アプローチは、データ分析を改善するために、特に教育の観点から、介入すべき潜在的なターゲットを明らかにするので有用である(ちょうど生物学的プロセスを理解するのと同じように)。 しかし、成功の具体的な定義がなければ、努力すべき目標がなく、真の改善をするためにどのように介入すればよいのかがわかりません。 言い換えれば、データ解析のための「モデルを訓練する」ための結果がないのです。

    データ解析のための生成モデルの開発には多くの焦点が当てられていますが、分析モデルの開発には比較的多くの労力が割かれていると、私は前述しました。 しかし、どちらのモデルもデータ解析の質を向上させ、以前の仕事から学ぶための基本的なものです。 このことは、統計学者やデータサイエンティストなどにとって、観測された出力に基づいてデータ分析をどのように特徴付けることができるか、また、分析間の接続をどのように描くことができるかを研究する重要な機会を提供すると思う」