When Clean Data Is Actually Dirty
カートのアイテムが多すぎます
ご購入は五十タイトルがカートに入っている場合のみです。
カートに追加できませんでした。
しばらく経ってから再度お試しください。
ウィッシュリストに追加できませんでした。
しばらく経ってから再度お試しください。
ほしい物リストの削除に失敗しました。
しばらく経ってから再度お試しください。
ポッドキャストのフォローに失敗しました
ポッドキャストのフォロー解除に失敗しました
-
ナレーター:
概要
We often treat data cleaning as a neutral step.
Delete missing rows. Fill gaps with the mean. Move on.
But cleaning is not neutral. It is a modeling decision.
In this episode, we unpack the statistical consequences of deletion and simple imputation, and why what looks “clean” can fundamentally alter your estimand, distort variance, and bias inference.
We walk through:
- The formal role of the missingness indicator
- The difference between MCAR, MAR, and MNAR
- Why complete-case analysis is rarely as safe as it seems
- How mean imputation collapses variance and attenuates regression slopes
- When multiple imputation and inverse probability weighting are appropriate
- Why sensitivity analysis becomes essential under MNAR
If you cannot defend MCAR, deletion and mean imputation are high-risk defaults.
Cleaning is not preprocessing.
Cleaning is inference.
This episode is for data scientists, statisticians, epidemiologists, and analysts who want to bring rigor back to real-world data.
StatHarbor Analytics
エピソード
-
2026/02/166 分カートのアイテムが多すぎます
ご購入は五十タイトルがカートに入っている場合のみです。カートに追加できませんでした。
しばらく経ってから再度お試しください。ウィッシュリストに追加できませんでした。
しばらく経ってから再度お試しください。ほしい物リストの削除に失敗しました。
しばらく経ってから再度お試しください。ポッドキャストのフォローに失敗しました
ポッドキャストのフォロー解除に失敗しました
まだレビューはありません