只有百分比,没有具体数字

 
notion image
 
15 个要避免的常见数据谬误
在当今技术驱动的经济中,数据对于获得新见解、制定决策和构建产品至关重要。 事实上,世上有如此多的数据,它的数量每两年翻一番 - 到 2025 年,将有 175,000 EB 的数据存在。 这是一个史无前例的数字,很难正确看待。给你一些感觉,一个 EB 等于 1,000,000,000 GB 的数据,据说 5 EB 大约等于"人类曾经说过的所有词"。 常见的数据谬误 可以想象,挖掘所有这些数据可能是一项艰巨的挑战。 数据有许多不同的形式,并非所有形式都易于分析。因此,人们很容易对数据采取捷径,或者尝试将我们收到的传入数据融入我们对事物应该如何发展的先入为主的观念中。 以下信息图来自 Geckoboard,它显示了人们在分析数据时常犯的谬误。我们已经重新格式化了他们的 PDF 以适应本文。 15 个常见的数据谬误 我们如何避免在箭头周围画一个靶心,以便我们能够以合乎逻辑、一致和方法论的方式解释数据的含义? 关键是要了解人们在使用数据时常犯的谬误,以及为什么这些谬误会扭曲我们的解释。 这里有四个谬误的例子,以及为什么每个例子都被数据科学家认为是有问题的。 1. 幸存者偏差 当人们分析成为成功企业家所需的素质时,我们通常会查看现有企业家群体以寻找线索。然而,通过将我们的样本仅限于这个"幸存"的企业家群体,我们冒着幸存者偏差的风险。 我们可以从所有失败的企业家身上吸取教训 - 他们只是更难找到。将这些数据整合到故事中可以帮助完成更全面的画面。 2. 虚假因果关系 您是否知道肯塔基州的结婚率与每年因从渔船上掉下来而淹死的人数之间存在 95% 的相关性? 这是否意味着两个变量之间存在某种关系? 发现高水平的相关性可能是偶然发生的 - 但判定错误的因果关系是本文中最业余的统计错误之一。 3. 赌徒谬论 如果轮盘连续 26 次变黑,是否意味着它会在下一次旋转时变回红色? 说概率不会改变很容易,但想象一下处于当下。赌徒谬误也发生在数据分析中:仅仅因为某件事在一段时间内异常频繁地发生并不意味着大自然会"平衡"。 4.
15 个要避免的常见数据谬误
badge