专栏文章

【整活】你是怎么磕别人的 /kel

算法·理论参与者 15已保存评论 15

文章操作

快速查看文章及其快照的属性,并进行相关操作。

当前评论
15 条
当前快照
1 份
快照标识符
@miodwvr2
此快照首次捕获于
2025/12/02 17:37
3 个月前
此快照最后确认于
2025/12/02 17:37
3 个月前
查看原文

Part 1 前置知识(知道的敬请跳过)

Part I 钟型曲线

首先,我们要了解掷硬币。对于掷硬币,在大多数情况,概率都是一半对一半(50%50\%50%50\% 反)。也就是说,当我们掷硬币的次数越多,那么抛到正面和反面的次数就越趋近于一半(大数定律)。抛的次数越多,那么这边抛到某个特定次数的概率就是正态分布曲线,即钟型曲线,如图。
霉味钟型曲线
(图片来源于百度)
以上纵轴是发生的概率,横轴是正面(或反面)出现的次数。这里正中央的灰色细线是代表正好 50%50\%,两边是分别递减。可以发现,自中间向两边,概率减小的会越来越缓慢,但是比较旁边的“地带”概率都是趋近于 00 的。这种基本事实叫做中心极限定理

Part II pp 值的定义(简单死了

pp 值”这个词看上去老高深了,其实就是一句话:某个事情发生的概率。就这样,完了。
在数学、科学上,我们经常以 pp 值取 5%5\% 为“可置信水平”,即不发生概率在 5%5\% 以下就是基本上会发生(显然不是一定发生)。

Part 2 开始磕人(?正文在这里

在日常生活中,我们会经常观察到一些现象,比如远方传来某某小 A【数据删除】某某小 B 的言论(不一定是谣言,当然也不一定不是真的)。这样的话语,经常会一传十,十传百,导致可能本来就是谣言(比如开开玩笑),最后不得不被迫变为真实的话语,导致不必要的伤害 (bruh
《穿井得一人》之中告诉我们,对于一些听起来就不太真,甚至是听起来就是真的事件,我们也要去实践、去调查,搞清楚这件事是否真正发生。更进一步,世界上没有什么绝对的事情,就算你觉得它就是一定,那么也是有可能不是真的。就像,太阳从东边升起是一个常识,但是在某些外星球上,就不是这样子。也就是说,我们应该搞清楚事情发生的条件概率,才能对事件进行更加准确的估计。
对于一般的情况,我们只要 95%95\% 的置信水平(2020 次中能中 1919 次)就可以了。所以,我们要求出在钟型曲线之下 95%95\% 的面积。对于如上的“钟型曲线”来说,我们可以发现,与 95%95\% 的面积相对应的是 196%196%-196\%\sim196\%。在掷很多枚硬币的情况下,“标准差”是硬币总数平方根的两倍,即,如果硬币数量为 xx,则误差幅度就是 196%2x=98%x\frac{196\%}{2\sqrt{x}}=\frac{98\%}{\sqrt{x}}。换句话说,有 95%95\% 的概率,在掷 xx 枚硬币的时候,掷出来正面(或反面)的数量与 50%50\% 的准确值相比,差距不会超过 98%x\frac{98\%}{\sqrt{x}} [1]^{[1]}
总结上文一句话:误差幅度(95%95\% 置信水平)就是 98%98\% 除以硬币总数的平方根。现在,就可以进入“磕人”的环节了!
我们从简单的情况开始推。假如,你发现某某小 A 出现了可能是【数据删除】某某小 B 的行为,然后你进行评估,认为小 A 真的【数据删除】小 B 的概率是 50%50\%。也就是说,这就是相当于“掷一枚硬币”。那么,如果想要让误差幅度进入你的“可置信水平”(一般取 pp 值的“可置信水平” 5%5\%),那么就需要进行解不等式(设出现了 xx 次才能达到): 98%x5%\frac{98\%}{\sqrt{x}}\le5\% 解得 x384.16x\ge384.16,在整数范围内就是 x385x\ge 385。也就是说,如果每天一次,那么只有一年多之后,你才能判断出这是真实发生的。所以,对于那些一看就不大真实,可信率只有 50%50\% 左右,甚至比 50%50\% 还要低的,可以忽略。这些对你来说是无用的信息。
不过,你肯定会说:我身边还有概率更高的,比如 70%70\%,甚至 90%90\% 以上。没事!我们可以进行改动!我们发现:
  • 对于一项发生概率为 k%k\% 的事件,那么它的不发生率就是 (100k)%(100-k)\%
  • 然后,我们发现,总会出现一个数,使得 (50%)w=(100k)%(50\%)^w=(100-k)\%。此时,ww 就是需要掷硬币的数量,来达到这个水平。这是因为,掷硬币正面(或反面)的概率为 50%50\%,掷 ww 次连续掷到正面(或反面)的概率就是 (50%)w(50\%)^w,要保证和某件事情的“不发生率”相等,即 (50%)w=(100k)%(50\%)^w=(100-k)\%
在这里,我们提供了一份对照表(上面的 k,wk,w 对照表,保留 22 位小数):
事件发生率 k%k\%相当于掷了硬币次数 ww
60601.321.32
65651.521.52
70701.741.74
75752.002.00
80802.322.32
85852.742.74
90903.323.32
95954.324.32
99996.646.64
说句闲话:其实发现在 k=99k=99 的时候(概率为 99%99\%),也只代表了连续 6.646.6450%50\%,并不是特别高。
然后,我们就可以带进去用了。刚刚的式子是 98%x5%\frac{98\%}{\sqrt{x}}\le5\%,这一次,我们使用如下式子(xx 还是代表要出现的次数): 98%wx5%\frac{98\%}{\sqrt{wx}}\le5\%
同样可以进行解,于是:
事件发生率 k%k\%需要出现的次数 xx整数范围内最小 xx
6060290.59290.59291291
6565253.57253.57254254
7070221.16221.16222222
7575192.08192.08193193
8080165.44165.44166166
8585140.36140.36141141
9090115.64115.64116116
959588.8988.898989
999957.8257.825858
这说明,就算是 99%99\% 的单次置信概率,都需要 5858 次才能到 95%95\% 的“最终置信水平”。实际上,如果想要做到 99%99\% 的“置信水平”,那么只需要把 98%98\% 变为 129%129\% 即可。
这么多数据,应该足够了吧! 但是答案是否定的。我们还需要更多!比如说,在不同的天数内出现了概率不同的时间,套用上述公式就无法进行计算了。所以,我们还是需要更普遍的公式!
不过这更加普遍的公式推导很简单:将每一个发生率 kk 在上面的对照表上找到 ww,然后我们就得到了一个“综合发生次数”,就能套用第一个不等式进行求解了。
如果共有 nn 个不同的概率,对于第 ii 个概率发生了 xix_i 次这样的时间,这个发生率 kk 所对应的 wwwiw_i,那么综合发生率 AA 求解方式就是:
A=i=1nxiwiA=\sum_{i=1}^{n}x_i\cdot w_i
当然如果看不懂(\sum 没学过的话),还有一个拆开的通俗公式:
A=x1w1+x2w2++xnwnA=x_1\cdot w_1+x_2\cdot w_2+\ldots+x_n\cdot w_n
然后,就没有然后了。套用第一个公式:
98%A5%\frac{98\%}{\sqrt{A}}\le5\%
直接套解:A384.16A\ge384.16,整数范围内是 A385A\ge385
也就是说,当且仅当你所求的的 AA 大于等于 385385,才有可能是真实的事件。
综上所述:单次代表不了什么,长远才是真理!不信谣,不传谣,从我做起!
正文到此结束,下面是附文。
由于某些存在,我们可以尝试另一个不等式(由上文第一个不等式扩展而来):
1(12)x98%x95%1-(\frac{1}{2})^x-\frac{98\%}{\sqrt{x}}\ge95\%
解释一下:前面(1(12)x1-(\frac{1}{2})^x)是纯的发生率(注意:这里默认的是每个事件发生率 50%50\%,即 12\frac{1}{2}),后面是上面所说的误差幅度。这一个不等式能够得到更加准确的答案,更好地反映真实水平。
让人震惊的是,这个方程的解正好是 x384.16x\ge384.16!和上面是一样的!这真是神奇。也就是说,基本上用上文公式即可解决问题,无需复杂化。
附文到此结束,下面是整活

Part 3 引用(万分感谢 Qwq)

  • [1]^{[1]}:由 杰弗里·S·罗森塔尔 作品《雷劈的真相——神奇的概率事件》之中第 1111 章(第 177177 页的部分内容)改编。

Part 4 这是啥 QAQ

突发奇想,晚上睡觉想到的,然后第二天写下来了。没想到写了 3.8k+3.8k+ 字。可得给我们班的“磕佬”们好好看看去。
如果有不严谨之处,欢迎指出这个蒟蒻的错误(私信、at 等均可)!谢谢大家!
说句闲话,这么点字写了我一个多小时。

评论

15 条评论,欢迎与作者交流。

正在加载评论...