统计
简单随机抽样:
1. 个体数有限
2. 逐个抽取
3. 被抽到的概率相等。
例:
10 个个体里抽一个容量为
n 的样本, 某个个体
A 第一次被抽到的可能性为 ?第二次被抽到的可能性为 ?
第一次:
101 第二次:
109×91=101
随机数表题:范围
[0,39],有以下随机数表,从第
1 行第
3 列开始,选出的数依次为
36,33,26,16,11,14,10。
| 0347 | 4373 | 8636 | 9647 | 3661 | 4698 |
|---|
| 6371 | 6233 | 2616 | 8045 | 6011 | 1410 |
总体平均数:
xˉ=n1i=1∑nxi 中位数:
{x⌈2n⌉2x2n+x2n+1x mod 2≡1x mod 2≡0
众数:出现次数最多的数据,不一定唯一,也不一定有众数。
极差:
max{xi}−min{xi} 标准差:
s=n1i=1∑n(xi−xˉ)2
方差:s2=n1i=1∑n(xi−xˉ)2=n1i=1∑n(xi2−2xixˉ+xˉ2)=n1i=1∑nxi2−n1i=1∑n2xixˉ+n1i=1∑nxˉ2=n1i=1∑nxi2−2xˉ2+xˉ2=n1i=1∑nxi2−xˉ2
若采用分层随机抽样,分
n 层,样本数
m1,m2,…,mn,平均值
x1,x2,…,xn,
则样本平均数
xˉ=i=1∑nj=1∑nmjmi⋅xi,注意样本平均数
= 总体平均数。
分层随机抽样需按比例分配:
总体中第 n 层个体数总体中第 m 层个体数=样本中第 n 层个体数样本中第 m 层个体数 且
总体中第 m 层个体数样本中第 m 层个体数=总体容量样本容量
第
p 百分位数:数据中至少有
p% 的数据
≤ 这个值,至少有
(100−p)% 的数
≥ 这个值。
第
25 百分位数:第一四分位数 / 下四分位数;第
75 百分位数:第三四分位数 / 上四分位数;第
50 百分位数:中位数。
已知数据求第
p 百分位数:1. 从小到大排序,令
i=n×p% 2.
{ans=2ai+ai+1ans=a⌈i⌉⌊i⌋=i⌊i⌋=i
格式要求:
{[a,b)的频率<x%[a,c)的频率>x%⟹ 第
x 百分位数在
[b,c) 内。
n 层构成样本的方差:
s2=i=1∑nwi[si2+(xˉi−xˉ)2],其中
xˉi 为样本中不同层的平均数,
si2 为不同层的方差,
wi 为相应的权重( 该层样本数占总样本的多少,
wi<1 )。
| 第 1 层 | m 个数 | xˉ | s2 |
|---|
| 第 2 层 | n 个数 | yˉ | t2 |
则总平均数
aˉ=m+nmxˉ+nyˉ,总方差
b2=m+nms2+nt2+m(xˉ−aˉ)2+n(yˉ−aˉ)2
若数据
x1,x2,…,xn 的平均数
xˉ,方差
s2,标准差
s,则数据
mx1+a,mx2+a,…,mxn+a 的平均数
mxˉ+a,方差
s2m2,标准差
sm。
线性回归问题的一般步骤:
-
列表 + 画散点图
| x | x1 | x2 | … | xn |
|---|
| y | y1 | y2 | … | yn |
-
通过公式求
b^,a^。
b^=i=1∑n(xi−xˉ)2i=1∑n(xi−xˉ)(yi−yˉ)=i=1∑nxi2−nxˉ2i=1∑nxiyi−nxˉyˉ a^=yˉ−b^xˉ
- 根据直线方程一定过 xˉ,yˉ 得出 y^=b^x+a^。
如果散点均匀分布在回归直线的两侧,那么回归效果就好
如果
b^>0 则两变量正相关,反之则负相关,也可利用样本相关系数
r 来判断。
−1≤r≤1,∣r∣ 越接近
1,回归效果越好;
r>0 则正相关,
r<0 则负相关。
r=i=1∑n(xi−xˉ)2i=1∑n(yi−yˉ)2i=1∑n(xi−xˉ)(yi−yˉ)=i=1∑nxi2−nxˉ2i=1∑nyi2−nyˉ2i=1∑nxiyi−nxˉyˉ
非线性回归方程:转化为线性回归方程。
-
幂函数型:
y=c1xn+c2 (n 一般为
21 或
2)。
变换:令
t=xn,b=c1,a=c2,则
y=bt+a。
-
指数型:
y=c1ec2x。
变换:两边取对数并令
z=lny,a=lnc1,b=c2,则
z=bx+a。
变换后,需转化原函数关系,一般用相关指数来看拟合效果的强弱。( 注:非线性的不能用相关系数
r )
概率
基本概念
-
随机试验:对随机现象的实现和观察,用
E 表示。
-
样本点:
E 的每个可能的基本结果,用
ω 表示。
-
样本空间:全体
ω 的集合,用
Ω 表示。
-
有限样本空间:若一个随机试验有
n 个可能结果
ω1,ω2,…,ωn,则称样本空间
Ω={ω1,ω2,…,ωn} 为有限样本空间
( 即
Ω 为有限集 )。
-
随机事件:
Ω 的子集,简称事件,用大写字母
A,B,C,… 表示,当且仅当
A 中的某个样本点出现时,称事件
A 发生。
-
基本事件:只包含一个样本点的事件。
-
必然事件:
Ω 作为自身的子集,包含了所有样本点,在每次试验中总有一个样本点发生,即
Ω 总会发生。
-
不可能事件:
∅ 不含任何样本点,在每次试验中都不会发生,必然事件与不可能事件不具有随机性。
事件的关系和运算
| 事件的关系 | 含义 | 符号表示 |
|---|
| 包含 | A 发生 ⟹B 发生 | A⊆B |
| 并事件 / 和事件 | A 和 B 至少一个发生 | A⋃B 或 A+B |
| 交事件 / 积事件 | A 和 B 同时发生 | A⋂B 或 AB |
| 互斥 / 互不相容 | A 和 B 不能同时发生 | A⋂B=∅ |
| 互为独立 | A 和 B 有且仅有一个发生 | A⋂B=∅ 且 A⋃B=Ω |
如果
A,B 互斥,记
Aˉ,Bˉ 分别为
A,B 的对立事件。
若
A⊆B 且
B⊆A,则事件
A 和事件
B 相等,
A=B。
对于三个事件
A,B,C,
A⋃B⋃C 或
A+B+C 表示
A,B,C 至少一个发生,其余同理。
古典概型
-
满足有限性( 有限样本空间 )、等可能性。
-
设
E 为古典概型,样本空间
Ω 包含
n 个样本点,事件
A 包含其中的
k 个样本点,则事件
A 的概率为
P(A)=nk=n(Ω)n(A)n(A),n(Ω) 表示事件
A 和样本空间
Ω 包含的样本点个数。
概率的基本性质
- ∀A,0≤P(A)≤1
- 必然事件 Ω 概率为 P(Ω)=1,不可能事件 ∅ 概率为 P(∅)=0。
- 若 A,B 互斥,则 P(A⋃B)=P(A)+P(B); 推广:若 A1,A2,…,Am 两两互斥,则 P(A1⋃A2⋃⋯⋃Am)=i=1∑mP(Ai)
- 若 A,B 对立,则 P(B)=1−P(A),P(A)=1−P(B);若 P(A)+P(B)=1,则 A,B 不一定对立。
- 若 A⊆B,则 P(A)≤P(B)( 概率的单调性 )。
- 设 A,B 为随机试验中的两个事件,则 P(A⋃B)=P(A)+P(B)−P(A⋂B) ( 容斥原理 )。
- 对任意 2 个事件 A,B,若 P(AB)=P(A)P(B),则 A 与 B 相互独立,记 A,B 的对立事件分别为 Aˉ,Bˉ 因事件 A,B 的发生互不影响,则 A 与 Bˉ,Aˉ 与 B,Aˉ 与 Bˉ 也相互独立。
- 若 A,B,C 两两独立,则 P(ABC)=P(A)P(B)P(C)。
- Aˉ∩Bˉ=A∪B,Aˉ∪Bˉ=A∩B
| 事件含义 | 事件表示 | 概率 | A,B 互斥 | A,B 相互独立 |
|---|
| A 和 B 至少一个发生 | A⋃B | P(A⋃B) | P(A)+P(B) | 1−P(Aˉ)P(Bˉ) |
| A 和 B 同时发生 | AB | P(AB) | 0 | P(A)P(B) |
| A 和 B 都不发生 | AˉBˉ | P(AˉBˉ) | 1−[P(A)+P(B)] | P(Aˉ)P(Bˉ) |
| A 和 B 只有一个发生 | ABˉ+AˉB | P(ABˉ⋃AˉB) | P(A)+P(B) | P(A)P(Bˉ)+P(Aˉ)P(B) |
组合计数
-
加法原理( 分类 ),乘法原理( 分步 )。
-
排列:从
n 个不同元素中取
m 个排成一列,
考虑顺序,产生不同排列的数量为
Anm ( 也可记作
Pnm )
=(n−m)!n!=n×(n−1)×(n−2)×⋯×(n−m+1)
-
组合:从
n 个不同元素中取
m 个排成一列,
不考虑顺序,产生不同组合的数量为
(mn)=Cnm=m!(n−m)!n!=m×(m−1)×⋯×2×1n×(n−1)×⋯×(n−m+1)
性质:
- Cnm=Cnn−m
- Cnm=Cn−1m+Cn−1m−1
- i=0∑nCni=Cn0+Cn1+Cn2+⋯+Cnn=2n
-
组合数的应用
-
有
n 个
完全相同的元素,要求将其分为
k 组,保证每组至少有一个元素,一共有多少种分法?
考虑拿
k−1 块板子插入到
n 个元素两两形成的
n−1 个空里面。
答案为
(n−1k−1)
本质是求
x1+x2+⋯+xk=n 的正整数解的组数。
-
若问题变换一下,每组允许为空?
考虑创造条件转化成有限制的问题一,先借
k 个元素过来,在这
n+k 个元素形成的
n+k−1 个空里面插板。
答案为
(n+k−1k−1)=(n+k−1n)
本质是求
x1+x2+⋯+xk=n 的非负整数解的组数。
-
再扩展一步,要求对于第
i 组,至少要分到
ai 个元素呢?(
∑ai≤n )
本质是求
x1+x2+⋯+xk=n 的解的数目。
类比无限制的情况,我们借
∑ai 个元素过来,保证第
i 组能至少分到
ai 个,也就是令
xi′=xi−ai 且
xi′≥0
得到新方程
(x1′+a1)+(x2′+a2)+⋯+(xk′+ak)=n
转化为
i=1∑kxi′=n−∑ai
答案为
(n−∑ai+k−1k−1)=(n−∑ai+k−1n−∑ai)
-
1 ~
n 这
n 个自然数选
k 个,这
k 个数中两两都不相邻的组合有
(n−k+1k) 种。
(a+b)n=k=0∑nCnkakbn−k (ax+by)n=k=0∑nCnkakbn−kxkyn−k
证明可利用数学归纳法,利用
(nk)+(nk−1)=(n+1k)
若将二项式定理扩展成多项式的形式,有:
(x1+x2+⋯+xt)n=满足 n1+n2+⋯+nt=n 的非负整数解∑(nn1,n2,…,nt)x1n1x2n2…xtnt
其中
(nn1,n2,…,nt) 是多项式系数,满足
∑(nn1,n2,…,nt)=tn。
i=0∑k(ni)(mk−i)=(n+mk)
- Lucas 定理:( p 是质数,1≤m≤n )
Cnm≡Cn mod pm mod p×Cn/pm/p (mod p)
- Catalan 数列:给定 n 个 0 和 n 个 1,它们按照某种顺序排成长度为 2n 的序列,满足任意前缀中 0 的个数都不少于 1 的个数的序列的数量为:
Catn=n+1C2nn
| n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|
| Catn | 1 | 2 | 5 | 14 | 42 | 132 | 429 | 1430 | 4862 | 16796 |
以下问题都与
Catalan 数有关:
- n 个左括号和 n 个右括号组成的合法括号序列的数量为 Catn
- 1,2,…,n 经过一个栈,形成的合法出栈序列的数量为 Catn
- n 个节点构成的不同二叉树的数量为 Catn,n 个节点的 m 叉树有 n(nmn−1)
- 在平面直角坐标系上,每一步只能向上或向右走,从 (0,0) 走到 (n,n) 并且两个端点外不接触直线 y=x 的路线数量为 2Catn−1
- 对于一个凸多边形的顶点数为 n,Catn−2 代表所有可能的三角剖分的数量。
- 容斥原理:设 S1,S2,…,Sn 为有限集合,∣S∣ 表示集合 S 的大小,则:
∣i=1⋃nSi∣=i=1∑n∣Si∣−1≤i<j≤n∑∣Si⋂Sj∣+1≤i<j<k≤n∑∣Si⋂Sj⋂Sk∣+⋯+(−1)n+1∣S1⋂⋯⋂Sn∣
- 第 1 类 Stirling 数:1 ~ n 的排列有 m 个环:
S1(n,m)=S1(n−1,m−1)+S1(n−1,m)×(n−1)
- 第 2 类 Stirling 数:n 个不同的球放入 m 个相同盒子且盒子非空:
S2(n,m)=S2(n−1,m−1)+S2(n−1,m)×m
- 错排数:1 ~ n 的排列,第 i 个位置上均不为 i:
D(n)=(n−1)(D(n−1)+D(n−2))=n×D(n−1)+(−1)n