1.概率论

1. 随机事件和概率
2. 随机变量与分布
4. 随机变量的数学特征
5. 知识点
6. 贝叶斯定理
QA

https://zhuanlan.zhihu.com/p/42859784

1. 随机事件和概率

1. 事件运算规律

交换律：
$A \cup B = B \cup A$ $A \cap B = B \cap A$
结合律：
$A \cup (B \cup C) = (A \cup B) \cup C$ $A \cap (B \cap C) = (A \cap B) \cap C$
分配律：
$A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$ $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$

2. 条件概率

$P(B|A) = \frac{P(AB)}{P(A)}$

3. 事件独立性

$A,B \, 相互独立 <--> P(AB) = P(A)P(B)$

A,B 相互独立的充要条件为 A 与 $\overline{B} $ 或 $\overline{A}$ 与 B 或 $\overline{A}$ 与 $\overline{B}$ 相互独立。
当 0 < P(A) < 1 时， A, B 相互独立等价于 P(B|A) = P(B) 或 $P(B|A) = P(B|\overline{A})$成立
n 个事件间相互独立 —> 这n个事件必两两独立；反之不成立。

4. 五大公式

加法公式：
$P(A + B) = P(A) + P(B) - P(AB)$ $P(A + B + C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)$
减法公式：
$P(A - B) = P(A) - P(AB)$
乘法公式：
$P(A) > 0 时， P(AB) = P(A)P(B|A)$
全概率公式：
$P(A) = \sum_{i=1}^n P(B_i)P(A|B_i)$
贝叶斯公式：
$P(B_j| A) = \frac{P(B_j)P(A|B_j)}{\sum_{i=1}^n P(B_i)P(A|B_i)}$

5. 古典型概率

定义：在样本空间中，有有限 n 个样本点，且每个样本点的发生具有相等的可能性，则称这种有限等可能试验为古典概型。
如果事件 A 由 $n_A$ 个样本点组成，则事件 A 的概率为：
$P(A) = \frac{n_A}{n} = \frac{A 中包含的样本点}{样本空间中的样本点总数}$

6. 几何型概率

定义：当试验的样本空间是某区域（该区域可以是一维，二维或三维等），以 $L(\Omega)$ 表示当前样本空间 $\Omega$ 的几何度量（长度，面积，体积）等。 $L(\Omega)$ 为有限，且试验结果出现在 $\Omega$ 中的任意区域的可能性只与该区域几何度量成正比。
如果事件 A 的样本点表示的区域为 $\Omega_A$ ，那么事件A的概率为：
$P(A) = \frac{L(\Omega_A)}{L(\Omega)} = \frac{\Omega_A 的几何度量}{\Omega 的几何度量}$

7. n重伯努利试验

伯努利试验：随机试验，每次试验都只有两个结果 $A$ 与 $\overline{A}$，则称为伯努利试验。
n重伯努利试验：将伯努利试验独立重复进行 n 次，称为 n 重伯努利试验。

若每次实验中， $P(A)= p$，那么 n 重伯努利试验中事件 A 发生 k 次的概率为：

$二项概率公式：C_n^k p^k(1-p)^{n-k}$

2. 随机变量与分布

1.离散型随机变量

$概率分布：P\{X=x_k \} = p_k \\ 分布函数： F(x) = P(X \leq x) = \sum_{x_k \leq x}p_k \\$

2. 连续型随机变量

$F(x) = \int_{-\infty}^{x} f(t)dt$

3. 常见分布

几何分布：n重伯努利试验中，在第 k 次试验时才首次试验成功的概率服从几何分布。
$P\{X = K \} = p (1-p)^{k-1}$
超几何分布： N 件商品中含有 M 件次品，从中任意一次取出 n 件(或从中一件接一件不放回的取n件)，令 X = 抽取的n件商品中的次品件数，则 X 服从参数为 n， N， M 的超几何分布。
$P\{ X = k \} = \frac{C_M^kC_{N-M}^{n-k}}{C_N^n}$
泊松分布：一段时间内电话总机接到的呼叫次数，候车的旅客数，保险索赔的次数都服从泊松分布。
$P\{X = k \} = \frac{\lambda^k}{k!} e^{-\lambda};m \quad X \sim P(\lambda)$
均匀分布：X 在区间 [a,b] 上服从均匀分布，则 $X \sim U(a,b)$
$f(x)= \begin{cases} \frac{1}{b-a}, & a < x <b \\ 0, & \text{其他} \end{cases}\\ F(x)= \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x <b \\ 1, & x \geq b \end{cases}$
指数分布： $X \sim E(\lambda)$
正态分布

4. TODO

4. 随机变量的数学特征

1. 数学期望

离散型随机变量：
$P(x_k) = p_k \\ E(x) = \sum_{k=1}^n x_k p_k$
连续型随机变量：
$E(X) = \int_{-\infty}^{+\infty} xf(x)dx$
性质：设 C 为常数, X， Y 为随机变量
- $E(C) = C$
- $E(CX) = CE(X)$
- $E(X \pm Y) = E(X) \pm E(Y)$
- $E(XY) = E(X)E(Y)$ 的充要条件为 X , Y不相关。
随机变量X的函数 $Y = g(X)$ 的数学期望：
- X 为离散随机变量： $P(X=x_k) = p_k; \qquad \sum_{k=1}^{n} g(x_k)p_k 绝对收敛时有： \\ E(Y) = E(g(X)) = \sum_{k=1}^{n} g(x_k)p_k$
- X 为连续随机变量： $X 概率密度为f(x)； \qquad \int_{-\infty}^{+\infty} g(x)f(x)dx 绝对收敛时有：\\ E(Y) = E(g(X)) = \int_{-\infty}^{+\infty} g(x)f(x)dx$
随机变量 (X, Y) 的函数 $Z = g(X, Y)$ 的数学期望：
- (X, Y) 为离散随机变量：
  $P\{X=x_i, Y=y_j\} = p_{ij}; \quad \sum_{i=1}^n \sum_{i=1}^m g(x_i, y_j)p_{ij} 绝对收敛有： \\ E(Z) = E[g(X,Y)] = \sum_{i=1}^n \sum_{i=1}^m g(x_i, y_j)p_{ij}$
- (X,Y) 为连续随机变量：
  $概率密度：f(x,y); \quad \\ E(Z) = E[g(X,Y)] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x,y)f(x,y)dxdy$

2. 方差

$D(X) = E(X^2) - [E(X)]^2$

$D(C) = 0$，但不能从反推出 C 为常数
$D(aX+b) = a^2D(X)$
$D(X \pm Y) = D(X) + D(Y)$ 的充要条件是 X 与 Y 不相关。
$D(-X) = D(X)$

3. 常见分布期望与方差 — TODO

https://blog.csdn.net/Ga4ra/article/details/78935537

0-1 分布：
$p(X=k) = p^k(1-p)^{1-k}; k = 0, 1\\ E(X) = p; \\ D(X) = p(1-p)$
二项分布：$X \sim B(n,p) $
$p(X=k) = C_n^kp^k(1-p)^{n-k} \\ E(X) = np \\ D(X) = np(1-p)$

4. 协方差

定义：对于随机变量X ,Y ，如果 $E{[X - E(x)][Y - E(Y)]}$存在，则称之为 X 和 Y 的协方差：
$cov(X,Y) = E\{[X - E(x)][Y - E(Y)]\} = E(XY) - E(X)E(Y)$
性质：
$cov(X,Y) = E(XY) - E(X)E(Y) \\ D(X \pm Y) = D(X) + D(Y) \pm 2 cov(X,Y) \\ cov(X,Y) = cov(Y, X)\\ cov(aX, bY) = abcov(X, Y); a,b 为常数 \\ cov(X_1+X_2, Y) = cov(X_1, Y) + cov(X_2, Y)$

5. 相关系数

定义：对于随机变量 X 和 Y，如果 $D(X)D(Y) \neq 0$，则称 $\frac{cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$ 为 X 与 Y 的相关系数。
$\rho_{XY} = \frac{cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$
性质：
$|\rho_{XY}| \leq 1 \\ |\rho_{XY}| = 1 的充要条件为存在不全为0的常数 a，b, 使得：\\ P(aX+bY =1) = 1$

6. 独立与不相关

不相关：如果随机变量 X 与 Y 的相关系数 $\rho_{XY} = 0$，则称 X 与 Y 不相关。
相互独立一定不相关，不相关不一定相互独立。
对于二维正态随机变量(X,Y), X 和 Y相互独立的充要条件为 $\rho = 0$
对于二维正态随机变量(X,Y)， X,Y相互独立与不相关等价。

5. 知识点

1. 古典概率模型

原理：在一个样本空间 S 中，若 S 中每个样本点发生的可能性相同，那么事件A 发生的概率 $P(A) = \frac{|T|}{|S|}$。（有限等可能试验）
例子：一个骰子掷到 1 的概率：

$S = \{1, 2, 3 ,4, 5, 6\}, T = {1} \Rightarrow P(\frac{|T|}{|S|}) = \frac{1}{6}$

2. 几何概率

原理：在一个几何形状 S 中随机抽取一个点，求该点属于子形状 T 的概率$P(\frac{|T|}{|S|})$。（延伸到几何度量上的有限等可能试验）
例子：在一个边长为 2 的正方形内抽取一个点，求该点属于其内切单位圆的概率。
$p = \frac{\text{圆的面积}}{\text{正方形面积}} = \frac{\pi}{4}$

3. 数学期望

原理：一个离散随机变量X的数学期望为 $E(x) = \sum_x xp(x)$
举例：以1/2 的概率取1，以 1/2 的概率取 0，则此时的期望为$E(x) = 0 \times p(0) + 1 \times p(1) = \frac{1}{2}$

4. 贝叶斯

条件概率： $P(A|B) = \frac{P(AB)}{P(B)} = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^c)P(A^c)}$

6. 贝叶斯定理

1. 基本概率

$P(X=x_i)$ ：边缘概率
$P(X=x_i,Y=y_i)$：联合概率
$P(Y=y_i|X=x_i)$：条件概率

2. 两大规则

加和规则（sum rule）：
$p(X=x_i) = \sum_{j=1}^L p(X=x_i,Y=y_j)$
乘积规则（product rule）：
$p(X=x_i,Y=y_j) = p(Y=y_j|X=x_i)p(X=x_i)$

贝叶斯定理： $p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)}$

3. 实例说明

QA

1. 简单古典概率

有n个不同的球，每次抽取1个球：

有放回的抽取，抽取 m 个排成一列，求不同排列总数。 $n^m$
无放回的抽取，抽取 m 个排成一列，求不同排列总数。 $P_n^m = \frac{n!}{(n-m)!}$
无放回的抽取，抽取m个忽视次序的组成一组，求不停组合总数。 $C_n^m = \frac{n!}{m!(n-m)!}$
将所有球分为 k 个不同的组，忽视每一组中元素的次序，且每组恰好有 $n1, …n_k$ 个球$(n_1 + …+n_k=n)$ ，求不同分组结果数。 $C_m^{n_1} C{n-n1}^{n_2} … C{n-n1-…-n{k-1}}^{n_k} = \frac{n!}{n_1!n_2!…n_k!}$

2. 纸牌问题

问题：54 张牌，分成 6 份，每份 9 张牌，大小王在一起的概率？(阿里一面)
答案：
- 分母：总样本空间为将54张牌放入 1-54 的方法总数： $54!$
- 分子：大小王属于 1-9 的方法总数为 $9 * 8 * 52!$ ，因此大小王在一起的方法总数为 $6 * 9 * 8 * 52!$
- 概率为： $\frac{6 * 9 * 8 52!}{54!} = \frac{8}{53}$

3. 棍子问题

问题：一根棍子折三段能组成三角形的概率？
解答：
- 假设：棍子长度为1，第一段长度为$x$，第二段长度为 $y$，第三段长度 $1-x-y$
- 分母：总样本空间为： 1 * 1 = 1
- 分子：两边之和大于第三边
  $1 > x > 0$ $1 > y > 0$ $1 - x -y > 0;$ $x+y > 1 - x - y;$ $1-x-y+y > x;$ $1-x-y + x > y$

化简画图最终得到子空间面积为 $\frac{1}{8}$

4. 采样问题

问题：从 1，2，…， n 中有放回的均匀采样 m次，问出现过的不同数字的个数 x 的期望为多少？

出现的不同数字的个数 X 可以表示为 $X_1 + … + X_n$ ，其中 $X_i$ 表示 i 是否出现，如果出现，为1，否则为 0

$E(X_i) = P(X_i = 1) = P(i 在 m 次采样中出现过)$

i 没有在 m 次采样中出现过的概率为： $(\frac{n-1}{n})^m$ ，那么，有：

$E(X_i) = 1 - (\frac{n-1}{n})^m$

那么期望可加：

$E(X) = E(X_1) + ... + E(X_n) = n[1 - (\frac{n-1}{n})^m]$

5. 贝叶斯

问题：某城市发生一起汽车撞人逃跑事件，该城市只有两种颜色的车，蓝20%绿80%，事发时现场只有一个目击者，他指正是蓝车，但根据专家分析，当时那种条件下能看正确的可能性是80%，那么肇事的车是蓝车的概率是多少？

假设事件 A 为目击者指正蓝车，事件B为肇事车为蓝车，事件C为肇事车为绿车，那么有：

$P(B|A) = \frac{P(B) * P(A|B)}{P(B) * P (A|B) + P(C) * P(A|C)} = \frac{0.2 * 0.8}{0.2 * 0.8 + 0.8 * 0.2} = 0.5$

6. 假期期望

问题：某公司有这么一个规定：只要有1个员工过生日，当天所有员工全部放假一天。但在其余时候，所有员工都没有假期，必须正常上班。这个公司需要雇佣多少员工，才能让公司一年内所有员工的总工作期望值最大？

假设有 n 名员工， X表示不放假的天数，则总工作时间为 nX；假设第 i 天不放假则 $X_i = 1$，第 i 天放假则 $X_i = 0 $，那么则有：

$X = X_1 + ... + X_{365} \\ E(X_i) = P(第i天不放假) = P(每个员工都不过生日) = (\frac{364}{365})^n \\ E(nX) = 365n(\frac{364}{365})^n$

$n <= 364$ 时关于 n 增加， $n > 364$ 时，关于n减少。

7. 下雨概率

问题：你有三位好友，他们都在西雅图工作，西雅图是出了名的爱下雨，每天下雨的概率高达 2/3。假设你的好心能够以 1/3 的概率正确判断是否在下雨。加入他们中恰好有两位告诉你今天西雅图在下雨，问实际上下雨的概率是多少？

$P(A说下雨，B,C说不下雨 | 下雨) = P(A 不看错，B,C看错) = \frac{1}{3} \frac{2}{3} \frac{2}{3} \\ P(A说下雨，B,C说不下雨 | 不下雨) = P（A 看错，B，C没看错) = \frac{2}{3} \frac{1}{3} \frac{1}{3} \\ P(下雨) = \frac{2}{3}$

8. 见面概率

9. 为何推荐使用高斯分布？

当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择，其中有两个原因：

我们想要建模的很多分布的真实情况是比较接近正态分布的。

中心极限定理说明很多独立随机变量的和近似服从正态分布。这意味着在实际中，很多复杂系统都可以被成功地建模成正态分布的噪声，即使系统可以被分解成一些更结构化的部分。
第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。

10. 玫瑰花

问题：一个活动,n个女生手里拿着长短不一的玫瑰花,无序的排成一排,一个男生从头走到尾,试图拿更长的玫瑰花,一旦拿了一朵就不能再拿其他的,错过了就不能回头,问最好的策略及其概率?

11. 切比雪夫不等式

$P(|X- \mu| \geq k\sigma) \leq \frac{1}{k^2} \quad k > 0 , \mu 为期望， \sigma 为标准差$

切比雪夫不等式描述了这样一个事实，事件大多会集中在平均值附近。

12. 0~1均匀分布的随机器如何变化成均值为0，方差为1的随机器

[0, 1] 均匀分布的随机器的均值为 1/2，方差为 1/12.，那么变换为： $\sqrt{12(x-1/2)}$

13. 红蓝球

问题：抽蓝球红球，蓝结束红放回继续，平均结束游戏抽取次数

设抽到蓝球的概率为 $p$ ，设抽到红球的概率为 $q$，那么抽取到的次数为：

$1 * p + 2 * p * q + ... + n * p * q^{n-1}; \quad n 为无穷大$

那么就有：

$E = p[1 + 2*q + ... +n *q^{n-1} ]$

我们令：

$S = 1 + 2*q + ... +n *q^{n-1}$

那么有：

$\begin{align} S - qS &= (1 + 2q + ... + nq^{n-1}) - (q + 2q^2 + ... + nq^n) \\ &= 1 + q + q^2 + ... q^{n-1} - nq^n \\ &= \frac{1 - q^n}{1-q} - nq^n \end{align}$

那么我们就可以得到：

$\begin{align} E = pS = (1-q) \frac{[\frac{1 - q^n}{1-q} - nq^n]}{1-q} = \frac{1 - q^n}{1-q} - nq^n \end{align}$

当 n 趋向于无穷大时次数等于：

$E = \frac{1 - 0}{1-q} = \frac{1}{1-q} = \frac{1}{p}$

Contents