概率论与数理统计

部分参考了斯坦福大学 2014(吴恩达)机器学习教程中文笔记,感谢编者黄海广博士。

概率论的基本概念

随机试验

在概率论中,将具有以下三个特点的事件称为随机试验

  • 可以在相同的条件下重复进行
  • 每次试验的可能结果不止一个,并且事先能够明确事件的所有可能结果
  • 进行一次试验前不能确定哪个结果会出现

样本空间、随机事件

样本空间

随机事件$E$的所有基本结果组成的集合为$E$的样本空间,记为$S$。样本空间的元素,即$E$的每个结果,称为样本点或基本事件,有时记为$\omega$。

随机事件

称试验$E$的样本空间$S$的子集为$E$的随机事件,简称事件。在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生

特别地,由一个样本点组成的单点集,称为基本事件;样本空间$S$包含所有的基本点,每次试验中总是发生,称为必然事件,记为$\Omega$;空集$\varnothing$每次都不可能发生,称为不可能事件

事件间的关系与事件的运算

子事件

$A \subset B$,若$A$发生,则$B$发生。

相等事件

$A = B$,即$A \subset B$,且$B \subset A$ 。

和事件

$A\bigcup B$(或$A + B$),$A$与$B$中至少有一个发生。

差事件

$A - B=\lbrace x\vert x\in A,x\not\in B\rbrace $,$A$发生但$B$不发生。

积事件

$A\bigcap B$(或${AB}$),$A$与$B$同时发生。

互斥事件(互不相容)

$A\bigcap B$=$\varnothing$。基本事件是两两互斥的。

互逆事件(对立事件)
\[A\bigcap B=\varnothing\\ A\bigcup B=\Omega\\ A=\overline{B}\\ B=\overline{A}\]
完全事件组

${ {A}{1} }{ {A}{2} }\dots { {A}_{n} }$两两互斥,且和事件为必然事件,即

\[A_i\bigcap A_j=\varnothing,i\ne j,\bigcap_{i=1}^n=\Omega\]
交换律
\[A\bigcup B=B\bigcup A\\ A\bigcap B=B\bigcap A\]
结合律
\[(A\bigcup B)\bigcup C=A\bigcup (B\bigcup C)\]
分配律
\[(A\bigcap B)\bigcap C=A\bigcap (B\bigcap C)\]
德·摩根律
\[\overline{A\bigcup B}=\overline{A}\bigcap \overline{B}\\ \overline{A\bigcap B}=\overline{A}\bigcup \overline{B}\]

频率与概率

频率

定义

相同条件下进行了 n 次试验,在这 n 次试验当中,事件 A 发生的频率$n_A$称为事件 A 的频数,比值$f_n(A)=\frac{n_A}{n}$称为事件 A 发生的频率。

性质
  • $0\leq f_n(A)\leq 1$
  • $f_n(S)=1$
  • 有限可加性:若$A_1,A_2,\dots,a_k$是两两互不相容的事件,则$f_n(A_1\bigcup A_2\bigcup\dots\bigcup A_k)=f_n(A_1)+f_n(A_2)+\dots+f_n(A_k)$

概率

定义

设 E 是随机试验,S 是它的样本空间,对于 E 的每一事件 A 赋予一个实数$P(A)$,称为事件 A 的概率,如果集合函数$P(\cdot)$满足下列条件:

非负性

对于每一事件 A,有$P(A)\ge 0$。

规范性

对于必然事件 S,有$P(S)=1$。

可列可加性

设$A_1,A_2,\dots$是两两互不相容的事件,则$P(A_1\bigcup A_2\bigcup\dots)=P(A_1)+P(A_2)+\dots$。

性质
  • $P(\varnothing)=0$
  • 有限可加性:$P(A_1\bigcup A_2\bigcup\dots\bigcup A_n)=P(A_1)+P(A_2)+\dots+P(A_n)$,可由上一条性质和可列可加性推出。
  • 若$A\subset B$,则$P(B-A)=P(B)-P(A)\ge 0$
  • $P(A)\le 1$
  • 逆事件的概率:$P(\overline{A})=1-P(A)$
  • 加法公式:$P(A\bigcup B)=P(A)+P(B)-P(AB)$,推广到三元:$P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$
  • $P(A-B)=P(A)-P(AB)$
  • $P(A\overline{B})=P(A)-P(AB)$
  • $P(A)=P(AB)+P(A\overline{B})$
  • $P(A\bigcup B)=P(A)+P(\overline{A}B)=P(AB)+P(A\overline{B})+P(\overline{A}B)$

等可能概型(古典概型)

具备以下两个特点的试验被称作等可能概型(古典概型):

  • 试验的样本空间只包含有限个元素
  • 试验中每个基本事件发生的可能性相同

古典概型计算公式

\[P(A)=\frac{A包含的基本事件数}{S包含的事件数}\]

实际推断原理

概率很小的事件在一次试验中实际上几乎是不发生的。

条件概率

条件概率

$P(B\vert A)=\frac{P(AB)}{P(A)}$,表示$A$发生的条件下,$B$发生的概率。 条件概率$P(\centerdot \vert B)$满足概率的所有性质,例如:

\[P({ {\overline{A} }_{1} }\vert B)=1-P({ {A}_{1} }\vert B)\\ P({ {A}_{1} }\bigcup { {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)+P({ {A}_{2} }\vert B)-P({ {A}_{1} }{ {A}_{2} }\vert B)\\ P({ {A}_{1} }{ {A}_{2} }\vert B)=P({ {A}_{1} }\vert B)P({ {A}_{2} }\vert { {A}_{1} }B)\]
非负性

对于每一事件$B$,有$P(B\vert A)\ge 0$

规范性

对于必然事件$S$,有$P(S\vert A)=1$

可列可加性
\[P(\underset{i=1}{\overset{\infty}{\mathop{\bigcup } } }\,{ {B}_{i} }\vert A)=\sum_{i=1}^\infty P(B_i\vert A)\]

乘法定理

\[P({ {A}_{1} }{ {A}_{2} })=P({ {A}_{1} })P({ {A}_{2} }\vert { {A}_{1} })=P({ {A}_{2} })P({ {A}_{1} }\vert { {A}_{2} })\\ P({ {A}_{1} }{ {A}_{2} }\dots { {A}_{n} })=P({ {A}_{1} })P({ {A}_{2} }\vert { {A}_{1} })P({ {A}_{3} }\vert { {A}_{1} }{ {A}_{2} })\dots P({ {A}_{n} }\vert { {A}_{1} }{ {A}_{2} }\dots { {A}_{n-1} })\]

全概率公式和贝叶斯公式

全概率公式
\[P(A)=\sum\limits_{i=1}^{n}{P(A\vert { {B}_{i} })P({ {B}_{i} }), { {B}_{i} }{ {B}_{j} } }=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup } } }\,{ {B}_{i} }=\Omega\]
Bayes(贝叶斯)公式
\[P({ {B}_{j} }\vert A)=\frac{P(A\vert { {B}_{j} })P({ {B}_{j} })}{\sum\limits_{i=1}^{n}{P(A\vert { {B}_{i} })P({ {B}_{i} })} },j=1,2,\dots ,n\]

上述公式中事件${ {B}_{i} }$的个数可为可列个。

独立性

若干个事件,如果对于其中任意个事件,它们的积事件的概率都等于各事件概率的积,则称这几个事件相互独立。

  • $A$与$B$相互独立$\Leftrightarrow P(AB)=P(A)P(B)$
  • $A$,$B$,$C$两两独立$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$;$P(AC)=P(A)P(C)$;
  • $A$,$B$,$C$相互独立$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$;$P(AC)=P(A)P(C)$;$P(ABC)=P(A)P(B)P(C)$

独立重复试验

将某试验独立重复$n$次,若每次试验中事件 A 发生的概率为$p$,则$n$次试验中$A$发生$k$次的概率为:$P\lbrace X=k\rbrace =C_{n}^{k}{ {p}^{k} }{ {(1-p)}^{n-k} }$

性质

  • 若${ {A}{1} },{ {A}{2} },\dots ,{ {A}{n} }$相互独立,则$P(\bigcap\limits{i=1}^{n}{ { {A}{i} } })=\prod\limits{i=1}^{n}{P({ {A}{i} })},$ $P(\bigcup\limits{i=1}^{n}{ { {A}{i} } })=\prod\limits{i=1}^{n}{(1-P({ {A}_{i} }))}$
  • 若${ {A}{1} },{ {A}{2} },\dots ,{ {A}{m} },{ {B}{1} },{ {B}{2} },\dots ,{ {B}{n} }$相互独立,则$f({ {A}{1} },{ {A}{2} },\dots ,{ {A}{m} })$与$g({ {B}{1} },{ {B}{2} },\dots ,{ {B}{n} })$也相互独立,其中$f(\centerdot ),g(\centerdot )$分别表示对相应事件做任意事件运算后所得的事件,另外,概率为 1(或 0)的事件与任何事件相互独立。

互斥、互逆与独立性之间的关系

$A$与$B$互逆$\Rightarrow$ $A$与$B$互斥,但反之不成立,$A$与$B$互斥(或互逆)且均非零概率事件$\Rightarrow$ $A$与$B$不独立。

随机变量及其分布

随机变量

设随机试验的样本空间为$S=\lbrace e\rbrace $,称定义在样本空间$S$上的实值单值函数$X=X(e)$为随机变量。

离散型随机变量及其分布律

取值有限或可列无限的随机变量称为离散型随机变量。 设 X 的所有取值为$x_k(k=1,2,\dots)$,称 X 取各个事件的概率$P\lbrace X=x_k\rbrace =p_k,k=1,2,\dots$为离散型随机变量 X 的分布律,也可以写成表格形式:

$X$ $x_1$ $x_2$ $\dots$ $x_n$ $\dots$
$p_k$ $p_1$ $p_2$ $\dots$ $p_n$ $\dots$

其中,$p_k$满足:

  • $p_k\ge 0,k=1,2,\dots$
  • $\sum_{k=1}^\infty p_k=1$

0-1 分布(两点分布)

$P\lbrace X=k\rbrace = p^{k}{(1 - p)}^{1 - k},k = 0,1$,则称 X 服从以 p 为参数的 0-1 分布(两点分布)

伯努利试验、二项分布

Binomial Distribution(二项分布)

背景:n 重 Bernoulli 试验中,每次试验感兴趣的事件 A 在 n 次试验中发生的次数 —— X 是一离散型随机变量。 若$P(A)=p$,则$P_n(k)=P\lbrace X=k\rbrace =C_n^kp^k(1-p)^{n-k},k=0,1\dots n$称 X 服从参数为$n, p$的二项分布,记作$X\sim B(n,p)$ 特别地,$0 – 1$分布是$n=1$的二项分布.

Poisson (泊松)分布

背景:已知某事发生速率为每单位时间 b 次,观察时间为 T 时间单位,X 为该观察时间内发生该事的总次数$\lambda=bT$ 设随机变量 X 的所有可能值是全体非负整数,若$P\lbrace X=k\rbrace =e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,\dots$其中$\lambda>0$是常数,则称 X 服从参数为$\lambda$的 Poisson 分布,记作$\pi(\lambda)$或$P(\lambda)$

泊松定理

可用于泊松分布逼近二项分布。设随机变量 X 服从二项分布,其分布律为$P\lbrace X=K\rbrace =C_n^kp^k(1-p)^{n-k}$,又设$np=\lambda$是常数,则有$\lim_{n\to\infty}P\lbrace X=K\rbrace =e^{-\lambda}\frac{\lambda^k}{k!}$ 在实际计算中,当$n\ge 20,p\leq 0.05$时,可用上述公式近似计算;而当$n\ge 100,np\leq 10$时,精度更好。

几何分布

在 n 次伯努利试验中,试验 k 次才得到第一次成功的机率。 $G(p):P\lbrace X=k\rbrace = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,\dots,P\lbrace X = m + k\vert X > m\rbrace = P\lbrace X=k\rbrace $

超几何分布

设有产品 N 件,其中次品 D 件,其余为正品,从中随机地抽取 n 件。记 X 为抽到的的次品件数,求 X 的分布律. 此时抽到 k 件次品的概率为$H(N,M,n):P\lbrace X=k\rbrace = \frac{C_{M}^{k}C_{N - M}^{n -k} }{C_{N}^{n} },k =0,1,\dots,min(n,M)$,称 X 服从超几何分布. 可以证明超几何分布的极限分布就是二项分布.

负二项分布(Pascal 分布)
离散均匀分布

随机变量的分布函数

定义

$F(x) = P(X \leq x), - \infty < x < + \infty$

性质

  • $0 \leq F(x) \leq 1$
  • $F(x)$单调不减
  • 右连续$F(x) = F(x+0)$
  • $F( - \infty) = 0,F( + \infty) = 1$

连续型随机变量及其概率密度

概率密度$f(x)$非负可积,且:

  • $f(x) \geq 0$
  • $\int_{- \infty}^{+\infty}{f(x){dx} = 1}$
  • $x$为$f(x)$的连续点,则: $f(x) = F’(x)$分布函数$F(x) = \int_{- \infty}^{x}{f(t){dt} }$

均匀分布

设连续型随机变量 X 具有概率密度 $p(x)=\begin{cases}\frac{1}{b-a},a\leq x\leq b,\0,其它\end{cases}$则称 X 在$(a,b)$上服从均匀分布,记作$X\sim U(a,b)$ 分布函数$F(x)=\begin{cases}0,x<a\ \frac{x-a}{b-a},a\leq x< b\1,x\ge b\end{cases}$

指数分布

设连续型随机变量 X 具有概率密度 $p(X)=\begin{cases}\lambda e^{-\lambda x},x\ge 0,\0,x<0\end{cases}$,其中$\lambda >0$为常数,则称 X 在$(a,b)$上服从指数分布。 分布函数$F(x)=\begin{cases}1-e^{-\frac{x}{\theta}},x>0\0,x\le 0\end{cases}$ 无记忆性:$\forall s,t>0$,$P\lbrace x>s+t\vert x>s\rbrace =p\lbrace x>t\rbrace $,即,如果 T 是某一元件的寿命,已知元件使用了 s 小时,它总共使用至少 s+t 小时的条件概率,与从开始使用时算起它使用至少 t 小时的概率相等。

正态分布(高斯分布,Gauss)

设连续型随机变量 X 具有概率密度 $p(X)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2} }$则称 X 服从参数为$\mu,\sigma$的正态分布或高斯分布,记作$X\sim N(\mu,\sigma^2)$ $\mu$是位置参数,即固定$\sigma$,对于不同的$\mu$,对应的 f(x)的形状不变化,只是位置不同。 $\sigma$是形状参数,即固定$\mu$,对于不同的$\sigma$,对应 f(x)位置不变化,只是$\sigma$越小,靠近$\mu$附近取值的概率越大,相应拐点越接近于 ox 轴。$\sigma$大小与曲线陡峭程度成反比(几何意义),与数据分散程度成正比(数据意义)。

标准正态分布 N(0,1)

密度函数$\varphi(x)=\frac{1}{\sqrt{2\pi} }e^{-\frac{x^2}{2} }$是偶函数,其分布函数为$\Phi(x)=\frac{1}{\sqrt{2\pi} }\int_{-\infty}^xe^{-\frac{t^2}{2} }\,dt$,其值可查表。 正态分布表 $\varphi(0) = \frac{1}{\sqrt{2\pi} },\Phi(0) =\frac{1}{2},$ $\Phi( - a) = P(X \leq - a) = 1 - \Phi(a)$ $X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X -\mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a -\mu}{\sigma})$

随机变量的函数的分布

  • 离散型:$P(X = x_{1}) = p_{i},Y = g(X)$,则: $P(Y = y_{j}) = \sum_{g(x_{i}) = y_{i} }^{}{P(X = x_{i})}$
  • 连续型:$X\sim f_{X}(x),Y = g(x)$,则:$F_{y}(y) = P(Y \leq y) = P(g(X) \leq y) = \int_{g(x) \leq y}^{}{f_{x}(x)dx}$, $f_{Y}(y) = F’_{Y}(y)$
  • 离散型随机变量的分布函数为阶梯间断函数;连续型随机变量的分布函数为连续函数,但不一定为处处可导函数。
  • 存在既非离散也非连续型随机变量。

多维随机变量及其分布

二维随机变量

由两个随机变量构成的随机向量$(X,Y)$, 联合分布为$F(x,y) = P\lbrace X \le x,Y \le y\rbrace $ $P\lbrace X = x_{i},Y = y_{j}\rbrace = p_{ {ij} };i,j =1,2,\dots$ $f(x,y) \geq 0$ $\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{f(x,y)dxdy} } = 1$ $F(x,y) = \int_{- \infty}^{x}{\int_{- \infty}^{y}{f(u,v)dudv} }$

边缘分布

$p_{i \cdot} = \sum_{j = 1}^{\infty}p_{ {ij} },i =1,2,\dots$ $p_{\cdot j} = \sum_{i}^{\infty}p_{ {ij} },j = 1,2,\dots$ $f_{X}\left( x \right) = \int_{- \infty}^{+ \infty}{f\left( x,y \right){dy} }$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

条件分布

$P\lbrace X = x_{i}\vert Y = y_{j}\rbrace = \frac{p_{ {ij} } }{p_{\cdot j} }$ $P\lbrace Y = y_{j}\vert X = x_{i}\rbrace = \frac{p_{ {ij} } }{p_{i \cdot} }$ $f_{X\vert Y}\left( x \middle\vert y \right) = \frac{f\left( x,y \right)}{f_{Y}\left( y \right)}$ $f_{Y\vert X}(y\vert x) = \frac{f(x,y)}{f_{X}(x)}$

相互独立的随机变量

若$P\lbrace X\le x,Y\le y\rbrace =P\lbrace X\le x\rbrace P\lbrace Y\le y\rbrace $,即$F(x,y)=F_X(x)F_Y(y)$,则称随机变量$X,Y$是相互独立的。 对于连续型随机变量,即$f(x,y)=f_X(x)f_Y(y)$在平面上几乎(除去面积为 0 的集合外)处处成立。 对于离散型随机变量,即$P\lbrace X=x_i,Y=y_i\rbrace =P\lbrace X=x_i\rbrace P\lbrace Y=y_i\rbrace $。 对于二维正态随机变量$(X,Y)$,$X,Y$相互独立的充要条件是参数$\rho=0$。

两个随机变量的函数的分布

二维均匀分布

$(x,y) \sim U(D)$ ,$f(x,y) = \begin{cases} \frac{1}{S(D)},(x,y) \in D \ 0,其他 \end{cases}$

二维正态分布

$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$,$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ $f(x,y) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2} } }.\exp\left\lbrace \frac{- 1}{2(1 - \rho^{2})}\lbrack\frac{ {(x - \mu_{1})}^{2} }{\sigma_{1}^{2} } - 2\rho\frac{(x - \mu_{1})(y - \mu_{2})}{\sigma_{1}\sigma_{2} } + \frac{ {(y - \mu_{2})}^{2} }{\sigma_{2}^{2} }\rbrack \right\rbrace $

随机变量的独立性和相关性

$X$和$Y$的相互独立:$\Leftrightarrow F\left( x,y \right) = F_{X}\left( x \right)F_{Y}\left( y \right)$: $\Leftrightarrow p_{ {ij} } = p_{i \cdot} \cdot p_{\cdot j}$(离散型) $\Leftrightarrow f\left( x,y \right) = f_{X}\left( x \right)f_{Y}\left( y \right)$(连续型) $X$和$Y$的相关性:

相关系数$\rho_{ {XY} } = 0$时,称$X$和$Y$不相关, 否则称$X$和$Y$相关

两个随机变量的函数的分布

$Z=X+Y$的分布

$f_{X+Y}(z)=\int_{-\infty}^\infty f(x,z-x)dx$

$Z=\frac{Y}{X}$的分布、$Z=XY$的分布

$f_{Y/X}(z)=\int_{-\infty}^\infty \vert x\vert f(x,xz)dx$ $f_{XY}(z)=\int_{-\infty}^\infty \frac{1}{\vert x\vert }f(x,\frac{z}{x})dx$

$M=\max\lbrace X,Y\rbrace $的分布、$N=\min{X,Y}$的分布

$F_{max}(z)=\Pi F_{x_i}(z)$ $F_{min}(z)=1-\Pi (1-F_{x_i}(z))$

离散型

$P\left( X = x_{i},Y = y_{i} \right) = p_{ {ij} },Z = g\left( X,Y \right)$ 则: $P(Z = z_{k}) = P\left\lbrace g\left( X,Y \right) = z_{k} \right\rbrace = \sum_{g\left( x_{i},y_{i} \right) = z_{k} }^{}{P\left( X = x_{i},Y = y_{j} \right)}$

连续型

$\left( X,Y \right) \sim f\left( x,y \right),Z = g\left( X,Y \right)$ 则: $F_{z}\left( z \right) = P\left\lbrace g\left( X,Y \right) \leq z \right\rbrace = \iint_{g(x,y) \leq z}^{}{f(x,y)dxdy}$,$f_{z}(z) = F’_{z}(z)$

重要公式与结论

$f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$ $f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$ $P\left\lbrace \left( X,Y \right) \in D \right\rbrace = \iint_{D}^{}{f\left( x,y \right){dxdy} }$ 若$(X,Y)$服从二维正态分布$N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$ 则有:

  • $X\sim N\left( \mu_{1},\sigma_{1}^{2} \right),Y\sim N(\mu_{2},\sigma_{2}^{2}).$
  • $X$与$Y$相互独立$\Leftrightarrow \rho = 0$,即$X$与$Y$不相关。
  • $C_{1}X + C_{2}Y\sim N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2} + 2C_{1}C_{2}\sigma_{1}\sigma_{2}\rho)$
  • ${\ X}$关于$Y=y$的条件分布为: $N(\mu_{1} + \rho\frac{\sigma_{1} }{\sigma_{2} }(y - \mu_{2}),\sigma_{1}^{2}(1 - \rho^{2}))$
  • $Y$关于$X = x$的条件分布为: $N(\mu_{2} + \rho\frac{\sigma_{2} }{\sigma_{1} }(x - \mu_{1}),\sigma_{2}^{2}(1 - \rho^{2}))$

若$X$与$Y$独立,且分别服从$N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$ 则:$\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$

$C_{1}X + C_{2}Y\sim{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} C_{2}^{2}\sigma_{2}^{2}).$

若$X$与$Y$相互独立,$f\left( x \right)$和$g\left( x \right)$为连续函数, 则$f\left( X \right)$和$g(Y)$也相互独立。

随机变量的数字特征

数学期望

数学期望简称期望,又称均值。数学期望完全由概率分布决定。

离散型

若离散型随机变量$X$的分布律为$P\left\lbrace X = x_{i} \right\rbrace = p_{i}$ ,且级数$E(X) = \sum_{i}^{}{x_{i}p_{i} }$绝对收敛,则称$E(x)$为随机变量$X$的数学期望。

连续型

$X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$

性质

  • $E(C) = C,E\lbrack E(X)\rbrack = E(X)$
  • $E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)$
  • 若$X$和$Y$独立,则$E(XY) = E(X)E(Y)$
  • $\left\lbrack E(XY) \right\rbrack^{2} \leq E(X^{2})E(Y^{2})$

随机变量函数的数学期望

对于函数$Y = g(x)$:

$X$为离散型

$P\lbrace X = x_{i}\rbrace = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i} }$;

$X$为连续型

$X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$ 扩展到多维函数:$Z = g(X,Y)$;$\left( X,Y \right)\sim P\lbrace X = x_{i},Y = y_{j}\rbrace = p_{ {ij} }$;$E(Z) = \sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{ {ij} } } }$ $\left( X,Y \right)\sim f(x,y)$;$E(Z) = \int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy} }$

方差

$D(X) = E\left\lbrack X - E(X) \right\rbrack^{2} = E(X^{2}) - \left\lbrack E(X) \right\rbrack^{2}$,有时也记作$Var(X)$。 同时引入标准差(均方差)$\sigma (x)=\sqrt{D(X)}$。

离散型

$D(X) = \sum_{i}^{}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i} }$

连续型

$D(X) = {\int_{- \infty}^{+ \infty}\left\lbrack x - E(X) \right\rbrack}^{2}f(x)dx$

性质

  • $\ D(X) = E(X^{2}) - E^{2}(X)$
  • $\ D(C) = 0,D\lbrack E(X)\rbrack = 0,D\lbrack D(X)\rbrack = 0$
  • $\ D\left( C_{1}X + C_{2} \right) = C_{1}^{2}D\left( X \right)$
  • $X$与$Y$相互独立,则$D(X \pm Y) = D(X) + D(Y)$
  • $\ D(X) = 0 \Leftrightarrow P\left\lbrace X = C \right\rbrace = 1$
  • $\ D\left( X \right) < E\left( X - C \right)^{2},C \neq E\left( X \right)$

Chebyshev(切比雪夫)不等式

若随机变量$X$满足$E(X)=\mu$,方差$D(x)=\sigma^2$,则对于任意正数$\varepsilon$,有切比雪夫不等式$P\lbrace \vert X-\mu\vert \ge\varepsilon\rbrace \leq\frac{\sigma^2}{\varepsilon^2}$成立。

协方差及相关系数

$Cov(X,Y) = E\left\lbrack (X - E(X)(Y - E(Y)) \right\rbrack$称为随机变量$X,Y$的协方差,$\rho_{ {XY} } = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)} }$称为他们的相关系数。

性质

  • $\ Cov(X,Y) = Cov(Y,X)$
  • $\ Cov(aX,bY) = abCov(Y,X)$
  • $\ Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)$
  • $\ \left\vert \rho\left( X,Y \right) \right\vert \leq 1$
  • $\ \rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ,其中$a > 0$
  • $\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$,其中$a < 0$
  • 一般有 $D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) = D(X) + D(Y) \pm 2\rho\sqrt{D(X)}\sqrt{D(Y)}$

重要公式与结论

  • $\ Cov(X,Y) = E(XY) - E(X)E(Y)$
  • $\left\vert \rho\left( X,Y \right) \right\vert \leq 1,$且 $\rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$,其中$a > 0$
  • $\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$,其中$a < 0$
  • 下面 5 个条件互为充要条件:$\rho(X,Y) = 0$ $\Leftrightarrow Cov(X,Y) = 0$ $\Leftrightarrow E(X,Y) = E(X)E(Y)$ $\Leftrightarrow D(X + Y) = D(X) + D(Y)$ $\Leftrightarrow D(X - Y) = D(X) + D(Y)$。注:$X$与$Y$独立为上述 5 个条件中任何一个成立的充分条件,但非必要条件。

矩、协方差矩阵(待补充)

$E(X^{k})$称为$X$的$k$阶原点矩,简称$k$阶矩。 $E\left\lbrace {\lbrack X - E(X)\rbrack}^{k} \right\rbrace ,k=2,3,\dots$称为$X$的$k$阶中心矩。 $E(X^{k}Y^{l})$称为$X,Y$的$k+l$阶混合矩。 $E\left\lbrace {\lbrack X - E(X)\rbrack}^{k} {\lbrack Y - E(Y)\rbrack}^{l}\right\rbrace ,k,l=2,3,\dots$称为$X,Y$的$k+l$阶混合中心矩。 显然,$E(X)$是$X的一阶原点矩,$D(X)$是$X 的二阶中心矩,$Cov(X,Y)$是$X,Y$的二阶混合中心矩。

大数定律及中心极限定理

大数定律

辛钦大数定理(弱大数定理)

设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,服从同一分布且具有数学期望$E(X_k)=\mu,(k=1,2,\dots)$,则序列$\overline{X}=\frac{1}{n}\sum_{k=1}^nX_k$依概率收敛于$\mu$。

伯努利大数定理

伯努利大数定理是辛钦大数定理的一个重要推论,它表明:试验次数很大时,可用事件的频率代替事件的概率。 设$f_A$是 n 次独立重复试验中事件 A 发生的次数,$p$是事件 A 在每次试验中发生的概率,则对于任意的正数$\varepsilon$,有$\lim_{n\to\infty}P\lbrace \vert \frac{f_A}{n}-p\vert <\varepsilon\rbrace =1$,$\lim_{n\to\infty}P\lbrace \vert \frac{f_A}{n}-p\vert \ge\varepsilon\rbrace =0$。

中心极限定理

独立同分布的中心极限定理

设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,服从同一分布且具有数学期望和方差$E(X_k)=\mu,D(X_k)=\sigma^2>0,(k=1,2,\dots)$,则随机变量之和$\sum_{k=1}^nX_k$的标准化变量$Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}$的分布函数$F_n(x)$对任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。 这就是说,n 足够大的时候,近似地有$\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\sim N(0,1)$或$\overline{X}~N(\mu,\frac{\sigma^2}{n})$

Lyapunov(李雅普诺夫)定理

设随机变量$X_1,X_2,\dots,X_n,\dots$相互独立,具有数学期望和方差$E(X_k)=\mu_k,D(X_k)=\sigma_k^2>0,(k=1,2,\dots)$,记$B_n=\sum_{k=1}^n\sigma_k^2$,若存在正数$\delta$,使得当$n\to\infty$时,$\frac{1}{B_n^{2+\delta}}\sum_{k=1}^nE\lbrace \vert X_k-\mu_k\vert ^{2+\delta}\rbrace \to 0$,则随机化变量之和$\sum_{k=1}^nX_k$的标准化变量$Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{B_n}$的分布函数$F_n(x)$对于任意 x 满足$\lim_{n\to\infty}F_n(x)=\Phi(x)$。 该定理表明,n 足够大的时候,近似地有$Z_n\sim N(0,1)$。

De Moivre-Laplace(棣莫弗-拉普拉斯)定理

独立同分布的中心极限定理的特殊情况,设随机变量$\eta_n(n=1,2,\dots)$服从参数为$n,p(0 < p < 1) $的二项分布,则对于任意 x,有$\lim_{n\to\infty}P\lbrace \frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x\rbrace =\Phi(x)$。

样本及抽样分布

随机样本

总体

研究对象的全体,它是一个随机变量,用$X$表示。

个体

组成总体的每个基本元素。

简单随机样本

来自总体$X$的$n$个相互独立且与总体同分布的随机变量$X_{1},X_{2}\dots,X_{n}$,称为容量为$n$的简单随机样本,简称样本。

直方图和箱线图

直方图

箱线图

样本分位数

若$P(X \leq x_{\alpha}) = \alpha,$则称$x_{\alpha}$为$X$的$\alpha$分位数

抽样分布

统计量

设$X_{1},X_{2}\dots,X_{n},$是来自总体$X$的一个样本,$g(X_{1},X_{2}\dots,X_{n})$)是样本的连续函数,且$g()$中不含任何未知参数,则称$g(X_{1},X_{2}\dots,X_{n})$为统计量。

样本均值

$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$

样本方差

$S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2}$

样本矩

样本$k$阶原点矩:$A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\dots$

样本 k 阶中心矩

$B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\dots$

常用统计量分布

$\chi^{2}$分布

$\chi^{2} = X_{1}^{2} + X_{2}^{2} + \dots + X_{n}^{2}\sim\chi^{2}(n)$,其中$X_{1},X_{2}\dots,X_{n},$相互独立,且同服从$N(0,1)$

$t$分布

$T = \frac{X}{\sqrt{Y/n} }\sim t(n)$ ,其中$X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$且$X$,$Y$ 相互独立。

$F$分布

$F = \frac{X/n_{1} }{Y/n_{2} }\sim F(n_{1},n_{2})$,其中$X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$且$X$,$Y$相互独立。

正态总体的常用样本分布

设$X_{1},X_{2}\dots,X_{n}$为来自正态总体$N(\mu,\sigma^{2})$的样本,$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2} }$,则:

  • $\overline{X}\sim N\left( \mu,\frac{\sigma^{2} }{n} \right){\ \ }$或者$\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n} } }\sim N(0,1)$
  • $\frac{(n - 1)S^{2} }{\sigma^{2} } = \frac{1}{\sigma^{2} }\sum_{i = 1}^{n}{ {(X_{i} - \overline{X})}^{2}\sim\chi^{2}(n - 1)}$
  • $\frac{1}{\sigma^{2} }\sum_{i = 1}^{n}{ {(X_{i} - \mu)}^{2}\sim\chi^{2}(n)}$
  • ${\ \ }\frac{\overline{X} - \mu}{S/\sqrt{n} }\sim t(n - 1)$
重要公式与结论
  • 对于$\chi^{2}\sim\chi^{2}(n)$,有$E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n$;
  • 对于$T\sim t(n)$,有$E(T) = 0,D(T) = \frac{n}{n - 2}(n > 2)$;
  • 对于$F\sim{\ }F(m,n)$,有 $\frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 - a/2}(n,m)}$;
  • 对于任意总体$X$,有 $E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n}$

参数估计

点估计

矩估计法

最大似然估计法

基于截尾样本的最大似然估计

估计量的评选标准

无偏性

有效性

相和性

区间估计

正态总体均值与方差的区间估计

(0-1)分布参数的区间估计

单侧置信区间

假设试验

假设检验

正态总体均值的假设检验

单个总体$N(\mu,\sigma^2)$均值$\mu$的检验

$\sigma^2$已知,关于$\mu$的检验(Z 检验)
$\mu$已知,关于$\sigma^2$的检验(t 检验)

两个正态总体均值差的检验(t 检验)

基于成对数据的检验(t 检验)

正态总体方差的假设检验

单个总体的情况

两个总体的情况

置信区间与假设检验之间的关系

样本容量的选取

分布拟合检验

单个分布的$\chi^2$拟合检验法

分布族的$\chi^2$拟合检验

偏度、峰度检验

秩和检验

假设检验问题的 p 值检验法