確率信号

音声信号などにおいて, ある時刻における振幅を知りたい場合, 実際に発音してからでないと知ることはできません. しかしながら, ある程度の時間をかけて, 音声信号を観測すると, 統計的な性質がつかめます.

確定信号

確定信号 (Deterministic Signal) とは, 時刻や位置の関数として表される信号で, 時刻や位置を指定すると, 特定の値が求められます. 典型的な例としては, 正弦波信号があります.

確率信号

確率信号 (Stochastic Singnal) とは, 確率過程 (Stochastic Process) としてあつかうことによって, 過去や未来の信号の統計量を特定する信号のことです. したがって, 確定信号のように, 時間や位置の関数として表すことはできません. そして, 身の回りで発生している音のほとんどは, 確率信号です.

実現値

確率信号は, その定義上, 実際に発生した値のみが数値として表すことができます. この値を, 実現値 (Value) と呼びます.

試行回数 $k$ 依存しない確率信号の場合, 実現値を多数観測することで, 値の傾向を知ることができます.

ヒストグラム

未来の確率信号の値を特定することはできませんが, どのような傾向で実現値が発生するかを知ることはできます. そのためには, 確率信号の実現値の傾向をすることが有効です. 一般的には, ヒストグラムを利用して, その傾向を視覚化します.

ヒストグラムの例

確率密度関数

確率信号の値の傾向がわかっている場合, 「確率分布 があたえられている」と表現します. 微小区間の値の確率を表した関数を確率密度関数 (PDF: Probability Density Function) と呼びます.

確率信号 $x$ の PDF を $p(x)$ とすると, 以下の式が成立します.

$ \begin{eqnarray} \int_{-\infty}^{\infty}p(x)dx=1 \end{eqnarray} $

これは, 確率信号 $x$ のいずれかの実現値が必ず発生することを意味しています

ガウス分布

代表的な PDF に, ガウス分布 (Gaussian Distribution) (正規分布 (Normal Distribution)) と呼ばれる関数があります. 確率信号を $x$ とすると, ガウス分布は以下の関数で表されます.

$ \begin{eqnarray} p(x)=\frac{1}{\sqrt{2{\pi}\delta^{2}}}\exp\left(-\frac{(x-{\mu})^{2}}{2\delta^{2}}\right) \end{eqnarray} $

$\mu$ はガウス分布の中心を決定するパラメータで, 平均 (Mean) と呼びます. $\delta^2$ は分布の広がりを決定するパラメータで, 分散 (Variance) と呼びます. ガウス分布では, この 2 つのパラメータ (平均と分散) を指定すると, その分布が一様に定まるという特徴があります.

ガウス分布の実装 (C++)

#include <vector>
#include <cmath>

void Gaussian(std::vector<double> &dist, double mean, double variance, int N) {
  for (int n = 0; n < N; n++) {
    dist[n] = (1 / std::sqrt(2 * M_PI * variance)) * std::exp(-1 * (std::pow((n - mean), 2) / (2 * variance)));
  }
}

実行例

#include <iostream>
#include <cstdlib>
#include <vector>
#include "gaussian.h"

enum {
  N = 10
};

int main(int argc, char **argv) {
  if (argc != 3) {
    std::cerr << "Require mean, variance" << std::endl;
    std::exit(EXIT_FAILURE);
  }

  std::vector<double> dist(N);

  double mu     = std::stod(argv[1]);
  double delta2 = std::stod(argv[2]);

  Gaussian(dist, mu, delta2, N);

  for (int n = 0; n < N; n++) {
    std::cout << dist[n] << std::endl;
  }
}

確率分布関数

確率分布があたえられている場合, 負の方向から積分した関数を確率分布関数 (Probability Distribution Function) と呼びます.

確率信号 $x$ がしたがう PDF を $p(x)$ とすると, 確率分布関数 $F(A)$ は,

$ \begin{eqnarray} f(A)=\int_{-\infty}^{A}p(x)dx=1 \end{eqnarray} $

さらに, 確率密度関数の性質より,

$ \begin{eqnarray} \int_{-\infty}^{\infty}p(x)dx=1 \end{eqnarray} $

であるので, $F(A)$ にも以下の性質があります.

$ \begin{eqnarray} F(\infty)=\int_{-\infty}^{\infty}p(x)dx=1 \end{eqnarray} $

また, 確率分布関数 $F(A)$ が既知であれば, 微分によって PDF を求めることが可能です.

$ \begin{eqnarray} p(x)=\frac{dF(x)}{dx} \end{eqnarray} $

結合確率密度関数

複数の確率信号が同時に発生する場合の PDF を考えます. 複数の確率信号 $x_{1}, x_{2}, \cdots, x_{M}$ が同時に発生する場合の PDF を $p(x_{1}, x_{2}, \cdots, x_{M})$ と表す場合, これを結合確率密度関数 (Join PDF) と呼びます.

同時に $M$ 個の確率信号が発生すると, いずれかの実現値が, ほかの実現値に影響を与える可能性があるので, ここの PDF が既知でも, $p(x_{1}, x_{2}, \cdots, x_{M})$ を求めることは困難です.

期待値

実現値以外に, 確率信号を記述する方法としては, 期待値 (Expectation Value) が有効です.

確率信号を $x$, その PDF を $p(x)$ とすると, その期待値 $E\left[x\right]$ は,

$ \begin{eqnarray} E\left[x\right]=\int_{-\infty}^{\infty}xp(x)dx \end{eqnarray} $

また, $x_{k}$ を $k$ 回目の試行で得られた実現値であるとすると, 以下のように求めることもできます.

$ \begin{eqnarray} E\left[x\right]=\lim_{N \to \infty}\frac{1}{N}\sum_{k=1}^{N-1}x_{k} \end{eqnarray} $

実は, 期待値 $E\left[x\right]$ は, 実現値の平均を表しています. , 分散は以下の式で定義できます.

$ \begin{eqnarray} E\left[(x-{\mu})^{2}\right]=\int_{-\infty}^{\infty}(x-{\mu})^{2}p(x)dx \end{eqnarray} $

時間平均とエルゴード過程

1 回の試行で 1 つの値を観測するのではなく, 1 回の試行で複数個の値を順に取得する場合を考えます (配列を取得するイメージ).

時刻を $n$, $k$ 回目の試行における, 時刻 $n$ の実現値を $x_{k}(n)$ とすると, 時間平均 (Time Average) は以下のように定義できます.

$ \begin{eqnarray} \bar{x_{k}}=\lim_{N \to \infty}\frac{1}{N}\sum_{n=0}^{N-1}x_{k}(n) \end{eqnarray} $

期待値と似ていますが, 期待値と時間平均はほとんどの場合において異なります. 具体的には, 確率分布が時間とともに変化する確率信号の場合です (逆に, 確率分布が不変である確率信号に限って, 時間平均と期待値は一致します).

期待値と時間平均のちがい

音声信号をあつかう場合には, 試行回数が 1 回しかないことが多く, 期待値を求めることはできません. そこで, 観測信号の期待値と時間平均が一致すると過程して, 期待値を時間平均で代用します.

$ \begin{eqnarray} E\left[x(n)\right]=\lim_{N \to \infty}\frac{1}{N}\sum_{n=0}^{N-1}x(n) \end{eqnarray} $

上記の式が成立するような場合で, このような性質をもつ信号系列をエルゴード過程 (Ergodic Process) と呼びます.

共分散と無相関

確率信号 $x_{1}$ の平均を $\mu_{1}$ として, 確率信号 $x_{2}$ の平均を $\mu_{2}$ とすると, $x_{1}$ と $x_{2}$ の平均からのずれの積の期待値, すなわち, 下記の式は,

$ \begin{eqnarray} E\left[\left(x_{1}-\mu_{1}\right)\left(x_{2}-\mu_{2}\right)\right]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\left(x_{1}-\mu_{1}\right)\left(x_{2}-\mu_{2}\right)p\left(x_{1},x_{2}\right)dx_{1}dx_{2} \end{eqnarray} $

分散との対比から, $x_{1}$ と $x_{2}$ の共分散 (Covariance) と呼びます. 共分散は $x_{1}$ と $x_{2}$ が同じ値になるとき最も大きくなるので, 信号の関連性を調べるときに有用になります.

共分散が 0 の場合,

$ \begin{eqnarray} E\left[\left(x_{1}-\mu_{1}\right)\left(x_{2}-\mu_{2}\right)\right]=0 \end{eqnarray} $

$x_{1}$ と $x_{2}$ は, 無相関 (Uncorrelated) であると呼びます. 無相関である場合, 以下の式が成立します.

$ \begin{eqnarray} E\left[x_{1}x_{2}\right]=E\left[x_{1}\right]E\left[x_{2}\right] \end{eqnarray} $

上記の式は, 無相関である場合, 2 つの確率信号の期待値は, それぞれの期待値の積で求めることができるということを意味しています.

確率信号をあつかう場合, あらかじめ期待値を差し引いて, 期待値を 0 とすることが多いです. この場合, 無相関の条件は, 以下のように定義できます.

$ \begin{eqnarray} E\left[x_{1}x_{2}\right]=0 \end{eqnarray} $

独立

複数の確率信号をあつかう場合, それらの和の期待値は, それぞれの期待値の和に等しくなります.

$ \begin{eqnarray} E\left[x_{1}+x_{2}+\cdots+x_{M}\right]=E\left[x_{1}\right]+E\left[x_{2}\right]+\cdots+E\left[x_{M}\right] \end{eqnarray} $

しかしながら, 複数の確率信号の積の期待値は, それぞれにあつかうことができません.

$ \begin{eqnarray} E\left[x_{1}x_{2}{\cdots}x_{M}\right]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}x_{1}x_{2}{\cdots}x_{M}p\left(x_{1},x_{2},{\cdots},x_{M}\right)dx_{1}dx_{2}{\cdots}dx_{M} \end{eqnarray} $

もし, それぞれの PDF の積として定義できる場合, 確率信号 $x_{1},x_{2},{\cdots},x_{M}$ は互いに独立 (Independent) であると呼びます. 独立である場合, それぞれの期待値の積として定義できます.

$ \begin{eqnarray} E\left[x_{1}x_{2}{\cdots}x_{M}\right]=E\left[x_{1}\right]E\left[x_{2}\right]{\cdots}E\left[x_{M}\right] \end{eqnarray} $

独立である場合, 下記の式も成立します.

$ \begin{eqnarray} E\left[x_{1}x_{2}\right]=E\left[x_{1}\right]E\left[x_{2}\right] \end{eqnarray} $

独立であれば無相関でもあります. そのは, 必ずしも真ではありません. すなわち, 無相関であっても, その積の期待値が, それぞれの PDF の積として定義できるはかぎらないということです.

独立と無相関のちがい

無相関

無相関の場合, $x_{1}$ と $x_{2}$ のいずれかが正か負の大きな値をとる場合, 他方は小さな値しか撮りません. このように, 一方の実現値が他方の実現値に影響をあたえているので, 2 つの確率信号は独立ではありません.

独立

独立の場合, $x_{1}$ と $x_{2}$ のいずれかが正か負の大きな値をとる場合, 他方は影響をうけていません. このように, 一方の実現値が他方の実現値に影響をあたえていないので, 2 つの確率信号は独立となります.

定常と非定常

ある確率信号の統計的性質が, 時刻 $n$ とともに変化しない場合, その確率信号は, 定常 (Stationary) と呼びます. 定常はさらに, 2 つの状態, 弱定常 (Wide Sense Stationary) と強定常 (Strictly Sense Stationary) に分類されます.

$ \begin{eqnarray} E\left[x(n)\right]=\mu \end{eqnarray} $

$ \begin{eqnarray} E\left[x(n)x(n-k)\right]=r(k) \end{eqnarray} $

上記の 2 式で定義されるように, 期待値が時間に関わらず一定で, 時間差 $k$ のみの関数となるとき, 確率信号は弱定常と呼ばれます.

高次の結合確率密度関数が,

$ \begin{eqnarray} p\left(x\left(n_{1}\right),x\left(n_{2}\right),{\cdots},x\left(n_{M}\right)\right)=p\left(x\left(n_{1}+t\right),x\left(n_{2}+t\right),{\cdots},x\left(n_{M}+t\right)\right) \end{eqnarray} $

上記の式のように, 時間によって変化しない場合は, 強定常と呼ばれます.

確率信号の統計的性質が時間的に変化する場合は, 非定常 (Non-stationary) と呼びます.

中心極限定理

互いに独立で, 同一の確率分布にしたがう複数の確率信号を i.i.d (Independent Identically Distributed) な確率信号と呼びます.

そのような確率信号の場合, 中心極限定理 (Central Limit Theorem) が成立します.

平均 $\mu$, 分散 $\delta^{2}$ の i.i.d. な確率信号 $x_{1},x_{2},\cdots$に対して, それらの和としてあたえられる確率信号は,

$ \begin{eqnarray} s_{n}=\frac{1}{n}\sum_{k=1}^{n}x_{k} \end{eqnarray} $

$n$ が十分に大きい場合, 近似的に, 平均 $\mu$, 分散 $\frac{\delta^{2}}{n}$ のガウス分布にしたがいます. つまり, 確率信号の和がしたがう PDF は, もとの PDF よりもガウス分布に近づくということになります.

リファレンス

Share Comments
comments powered by Disqus