内測平均,分散

概要

降雨量データに対して一般化分散を計算したが,これはグラフ上の最短経路長を距離としたときの,「内測平均」とよばれる量に基づく分散ということができる.「内測平均」は,ユークリッド空間における「標本平均」を,一般の測地距離空間へと自然に拡張したものである.ここでは,そもそも内測平均というものは何か,なぜそのようなものを考える必要があるのかを説明していく.

導入 ~人口分布の重心と分散~

日本の人口分布の「重心」はどこだろうか.日本在住の各人の座標ベクトル(例えば所在地の緯度と経度)を\({\boldsymbol x}_1,\dots,{\boldsymbol x}_N \in \mathbb{R}^2\)としたとき,日本地図上の人口分布の重心と分散は,座標値の平均と分散を用いて, \[ \bar{\boldsymbol\mu} = \frac{1}{N}\sum_{i=1}^N {\boldsymbol x}_i \tag{1} \] \[ v=\frac{1}{N} \sum_{i=1}^N \|{\boldsymbol x}_i-\bar{\boldsymbol\mu}\|^2 \tag{2} \] と計算できる.(ちなみに総務省統計局ホームページよると,平成22年の国勢調査をもとにした人口分布の重心は,岐阜県の関市とのこと.ただし,緯度による経線の幅の違い等の補正後に座標の平均を計算している.)
一方,世界の人口重心を考えようとすると,この方法ではうまくいかないことが容易にわかる.例えばメルカトール図法などの平面の世界地図で座標値の平均を計算すると,我々が見慣れている世界地図と,例えばヨーロッパ人やアメリカ人が使っている 各々が中心に位置する世界地図では,当然違う場所が重心となる.また,緯度の高い地域での距離の歪みが大きくなるという問題もある.そこで,まず地球を厳密な球と仮定した上で,極端な例を考えてみよう.北極点と南極点に一人ずつ(もしくは白くまとペンギン)のみが地球上に残されているときに,その人口重心はどこになるだろうか.

図1:図がない??

まず思いつくのが,球の中心だろう. これは,白くまとペンギンの位置を三次元座標ベクトルで表した上での 座標値の平均ということができる. これを人口重心として採用してもよいが,そうすると日本の人口重心も 厳密には地下深くになるはずなので,ここではさらに, 「人口重心は地表上から選ぶ」という仮定を置くことにする. さて,この場合に,地表上つまり球面上の人口重心はどのように 定義するのが適当だろうか. ここで,重心の定義式(1)に戻ると, 実はこの定義は以下のように書き換えることができる. \[ \bar{\boldsymbol\mu} = \mathop{\arg\min}_{{\boldsymbol\mu}\in \mathbb{R}^2} \sum_{i=1}^N \|{\boldsymbol x}_i-{\boldsymbol \mu}\|^2 \tag{3} \] つまり,重心は各人からの距離の2乗の和を最小化するような点として定義することもできる. これを球面\(S^2\)上に拡張すると以下のようになる. \[ \bar{\boldsymbol\mu} = \mathop{\arg\min}_{{\boldsymbol\mu}\in S^2} \sum_{i=1}^N d({\boldsymbol x}_i,{\boldsymbol \mu})^2. \tag{4} \] ここで,\(\boldsymbol\mu\)は球面上にあるという条件下で最小化されており,また\(d(\boldsymbol{p},\boldsymbol{q})\)は \(\boldsymbol{p}\)と\(\boldsymbol{q}\)を結ぶ球面上の測地距離,つまり大円の弧長である.

内測平均と分散

このように定義すると球面上に重心は定義できるが,ひとつ大きな問題が生じる. それは,一意性がなくなることである.実際,白クマとペンギンの球面上の重心は,簡単な計算で 赤道上の全ての点であることがわかる. それどころか,両者を結ぶ測地線も無数に存在してしまう. そこで,本節ではより一般的な空間上のデータ点集合について「重心」を定義した上で, その一意性に着目してみる. 各2点間の最短経路長で距離が定義されているような測地距離空間\((\mathcal{M},d)\)上の データ点\(x_1,\dots,x_N\in \mathcal{M}\)の「重心」を以下のように定義する. \[ \bar{\mu} = \mathop{\arg\min}_{\mu \in \mathcal{M}} \sum_{i=1}^N d(x_i, \mu)^2. \tag{5} \] この\(\bar{\mu}\)は,データ点\(x_1,\dots,x_N\)のFréchet平均もしくは内測平均(intrinsic meanの拙訳)とよばれる. また,(2)の分散の式も同様に拡張することができて, \[ v = \min_{\mu \in \mathcal{M}} \frac{1}{N}\sum_{i=1}^N d(x_i, \mu)^2 \tag{6} \] となる.これにより平均と分散の定義を一般化することができた.

空間の曲率と内測平均の一意性

さて,それでは内測平均の一意性について考えてみよう. これまでの説明でわかっていることは,ユークリッド空間上では, 内測平均(6)は標本平均(1)と一致するので 一意性が常に成り立ち,その一方で球面上では一意性が成り立たない場合があるということである. さらに,以下の事実が証明されている[Bhattacharya 2012].
・単位球面上のデータでも,各点対の測地距離が\(\pi/2\)以下であれば,内測平均は一意に存在する.
・2次元以上の双曲空間では,内測平均の一意性が成り立たないようなデータ点集合は存在しない.
一つ目の事実から,例えば日本領土や,北アメリカ大陸,南アメリカ大陸,アフリカ大陸,オーストラリア大陸 などのそれぞれは,人口の分布状況によらずに人口重心が一意に存在することがわかる.

さて,双曲空間は負の定曲率空間であることが知られている (ここではリーマン計量から計算される断面曲率が各点で 等しい負の定数になるという意味). 一方,ユークリッド空間は曲率0,球面は正の定曲率空間であった. そこで自然と,空間の曲率とその上のデータの内測平均の一意性に 関係があるのではないかという予想ができる.

図2:双曲線、平面、球面における \(f(\mu)\)

また,図2は,(a)双曲面(曲率 \(c=-1\)), (b)平面 (\(c=0\)), (c)球面 (\(c=1\))上のデータに対して,\(f(\mu)=\frac{1}{N}\sum_{i=1}^N d(x_i, \mu)^2\) の値を図示したものである(青色が小さな値). ただし,データが2群に別れるように,密度関数が二つのピークをもつような確率分布からデータを生成した. 正の曲率を持つ球面のみが,\(f(\mu)\)の極小値を複数持つことがわかる.
実際のところ,内測平均の位置性とデータが分布している空間の曲率が関係するという予想は正しい. 大雑把に言って空間の「曲率」が大きいとその上のデータの内測平均の一意性がなりたちやすく, 小さいと内測平均の一意性がなりたちにくくなる. ただし厳密には,内測平均の一意性を特徴づけるのは,リーマン幾何学の意味での曲率ではなく, CAT(\(k\))とよばれる異なる種類の曲率であることが知られている. 特に,グラフ上の最短経路を距離と考えたとき,木グラフは常にCAT(0)となることを示すことができ, この場合は常に内測平均が一意に存在する.