生物統計学 - cse.naro.affrc.go.jpcse.naro.affrc.go.jp › minaka › R ›...

32
2007 年度・東京大学第4学期・理学部専門科目(木曜第 5 限) 三中信宏〈生物統計学〉:2007 年 10 月~ 2008 年 3 月 東京大学駒場キャンパス 1225 番教室 生物統計学 データに基づく「よりよい推論」のために 三中 信宏 MINAKA Nobuhiro 独立行政法人 農業環境技術研究所 生態系計測研究領域 上席研究員[進化生物学] 東京大学大学院 農学生命科学研究科 生物・環境工学専攻 教授[生態系計測学] 東京農業大学大学院 農学研究科 客員教授[応用昆虫学] mailto:[email protected] http://cse.niaes.affrc.go.jp/minaka/

Transcript of 生物統計学 - cse.naro.affrc.go.jpcse.naro.affrc.go.jp › minaka › R ›...

2007 年度・東京大学第4学期・理学部専門科目(木曜第 5限)三中信宏〈生物統計学〉:2007年 10月~ 2008 年 3月

東京大学駒場キャンパス 1225番教室

生物統計学̶ データに基づく「よりよい推論」のために ̶

三中 信宏MINAKA Nobuhiro

独立行政法人 農業環境技術研究所 生態系計測研究領域 上席研究員[進化生物学]

東京大学大学院 農学生命科学研究科 生物・環境工学専攻 教授[生態系計測学]

東京農業大学大学院 農学研究科 客員教授[応用昆虫学]

mailto:[email protected]

http://cse.niaes.affrc.go.jp/minaka/

minaka
日付印 (赤)

D'ArcyWentworth

ompson

On Growth and Form(1917)

Proc. R. Soc. Edinburgh(1915)

「デカルト変換格子」

を用いた形態変形の

数学的記述

結局,使える

ツール

になりきれな

かった

なぜ「かたち」の定量化は難しいのか?

1) 「かたち」の幾何学的特徴を記述する数学理

論が従来の枠組みでは対応できなかった.

2) 「かたち」の変量をあつかう統計学は伝統的

な線形統計学だけでは力不足だった.

3) 「かたち」の数理を論じるための数学的な素

養を多くの生物学者が育んでこなかった.

幾何学的形態測定学

(geometric morphometrics)

Landmark-based morphometrics=標識点座標データを「そのまま」用いて,

 「かたち」の変形や差異を分析する

1) サイズ/シェイプ

2) 大域的/局所的

3) 線形/非線形

「サイズ」=重心サイズ

������

�������������アsrwfq6�w�¥yー �����������」�����3{ヤヌ「�̃�、 ���6�����カ���コ

�̃�、�̃�$��

Z1 Z2

Z3

Z4

Z Zii

= ⋅=∑1

4 1

4

重心

平方ユークリッド距離

変換不変量 移動

回転

拡縮

さまざまな幾

何学的変換に

対する「不変

量」を考える.

・サイズ - シェイプ (size-and-shape)移動と回転に対して不変である幾何学的情報

・サイズ (size)移動と回転に対しては不変だが,拡縮に対しては

不変でない幾何学的情報

・シェイプ (shape)移動と回転と拡縮に対して不変である幾何学的情報

複素平面上の k個の 2次元標識点

zi (i=1, 2, ... , k) から成る“かたち”

z = {zi∈ C1: i=1, 2, ... , k}

の変換

z→ z' (z, z'∈ Ck)

を考える.

元の“かたち”の重心は

zcentroid= (1/k)Σ [i] zi

だから,重心への移動変換により

z→ z' = z - zcentroid

となる.このとき,

Σ [i] z'i = 0 (超平面)

また,重心サイズは

S2= z'z'*=(z - zcentroid)(z - zcentroid)*

(「*」は共役複素数をあらわす)

この重心サイズ Sによる拡縮変換は,

z'→ z''= z'/S

したがって,z''z''*= 1 (超球)となる.

112

『古生物の形態とその解析』(朝倉書店 1999)三中信宏 形態測定学

三中・図12

図形空間 (figure space) 

前形態空間 (pre-form space) 

形態空間 (form space) 

前形状空間 (pre-shape space) 

Kendall 形状空間 (Kendall's shape space) 

重心への変位 

重心サイズによる スケーリング 

重心サイズによる スケーリング 

回転による整列 

回転による整列 

km

km m−

km m− −1km m m m− − ⋅ −( )1 2

km m m m− − ⋅ −( ) −1 2 1

超平面

超球同値類

形状空間論

回転により一致する群

前形状空間

前形状 z1, z2

プロクラステス距離(最短測地線距離)

部分プロクラステス距離(線形近似)

前形状の回転群

(compact Lie group)

前形状空間

前形状空間

この線上では形状

は不変で,サイズ

が変わるのみ.

完全プロクラステス距離を与えるサイズ

完全プロクラステス距離(最小値)

cos ρによるスケーリング

ケンドール形状空間

前形状空間ケンドール形状空間

Riemannian

submersion

David Kendall(1984)

Bull. London Math. Soc.

形状空間は,プロクラステス距離をリーマン計量とするリーマン多様体であるという証明.

ケンドール形状空間の「接空間」

前形状空間 ケンドール

形状空間

接線形空間 射影点

“かたち”の変形とは:

・アフィン変形線形一次変換で表現でき

る shape の大域的な変形

・非アフィン変形shape の非線形かつ局所

的な変形

Fred Bookstein(1989)

IEEE Trans. Pattern Anal. Machine Intell.

薄板スプライン

を用いて形態と

その局所的変形

を記述する.

������

�������������アsrwfq6�w�¥yー �����������」�����3{ヤヌ「�̃�、 ���6�����カ���コ

�̃�、�̃�$����

-2 -1 1 2 3

-1

1

-2 -1 1 2 3

-1

1

x

y

→→

x

y

変形

カーネル関数の線形結合

標識点対応

ノルム最小化

任意の点の写像

滑らかなスプライン

補間関数の構築

������

�������������アsrwfq6�w�¥yー �����������」�����3{ヤヌ「�̃�、 ���6�����カ���コ

�̃�、�̃�$����

屈曲エネルギー最小化問題の離散化

仮想変形の「屈曲エネルギー」を最小にする関数を

求める変分問題はそのまま解くのが困難なので,有

限個の標識点の変位によって条件づけた線形問題と

して離散化して解く.このとき,定積分である「屈

曲エネルギー」もまた離散化され,「屈曲エネルギー

行列」として表現される.

2}m次元の屈曲エネルギー

2次元の屈曲エネルギー

全変形

アフィン変形 非アフィン変形

薄板スプライン関数による変形記述

アフィン変形 非アフィン変形

接線形空間の「正規直交基底」の構築

1. アフィン変形アフィン変換行列の固有ベクトルが正規直交基底となる.[テンソル主軸]

2. 非アフィン変形薄板スプライン関数の仮想屈曲エネルギー行列の固有ベクトルが正規直交基底となる.[部分歪み]

113

『古生物の形態とその解析』(朝倉書店 1999)三中信宏 形態測定学

三中・図13

接部分空間(接平面) 

Kendall 形状空間 (超球) 

中心 

接点 

非線形空間での正確な記述

線形空間での近似的な分析

統計データのタイプ

1. ベクトル・データ(長さ+向き)

2. 方向データ(向き)

2-1. 方角データ(有向)

2-2. 軸性データ(無向)

線形統計学

球面統計学

ケンドール形状空間での“かたち”は「球面統計学」になじみやすい.

非線形空間での統計学(「球面統計学」)

「方向データ」の統計理論

複素正規分布:CNk(m, ∑)

f(z)={πk|∑|}-1exp{-(z - m)*∑-1(z - m)}, z∈ Ck

ただし,Ck={z=(z1, z2, ... ,zk)T}

複素 Bingham分布:CBk-1(A)

f(z)=c(A)-1exp(z*Az), z∈ CSk-1

ただし,CSk-1={z=(z1, z2, ... ,zk)T: zz*=1}

球面分布

定理(J. T. Kent 1994):

If w ˜ CNk(0, ∑) , then w|ww*=1 ˜ CBk-1(-∑-1).

仮想例を考えよう(計算は ������ によって行なった).これは,線分ABを規準線として計算

された形状座標Cから構成される2集団である.この2集団間の座標の平均値の差が有意であ

ることを統計学的に示すことがここでの問題である.この問題は2実変量(2次元座標だから)

に対する多変量分散分析によって解決できる.

1変量の分散分析(ANOVA: analysis of variance)の原理を簡単に復習しよう(Morrison

1990: 201-205).2群について観察された1変量Xが下の線形モデルに従うと仮定する:

x ij =μ+α i +ε ij ただし ε ij ~N(0, σ ^2)

      x ij 第i群の第j番目の観察データ(1変量)

         ただし,i= 1,2;j= 1,2,..., n i

      μ  μは総平均

図5

Pre-form Pre-shape

複素Bingham分布複素正規分布

拡縮k=3

ww*=1

複素 Bingham分布に基づく“かたち”のパラメトリック球面統計学

幾何学的形態測定学

の/による

1990 年代の

「革命」は

比較生物学に

何をもたらしたか?