UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … ·...

21
Vol.16 No. 82 研究 電波研究所季報 January 197(11 pp.34-54 UDC534. 78 声帯音源特性の抽出とその音声分析への応用 高杉敏男特 鈴木誠史勢 EXTRACTIONOFCHARACTERISTICSONTHEGLOTTAL SOURCEANDITSAPPLICATIONTOSPEECHANALYSIS By T hioTAKASUGI and JoujiSUZUKI Theglottalwaveformcorrespondingtothevolumevelocitythroughthe glottis is consideredto contributegreatlyto the naturalnessandindividualityofthespeechandtohaveagreateffectof determiningthetransferfunctionofthevocaltractwhichis the most important information on the・ speechsignal. Butwelackinknowledgeoftheglottalsource, inparticular, oftheglottalwave- form. Thispaperattemptstoextracttheglottalwave from thespeechwaveandtoapplyit into• speechanalysis. Thispaperconsistsoffourpartsand the firstp tdescribes the principle andprocedure of extractingtheglottalwaveformfromthenaturalspeech. Theglottalsourcespectrum is obtainedi byeliminationofthetransferfunctionofthe vocal tract from theinputspecturm,usinginverse・ filteringtechnique,andistransformedintoatime domain. Someexperimentalresults are Furthermore,distortionoftheextractedglottalwaveformisdiscussedwithrespect toaccuracyof inversefilteringtothetransferfunctionofthevocaltract. Thesecondpartdescribes the automatic extraction of the parameters of the glottal waveform. The: featureofindividualityorphonemeisspecifiedbyusingtheseparameters. Thesimilarityb tween・. the extracted glottal waveforms and the functional waveformsisdiscussedinatimeandafrequency- domain. Fivefunctionsarepresented, andafunction, raisedcosineinthe rising periodandhalf- cosineinthefallingperiod,isindicatedasthemostsuitablefunctionamongthepresentedonesin boththedomains. Inobservationon the extracted glottal waveform, waveform distortion because of wrong information: onthetransferfunctionofthevocaltractissometimesperceived. Inordertogetmore accurate・ transferfunction,anewAnalysisbySynthesis" method using the modifiedsourcespectrum is. 事通信機器部音声研究室 34

Transcript of UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … ·...

Page 1: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No. 82

研究

電波研究所季報 January 197(11 pp.34-54

UDC 534. 78

声帯音源特性の抽出とその音声分析への応用

高杉敏男特 鈴 木 誠 史 勢

EXTRACTION OF CHARACTERISTICS ON THE GLOTTAL

SOURCE AND ITS APPLICATION TO SPEECH ANALYSIS

By

T佃 hioTAKASUGI and Jouji SUZUKI

The glottal waveform corresponding to the volume velocity through the glottis is considered to・contribute greatly to the naturalness and individuality of the speech and to have a great effect of

determining the transfer function of the vocal tract which is the most important information on the・

speech signal. But we lack in knowledge of the glottal source, in particular, of the glottal wave-

form. This paper attempts to extract the glottal wave from the speech wave and to apply it into•

speech analysis.

This paper consists of four parts and the first p釘 tdescribes the principle and procedure of

extracting the glottal waveform from the natural speech. The glottal source spectrum is obtainedi

by elimination of the transfer function of the vocal tract from the input specturm, using inverse・

filtering technique, and is transformed into a time domain. Some experimental results are shown~

Furthermore, distortion of the extracted glottal waveform is discussed with respect to accuracy of

inverse filtering to the transfer function of the vocal tract.

The second part describes the automatic extraction of the parameters of the glottal waveform. The:

feature of individuality or phoneme is specified by using these parameters. The similarity b巴tween・.、

the extracted glottal waveforms and the functional waveforms is discussed in a time and a frequency-

domain. Five functions are presented, and a function, raised cosine in the rising period and half-

cosine in the falling period, is indicated as the most suitable function among the presented ones in

both the domains.

In observation on the extracted glottal waveform, waveform distortion because of wrong information:

on the transfer function of the vocal tract is sometimes perceived. In order to get more accurate・

transfer function, a new“Analysis by Synthesis" method using the modified source spectrum is.

事通信機器部音声研究室

34

Page 2: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

-Vol.16 No. 82 January 1970 35

proposed in the third part. In this process, the excitation source is renewed by the spectrum of

functional waves approximated to the extracted glottal waveform. This approximated spectrum is

considered to be closer to the actual source than the voice source with a decreasing envelope of

12 dB/oct in the conventional“Analysis by Synthesis”.

In the final part, an average source spectrum is calculated on each subject. It is used as the

・source spectrum in the “Analysis by Synthesis" procedure. Some improvement has been achieved

in the determination of the formant frequencies.

1. 緒 言

声帯振動による有戸音源波形は,音の高さとか強さを

一定に保った場合,それほど変化しないという観点か

ら,音声の自然性とか,個人差に大きく寄与していると

考えられているω。しかしながら,実際には声帯振動の

機構はいまだ推測のj或を脱つしたわけではなく,音源;i皮

芳長の特徴抽出も定量的に行なわれていない。

声帯波形を直接観察し,解析することがこれらの関係

を明らかにするためにも重要である。直接観測には,反

射鏡を使った高速度写真ゃωωωファイパスコープが用

いられている(5)。前者は振動姿態の観察には有効である

が,発声に滞IJ約を与え,音質に関係した研究目的には適

さなし、。一方,後者を使用した場合は,自然な発声は可

能であるが高速度写真は得られていない。また, X線や

超音波レーダ〈めによる観測も行なわれているが,まだ有

効な情報を見い出すことは困難のようである。

このような直接法のむずかしさから,光源と光電恭子

により声門の聞きに対応した光量の波Jj定が行なわれてい

る∞σ〉。また,声門の両側に電極を置き, ω声門の開き

の変化を低抗の変化として検出する方法も試みられてい

るが,これらから精度のよい測定は期待できなし、。

一方, Vanden Bergなどの解剖j学的な資料をもと

に,いくつかのモデルが考えられているω}。しかし,声

帯振動に寄与する諸要素が生体のものであるために明確

でなく,モデノレ自体の閲発に力が注がれているのが現状

といえよう。

間接的な方法としては,逆フィノレタを使った Miller

の実験がある。 (10)かれは音声波形を第1ホルマントの

逆特性の回路網と,高次ホノレマントの影響を除く LPF

を通すことによって近似的に声帯波形を得た。この手法

は,発声になんの拘束を与えないため,声質と音源の関

係を調べるためには都合がよし、。さらに,最近のディジ

タノレ計算法,音声分析法とを応用すれば,より信敏性の

ある結果が期待できょう。

ここでは,高速フーリェ変換(FFT)c山(12)(13),逆変

換(IFFT),ディジタルフィルタリング,合成による分

析法などを使用したスペクトル領域で‘の逆フィノレタリソ

グによって声帯音源波形の観測を試みる。また,声道特

性とその逆回路網の不整合の程度と,求められた音源波

形のひずみの関係を定量的に明らかにするとともに,自

然音声の声帯音源波形の観測例を示す。

いままで,声幣波形は近似的に非対称な三角波として

とり扱われ,そのパラメータによる特徴の記述を行なっ

てきた。ここでは,パラメータ抽出を自動的に行なうこ

とを試みるとともに,声帯波形にいろいろな関数を仮定

し,波形領域,スベクトノレ領域て、近似度の高い関数につ

いて考察を加える。

合成による分析法では一般に平均的な音源スベクトノレ

として,-12dB/octの減衰特性が用いられている。ま

た,補正曲線も利用されている{山が,この曲線の必然性

は明らかで、ない。ここでは,より妥当な音源スベクトノレ

として,標準的な合成による分析法を利用して得た声帯

波形にもっともよく近似する関数声帯音源を用い,新し

い合成による分析法を試みる。

また,個人別に異なった音源スベクトノレを持つことか

ら,個人別の平均音源スベクトノレを求め,これを使用し

た合成による分析法を試みる。

ここで得られた手法は,今後の有声音源や声借振動の

機構の研究に,またより自然な合成音声の励振源に役立

つものと期待している。

2. 声帯音源波形の抽出

2. 1. 声帯音源波形抽出の原理

音声信号は,音声発声機構によって有声音,無声音,

鼻音などに分けることができるが,ここでは,戸帯振動

によって生じる非鼻音の有声音のみを考え,分析を行な

う。

音圧として観測される音声波は,声帯振動による空気

の体積流(ここでは声帯音源波形,または声,箭波形とl乎

Page 3: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

36

ぶ) g(t),声帯から唇までの芦道のインパルスレスポγ

ス世(t)と,唇から空間へ音戸波の放射インパルスレス

ポンスグ(t)のたたみこみ積分と考えられる。

f(t〕=g(t)⑧世(t)('l;,r(t) )

A(

ここで, fくのは時間 tでの音圧を表わし,⑧はたた

みこみ積分で、ある。(1)式の両辺にフーリェ変換を行ない

周波数領域に変換すると(2)式になる。

F(w)=G(w)・V(w)・R(w) (2)

ここで, F(w)は角周波数ωについての音声スベクト

ルで、あり, V(w)と R(w)はそれぞれ声道の伝達関数と

唇からの放射特性を表わしている。このように時間軸で

の解析は周波数軸で考えることにより簡単な積の形で表

わすことができる。これによって,いま求めようとして

いる声帯音源波形 g(t)は, G(w)の逆フーリェ変換と

して(3)式によって計算できる。

g(併もI00 G(w)門担4白γ[,. .I -c沿

- 1 f。。/ 里色〉一一ーし畑tゐ---z;t J -oo¥ V(w)・R(w)/ 山 一

(3)

。)式の F(w〕は実時間関数 f(t)のフーリェ変換である

から(4)式の関係がある。

F(ーw)=F*(w) (4)

ここで, *印は共役を表わす。 F(w〕の逆フーリェ変

換は当然突時間関数 f(t〕にもどる。もし V(w), R(印〉

もまた,(4)式と同様に(5)式が成り立つように与えれば,

G(臼〉も当然勿)式の関係をもっ。

V(ーw)=V*(w)J

R(ーw)=R*(w)J

G(ーw)=G*(w)

(5)

(6)

G(印〉の逆フーリェ変換は実時間関数 g(t)になる。

また(3)式,(6)式から G(w)の実数部はωに関して偶関数

となり,虚数部は奇関数となるから g(t) は実時間関数

として(7)式で表わすことができる(14)。

g(併すRe{f:G(吋eiw仙) (7)

ところで音声波形は時間とともに変化するが,その定

常的な部分の分析を対象とする。このとき,同じ形の音

声波形の繰り返しとして観測されるので,これが無限に

連続すると考え,(2)式では1周期の音声波形からフーリ

ェ係数を求め,(7)式では1周期の周波数スベクトノレから

逆フーリェ変換により g(t)を求める。

電波研究所季報

2.2. 声帯音源波形抽出に及lます逆フィ }I,.タの特性

2. 1.の原理から抽出した声帯音源波形には,しばしば

周期波が重じようしている場合がある。その原因として

は声帯と声道との相互作用によるもの,逆フィルタリ γ

グの不整合から生じるものと考えられる。一般には,声

帯のインピーダンスは声道のそれと比べると相当に高い

ものと考え,互いの相互作用は考慮されていなL、。いっ

ぽう,相互作用を考慮、して生理的データ(声門下庄,声

帯の張り,戸道の形〉から,周期波の重じようしている

戸帯波形の合成実験を行なう例もある(15)。 ここではこ

の相互作用の効果は無視し,逆フィノレタリング(特に声

道の伝達関数)の不整合の程度によって,どの程度の波

形ひずみが生じるかを定量的に求める。これは特に声道

の伝達関数の推定に大きく寄与するとともに実験結果の

検討にも役立つものと考えられる。このため,音声信号

を構成する諸要素の明らかな合成音声を資料とじて声帯

波形とそのひずみの計算を行なう。

実験に使用した合成音声波形は既知の伝達関数(ホノレ

マγト周波数とその帯域幅,放射特性を示す関数)と代

表的な形を持つ声帯波形から成り立っている。ここでの

声帯波形には非対称三角波を用い,その OQ(Open

Quotient, 1周期に対する声門の聞きの時間比)は 0.7.

SQ (Speed Quotient,立ち下り時間に対する立ち上り

時間比)は0.5 であ~。この合成音声波形は母音として

のホルマント周波数と適当な帯域幅を与えるとじゅうぶ

ん明瞭性のある母音として聞くことができる。なお,サ

ンプリング周波数は lOkHzである。この合成音声波形

の1周期についてその複素スペグトル F,(f) を計算す

るとともに,(8)式によって声道の伝達関数 V,(f) の複

素スベクトルと唇からの放射特性 R,(f)を合成する(16)。

1 V,(f)=Hps 4

E 〔1ー (f/Fn)2+j(B悦f/Fn)2〕n=1

Hps=IOC2. 1x10-2c万500)2+7.2x10-5(//500)4J , i (8)

R,(f)=A「.SJ!a)三十j笠~l I l 2 ' 3~ J I

k=~ I c J

ここで, Fn,B”はホルマγ ト周波数とその帯域幅で,

aは関口半径, Aは定数, cは音速である。また Hpsは

声帯の形が均ーの円筒と仮定した場合,第5ホルマント

周波数以上のホルマシトによって生じる低周波数帯への

補償項である。その虚数部分は実数部分と比較した場合,

無視できる。

g,(t)は合成音声スベクトル F,(f)から(8)式の V,(f入

Page 4: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No. 82 January 1970

バ\-~

第1図合成音声波から抽出された声帯

波形。

合成に使用されたホルマY ト周波数は

それぞれ 800,1200, 2600, 3500 Hz である

(a)は F1=800Hz.(b)はF1=720Hzに定め,逆フィルタリ Yグを行ない得

られた声帯波形である。なお,他のホ

ルマント周波数は合成のときと同じで

ある。

R,び〉を取り除き,その逆フーリェ変換を2.1の原理に

より計算するo第1図(耐こ合成音声波形を計算したとき

と同じホルマント周波数とその帯域l隔を第4ホルマント

まで整合させた場合,計算によって抽出した声帯波形を

示す。このとき,合成波形に使用した第1~第4ホルマ

ント周波数は800, 1200, 2600, 3500 Hz (/a/に相当す

る)で,その帯域幅はそれぞれ55, 62, 105, 200 Hzで

ある。

このように,正確な伝達関数,放射特性を与えれば正

しい声帯波形を抽出できる。この合成音声波に関しては,

第1~第4まで同じ伝達関数,また同じ放射特性を与え

て声帯波形を計算したので当然同じ非対称三角波が抽出

で-きた。しかしながら,自然の音声の場合にはなんらか

の方法によって,より正しい伝達関数,放射特性を与え

る計算法を確立する必要がある。

第1図(b)に第1ホルマント周波数が10%離調した場合

(SO Hz)の励振波形の計算結果を示す。声帯波形の

gross featureには変化は見受けられないが,明らかに

波形上に重じようした周期波が存在している。

ところで,周波数軸上で、のホノレマントの離調が,時間

i~b上で、どの程度の波形ひずみとなるかを表現することは

むずかしいが,ここでは η として(9)式で定義する。

_ 1 ( 1 N 1_!. -al N;"'IJ1Cgi-g;)2j2 (9)

ここで, g:とわは原声帯波形と抽出された声帯波形

のi番目のサンプル値て‘ある。 Nは1周期のサンプノレ数

で, aは原声帯波形のピークf直である。可は原声帯波形

に対する離調声帯波形の平均的な偏差とみることができ,

第1図(b)では ηは0.024である。直観的に離調の程度と

η の関係を知ることはむずかしいが,離調の程度の増加

は可の増加となって現われてくることは確かである。ま

た,合成音声の条件はこのときと同じに置き,逆フィノレ

タの Fn,B”(n=l~3)を独立に変化させた場合の可を

第2図に示す。また母音 /i/に相当する合成音(F10~

F♂は 330, 2400, 3500 Hz, B1° ~BJ° は 51, 98, 135

Hz)について逆フィルタの不整合の効果を第3図に示

す。これらの図からひずみについて,つぎのことがわか

37

{崎町

IC出

100

第2図 逆フィルタリ ングの不整合による声帯波形のひずみ (/a/)。

dF (.dB)は合成時と逆フィルタリング時のホルマY ト周波数

(帯域幅)の差.ただし合成時のホノレマy ト周波数と帯域幅は

それぞれ800,1200, 2600 Hzと 55.62, 105 Hzである。

21

(X'[lJO 朴セ) にIQ

・200 ・100 K氾(Hz) 200

第3図逆フィルタリ Yグの不整合による声帯波形のひずみ(/!/)。

合成時のホルマY ト周波数k帯減幅は,それぞれ 300,2400, 3200,と 51,98, 135 Hzである。

る。(1) 第1ホルマント周波数の不整合の影響が最大であ

る。

(2) ホルマ γ トの周波数が低い程,不整合の影響が大

きく, '1Fが一定のとき,そのひずみに与える効果の目

安は,ホノレマント周波数の自乗に反比例する。

(3) '1F=Fn-Fn'とすると, '1F>Oに対して '1Fく0

は約1.4倍の ηを示す。

(4) '1B=B”-Bn'としたとき, '1Bの正負による ηの

差はほとんどない。

(5) 第1ホノレマントについて整合がとれているときは,

第2,第3ホルマントの影響は少ない0 -~

Page 5: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

38

これらは,単向調回路の振幅特性,位相特性からも定

性的に推察することができる。ところで,ここでは各ホ

ルマントの屑波数,帯域幅の不整合の効果を独立に調べ

た。両者が同時に不整合の例を母音 /ifの第1ホルマン

トについて第4図に示す。また,対応する声帯波形の例

を第5図に示す。なお,ここでは第2,第3ホルマント

は完全に整合している。

2

4。4担 ~o o 10 11!1 20 30骨セ) "°

八人人

八人人

民《-20 。.. IO IHI)

第4図逆フィル夕

日yグの不整合によ

る声帯波形のひずみ

(Ii/)。

ただし, Fiと Beの不整合によるひず

みの効果を示L,合

成時のホルマY ト周

波数,帯域幅は第3図と同じである

第5悶 F1l:.B1

の不整合が声帯波

形に及ぼす影響

(/i/)。

不整合の程度は第

4図に示してある

第4図から波形ひずみ可はllFに大きな影響を受ける

こと, IFが正のとき, 118が正になるとひずみが補償

される傾向にあること (llBがOに近づいても可が減少

することは保証されない)などが示される。また,第5

図から tFが負のときは波形の立ち上り部分が明確でな

く,正のときには立ち下り部分が鈍化する傾向をもつこ

とが示される。 tBの効果は顕著でなく,わずかにホル

マントの離調効果が波形に重じようしてくる程度で特徴

の記述は困難である。また,この図で示された llF,dB

の範閉では,声帯波形の特徴のパラメータとして用いら

れる OQ,SQなどの変化は少ない。

自然音声の場合には,真の声帯波形を知ることはでき

ないが,もしこれが三角波に近いとすれば,計算結果の

声帯波形から逆フィルタリングの適合の可否をある程度,

類推できょう。

2.3. 実験の方法

ここでの実験では,音声波形からスベFトルへ,また

電波研究所季報

スベタトルから波形へと変換を行なっているため,振幅

特性ばかりでなく,位相特性まで特に注意を払って音声

資料を収集する必要がある。音声資料収集の過程を第6

図に示す。音声信号は防音室でコ γデンサマイクロホン

第6図 音 戸 資 料 収 録 過 程

(MR i03)を用いてデータレコーダ(AMPEXFR 1300)

に記録される。データレコーダからの再生信号は LPF

(しゃ断周波数,.3. ..4.kllz)を通過した後, lOkHzのサ

ンプリング周波数でディジタル量(最大,最小値土999)

に変換され,計算機用磁気テープに記録される。なお,

以テム全体の振幅特性は 3阻 z以下では平担,位相

特性は 2.SkHz以下では直線である。

音声波形から声帯波形の計算過程を第7図に示す。計

第7図声錆波形

の計算巡程

算機処理により磁気テープ内の音声信号を印字し,観察

によって定常的と思われる部分から 1周期を抽出した。

これのフーリェ変換には高速フーリェ変換(FF1‘)を用

い, 1/(波形の1周期)ごと,すなわちピッチ周波数ご

とのスベクトルを計算している川、

ところで, FFTは一般には P 仰は正数)個のサン

プルについて適用可能であるため,任意のサγプル数を

持つ1周期の音声波形には適用できない。そこで,ラグ

ランジzの内挿公式(3点近似)を適用して T 個のサ

ンプノレ数に変換した。ここでは, 1周期のサンプル数は

常に 27個である。この変換によってスベクトル領域で

はピッチ周波数の高調波に関して計算が行なわれること

になる。フーリ z変換によってスベタトル領域に変換さ

れた音声情報は,対数計算により,より簡単化される。

Page 6: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No. 82 January 1970

この実験でもっとも重要な点は,声道の伝達関数を決

定することであるが,ここでは信頼性が高いとされてい

る“合成による分析”法(あとで詳しく述べる〉により

ホルマγトを決定している。 “合成による分析”法によ

って決定した伝達関数 V("') と近似計算によって得られ

る放射特性 R(ゆを音声スベグトルF(ゆから取り去る

と複素声,帯スベクトル G("')が得られる。また,ホルマ

ント抽出や, V("') の決定が 3kHz以下の周波数で信頼

性のあることや入力信号の帯域などを考慮して, 3kHz

の低域フィルタ(ガウス型)を使用した。さらに,シス

テム全体にわたって位相項に厳密さを期すため,音声資

料収録時のコンデンサマイタの位相ひずみを逆フーリェ

変換に先立って補償した。これらの操作を受けた G("')

は(6)式を満足するように折りかえし周波数に関して計算

され,逆フーリェ変換を行ない原声帯波形 g(t)を抽出

している。

なお,この実験はすべて計算機(NEAC2200-500)

シミュ νーションで行なう。実験アルゴ Pズムで時闘を

消費するのは“合成による分析”法で,フーリェ変換や

フィルタリングなどの所要時間はほとんど問題にならな

も、。

'2. 4. “合成によ~分析”法を使った戸道の伝達関数の

決定

音声信号から声道の伝達関数〈ホルマγトやアンチホ

ルマソトの構成)を求めるために,もっとも信頼できる

方法は“合成による分析”法〈“Analysisby Synthesis"

technique,以後 A-b-S)Cl8lC19>と考えられている。

この実験では第8図による A-b-Sを採用した。この

用湖2かう摘2れた1園田""音声 Z『qトjレ

領事l~d:.t J行 J.-'J.の初期値t抽出

O.l-3同iz閣で栢鵬係豊知事埼

第8悶 “合成

による分析”

法のフローチ

ャート

39

戦略は,いままでの A-b-Sの使用経験と 2.t. 2.2

で示した検討結果に基づいて構成され,さらに実際の抽

出実験によって修正を施して決定したものである(20)0

つぎにそのおもな特徴を箇条書きで示す。

(1) ホルマント周波数の初期値はスベクトルエンベロ

ープから観察によって定める。

(2)入力スベタトルと合成スペグトルの整合の検定に

lOOHz以上, 3kHz以下の帯減の相関係数を使用する。

(3)第1,第2ホルマント周波数の初期値を中心に,

土lOHzの9種類の組み合わせについて計算を行ない,

3X3の相関係数のマトリッタスをつくる。この中で,

相関係数が極大となる組み合わせが中心となるように第

1,または第2ホルマント周波数, e もしくは両者を動か

し,再び3×3のマトリッグスを完成させる。マトリッ

タスの中心が最大となるまでこの操作をくりかえす。こ

のときの第1,第2ホルマント周波数が観測音声のホル

マント周波数であるとする。なお,第3ホルマント周波

数は初期値をそのまま変化させることなく合成に使用し

ヨ'",』。

(4)各ホルマント周波数の帯域幅 B.は帥式で与えら

れる(21)0

日 0(1+百告示)(陶 。。

ここで, F”は第符ホルマント周波数である。

特徴(1)に関しては,扱かっている音声波形は定常部分

で・あるため,そのスベクトル上の第1,第2ホルマント

周波数はかなりはっきりと分離している。ここでは初期

値として,第1~第3ホルマント周波数にスベタトル上

のピーク値を与え,ピーク値が観察で検出できない場合

は,音韻別のもっとも一般的な値を与える(22)。

特徴(2)で相闘を計算するかわりに,互いのスベクトル

上での自乗差から整合の検定を行なう方法もあるが,対

象としているこつのスベクトルが平均をとられている以

上,相関最大は自乗差最小という意味になり,どちらで

検定しても同じ結果を得る。

特徴(3)の戦略で,中心の最大値が真のホルマント周波

数である保証はないが,ホルマγ トの初期値をより高い

ほうから,あるいはより低いほうから出発させた場合で

も収束点は一致する。また, l収束時のホルマント周波数

の値は,従来いわれてきた値にほぼ一致している点から

信額できるものと考えられる。これは,ここで取り扱か

っている音声スベクトルが定常部分の波形のため,かな

りはっきりとしたスベクトル構造をもっていることに起

因していよう。しかしながら,音声の立ち上り,立ち下

り,または音韻聞のわたりの部分ではこの方法ではうま

Page 7: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

40 電波研究所季報

くゆかない場合があるかもしれなし、。

この A-b-Sで,スベクトルの合成式は

Fantの理論によりω式を用いた(16)0

JGび)・R(f)I =__jj_喰訂 1 l+Cf .lVU)" I

Tぷ久イスィ久バムィスKイ入ぷ入イ入ィスィ;\

3 Fn2十(Bπ2)2 I jV(f) I =Hp4 II_ 云工器禁訴Eτl

n=l〔(f-Fn)2十(Bn/2)勺12 * I Nペスペ久ィふぺ(\スペ;!人

*【U+Fn)2十(Bn/2)2〕112 I

20 log1oH p4=0. 72(/ /500〕2 I 制イλ イ入ベ(λ~ベ入十0.0033 (f /500)4 (dB) )

。。ヲコ付zQト IV /e/ !•! /0/ /U/

ここで, Hp4は第4ホルマント以上の高次ホルマント

の低周波数帯への寄与を示し, G(f), R(f)は平均化

され,それぞれー12dB/oct, -:-6 dB/octの特性をもつ

ように近似されている。

2.5. 抽出結果と検討

第9図に1周期の音声波形と対応する声帯音源波形の

観測例を示す。 2.1で行なった合成音声波についての実

験では抽出された声帯音源波形を正しく評価できる。し

かし,実際の音声の分析では芦道の伝達関数の推定と放

射特性の近似に誤差があってもこれを知ることができず,

また真の声帯波形

もこのため不明で、

ある。したがっ

て,第9図で示さ

れたような声帯音

源波形は,いまま

でのいろいろな測

定例(2)(3) (23)から

経験的に評価され

なければならな

い。この見地から

第9図の結果は妥

当と思われる。

第10図に自然に

発声された男性4

Sub. K

Sub.S

人の母音の定常部 第9図戸常波形抽出の例

から計算された声 (a) /al Fo=153.8Hz

帯音源波形を示 (b} /u/ Fo=l28.2Hz 上は音声波形

す。またこのとき, 下は計算された声帯波形

A b Sで得られたホルマント周波数と最終の相関係

数を第1表に示す。

第10図で第1ホルマ Yト周波数に相当するリップノレの

重じようが認められるが,全体として個人に特有の性質

第10図抽出された5母音の声帯波形。ここで.Foは基本周波数(Hz)

が認められる。たとえば, Nの OQは 0.5に近く波形

も鋭い。しかし, Kでは OQはほとんど1に近く,や

や丸味をおびている。 T,SMは両者の中間である。し

かしこの図からは音韻に共通した現象は確認で‘きない。

声帯波形の個人性については,第3,第4主主でさらに考

察を加える。

第10図で、はホルマント周波数に相当するリップノレ成分

がしばしば観察されること,波形の立ち上り,立ち下り

の状態と第5図の関係から逆フィルタリングが適切でな

第1表母音のホルマY ト周波数と最終の相関係数,ここで, Fnは第 nホルマγ ト周波数(Hz),

pは相互相関係数である

Sub. l I i I e / a I o / u

327.8 547目9 771. 9

2,391. l l,977. 8 1. 155. 9 850.0 1,247.6

0.92 0.85 0.94 0.96 0.88

K I:: i '・:.:1 ':,:1 ・7.'.I叩;;:F1 293.2 492.8 585.0 480.0 334.6

N I F2 2. 091. 9 1,873.l l, lお.0 825.0 1,133.8

p 。目92 0.67 0.94 0.95 0.92

Fi 297.9 398.6 775.1

SM F2 2,523. 0 2, 112. 9 1,197.6 781. 9 1, 218. 7

p 0.92 0.95 。.91 0.98 0.92

い可能性がある。いい換えるとホルマント周波数や帯域

幅を正織に求めることが,より精密な分析を進めるうえ

で必要であろう。第1表のホルマント周波数よりも高い

周波数を与えたところ, リップノレや立ち上りのハシプが

減少した例がある。しかし,このときスベクトノレ聞の相

関係数 pは減少した。

Page 8: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No. 82 January 1970

これに関連してホルマントの帯域幅の問題がある。こ

の Aート-sでは帯域幅は帥式で与え,最適値の探索は

行なっていない。しかし,第2,第3図でみられるよう

に,この不整合は F1についで波形ひずみに大きな影響

を与える。しかしながら, A と B1の整.合をとる A-

b----Sを試みたところ, F1は第1表とほとんど同じであ

ったが多くの場合 B1は 1~lOHzになった(10liz間

隔で変更した〉。この僚は非現実的であり, またこれか

ら計算された声帯波形も振動的で許容できるものではな

い。帥式で定めた帯域幅を中心にlOHz間隔で変更しな

がら声帯波形を求めると,他の帯域幅で最適ι層、われる

波形を得られることがある。第11図にその例を示す。た

だこのような場合, B1=30.9Hzと相関係数最大の条件

とは一致しない。

パ入ぷ\パ入第11図声帯波形に及ぼすBiの効果(Sub: S. Ji/. F 1 =310. 9 Hz)

(a)' B1=50.9, (b) B1=30.9,や) Bi =20.9Hz

このように, A-b----Sで得られた相関最大のオルマ

ント周波数,帯主主幅と声帯波形の対応、が最適と考えられ

ないときがあることは,精密な分析を進めるうえでは問

題である。この原因は主として A-b-ーSで使用してい

る音源特性の合成に零点を含まないスムーズな曲線で近

似しているところに起因している。なぜなら,自然音声

には多くの音源の零点が存在するにもかかわらず,合成

スベクトノレを自然音声スベクトルに合うように声道の伝

達関数を定めているからである。 F1と B1での A-b

-sでも同じことがいえる。この問題点、を解決するため

に,音源特性を考慮した伝達特性の決定法を第4章で述

Jくる。

また,ホルマントの帯域幅は現段階では自動的な測定

の困難性とその変化範囲が比較的に小さいこと(波形に

対しての寄与もホルマント周波数と比較して少ない)な

どから帥式によることが適当であろう。

ここでの実験は音声波形の定常的な部分から観察によ

って1周期を抜き出して処理を行なっている。したがっ

て, 1周期のサンプル数に誤差を生じる可能性がある。

一般的な声の高さで発声し, lOkHiでサγプリングし

た場合,サンプノレ数はほぼ70点程度となることが多い。

観察で抽出したサンプル数が71点,または72点となった

とすると,! kHz付近のピッチ周波数の違いによる周

波数の誤差は約 14Hzと 28Hzになり, 3kHz付近

では 40Hz,80Hz程度となる。このピッチ周波数の違

いによるスベクトル包絡線の違いは,第2.第3図の波

形ひずみ司の大きさから考えて (F2または F3がピッ

チ周波数の差程度に離調したと考える〉,大きな違いは

41

ないと考えられよう。このため,ピッチ周波数の観察に

よる誤差(1周期のサγプル数の誤差〉が声帯波形の

grossな形に大きく影響を与えているとは考えられない。

3. 声帯音混波形を近似する関数

3.1. まえ、がき

声待音源波形は発声の強さや音の高さを一定に保った

場合にJ音韻の種類じよって比較的変化が少ないことか

ら音声の自然性,個人差,感情などの声質に大きな影響

を与えていると考えられる。

声質の研究のために,いろいろな条件で発生された音

声の声帯音源を観察しその特徴の記述が必要である。声

帯波形特徴の記述には,前の章で用いたように OQ,

SQ事が一般に使用される。これは,今まで研究者の視

察によって求められていたが,波形の形によっては一定

の基準で数値を求めることが困難な場合がある。また大

量のデータ処理に際して,計算機によってこれを求める

必要がある。そのため,ここでは声帯波形を適当な関数

で近似し,その関数のパラメータによって, OQ,SQを

記述することを考える。また,いろいろな関数による近

似の結果から合成音声の音源としても適当な関数が指示

されよう。

声帯波形を三角波によって近似し,評価(24)を試みた

り,合成音の音源に使用している例がゆいが,この波形

による近似は直感的に類似していること,数学上の解析

が簡単なこと,波形の発生が容易なためと考えられる。

しかしながら,定量的なデータから実際の声帯波形の近

似に三角波がもっともよいとい匂れているわけではな

い。いっぽう,生理学的見地から観察されている声帯波

形(声門の面積関数)はもっと円みを帯び,他の関数で

近似するほうがより適切であると恩われる。この考え方

から出発して近似関数として三角関数を用いる方法があ

る。この中には RaisedCosine波(以後RC波), Half

Cosine波を利用するものや, Rosenbergの立ち上り

RC波,立ち下り HalfCosine波(RC十HC波)C25lな

どが考えられている。また,他の近似関数として, Half

Ellipse波によるものや, Stevensの指数関数による近

似なども考えられているが,どれも現象から選んだもの

で必然性のある近似声帯波形を考えているわけではなL、。

上では原声帯波形にできるだけ忠実に近似関数を整合

してその近似度を評価するとともに,その波形上の特徴

(OQ, SQ)の記述を行なうが,またいっぽうでは,原

声帯波形と近似声帯波形をスベクトル領域で整合させる

ことによって,近似声帯波形を評価する。原声帯スベF

事 Flanaganは,立ち下りと立ち上りの時間比〈非対称係数〉を用いて

い草が,これは £Qの逆数である。

Page 9: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

42

下ノレは,話者に固有な減衰特性と波形上での OQ,SQ

K関係する零点が含まれている。近似声帯スベクトルの

減衰特性と零点の一致度によって近似声帯波形を評価で

きれば,後述する A-b-Sへの応用とか,またスベク

トノレ領域では振幅特性のみで処理を行なっている関係

上,位相問題を無視できる点でより実際的であると思わ

れる。

さらに,この近似声帯波形を使って音声を合成し,個

人差,自然さなどの聴き取り実験より声帯波形を定義す

る方法(25)もあると恩われるが,この問題には立ち入ら

ないことにする。

この章では,声帯音源波形を五つの近似関数(三角波,

RC波, 1.5乗 RC波, 自乗 RC波, RC+HC波)によ

って近似し,時間軸上では原声帯波形と近似声帯波形の

差の自乗平均値(η,帥式),周波数軸上では相関係数を

用いて近似関数の評価を試みる。

:3. 2. 近似関数によgパラメータ抽出

抽出した原声

帯波政〈第12図

参照〉のピーク

値を a,その位

置をらとする

と,そのときの

RC波による声

帯波形の近似を第12図声帯波形の近似のパラメータ

つぎのように定める。

I t-ti ¥ g1(t)= (1-cos信一)

I. t,-t; I

ただし{O:St;:St,_1

ti三三t三二t,

I t,-t I f g2(t) =竺(1-COS7t' - -) I

¥ t,-t,t l (t,三二九三二九 I

ただし{ー 同 町 I lt,:Stζt. J

自由

ここで, g1(t), gi(t)は tにおける各値である。 uれに骨こよって近似された声帯波形と原声帯波形の差の自乗平

均値 η が最小となるん,んを検出し,その原声帯波形

の近似声帯波形と定めた。三角波やその他の関数に関し

ても同様な計算を行なっている。可は制式によって定義

する。

-1 ( 10-4 1_!_ --a-l T.ヨ;-2JCg• .°-g_,)2j 2 (13)

ここで, gm'とれは原声帯、波形と計算された声,j骨波

汗3の制番目のサンプノレ値で-ある。このようにして抽出さ

れた !;, んから OQ, SQは容易に計算できる。

電波研究所季報

t.~t, 、OQ=~i

l (14)

SQ=~仁主|t.-t,’

この方法で自動的に抽出した5人の 5母音の OQ,SQ

と音韻,ならびに平均ピッチ周波数の関係を第13,第14

図に示す。近似関数は三角波である。第四図から,一般

1白色 -S, F0•1516 K,町b叶70.3

也9

。。 SM, Fn• 142.9 a 第13閣

T, Fn•137.4 0 三角波近似に

0.5i

よる視察戸苦F

N,九•126.6 波形のOpenQuotient

e 。 COQ〕置 音

にピッチ周波数の低4.0

い話者ほど OQは小

さく,高いほど大き3,。

くなっている。ま

た,母音 /i/に関しSQ

ては全体的に値が高2.0

くなっているが,平

均的な OQは 0.7~ 1.0

0.8程度(定常時の

声帯波形)であろ o.o, • 母。音 。 u

う。第14図から SQ 第14岡三角波近似による視察戸*波形の

は /i/,/o/につい Speed Quotient (SQ〕

てかなり個人差がみられるが,平均 1.75程度である。

母音の立ち上りから立ち下りまで、の連続した声帯波形

のパラメータ抽出を Sub.Sの/{/に関して行なった。

対象の連続音声波は,振1隔もピッチ周波数も定常部分

に近づくにつれてしだし、に噌加し,また減少するという

一般的な音声波形を示している印】。 第15,16図に連続

声情波形の OQ, SQを示す。関数は RC波である。こ

、件時:?吋::第15図母音声帯波形の OQの変化 CSub.S)

0印 RC波近似によるもの.印観察により抽出したもの

Page 10: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No. 82 January 1970

こで,点線の部分は処理を行なっていない部分である。

第15,16図から観察によって抽出したパラメータと近似

関数によって抽出したものとは多少の差はあるが同じ傾

向は保たれている。このことから声帯波形の近似に帥式

で示した方法で近似し,パラメータを抽出してもさしっ

かえないことが推測される。また, OQは立ち上り,立

ち下りでは低く,定常部分ではやはり 0.7~0.8程度と

なり,第13図の結果と一致する。 SQは立ち上り,立ち

下りでは値は高く定常部分では 1.7~2.0程度であろ

う。連続声帯パラメータ抽出に三角波近似で行なったと

ころ, RC波近似とほぼ値が一致するため,第15,16に

はのせていなし、。

つぎに定常部分の声待波形について,他の四つの関数

についてパラメータ抽出を行なった0 ~’)17, 18図の縦制l

1.0

0.6

. 。. 。

. も. p 。.. ...... ... 日

.。. 。 a当h.

" x 。 .. x

.,・.。。"'." d

xx

. 。.., •RC+HC “

,、 。RC・・ 00 "' 3く。" え &崎重RC

。 t:. x X自重RC

第17図

三角波と他の関数との OQの対比

Q.9

au B

4

同業じ』品

0.7

OQ

。505 0.6 07 o.a 09

OQ LO

・0 山

~ ~ x

。。' ..

。・ A 〉く... . 山崎・..

。xAペ3!1~内語、 ~·J x

l。A・x

一一一」

4.0

角3.0

;it

.t • 2.0

SQ

第18ii§ 三角波と他の関数との SQの対比。ただし,用いた記号は第

17図と同じである

1.0

O'bQ 10 20 SO 30 4.0

は三角波近似による OQ,SQで,横軸は他の関数によ

るOQ,SQである。第17図から RC-:-HC波近似の OQ

がもっとも低い値をとり, RC波でほぼ三角波と同程度

の近似値となり, 1.5乗 RC波,自乗 RC波では一般に

三角波近似より大きめに検出されている。 SQは第18図

からは,どの関数で近似しても同程度の値を持つことが

示されている。

なお,この連続音声とその定常部分のパラメータ抽出

に使用した声帯波形は,第2章の第71玄lの実験手JI闘によ

って収束したホノレマント周波数をさらに第1ホルマント

43:

周波数だけ任意に動かし,もっとも声帯波形がスムーズー

になったときのもの(以後,視察声帯波形と呼ぶ〉であ.

る。また,このときのホルマント周波数を視察ホノレマン

ト周波数と呼ぶことにする。第四図に5人の話者につい・

ての5母音の視察声帯波形を示す。

sぷみィスィ久ペユィ:\.Tペスパ(!スィ久川((ミィ(入

Kぷ入イ入ベ三ベ入ぺ入Nィ久パ。ィユィ久ぺ。SMぷ入イミイ入~ィλタフヲェワト I I/ ’‘t

/@/ J。/ /U/

第四図視察声帯波形の例。ただし.Foは基本周波数(Hz)

3, 3. 関数によQ波形の近似度

第20図に第19図の視察声帯波について近似関数と制式

に示した ηの関係を示す。各点は5母音の平均で,各人

ごと違った記号を用いて示しである。また,点線は近似

関数別の平均可である 019

が,点線上は意味を持

たず,ただ大きさの傾也17

向が示されているにす

ぎなL、。 5人の話者に 015

平均して近似度の高い0.13

関数は RC-トHC波でー

あり,つぎに RC波, 一三角波のII闘であった。

RC波の次数を上げて 009

ゆくと逆に近似度は下

がる。 Sub.SMはRCo.o?

波近似の方がRCートHC

波近似より高い近似度 0.05」RC・HC RC 1.5RC 20 RC a

を示し,どの関数で近 近似声輔波ff~

似しても平均してよい 第20図視察戸帯波形の近似度。ただし,各点は各人の5母音の平均,

近似度を示している。 es. OT. xK.ムN,口SM

Sub. K, N は SMについて、近似度が高ぐ,特に Kは

三角波近似, RC十HC波近似では SMより高い近似度

を示している。 Sub.S, Tは Sub.SMとは反対に,

どの関数で近似しても平均より高い ηの値で収束し近似.

度は悪くなっている。

ー.

// ‘ ‘ ‘ . ‘ ¥

寸I ‘ .

/ ~ ¥

:/ ‘

、、‘ ‘ ‘ ’ , , , , 守‘司

,,,ー-・・"'

l 申

Page 11: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

44

3.4. 近似関数の周波数特性

一般に自然音声から抽出した声帯スベタトルの減衰特

性は Flanaganによれば-10~-12dB/ oct<4l, Miller

によれば-8~ー17dB/octClOl, Carrと Trm<mによ

れば-8~-16dB/octであることが観察されている0

3.3節では,できるだけ原芦帯波形に近い近似波形を,

ー関数を違えることによって求め波形とパラメータを抽出

したが,ここでは,近似声帯スベクトルの減衰特性と零

点の一致度で近似関数とその近似波形の評価を試みる。

これはあとに第4章で行なっている高度の A-bーsに

も利用されるうえでもっと本質的な問題を含むため,理

論的考察が必要

である。第21図 / \

に RC波による / l ¥ d’ e 、

近似波形を示 // \

す。制式の RC ___.- J '-. ト一一一一一一一一川 , h一一寸

波近似は回式と第21図 RC波による近似戸帯波形

同じである。

がペ(i-cos信長)凶錦1 l g2(t)=-i(1ーcos官。サい) j帥

kt1三三t三三(k-!-l)t1J

ここで, hは SQである。

両辺にラプラス変換を施せば, 1周期の近似声帯波形は

周波数領域に変換できる。

fkt1 「(k+l)tGR山)=J ~ g,(のe-Sfdt-!-J kit g2(t)e -~城帥

制式は帥式で書き表わすことができる(付録参照)o

GRc(s〕=~__!_~ ___!_ls21 (!)2 s (s斗(訂js2+92 I L¥ k I

ー尚一(k+l)tiS-62パ叫(与)e-k寸

+(与)2(1-eー削川) 帥

ここで, 6=n:/t1である。

定常時の声帯波形を仮定するとれは 3ms程度であ

り,このとき, GRc(s)の最大の極の位置ーJ,_Iは¥ 2t1 I

t1=3msを代入することにより約 160Hz程度となる。

そのため,通常の音声サンプル(ピッチ周波数が160Hz

程度でるる)に関しては,分母が5次,分子が2次で全

周波数帯域を通じて,-18dB/octの減衰カープを描く。

なお,指数関数の項は s=σ十j印と置き換えることに

より,また,減衰項σがωの増加に伴って通常増加する

電波研究所季報

と考えられることから,~る ω以上の周波数帯域では零

とみなすことができる。そのときの GRc(s)を(l!D式で

示す。

GR~ (s) ー a(-})2 - 2s〔s2+(-!-)2〕

om

近似戸帯波形が対称のとき,零点の位置は GRc(s)=I>

とおき k=:=l,s=j"'を帥式に代入しωに関して計算を

すると得られる。

1-e-2jti .. =0 (19)

これにより,対称 RC波の零点の位置は f=n/2t1Hz

(CJJ=2官f)となる。ただし仰は正数。他の関数の減衰特

性は付録で示す。

付録から三角波による近似スベクトノレは,全周波数領

域でー12dB/octの減衰特性を持ち, 1.5乗 RC波と

自乗 RC波はある周波数まではー18dB/octそれ以上

の周波数帯域では,それぞれ-24dB/octと-30dB/

octの減衰特性を持つことが推測される。ここで,ある

周波数とは実際に減衰項σを計算することが困難なため,

近似声待波形をフーリュ変換し,その減表性から推測し

てみた。その結果, 5kHz付近までは-18dB/octの

減表で近似してもさしっかえないため,さらに高い周波

数位置にあると恩われる。 RC+HC波では,ある周波数

まではー12dB/oct,それ以上では-18dB/octの減衰

特性で近似できる。

3.5. 近似関数のスペクトル領域における近似度

相対レ.ヘル

。 2 3 園業政

第22図関数による近似声帯波形

の?.ベタトル〈原戸帯見ベクト

ルは第23図ー(a)に示してある〉

同三角波,

(b) RC波.

(c} RC+HC波

Page 12: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

ノレ聞の相関係数を示す。相関係数は lOOHz以上, 3四z

以下の周波数範囲で計算されている。表から相関係数が

もっとも高いのは,波形上もっとも ηの小さいRC+HC

波であり, 1.5乗RC波, 自乗 RC波, RC波,三角波

の!|頂となった。この上位3種の近似スベクトルは,零点

らしき点が見当らないほどスムーズな減衰曲線をもち,

RC+HC波の滅表曲線は 1.5乗 RC波,自乗RC波のそ

れとは違った形を持っている。それにもかかわらず,こ

れら 3種の相関が高いのは,明らかに零点を持つ RC波

と三角波のスベクトルの相闘が悪いことを考慮すると,

近似スベクトルの減衰特性よりむしろ零点の整合に大き

く負っているようである。

さらに,この点を深く考察するため,従来の A-b-

Sで抽出した声帯波形から近似声帯波形を計算し,その

立ち上り点んと立ち下り点んをそれぞれピーク点ら

に関して土50%裁かした。この操作から,任意のんと

んとの組み合わせにより近似声帯波形を合成し,その近

似声帯スベクトルと原声帯スベクトル聞の相闘が最大と

なるん, t.を検出した。なお,この近似波形には零点の

頻度と急峻きが中間的な RC波を選んだ。

その結果を第2表の中で, RC波の右仮|!の pで示す。

左側の pと比較してみると, εub.Tの/i/,Sub. Nの

ft/を除きすべてどの関数近似よりも高い相闘を示して

いる。第23図に Sub.Sの/νの原声帯スベタトル(司

と相闘が最大(p=O.957)となったときの近似声帯スベ

クトル(ωを示す。明らかに, 952.4, 1428. 6, 2063. 5,

第22図に三角波, RC波, RC-l-HC波の3種類の関数

によって近似した声帯スベクトルを示す。なお,対象に

使用された原声帯波形は, Sub.Sの母音 ft/である。

第 22図ー(a)は近似関数が三角波のため, スベクト!ル上

では急峻な零点が存在する。 (b)の RC波近似では(a)ほど

の零点は見当らない。しかしながら,自然の音声から観

察した声帯スペクトルの下限の減衰量よりもさらに大き

lい減衰特性を示している。(c)の RC+HC波のスベクト

ルは非常に滑らかな形を示し,顕著な零点は発見できな

い。 1.5乗 RC波,自乗 RC波によるスベクトルはここ

にはのせていないが,観察したところスベクトルは RC

波と同じ減衰特性を持ち, RC十HC波に似た割合に滑ら

かな形を示した。

第2表に第19図の声帯スベクトルと近似声帯スベクト

45 1970 January No.82 Vol.16

第お岡原声帯Aベタトル(Sub.S-/i/) :i:近似戸管見ベp ~Iレ

(a)原戸帯Rベp ~'"· (I防相関係

数が最大な近似声帯見ベクトル

<RC波近似)。"tkHz )5 t来弘

【悶l

第2表 原声帯見ベFトルk近似声帯AベFトル聞の相関係数p

ただし, pは声帯波形整合後のもので, RC波の右側のpは声

帯7'ベタトルの整合処理をした後のものである

近 似 関 数

R C 波 |協同吋i 。鎚oI o.叫0.9571 0. 911 0.914 0.914

e 0. 894 : 0. 928 0. 967 0. 945 0.931 0 941

s a 0.894 0.904 0.944 0.918 O.S09 0.939

。 0.846 0.8:錫 0.890 0.855 0.8臼 0.871

u 0.779 0.898 0.907 0.901 0.877 0.903

• 0.842 0.870 0.923 0.904 0.909 0.936

e 0.915 0.918 0.962 0.950 0.952 0.945

T a 0.8鉛 0.940 0.978 0.958 0.950 0.958

0 0.914 0.945 0.964 0.938 0.941 0.937

u 0.888 0.903 0.940 0.930 0.916 0.929

• 0.887 0.947 0.975 0.930 0.955 0.958

e 0.784 0.804 0.942 0.886 0.859 0.868

K a 0.837 0.869 0.915 0.883 0.877 0.891

。 0.918 0.931 0.984 0.930 0.932 0.934

u 0.892 0.917 0.938 0.923 0.914 0.932

I 0.848 0.897 0.932 0.911 0.908 0.934

e 0.886 0.862 0.914 0.883 0.893 0.894

N a 0.891 0.896 0.947 0.926 0.922 0.934

0.867 0.912 0.877 0.869 0.906

u 0. 775 0.940 0.958 0.9必 0.929 0.949

• 0.952 0.914 0.963 0.931 0.933 0.952

e 0.883 0.980 0.983 0.錦2 0.981 0.982

SM a 0.お4 0.904 0.954 0.909 0.914 0.923

。 0.804 0.947 0.985 0.975 0.974 0.釘7

事轟 0.882 0.935 0.970 0.951 0.954 0.943

Page 13: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

46

2539. 7, 2698. 4 Hzにある零点は一致している。

3.5. 検討

一般に声帯波形の近似には三角波が用いられてきたが,

波形上の近似度 η とスベクトノレで‘の相関係数pは, RC

十HC波による近似がもっとも適切であることを示し

た。また,連続声帯波形の OQでRC波(三角波)によ

る OQより観察によるほうが,より引きく抽出されて

いることがわかり,さらに,第17図の三角波とのOQの

対比で, RC-トHC波がより小さく OQを計算している

点で人間の観察による OQと RC十HC波によるそれと

は,他の関数近似と比べてみても,もっとも近い値を示

すことが期待される。このことから,声帯波形のパラメ

ータ(OQ,SQ)抽出には, RC十HC波による近似がも

っとも適切であろう。しかしながら, RC+HC波近似

のスベクトノレはー12dB/octのほとんど零点の観察さ

れないスムーズな減衰特性を持っている関係上,従来の

A-b-S音源スベクトノレとして使用されてきたものに

比較的に近い。したがって,第4章でこの近似波形のス

ベクトノレを音源として実験を行なうことは無意味であ

る。

つぎに,声帯スベクトノレの整合状態の高いのは,スベ

クトノレの減表特性より零点の一致度に大きく負っている

ことを示した。零点の頻度と急J唆さを総合的に観察した

結果,原声帯スベクトノレの近似には三角波よりも RC波

で近似したほうがより適切と考えられる。

三角波を除いた他の関数のラプラス変換から,減衰項

と位相項を同時に解析的に解くことは不可能に近い。特

に減表項の計算が困難なため,スベクトノレの減衰特性は

観察による判断でしか決定できなし、。また,減衰特性が

どの周波数付近で変化(連続的な変化で、あるが)するか

も判定ができなし、。しかしながら,利用周波数範囲が

3目玉zまでであるため,その範囲内で、減衰特性の変化は

無視できるものと思われる。

つぎに,時間領域で、の近似声帯波形はいろいろと考え

られるが,周波数領域で、の適当な近似関数は五つの近似

関数の中でRC波ぐらいである。これは波形そのものを

近似することに重点を置いているためで,両者を満足す

をものは,なかなか発見が困難である。 RC-i-HC波が

波形上のパラメータを記述するうえで,もっとも適して

いることが判明した以上,時間領域で近似の必要なとき

はこの波形を使い,周波数領域で、の整合には波形の整合

に無関係な他の関数を利用しでもよいのではないかと思

われるoHalf Ellipse 波,指数関数波で行なってみる必

要もあるが,何か声情振動の機構から本質的な波形を見

出すことが望ましし、。また,波形やスベクトノレの次元で

電波研究所季報

はなく,試聴試験によって適切な関数を選ぶことも考え

られるがこれは将来の問題である。

4. 合成によ~分析法への戸帯音源特性の導入

4.1. 原理

第2章の原理に従って抽出した声帯波形には,いまだ

ホルマント周波数の不整合による周期波が重じようして

いる場合がたひ了こび見受けられる。これは,自然、の声帯

スベクトノレには明らかに零点が存在するにもかかわら

ず, A-b-Sに使用されている合成音源スベクトルを

-12dB/octのスムーズな減衰特性で近似しているとこ

ろに原因がある。

第24図に,この不備な点、を補うために従来のA-b-S

を三つの方法によって改良,実験を行なった計算手順を

示す。この図では,近似声帯スベクトノレを合成の音源特

性として使用し,原音声スベクトノレとの相関係数が前の

それよりも高いときは,近似した効果があったとみなし

てさらに手順を繰りかえしている。原音声スベクトノレは

第24図新しい h合成による分析”法

(a)一一ー一一時間領域の整合による方法

(b)ーーーーーー・肉波数領域の~合による方法(c) ・・・・・・・・・・個人別戸帯Rベクトルを利用する方法

なお,実線は従来の A-b-Sである

Page 14: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No.82 January 1970

(2)式から

F(w)=G(w)・V(w)• R(w) 仰)

合成による音戸スベクトノレは加)式で表わされる。

F'(臼)=G’〈ω〉・V’(ω〉・R’(ω〉 (宮古

このω)と加)式で,声道の伝達関数が V'(w)のとき,も

っとも相関が高くなるものとすれば制式は倒式として書

き表わせる。

F(w)=〔G(w)・Gv(w)〕・V’(ω〉・ R(w) 鞘

ここで, Gv(w)は V(w)を V'(山〉で、近似したため,

見燐上生じた声帯スベクトルのエラー項である。倒式を

整理して(4),(7)式に従えば岡式が得られる。

I (00 F(w) ・,J l g(t)匂 vCO=:CReリo~疋可仰

担司

このように,声道の伝達関数の不整合により見掛上声

帯スベクトルのエラー項として生じた V’(ω〉は,時間

軸上で真の声帯波形に重じようしてくる。一般に抽出さ

れる声帯波形は凶式の形を持つもので,近似声帯波形

t;.(t)のスベクトノレ G0(w)が適切に近似でき, G(w)に

収束してゆくならば V’〈ω〉も V(印〉に収束してゆくも

のと考えられる。

このような考えに立脚して合成音源スベクトノレを計算

する方法として,つぎの三つのものが考えられる。

(a)標準的な A-b-Sで求めた V'(w)を用いて計算

した声帯波形は,たとえ V'(w)の値の不確かさによる

リップ/レ波が重じようしている場合でも,その gross

featureは正しく保存されていることが示された。この

得られた波形を平治,もしくは適当な関数によって近似

し,その近似波形のスベクトルをそのまま合成音源スベ

クトノレとした A-b-Sを行なう。その結果,声帯波形

がここに仮定した関数と同じような形なもつものならば,

より正確な声道の伝達特性の分析が期待できる。

(b) (a)のときは,声帯音源の近似を波形領域で行なう

が,ここでは,スベクトル領域で・その近似を行なう。

G(w)・Gv(w)は仮定した波形のスベクトノレで、近似され

る。もしも,与えた波形のスベグトノレ領域の構造が

G(w)と同じような拘束を受けているとすれば,近似ス

ベクトノレ G0(w〕は G(w)になることが期待される。こ

れを A-b-Sの音源として G'(w)のかわりに用いれ

ば,より正確な戸道の伝達関数が求められよう。

(C) 各個人別の平均的な声帯音源スベクトルをあらか

じめ計算しておき,これを合成音源スベクトルとして

Aーか-Sを行なう。

47

これらの中で(c)はつぎの章で検討する。

4.2. 時間領域におけ=5近似声帯波形の利用

第24図(a)によって実験を行なう。その結果を第25図に

示す。横軸は近似関数で,-12dBは従来の音源スベグ

4<

t’セ

・"°

・SO'

. .

la I

ロ・.

回,~ I u I

(H>Iトー十一十一→一一←一←ー←→「 e,.

一-~40·ト

包宝 ¥邑h 事~ ~ ~富市 S

t地H ←-ー→ーー→ーー+ー--i。. . -

’40し・• le I .

第25図 いろいろな音源特性による A-b-Sの結果〔Fρ.印は方法(a¥0は(b),口はわ),縦軸は抽出した第1ホルマY ト周波数と視察第1ホルマY ト周波

数との差〔Hz〕

トノレ G'(w)を使った結果で-ある。また,縦軸は第19図

に示した視察声帯波形を求めたときの視察第1ホノレマン

ト周波数と,この A-b-Sで収束したときの第1ホル

マント周波数との差である。各点は音韻別による 5人の

平均で・ある。真の声帯波形を得る方法としては,第1ホ

/レマソト周波数の帯域幅 B1を変化させることが考えら

れるが, B1の波形に及ぼす影響は第2,3図かられの

2/3程度と考えられる。さらにホルマント周波数の不整

合による周期波が声帯波形に存在する場合, F1程度に

B1を移動させても周期波はなくならず,いくぶん波形

が平滑化することがある程度である。

/i/, /e/に関しては,-18dB/octの減衰特性をもっ

近似関数, RC波, 1.5乗 RC波,自乗 RC波による近

似が, RC十日C波を除いて,-12担 ;joctの減衰特性を

持つ波形よりもよい結果を示した。特に, RC波近似が

/tiではー14Hz, /e/ではー2Hzというよい結果を示

した。これは, /i/,/e/のF1,F2のホルマント構造が

大きく離れており, RC波近似による零点とその滅表特

性が適切な近似を与えているためと思える。 /a/に関し

ては,どの関数で近似しても従来の A-b-Sよりも結

果は悪い。これは零点と F1が周波数軸上で重なり, A

の情報が失われたためと恩われる。 /o/は /a/よりい

くぶんよい結果で収束しているが, /0/の F1,F2ホJレ

Page 15: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

48

マント構造が /a/のそれらより 300Hz程度下がった

ところに位置していると考えると,近似声帯スベクトノレ

の零点と減衰特性が /a/には悪、く, /ofにはよい方向

に働いたためと思える。また, RC+HC波と従来の音

源特性は,そのスベクト Jレがほとんど同じためその結果

も似通っている。つぎに A-b-ーSの段階で原音声スベ

クトノレと合成スベクトル聞で、相関を求めるとき,初めに

6 dB/octで高域強調を行なってから計算をしたが,や

はり /if,/e/に関して効果があるが, /a/, /of, ju/

では少ない。

4,3, スベクトル領域におけ9近似波形の利用

4.2.の近似声帯スペFトノレの利用は,原声帯波形の近

似がとれれば,そのスベクトノレは grossに減衰特性や零

点が原声帯スベクトルのそれらにほぼ一致するという考

え方から出発している。これは,あくまでも声帯波形を

できるだけよく関数によって近似することを主眼に置き,

そのスベクトルの整合は2次的な意味しか持たしていな

い。しかしながら,関数によって近似することでさえ,

スベクトノレの減表特性と零点は,その関数特有の性質で

規定されてしまう以上,波形領域で,できる|浪りよく一

致させてもスベクトノレ領域で、はよい近似をしているとは

限らない。さらに, A-b-Sがスベクトノレ領域で整合

を行ない,パラメータ(ホノレマント周波数)を決定して

いる以上,整合の主眼をスベクトノレ領域に置き,時閉鎖

域の波形を補助的なものとして取り扱うほうが本質的で

ある。

この考え方に立脚して,新しい A-b-Sを第24図(b)

の手順に従って行なう。始めの声帯波形の計算方法は前

述したとうりである。なお,近似関数は零点の頻度と急

峻さが実際の音源スベクトJレに近いと観察される RC波

のみで行なっている。声帯波形の立ち上り点 ti,立ち下

がり点 t,を初期値として,任意の立ち上り点 h と任

意の立ち下がり点 t却をつぎの範囲で動かす。

t,ー (tp-t;)O.5st印三二t;十(tp-t;)O.5 担4

t.ーCt.ーら)0.5ζt.伊豆t,+(t,ーら)0.5 倒

ここで,らは波形のピーク位置で, {24)式の左辺が1よ

り小さいときは1に,制式の右辺が128(FFT使用のた

め)より大きいときは 128に置く。

この t,,・ t,p個の近似声帯スペクトノレの組み合わせの

中で,もっとも G(w〕・ Gv(w)との相関が高い組み合わ

せを見つけ出し, A-b-Sの音源スベクトノレとして使

用する。 Gv(w)はホルマントの不整合による見掛上の

声帯スベクトルのエラー項であるから,また,零点のQ

がホルマγ トのそれと比較してかなり高いと考えられて

電波研究所季報

いるので, G(w)・ Gv(w)に見られる零点の位置は変わ

らなし、。

第24図(ωの実験手順で行なわれている A-b-Sは計

算時間の関係上,図でみられるような閉ループは構成し

ていない。最初に声帯スベクトノレ問で‘相関係数最大値を

持つ近似声帯スベクトノレが見つかると,それを使用して

A-b-Sを行ない収束した時点で分析を終了する。第25

図にこの方法で・行なった新しい A-b-Sの結果を示す

co印の結果)。 /a/,/o/, ju/に関して,従来よりも,

また前節波形整合の A-b-Sよりかなりの改善がみら

れ,視察第1ホノレマント周波数の近傍で収束している。

/e/に関しては, RC波による波形整合についでよい収

束位置を示している。 /a/については, 40Hz程度高い

位置で収束しているが, /a/の視察第1ホルマント周波

数の平均が約 710Hz程度となり,従来いわれている周

波数値よりいくぶん低めに検出されている点から,この

結果が実際に近いかもしれない。また,この両方のホル

マソト周波数を用いて逆変換を行ない,声帯波形を計算

した結果もほとんど形には変化がみられない(この周波

数帯では,第2図にみられるように,逆フィルタの中心

周波数の不盤合の影響は小さい〉。

このように一度だけ声帯スベクトルを近似して A-b

Sに戻すのみで,結果に改善がみられる点から完全な

繰り返しが構成されれば,さらに結果は向上するはずで

ある。ここでは, 4.2節の波形整合に力を入れた関係

上,他の関数(特に三角波)について計算を行なってい

ない。この点について,さらに研究を進めてゆくつもり

である。

5.個人別音源スベクト )!,.の A-b-Sへの適用

5.1. 個人別の声帯音源スペクトJj..

第4章で行なわれた実験は, 1音韻の 1声帯波形に注

目し,その fineなスベクトル構造を A-b Sに使用し

てきた。ここでは逆に,個人別というもっと grossな面

から声帯スベクトルを捉え,正確なホノレマント周波数の

抽出を試みる。はじめに,個人別声帯スベクトノレ抽出に

は,観察により定常部分と思われる区聞から 5周期分の

波形を抜きU:\し声帯スベクトノレを計算する。各々 の声帯

スベクトノレは,ピッチ周波数が違うため lOOHzごとの

値を直線近似により算出し加え合わせる。個人別声帯ス

ベクトノレはさらに5母音の周期分を加え合わせて平均値

を求める。なお,これらの計算はすべてデ・ンベル領域で、

行なった。第 26図に5人の個人別声帯スベクトノレを示

す。この図では,-12dB/octの減衰は取り除いてあ

る。

Page 16: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

本論文を通じての理論的な背景は, Fantの音声合成

の理論式で、ある(16)。これは 3kHz以下の周波数千告では

正しいものとして一般に使用されている。しかし,本論

文のように声帯波形にまで、立ち入った分析の場合には,

声帯振動と声道との聞の干渉を無視することはできない。

この関係については,いままでのところ, Flanaganの

実験(15)があるに過ぎず,現段階では無視せざるを得な

いが,将来はこの点を考慮した分析法を試みる必要があ

る。

また,なんらかの方法で真の声帯波形(戸門を通る体

積流)を知ることができれば,この戸帯波形抽出の精度

(換言すれば声道の伝達特性の推定の確かさ)を評価す

ることも容易である。また,合成による分析法の収束を

検定する尺度としても,より有効に利用できる。この実

験では,抽出した声帯波形の形を収束の検定に利用した

第'%1図

音戸スベクト

ノレと合成音声

スベFトル問

の整合の程度。

TこTごL, Pは;

相関係数

いる点が観察できる。 /i/,/e/と比べると /a/,/o/,

ju/は F1とF2が接近しているため,どの関数で近似

しても相関はほぼ同程度の値を示した。

05

RC十HC波近似のスベクトルで,互いの grossの減衰

特性が-12dB/octという点で興味がある。 IGSは個

人の特徴を反映してどの音韻に対しても相闘が高く,分

散が少ない。第26図に示した個人別スベクトノレは,この

実験に使用した音源スベクトルが grossに-12dB/oct

であることを示した。このことから,ほぼ-18dB/oct

の減衰特性を持つ RC波, 1. 5乗RC波,自乗 RC波の

相関は低い。 /e/に関しては,個人差が大きく現われて

49

le/

-.

/。/

l !

...

5

0

n

u

E

L

J

高通!

ム棋証川

E

ム匝帳但/・

z・

4日書虫/

ug

--・・

4♀

tu巴・・・・

払理由・か

t

t

f

f

G.

....

/u/

・z.. .. ・.

Iii

051

i'

!

ヰ5.2. 個人別スベクト)I,..の A-b-Sへの利用

前節に計算した個人別声帯スベクトルの特徴にー12

-dB/octの減衰をつけ加え,合成音声スベクトルの倒人

別音源スベクトノレとして個人ごとの A-b-Sに使用す

る。第25図(口印の結果)にその結果を IGS(Indivi-

-dual Glottal Spectrum)で示す。このように, grossな

個人的特徴を入れても一長一短があり,従来の-12dB/

-Octの音源スペグトノレを使った A-b-Sの結果とほぼ

同じ F1へ収束した。ただそのときの原音声スベクトノレ

と合成音声スベグトルの聞の相関係数はかなり向上し

た。 /i/に関しては効果がみられ,視察第1ホルマント

周波数に従来のものより 8Hzも近づいたが,これは

-800Hz付近の零点の影響と思われる。第27図に原音声

スベクトルと合成音声スベクトノレ聞の相関係数を示す。

横軸は近似声帯スベクトノレで,図の中の-12dBは従来

のA-b-Sの結果から, IGSは個人別声帯スベクトノレ

を挿入した結果からで,縦軸は相関係数を示す。 /i/~ju/を通じてもっとも高い係数値を示したのは, IGSと

や)を除いて,他の4人に関しては従来からいわれてい

る 800Hz付近の零点が存在し,(a)と (b), (c)と(d)はか

なり似かよった形を示している。(副主図示はしていない

が, 3kHz以上の周波数範囲でもさらに減衰がある。こ

のことからωは 3kHz以上では-12dB/oct以上の声

帯スベグトノレの減衰がある。(巴)は顕著な零点は持ってい

ないが,さらに 3dB/oct程度の減衰が声帯スベクトノレ

占こつけ加わわっている。しかしながら,全体的に注目し

ている周波数範囲(0.1~3kHめでは多少の凸凹はある

がほぼ平坦な形を持っている。

第泌図

個人別声{if;<.ベクトル

( -12clB/oct はとり除いて

ある)3

1970

l市1戒叡2 (刷宮}

January

(a)

No.82 ¥Vol.16

Page 17: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

50

が,単にリップル成分の少ない声帯波形を基準にしたた

めに,声帯波形,声道の伝達特性の両者とも近似値とし

て得られているに過ぎない。この手法に関しても,将来

の生理学的,解剖学的研究成果を持たなければならな

し、。声帯音源の特徴の記述に, OQ, SQが用いられてい

る。しかし,声帯波形と個人差の関係の記述を考えると

これだけではふじゅうぶんである。たとえば,サプジz

クト K と Nの聞には, OQもたしかに異なっている

が,それ以上の波形の形として特徴が大きい。これらを

声幣が聞いている区間についての面積率(声帯波形の面

積/OQに対応する時間×最大振幅)で表示することを

考え分析を試みたが,これも波形の特徴を間接的に示し

ているに過ぎない。この実験で用いたような声帯波形の

近似関数を数多く用意し,その最適関数によって特徴の

記述が可能である。ここでは,第20図で平均的には SM

がRC波,他は RC十HC波がもっとも近い関数として

示されている。関数の選定,近似する波形の平均の方法

などが,パラメータとしての有効性を左右することにな

る。この点はまだ現段階で、はデータ不足である。

高速フーリェ変換を利用するため,サンプノレ点が 2”

になるように補聞を行なっている。これによって生じる

誤差は小さいと考えられるが,このような手順を避ける

ため, chirpz変換(29)の利用を考慮中でるる。

大量の音声資料,とくに連続した音声波形の分析には,

別に開発した時間領域における逆フィルタの利用が有効

である(30)。 今後は二つの手法をその目的によって使い

わけ,種々の条件で発声された音声を分析し,多くの資

料を集積したい。これらが発声機構,個人性との関係な

どの解明,新しい分析法の開発,音声合成装置の有声音

源などに寄与するものと期待している。

7. 結 言

本論文で・行なった実験研究の内容をつぎに列記すると,

(1) 音声波形(非び音,有声音)からの声帯波形の計算

法,

(2)その抽出誤差(声道の伝達特性推定の不確かさ)と

抽出声帯波形のひずみとの関係,

(3)声帯波形を表示するパラメータ(OpenQuotient,

Speed Quotient)の自動抽出,

(4)声帯波形を近似する関数の考察,

(5) “合成による分析”法に声帯波形の拘束の導入,

(6) “合成による分析”法に個人別の音源スベクトノレの

導入

などである。実験はすべて計算機シミュレーションで行

電波研究所季報

なわれたが,高速フーリェ変換,逆変換,ディジタルフ・

イノレタリングなど新しい技術が活用された。(1)~μ)は,今後の声帯波形に関する分析的な研究や音声合成装置の・

音源に対しての寄与が期待される。(5)の結果は,使用し

た声帯波形関数の不適切なこともあり,予期したほどの

好結果は得られなかった。しかし,声帯波形を手がかり

に声道の伝達特性を推定することは,より正確な分析へ

の新しい考え方として価値があると思われる。

本論文に関連して,現在着手または考慮中の研究事項

を列記する。

(1) 声市波形に及ぼすピッチの高さの影響。

(2)母音,半母音発声中,または二重母音の渡りの声帯

波形の変化。

(3)声帯波形の他のパラメータ表示の方法。

(4)声帯波形と個人の認識の関係。

(5)声帯スベクトル整合を使った新しい A-b Sの完.

成。

終わりに,この研究を進めるに当ってご検討,ご助言

をいただいた当室角川研究官,中津井技官に厚く感謝す

るとともに,ご協力いただいた当所計算機室の各位に謝

意を表わす。

参考文献

(1) 越川常治;“音声と物理”,聴覚と音声(第3部),.

電気通信学会, 1966.

( 2) Timcke, R., Leden, H. V. and Moor, P.~

“Laryngeal Vibration : Measurements of the

G!ottic Wave, I”, AMA Arch. Oto!, 68, pp. 1~

19, 1958.

( 3 ) Timcke, R., Leden, H. V. and Moor, P.,

“Laryngeal Vibration: Measurements of the・

Glottic Wave, Il”, AMA Arch. Ota!, 69, pp. 438.

~444, 1959.

( 4) Flanagan, J. L.,“Some Properties of the・

Glottal Sound Source”, JSHR, 1. pp. 99~116,.

June, 1958.

( 5 ) Sawashima, M., Hirose, H., Kiritani, S., and!

Fujimura, 0., "Articulatory movements of the・

L訂 yn:x.",6th ICA, B-1-1, 1968.

(6)浅野尚;“喉頭に対する超音波法の応用”,目耳

鼻, 71,6, pp. 895~916, 1968.

( 7) Wendahl, R. W.叩 dColemen, R. F., "Vocal-・

Cord Spectra Derived from Glottal-Area Wave-

forms and Subglottal Photocell monitoringぺ.73 rd ASA meeting, Sf 3, 1967.

Page 18: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

Vol.16 No. 82 January 1970

c( 8) Dolansky, L. and Tjernlund, P., "On Certain

Irregularities of Voiced-Speech Waveforms",

STL-QPSR, No. 2/3, pp. 58~65, 1967.

I( 9 ) Ishizaka, K. and Matsudaira, M., "What makes

the Vocal Cords Vibrate ?”, 6th ICA, B-1-3,

1968.

{10) Miller, R. L.,“Nature of the Vocal Cord

Wave”, JASA., 31. pp. 667~677, 1959.

{11) Cooley, J. W. and Tukey, J. W.,“An A!gori-

thm for the Machine Calculation of Complex

Fourier Series”, Math. Comp. (Amerふ 19.pp.

297~301, 1965.

(12) Cooley, J. W., "What is the Fast Fourier

Transform ?”, IEEE. on AU, AU-15, pp. 45~

55, 1967.

(13) 角川靖夫,中津井護,高杉敏男,鈴木誠史, “高

速フーリェ変換と最近のスペグトル分析装置ヘ電

波研季報, 15.pp. 43~63, 1969.

(14) バポリス, A.,“応用フーリェ積分’。オーム社,

pp. 13~16, 1966.

(15) Flanagan, J. L. and Landgraf, L.,“Excitation

of Vocal Tract Synthesizers", 6th ICA, B-5

-8, 1968.

{16) Frant, G.,“Acoustic Theory of Speech Pro-

duction", Mouton & Co., 1961.

(17) Mathews, M. V., Miller, J. E. and David, E.

E., "Pitch Synchronous Analysis of Voiced

Sounds”, J ASA., 33, pp. 179~186, 1961.

(18) Stevens, K. N.,“Toward a model for Speech

Recognition”, JASA., 32, pp. 47~55, 1960.

(29) Bell, C. G., Fujisaki, H., Heinz, J. M., Stevens,

K. N. and House, A. S., "Reduction of Speech

Spectra by Analysis-by-Synthesis Techni-

quesヘJASA., 33, pp. 1725~1736, 1961.

(20) 角川靖夫,中田和男;“「合成による分析法」によ

るホノレマント周波数の抽出〈音響学誌, 20.pp. 1

~13, 1964.

{21) Fant, G., "Formant Bandwidth Data”, STL-

QPSR, No. l, p. l, 1960.

'(22) 梅田規子,“連続メッセージにおける母音の分析ぺ

音響学誌、, 14.pp. 106~111, 1958.

く23) Mathews, M. V., Miller, J.E. and David, E.

E.,“An Accurate Estimate of the glottal

Waveshape", JASA., 33, pp. 843, 1961, (A).

{24) Flanagan, J. L., "Speech Analysis, Synthesis

and Perception”, Springer-Verlag, 1965.

51

(25) Rosenberg, A. E,“Effect of glottal Pulse

Shape on the Quality of Natural Vowels”, 77th

ASA meeting, E 6, 1969.

(26) 高杉敏男,角川靖夫,鈴木誠史; “関数による声

帯波形の近似”,音響学会研究発表会, 2 2-S,

1965. 5.

(27) Caπ,P.B. and Trill, D., "Long-Term Larynx-

Excitation SpectraぺJASA.,36. pp. 2033~2040,

1964.

(28)藤崎博也,中村直司,吉宗一夫;“定常母音の正

規化と識別”,音声研究会資料, 1969.9.

(29) Rabiner, L. R吋 Schafer,R. W. and iRader, C.

M叫

Its Application”,, BSTJ., 48, pp. 1249~1292, 1969.

(30) 中津井護,鈴木誠史; “ディジタノレフィルタを用

いた声帯波形の抽出”,電波研季報, 15. pp. 507~

510, 1969.

付 録

本文,第21図を参照にして,立ち上がり部分の関数を

g1(t),立ち下がりを '}2くりとすると,そのラプラス変換

G(s)は(A-1)式で書き表わせる。

kt1 (k+ l)t1

G(s〕=AJ g1(t)e-s刷 .-AJ g2(t)e-s抑(A-1)

0 kt1

ここで, Aは各関数によって定まる定数である。

(A-1)式を部分積分を用いて展開すると

G件- -~ { e-kl1sg1(k小'} 1(0)

-:-e一(k+l)t1sg2((k十1)心一e-kt1s(kt

ki1 (k+l)t1

-:-~/ Jg,' (t)e寸断-J'}2'ゅ-叫0 kt1

さらに,右辺第2項をつぎつぎに展開し整理すると

G(s)は(A-2)式になる。

G(s〕=-~{e-kt1s〔州制-~州ti)

+ ;f'J川山

ーら1(0)すれてo)十一幻ω

十 十会g州 o)十 〕

十eー(軒以

Page 19: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

52

+fi-112"((峠 l)t1)十

+土gz(n)((k+l)t計...• l sn - ,.

-e-ktis〔g2(kti)+÷112'(kt1)+去の"( k心

+ +去のくnJ(kti)+・ 〕) CA-2)

A.1. 三角波によg近似声帯スペクトル G.t1(s)

ktt (k+l)t1

G.t1(s)=去jt~-stdt+T,-J{ck+。t1-t}e吋 t品。‘ kt1

(A-3)

ここで, aは声帯波形のピーク値で, hは SQであるo

g1(t)=t, g2(l)=(k十日t,-tと置き,(A-2〕式に代入

し整理すると, G.4(S)は(A-4)式でで表わされる。

電波研究所季報

G.t1(s) ki1 52 I I

(Aーの

(A-4)式から,三角波による近似声帯スペ夕、トノレは全

周波数帯域を通じて,-12dB/octの減衰曲線を持つこ

とがわかる。

三角関数による近似声帯波形は,たまたま(A-2)

式の各項が無限等比級数の形を持つため次のような方法

で‘すべて行なった。

A.2. RC波によg近似声帯スペクトJI-GRc(s)

‘,e

JU

t

s

,uv

‘、E61e

’-1

tM

M

GO o

pしv’E--

h,EEl-、

hrtJo

a『。L一一、‘,,edw r‘、C

R

G

(k十l)t1

+~-J (i-cos n:_Q_乎!l!_)げ必(ト5)

kt1

O=官/t1とおくと

微分回数| 112(!) 日,, I日 +1)

。 -cosn:,J; -1 1 -cos館企士1迫二L 1 -1 f1

1 ({-)sinn:,J; 。 。 -8 sin n: (k十月t1-l 。 。!1

2 はr… (f)2 一(f)292cos1t (k+l)t,-t -ez 92

11

g,(t)

一与G山)=e-(k+l)t1s-l

e-ktis+l e一件+l)t1s十e-kt1s+一一一一ーァで一一 (A-6) 1 t 8 ¥2

1-¥-52l]i} 1+予_92

(A-6)より

GRc(か-a ---:J.---;;o --bo ザベfrx {s2〔(f)2ー仇 Ck+川-82パ州(子)パtS〕

+(子)2c1-e-<k+山 (A-7)

(A-7)式より RC波による近似声帯スベクトノレは全

周波数帯域を通じてー18dB/octの減衰特性をもっ。

A.3. 1.5乗 RC波によg近似声帯スペクトJI-

Gi.sRc(s)

kit

Gi.則 。=-#z[(1-cos寸)3い dt

(k+l)t1 + ιr fa-cosn:J.k+l)t1-l )3九-stdt

2312 J ¥ 11 / hぜz

(A-8)

2 sin2信 t 噌 cos t I 一一一一一・- 1t一一一 | 2kt, - kt1 I

2 sin2π (k+l〕t1-t=l-cns 1t (k+l〕t,-t I 2!1 ti )

(A-9}

sin3 n:_!__=.1_(3 sin n: 1 2kl1 4 ¥ -- 2kt1

一自信表)寸g1Ct)

/(A-10) in3江(k+l)t1-t-!._(~ 由化笠並並二~I一一一一… ' 211 4 ,- 21, I

-s山〈勺~1-f)=士似の J

(A-9)式を(A-8)式に代入し, (A-10)式を使

って整理すると(A-11)式が得られる。

Page 20: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

53 1970

kt, (k+l〕ti

子G1.似の=ρ1ゆ -stdt+j"gz(t)e s抑

0 kt1

January No.82 Vol.16

(A-11)

t=kt1 t=O t;i(t) 微分回数|

3十1。3t 3 sin n:一一一一sinz一一一2kt1 2kt1

。3(会)一(芸)s(会)cos味-(お…1

-3(会)2-(立rぬ I6 ¥ 2 • t . I 36 ¥ 2 • 3t ‘一一一一一一一一一一一一...~ 2k J副 U ル 2kt1'¥ Zk J副 U ル Zkt1

。2

t=(k十l)t1t=kt1 gz(t) 微分回数|

。3-ト13 sinρ!j-1)仁i__sin 3 n;_i社!)~二土2t1 211

-s(f)+(ト)。n/ 6 ¥ .. (k+I)t1-t , / 3 ~ ¥_ __均一 (k十l)t1-t一一一一-"l 2/W<> ι2t1 'l 2υ/'-V<>uル 2t11

-s({-)2-(トr/6¥2. (k十1〕tiーt f 3 ¥2 (k+I)ti-t -3(2) smn: 211 +l-zeJ sin3irーヲ正一 。

これにより,低い周波数帯で Gl.5RC(S)は-18dB/oct

の減衰曲線を描く。

2

これから

白書長・RC,波によg近似戸帯スペクトJI-

G2.0Rc(s)

A.4.

- ~s ・ Gi.成cCかe-skt1

x (~(会r 十ザ({Z/ J

G2.似かが(iーcos定去re-stdt (k+lt,

+-;J(i-cosπ立ヰ仁土)いゅkt,

1. 5乗 RC波と同様な計算を行なうと(A-16)式にな

る。

(A-15)

十eー(k+l)t1sl ーヰ住) +___±Gi__

l峠(す)(frl+-ld t0r 一生G2.0Rc(s)=主(e-<k+l)t,s-I)

a 孟I 3 .十一 1 。ICA-12)

t 1-:-去(i)2 1-:-去H0Yi 一2一h

」れ1

一2ー「

一o一h

2一1一ジ

一十

」寸

周波数が高くなるとと eー(糾l)t1s=ekt1s=O考えられ

るから, Gi.sRc(s)は近似的に(A-13)式で書ける。

-(#(frサペ¢(~~r J

I -2 1 1 I :-e-(k+l)t1sl-一一一十一・一一----.-- ・-I

i 1 2 2 I i I 1十一.,e 1+-;.,-c2e)2 1 ‘ s• s• ,

〕=6a(よr」ー__l_叶{冨)sz+(会r

-e-kt1sf_一主一一+-1-・一一τ2 l l ~ 2 i ~ 1+τ。 1+す(26)2J

(A-13)

低い周波数帯で G1s.Rc(s)の分母は sに関して9次,

分子の最高次は(A-14)式となる。

(A-16) (A-14) 分子=e-問中-会)ss

Page 21: UDC 534. 78 声帯音源特性の抽出とその音声分析への応用 … · は,発声になんの拘束を与えないため,声質と音源の関 係を調べるためには都合がよし、。さらに,最近のディジ

54

周波数が高いとき

G2.0RC(市生(~)'_!_~← -----4..ー¥kl s o2.J..l~ \ 2 .2.J..(竺 12

ー・ 1kl -・ 1k I

(A-17)

低い周波数帯ではG2.0Rc(s)の分母は9次,分子は6次

となる。

分子=パ岬(i-ir)ss (A-18)

これより,低い周波数帯で G2.0Rc(s)は-18dB/oct

の減表曲線を描く。

A.5. RC+HC 波によ~近似戸帯スペクトル

G:Rc+Hc(s)

kt1

G即+Hc(s)=-;-[(1-cos寸)戸崎

(k+l)t1 +a (s泊軍 (k+Qt1-tl τ , e-stdt (A-19)

電波研究・所季報

これも同様な方法で解くと

e-kt1s+1 -~GRC+Hc(s)=e-kt1s-1+ 1 t 6 12

1+一一(--1s直lkl

S

&将司

21j

十一

e一2

AU

-ea一,,.‘、

好一

17

D

一十

l

e (A-20)

周波数が高いところでは

GRC+Hc(s s sz+ぽr

低周波数帯では, GRC+HC(s)は分母が Sに関して 5次,

分子は3次となる。

分子=e-Ck+l)t刈 s3 (A-21)

これから低周波数帯では-12dB/octの減衰曲線をも

ザコ。

1111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111

も・