asj2021s fujiwara poster - kobe university

1-2P-2

口唇口蓋裂者の音声認識のためのデータ拡張方式の検討

☆冨士原健斗, 高島遼一(神戸大), 杉山千尋, 田中信和, 野原幹司, 野崎一徳(大阪大), 滝口哲也(神戸大)

口唇口蓋裂とは

2

先天的な病気の一種で、発育などに悪影響を及ぼす

患者の声は鼻声のように聞き取りにくくなる

「口唇口蓋裂の概要」より閲覧日…2/18http://www2s.biglobe.ne.jp/~k-island/clcp/outline.html

口唇口蓋裂者音声認識における問題点

3

健常者のデータセットデータ量

日本語話し言葉コーパス 1418人 / 約 660時間

LibriSpeech 2484人 / 約1000時間

健常者のように大規模なデータセットが存在しない！

データを収録するにあたって…

①台本を読み上げてもらう場合、患者の負担が大きい

→少量のラベル有りデータを加工しながら使う「データ拡張」を導入

②台本のない発話を収録する場合、ラベル付けが難しい

→ラベル無しデータを利用する「自己教師あり学習」を導入

データ拡張とは

4

既存のデータを加工し、データのパターンを増やす技術

加工したデータそれぞれを学習データとして使う

周波数

時間

従来手法：「SpecAugment」[1]

5

「時間方向の変形」「マスキング」による加工を行い、

音声のスピードの変化や欠損に強い学習を促す

周波数

時間

変形マスキング

[1] D.S.Park，W.Chan，Y.Zhang，C.C.Chiu，B.Zoph，E.D.Cubuk and Q.V.Le，“SpecAugment: A simple data augmentation method for automatic speech recognition,” arXiv preprint arXiv: 1904.08779，2019．

自己教師あり学習とは

6

少量のラベル有りデータによる教師あり学習を、

より大量のラベル無しデータによって補う技術

Step1. 自己教師あり学習

人手に頼らず正解を作れるタスクで、データの大まかな特徴を学習

Step2. 教師あり学習

人手で付けたラベルを用い、実際に解きたいタスクを学習

モデル

ありがとうこんにちはさようなら

おはよう

？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？

モデル

学習学習

[2] W.Wang，Q.Tang and K.Livescu，“Unsupervised pre-training of bidirectional speech encoders via masked reconstruction,” in ICASSP， 2020．

データ拡張と自己教師あり学習を組み合わせた音声認識学習[2]

7

データ拡張[1](タスクの生成)

学習データ（ラベル無し）

Step1. 復元タスク（自己教師あり学習）

Step2. 音声認識タスク（教師あり学習）

復元モデル

学習データ（ラベル有り）

CTC

(音声認識モデル)

データ拡張[1](データの増量)

卒業論文

データの復元を通じて

音声の特徴を学習する

復元されたデータ認識結果

[2] W.Wang，Q.Tang and K.Livescu，“Unsupervised pre-training of bidirectional speech encoders via masked reconstruction,” in ICASSP， 2020．

データ拡張と自己教師あり学習を組み合わせた音声認識学習[2]

8


学習データ（ラベル無し）

Step1. 復元タスク[2]（自己教師あり学習）

Step2. 音声認識タスク（教師あり学習）

復元モデル

学習データ（ラベル有り）

CTC

(音声認識モデル)


卒業論文

データの復元を通じて

音声の特徴を学習する

復元されたデータ認識結果



従来のデータ拡張は健常者の音声認識に対して提案されたもの

口唇口蓋裂者音声の性質も考慮することで、更なる性能改善が期待できる

口唇口蓋裂者音声の性質

9

口唇口蓋裂者音声のフォルマントは、健常者に比べて…

・ F1の変動が大きい

・ F1の周波数が高い

・ F1＆F2の間が不自然に強くなる

・ F2＆F3が弱くなる

フォルマントの変動と音声認識の関係

10

300

400

500

600

0 50 100 150 200

周波数

[Hz]

サンプル番号

発話ごとの第1フォルマント平均値の分布

健常者口唇口蓋裂者

話者フォルマントの変動発音のバリエーション

健常者小さい少ない

口唇口蓋裂者大きい多い

提案手法「周波数伸縮」

11

①基準となる周波数をランダムに決定

②高周波数帯域 → 伸ばす低周波数帯域 → 縮める

圧し縮める

引き伸ばす

周波数

時間

基準点↓

フォルマントの変動を再現するデータ拡張を加え、学習の頑健性を高める

評価話者

使用データ

モデル構造

口唇口蓋裂者音声認識：実験条件

12

復元モデル：双方向LSTM(Long-short term memory) 4層音声認識モデル：音素単位のCTC

双方向GRU(Gated recurrent unit) 2層 (+ 復元モデル)

口唇口蓋裂者男性 2名

各話者のATR 503発話 (約 1時間)[3]200文 → ラベル有りとして音声認識モデルの学習・テストに使用303文 → ラベル無しとして復元モデルの学習に使用

[3] A.Kurematsu, K.Takeda, Y.Sagisaka, S.Katagiri, H.Kuwabara and K.Shikano, “ATR Japanese speech database as a tool of speechrecognition and synthesis,” Speech Communication, vol. 9, no. 4, pp. 357-363, 1990.

口唇口蓋裂者音声認識：実験結果

13

23.72

19.39

17.96

24.02

19.71

17.85

10

12.5

15

17.5

20

22.5

25

データ拡張なし従来手法提案手法

音素誤り率

[%]

口唇口蓋裂者1

口唇口蓋裂者2

良

周波数伸縮なし

従来のデータ拡張（周波数伸縮なし）

提案のデータ拡張（周波数伸縮含む）※論文投稿時に誤りがあったため、修正

口唇口蓋裂者音声認識：提案手法による効果

14

テストデータ個別のフォルマントの値と認識率をあわせて確認すると、

提案法によって外れ値のデータも結果が改善されていることがわかった

300

350

400

450

500

550

600

0 10 20 30 40 50

周波数

[Hz]

サンプル番号

発話ごとの第1フォルマント平均値の分布

提案手法で認識率が改善しない

提案手法で認識率が改善

まとめ

まとめ・今後の課題

15

・データ拡張を用いた学習により、口唇口蓋裂者の音声認識精度が向上した

・フォルマントの変動が大きい性質を考慮して新たなデータ拡張を提案し、

従来手法のみで学習した場合に比べて約10%の相対改善が得られた

依然として口唇口蓋裂者の音声認識精度は健常者に比べて低いため、

更に性能を向上させる必要がある

・他の性質と音声認識との関係の検討

・健常者音声を活用した学習の検討

今後の課題

asj2021s fujiwara poster - kobe university

Documents