NO.33 どこでもどんな人でも使える⁉「無発声」音声認識の技術を磨け

NITトレインラボ 2022.05.30

基幹工学部電気電子通信工学科
マルチメディア信号処理研究室
大田健紘助教

■当研究室の取り組み

ヒトとヒト同士であれば、目や耳など様々なセンサを活用して相手の状況を「察する」ことができ、それにより相手を助けることができます。当研究室では、ヒトを測りヒトの状態を知ることにより、ヒトの「察する」能力を補助するシステムやデバイスの開発を目指して研究を行っています。
システムやデバイスが我々のことを察することができれば、ストレスの少ない自然な補助が可能になると考えられます。現在、当研究室で対象としていることは、身の回りの様々な音の種類やその発生源を認識・特定し、音による見守りを実現することやヒトの様々な動作を解析することでその動作の良し悪しを客観的に評価し改善に役立てること、そしてヒトの口の動きをもとに発話内容を推定することです。

■無発声音声認識とは？

ここで紹介する技術は、ヒトの口の動きをもとに発話内容を推定する「無発声音声認識」です。この技術は、声を出すことが困難な状況におけるコミュニケーションを補助するための技術です。
現在、様々な場面で音声認識を応用したシステムが活用されるようになってきています。しかし、病気により発声に必要な器官を取り除いた場合や大声を出すことができない場合、大きな騒音が発生している場合においては、音声認識を利用することは困難です。そのような困難を克服するための手段として音声情報を利用せず、口の動きなど発声に関係する情報を様々なセンサにより計測し、発話内容を推定する技術の開発を進めています。
「動画」では、カメラで撮影した発話動作を行なっている映像から、右側のウインドウにあるように口の形を検出し、その口の形のみから「あ・い・う・え・お」を推定し、音声合成システムにより発話させています。このように、「あ・い・う・え・お」であれば口の形だけでも高精度に推定することが可能ですが、日本語の文章へ適用するには未だ困難な状況です。
そのため、当研究室では、口の形や動きを正確に計測するためにカメラだけではなく複数のセンサを組み合わせることや既存の音声認識の技術を応用することで上記の問題の解決に取り組んでいます。