PronounSE:言語非依存な口真似音声からの効果音合成

京都産業大学大学院 先端情報学研究科 平井研究室 / 産業技術総合研究所 人工知能研究センター 知的メディア処理研究チーム
滝沢 力
採択技術名 | PronounSE:言語非依存な口真似音声からの効果音合成 |
---|---|
採択者名 | 京都産業大学大学院 先端情報学研究科 平井研究室 / 産業技術総合研究所 人工知能研究センター 知的メディア処理研究チーム |
採択年 | 2025年 |
※掲載している情報は、受賞当時の情報のため、現在は異なる場合があります。
詳細
ゲームやアニメーション、映画などのコンテンツ制作において、環境音や効果音は欠かせない要素である。しかし、その制作には熟練の技術が求められ、プロであっても手間がかかることが少なくない。特に、音作りに不慣れな人にとっては、イメージに合う音の制作や、大量のサウンドライブラリから最適な音を探し出すことは容易ではなく、必ずしも思い通りの音を得られるとは限らない。
こうした課題に対し、本技術研究では、ボイスパーカッションのように音をリアルに模倣した口真似音声から効果音を合成する手法を提案している。人は、金属音やサイレン音、爆発音といったさまざまな音を、ある程度は直感的に声で再現することができる。このような直感的な表現かつ多様な発声を活用することで、生成系の深層学習技術を用いて音声から効果音を合成するアプローチを取っている。特に、人の口真似による音を模倣する能力に着目しており、言語的な発音や文字では表現しきれない微妙な発音(音韻情報)や、高さ・抑揚・タイミング等のリズム的要素(韻律情報)も含め、言語情報を一切用いず、口真似音声のみを入力として効果音生成する点に技術的特徴がある。
これまでは、多種多様な効果音の中でも「爆発音」の合成に焦点を当てており、発破音や発砲音等の多種多様な爆発に伴う音の合成が可能となっている。敢えて日本語の擬音語として書くと「ドゥーン」「ボガーン」「バーン」「パーン」などが挙げられるが、それらの発音にはそれぞれ音響的違いがある。本技術ではそれらの中間の発音までも表現として網羅する柔軟な音響合成が可能である。現在は、爆発音以外、特にレーザービームや魔法の音等の非現実な音にも対応させるべくデータセットを構築しており、随時対応音色を増やした技術として研究を行っている。
社会実装
について
アニメやゲーム等のサウンド制作現場におけるディレクターやサウンドデザイナーの間では、効果音のイメージ伝達で口真似が使われている現実がある。このことから、プロでもいち早く音素材を入手する手法として本技術は利用できる。また、非プロでも効果音素材探しに時間や労力を費やすよりも、頭にある音のイメージを口真似発音した直後に合成結果が得られ、素早く素材を入手できる。また、ニュアンスの違う発音し直して、イメージに合う素材の入手を繰り返すこともできる。
加えて、YouTubeやTik-Tok等含め、動画コンテンツに効果音を入れる場面も多い時代だからこそのニーズもある。これらの事情に対し、我々の技術は、独自の口真似データセットによる効果音合成モデルを用いており、その合成処理をWebサービスとして提供することで、プロアマ問わず、広くコンテンツ制作を後押しすることができると考えている。
審査講評

擬音的な口真似やボイスパーカッションを入力として、生成系深層学習により効果音を自動合成する点は新規性が高く注目に値する。従来は専門的知識や膨大なライブラリ検索を要した効果音制作を直感的に行えることは、コンテンツ制作全体の効率化に大きく寄与すると考える。さらに、現場で求められる細やかなニュアンスや時間的制約下での編集ディレクションに応答できる柔軟性が実装されれば、既存の制作ワークフローに不可欠なツールとなり得る。エンターテインメントのみならず、教育や玩具など多様な産業への展開可能性も高く、CTIPを契機に社会実装へと進展することを期待する。
(西村 真里子 委員/株式会社HEART CATCH 代表取締役)