音声メディア分野

人間の知の創造・伝達の多くは、音声によるコミュニケーションによって行われています。本分野では、人間どうしがやりとりを行う音声メディアを分析し、自動認識・理解した上で、インタラクションを行えるシステムの実現をめざします。具体的には、会議や講演のような自然な話し言葉音声をテキスト化するシステム、複数の話者や音源などからなる音環境や音楽を解析するシステム、非言語情報も統合しながら自然な対話が行える人間型ロボットなどの研究に取り組みます。

教員

教授：河原達也
准教授：井本桂右
助教：井上昴治

研究内容

話し言葉の音声認識

講演・講義や会議のような実世界の話し言葉音声を自動認識し、情報・構造を抽出し、さらに講演録・会議録や字幕・要約などを生成する方法について研究しています。

音環境理解

複数の話者が存在したり、音声以外に様々な音が存在している環境の認識・理解を、マルチモーダルなセンシングと統計的な音響信号処理に基づいて行っています。

音楽情報処理

音楽音響信号に対して音源分離や自動採譜を行う方法を研究しています。これに基づいて、歌声と伴奏音を分離して加工・編集を行うシステムを開発しています。

ロボットとの音声対話

人間のように振る舞い、インタラクションを行えるロボット（アンドロイド）の実現をめざして、言語情報と非言語情報を統合した音声対話のモデル・システムを研究しています。

研究室ウェブサイト

http://sap.ist.i.kyoto-u.ac.jp/