VOI-Seeの設計案(2021/06/24)

●プロジェクト名称
VOI-See(ボイシー)→VOICE(声)＋See(見る)
後述のボイシーちゃんはマスコットガールみたいな感じ、看板娘がいることで親しみを付加。

●AIで分析させたい声の成分表のコンセプト
･emo(｢(ボイシーに心のおもむくままに語りかけましょう。)に対する返答｣で判定)
=感情(喜怒哀楽など)
･ima(｢ボイシー、私の声を聴いて｣で判定)
=印象(可愛らしい･かっこいい･華やかな･落ち着いた･やさしい･厳しい･元気な･清らかな･強い･弱い)
･age(｢ボイシー、私の声を聴いて｣で判定)
=年齢

●VOI-Seeのアプリのイメージ[遠き理想形]
①ロゴが出てくる
②発話者の使用言語選択(日本語or英語(後々対応出来ればなぁ…)
③｢(②で選択した言語で)ボイシー、私の声を聴いてと呼びかけてください。｣と共に録音ボタン表示
④音声を認識(imaとageを判定)
⑤ボイシーが画面に出現
⑥｢(②で選択した言語で)ボイシーに心のおもむくままに語りかけましょう。｣と共に録音ボタン表示
⑦音声を認識(emoを判定)
⑧(emoでいちばん強い感情によって)画面上のボイシーが反応した後に、声の分析結果を画面に表示
⑨声の分析結果画面から、声をオブジェクト化するかどうか問う(Yes→オブジェクト化に進む No→手を振るボイシーと共に診断終了)

●データセットを集める
①『ボイシー、私の声を聴いて。』
ima(印象)とage(年齢)を分析させる言葉は固定で上記にする。理由については後日。
[可愛らしい･かっこいい･華やかな･落ち着いた･やさしい･厳しい･元気な･清らかな･強い･弱い]の10項目に対して五点満点で評価したデータと発話者の年齢のデータを音声に紐づける。
五点満点評価については、協力者を募って一つの音声につき３～５人には評価して貰いたい。必要があれば友人を雇う覚悟。理想のデータ数は1000で、800は学習用で200は精度チェック用に使いたい。
②『(ボイシーに心のおもむくままに語りかけましょう。)に対する返答』
emo(感情)を分析させる。こちらの言葉は固定せず5秒程度と長さを固定することで、イントネーションと文脈から感情を読み取らせることを検討。
(本当は文脈関係なく声とイントネーションのみから感情を読み取らせたいところではある…)

【最後に】取り急ぎの作業は大量の人間から音声を集める作業と、ageを分析するAIの学習を進めること。