VOI-Seeの設計案(2021/06/24)

●プロジェクト名称
VOI-See(ボイシー)→VOICE(声)+See(見る)
後述のボイシーちゃんはマスコットガールみたいな感じ、看板娘がいることで親しみを付加。

●AIで分析させたい声の成分表のコンセプト
・emo(「(ボイシーに心のおもむくままに語りかけましょう。)に対する返答」で判定)
=感情(喜怒哀楽など)
・ima(「ボイシー、私の声を聴いて」で判定)
=印象(可愛らしい・かっこいい・華やかな・落ち着いた・やさしい・厳しい・元気な・清らかな・強い・弱い)
・age(「ボイシー、私の声を聴いて」で判定)
=年齢

●VOI-Seeのアプリのイメージ[遠き理想形]
①ロゴが出てくる
②発話者の使用言語選択(日本語or英語(後々対応出来ればなぁ…)
③「(②で選択した言語で)ボイシー、私の声を聴いてと呼びかけてください。」と共に録音ボタン表示
④音声を認識(imaとageを判定)
⑤ボイシーが画面に出現
⑥「(②で選択した言語で)ボイシーに心のおもむくままに語りかけましょう。」と共に録音ボタン表示
⑦音声を認識(emoを判定)
⑧(emoでいちばん強い感情によって)画面上のボイシーが反応した後に、声の分析結果を画面に表示
⑨声の分析結果画面から、声をオブジェクト化するかどうか問う(Yes→オブジェクト化に進む No→手を振るボイシーと共に診断終了)

●データセットを集める
①『ボイシー、私の声を聴いて。』
ima(印象)とage(年齢)を分析させる言葉は固定で上記にする。理由については後日。
[可愛らしい・かっこいい・華やかな・落ち着いた・やさしい・厳しい・元気な・清らかな・強い・弱い]の10項目に対して五点満点で評価したデータと発話者の年齢のデータを音声に紐づける。
五点満点評価については、協力者を募って一つの音声につき3~5人には評価して貰いたい。必要があれば友人を雇う覚悟。理想のデータ数は1000で、800は学習用で200は精度チェック用に使いたい。
②『(ボイシーに心のおもむくままに語りかけましょう。)に対する返答』
emo(感情)を分析させる。こちらの言葉は固定せず5秒程度と長さを固定することで、イントネーションと文脈から感情を読み取らせることを検討。
(本当は文脈関係なく声とイントネーションのみから感情を読み取らせたいところではある…)

【最後に】取り急ぎの作業は大量の人間から音声を集める作業と、ageを分析するAIの学習を進めること。