声優の肉声で実在感が増す。2次元キャラの接客システムに必要なポイントとは?「Google Homeでキャラとしゃべろう」第3回

2018/06/22

WRITER神田川雙陽

  • このエントリーをはてなブックマークに追加
声優の肉声で実在感が増す。2次元キャラの接客システムに必要なポイントとは?「Google Homeでキャラとしゃべろう」第3回

1カ月のご無沙汰です。

この企画のために製作した「テレエモーション」というシステムを通じ、テクノロジーとコミュニケーションの現在を、いろんな角度から見ていこうというこの連載。
第3回となる今回は「テレエモーション」を常設させていただいている原宿のショップ・PARKの移転と、新店舗用のアップデートについてのレポートをお送りします。
いよいよ本格的に稼働したシステムが今後どこに向かってゆくのか、少しづつ像を結び始めた未来のビジョンについてご案内していきましょう。

声優の肉声で実在感が増す。2次元キャラの接客システムに必要なポイントとは?-画像-01

声優の肉声で実在感が増す。2次元キャラの接客システムに必要なポイントとは?-画像-02

“位置と配置”がつくる物語=コミュニケーション

ゴールデンウィーク初日の2018年4月28日、世界初(?)の2次元キャラクターによるインタラクティブ接客システム「テレエモーション」設置店舗であるPARKが、竹下通り近くの旧店舗から裏原宿のいちばん奥へと移転オープンしました。
ここは以前にもPARKの店舗があったビルでもあるので「新店舗」というよりは原点回帰に近いですが、アニメ「URAHARA」の舞台でもあるPARKがウラハラに戻ってきたことでよりカルチャーとの結びつきの強まりを感じる、とてもいい店舗です。

ロボットにせよ、キャラクターのアバターをまとったものにせよ、「テクノロジーとコミュニケーション」的な存在は本来「その場所にしかない何か」のある空間でこそ効果を発揮するものだと思います。しかし多くの研究や製品ではまだまだ「場所性」を強く伴ったところに入っていけていないのが実情であり、「社会実装」と呼ばれるこれからの課題です。

そんな状況の中、キャラクターと店舗と街とが、すべて有機的に繋がっている場所で、その文脈の上にシステムを据えることができているこの環境は理想的と言えるのではないかと。
(実際、コミュニケーション・ロボットの研究者たちからはこの連載の試みを羨ましがられることも多いです。やった!)

その新店舗のドアをくぐれば、一面のスクリーンと専用の超単焦点プロジェクター、そしてGoogle Homeを伴って私達の「テレエモーション」がお客さんを迎え入れます。

新店舗のドアをくぐれば、一面のスクリーンと専用の超単焦点プロジェクター、そしてGoogle Homeを伴って私達の「テレエモーション」がお客さんを迎え入れます。

りとの接客システムは自撮りスポットとしても人気がある(画像はPARK店員のほのぴさん)
りとの接客システムは自撮りスポットとしても人気がある(画像はPARK店員のほのぴさん)

旧店舗では店舗の柱に床置きのプロジェクターという仮設の構成で、Google Homeも半端な位置での設置でしたが、今回は店舗の設計段階からシステムの導入を前提に考えてもらえたため、すべてが理想的な配置となっています。
「テレエモーション」にとってGoogle Homeは「キャラクターの耳であり、口」ですから、当然その配置は表示されている像と近いほど違和感なく人間に受け容れられます。
この辺は実空間のロボットにせよVR空間のアバターにせよ共通した特性で、単にオーディオ的に気持ちのいい配置にすればいいわけではないところが難しく、また面白いところで、その絶妙な困難さも、音響家でもある私には興味がそそられるところだったりします。

等身大キャラ+声優さんの声+リップシンク=「そこにいる」感

さて、勿体ぶりましたが新店舗での「りと」の接客の様子を御覧いただきましょう。
お店の入り口をちらりと覗いたときに、等身大の「りと」とふっと目が合うときめきの強度はなかなかすごいものがありますよ。
(被写体はたまたまPARKさんに遊びに来ていた、中野ブロードウェイのCHAOS MARKETのさとしさんです。感謝!)

「PARKについて教えて?」と呼びかけたときのりとの反応

「URAHARAってアニメ知ってる?」と話しかけてくる、りと

「(たなか)麦ちゃんのグッズ買いに来たんだ」と話しかけたとき

いかがでしたでしょうか?

第1回の動画と比較していただければ、あらゆる面で進化が感じられるのではないかと思います。
新店舗の設計による等身大投影や対面配置といった環境面、声優さんによる多彩なセリフや、「りと」のモーション追加といったソフト面、そして表示系や音声再生まわり、特に前回触れたリップシンクなどシステム面。2カ月分のあらゆる開発がうまく「そこにいる」感じに表れているなとちょっと自画自賛なのですが、どうでしょう。

実際、新店舗オープンの前日に行われたレセプションでも多くの方に興味を持っていただけたり、オープン初日にも通りがかりのお客さんに目に留めていただけたりとなかなか好評なことは、普段データという形でしかフィードバックを受けられない研究者としては新鮮ですね。

ラズベリーパイ上で動くシステムでの音声認識の様子 Google Home用のAPI(左)のほうが高精度に認識できている
ラズベリーパイ上で動くシステムでの音声認識の様子 Google Home用のAPI(左)のほうが高精度に認識できている

肉声のチカラと難しさ

中でも多く感想をいただくのは、やはり声優さんの肉声によるセリフのもつプレゼンスの大きさでしょう。
さすがはシグマセブン所属の新人声優さんだなとプロの力を感じるとともに、システム的なこだわりがうまく機能していることが確かめられた喜びがあるなぁと。

コミュニケーション・システムでは音声の取り扱いひとつでひとを没入させたり白けさせたりが簡単に変わってきます。
それほど発声の方法が大きな問題になってくるわけです。

システム開発者の選択肢は代表的なところだと、

1.合成音声(TTS):VOICEROIDやAquesTalkといったソフトウェアを使って文章を読み上げさせる。実況系動画でよく見かける方式
2.リアルタイム発話:「中の人」がその場で声を発する。遠隔対話実験やVtuberでよく見かける方式
3.収録音声:声優さんの音声をスタジオ収録しプレイバックする。「テレエモーション」はこの方式
4.合成モデル作成:「1」の合成音声のモデルを特注して任意の声の合成音声を可能にする。とても高価

などがあります。

第1回でも触れましたが、「テレエモーション」では「3」の収録方式で対話を実現しています。
なかなか個人では実現しにくい方法ですが、その分圧倒的な魅力のある音声を使うことのできるのがメリットです。
デメリットは……システムの規模や柔軟性を考えたとき、追加で音声を手に入れるのが非常に難しいことでしょうか。

セリフ
ID
セリフの
種類
セリフの内容
3 応答 いいよー。
17 応答 ほんと?よかった~
69 応答 そうなんだ!
108 褒める おー、いいもの見つけるね。
318 接客 わたしここから出られないからねー…。
320 接客 商品取ってあげられなくてごめんよぉ…。
366 接客 いらっしゃいませ~
369 挨拶 はじめまして!
371 挨拶 どもども!
378 接客 お客さん来てくれると嬉しいんだ。話し相手になってもらえるし!
379 接客 …え、ダメ…?
383 問いかけ 今日はたまたま?ふらっと?それともここのために?
384 問いかけ なんにせよ来てくれて嬉しいな
386 問いかけ 原宿に遊びに来たの?
392 問いかけ お買い物?それともイベントとかのついで?
393 問いかけ わざわざ来てくれたの!すごい!
394 問いかけ え、どうやってここのこと知ったの?
398 接客 そうなんだ!作家さん目当てで来てくれるの、嬉しいなぁ。
399 接客 他にもいろんなクリエイターさんの商品があるから、ぜひ見ていってね!
449 接客 ワイワイ友達と来てくれるのも嬉しいけど、一人で来てゆっくり見てくれるお客さんも嬉しいな。
468 自己紹介 わたしは須藤りと。
469 自己紹介 このPARKってお店で働いてるんだー。
470 自己紹介 もともとは普通のバイト店員だったけど、なんかすごいテクノロジーで…
471 自己紹介 バーチャルエージェント…
472 自己紹介 とかいうのになった。
477 自己紹介 …あれ?人間なのにエーアイって、なんかおかしくない?おかしく、ない??
478 自己紹介 まあ細かいことはどうでもいいか。はたらくぞ~
502 接客 ここにいるからね。なにかあったら呼んでね!
503 接客 商品でわからないこととかあったら、気軽に聞いてね!
524 原宿 竹下通り混んでた?…いつも混んでるよね。
573 接客 ちょっとまってね、いま店員さん呼んでくる。
574 接客 店員さーん!店員さーーーん!!
576 接客 お買上げ?ありがとう!
577 接客 気に入った商品はあった?うれしいなぁ。ありがとう!
580 感謝 ありがとうございましたー。
582 見送り ばいばーい。
595 接客 またきてねー。
602 接客 そろそろ閉店の時間だよ。
607 接客 おわり!
608 接客 そろそろおわりにしちゃおっかな。
857 鳴き声 にゃー。
1011 時間 そろそろ時間かな?
1118 応答 え?ええっとー…
1327 紹介 たなか麦さんの同人誌はPARKにも置いてあるからみてみてね!
1328 紹介 PARKにはコミケでナンパされてイラスト描くようになったんだって!…え、ナンパじゃない?スカウト?…それそれ、スカウトされたんだって!
1329 紹介 PARKが作ってる「CO;RYU」って情報誌の表紙もたなか麦さんなんだよー。そこに置いてあるからよかったら手にとってみてね!
1330 紹介 わたしたちが主役だったTVアニメの「URAHARA」もキャラクター原案で参加してるんだ。
1331 紹介 わたしたちが原宿を舞台にぐりぐり動き回ったの!
1332 紹介 よかったら聖地巡礼もしていってね!
1333 紹介 あとね、「CO;RYU」が今度スピンオフアニメになるんだ…!ここだけの話だよ?
1334 紹介 「CO;RYU」のアニメのキャラクター原案もたなか麦さんが描いてくれるんだ―。どんな子達が出てくるのかたのしみ!

動画中で使用していない収録済みの音声のリスト(抜粋)

コミュニケーションが必要とするたくさんの「声」

「テレエモーション」では「とにかく多くのセリフを収録する」と「どんなシチュエーションにも対応するセリフの集合を定義する」という2点のアプローチで拡張可能なシステムを目指しています。
何万字ものセリフすべてをここに掲載することはできませんが、リストに記されたセリフのIDを見れば膨大な総数であることがわかるのではないでしょうか。
合成音声方式でない接客システムの録音セリフ数としてはかなり多い部類ですが、これでもまだまだ足りないくらい、 人間のコミュニケーションには多くの「声」が必要なのです。

ディープラーニングを中心とした最近のAI技術の進歩で、われわれは魅力的な音声を比較的簡単に手に入れられるようになってきました。
けれど、まだ合成音声はアニメの声優さんに取って代わる兆しすら見せていないですし、むしろ人間の「声」のチカラは日々増しているような感じすらします。
昨年、Google Homeが爆発的にヒットした背景には「音声でコミュニケーションしたい」欲があったのだと、私は思っていますし、それが2次元のキャラクターだったらなお素敵だな、という初期衝動で始めたこの連載とシステムは着々と育っています。

さて次はどこに向かいましょうか?
そろそろ「りと」だけにお店番をさせるのも心苦しく思えてきました。なにかいい方法はないでしょうかね。
この記事が公開されるころには2回目の声優さんの収録が終わっているはずなので、次回はまたこれまでとは違ったアプローチでのシステムの可能性についてもリポートできるのではないかなと。

……と次回への期待感をいたずらに煽りつつ、今回はお時間です。
ワーク・イン・プログレスな「テレエモーション」の開発の旅が、新しい場所を得てさらに進んだことをご報告できたかなと。
次回は新店舗用にアップデートされたシステムの技術的な詳細に迫りつつ、新展開についてもお目にかけられればなと考えています。
それでは今回はここまで。


この企画で利用しているラズベリーパイはRSコンポーネンツで購入できます。

ラズベリーパイ購入はこちら

  • 神田川 雙陽さん
  • WRITER

    神田川 雙陽[Kamdagawa Souyou/カンダガワ ソウヨウ]

    劇作家・舞台音響家。「劇団粋雅堂」主宰。現在は某大学特任研究員として、人型ロボットと、それを用いた舞台表現の研究・システム開発に従事。開発に携わった『アンドロイド・オルタ』が第20回文化庁メディア芸術祭にて優秀賞を受賞。
    研究・演劇活動の傍ら、「ユリイカ」誌、「Quick Japan」誌等に執筆。情報工学と芸術・メディア論を接続する批評を展開している。
    「月刊水中ニーソR」誌上で小説『水中ニーソドライバー』連載中。
    https://blog.goo.ne.jp/theblueflow

関連記事


この記事はいかがでしたか?
よろしければアンケートにご協力ください。

TOPに戻る

  • LINEで送る
  • はてなブックマークに追加
  • +1する
  • POCKET
  • facebook
  • ツイートする