記事詳細 1件表示

「Yahoo!音声アシスト for Pepper」プロジェクトメンバー座談会

2016年4月13日 17:33

ロボット「Pepper」のためにYahoo!検索が開発し、2016年4月11日に公開された「Yahoo!音声アシスト for Pepper」。しかし、「なぜYahoo!検索がPepperのアプリを?」と思われる方も多いはず。

そこで今回は、「Yahoo!音声アシスト for Pepper」開発の経緯、ロボットである「Pepper」のアプリ開発で苦労した点などを、開発チームのメンバーに聞いてみました。

プロジェクトメンバー

写真左上から時計回りに三宅(音声認識エンジン『YJVOICE』Pepper版実装担当エンジニア)、菅原(Pepperクライアントアプリの実装担当エンジニア)、蔡(Pepperアプリのチュートリアル実装担当エンジニア)、鈴江(Pepperアプリ向け応答制御実装担当エンジニア)、市原(Pepperアプリのインタラクションおよび画面設計担当デザイナー)、藤井(音声アシストアプリ担当企画)、渡辺(Pepper向け応答テンプレートデザイン制作担当デザイナー)

座談会

「音声アシスト for Pepper」について

――まず、「音声アシスト for Pepper」を作った経緯について教えてください。

藤井 :「Yahoo!音声アシスト」はしゃべりかけると声で答えてくれるスマホアプリとして2012年4月にAndroid版を公開して、2014年からはiOS版も提供しています。そしてロボット端末って、話しかける対象としてはスマホ以上に相性がいいというか、自然ですよね。だからPepperが出てきたときに何かしら連携を考えるのは当然の流れでした。もともとの音声アシストで使っている音声認識や意図解析、応答生成の技術を流用すればバックエンドはさほど難なく実現できるよね、ということで、以前、音声アシストを担当していたエンジニアが元となるプロトタイプを作ってくれて。そのプロトタイプは音声認識が3秒以内だったりタブレット表示が見づらかったりと制限が多かったですが、ソフトバンクの担当者にお見せしたところとても評判がよく、社外イベントで展示したときはPepperの物珍しさもあって人だかりができるほどでした。そしてPepperが一般向け発売するのにあわせて公開しようということになり、このプロジェクトメンバーであらためて設計や実装にとりかかってアプリとして完成させました。

――ヤフーで提供しているPepperアプリはほかにもありますよね?

菅原 :はい、最初にヤフー内でPepperアプリを作るプロジェクトがスタートしたときに「Yahoo!天気」「Yahoo!きっず」「Yahoo!検索」の3サービスが選ばれました。各サービス領域でPepperアプリが検討・開発され、すでにそれら3アプリはPepperに公式アプリとしてプリインストール提供されています。その内、検索領域でのPepperアプリは、自分や市原さんが担当した「リアルタイム検索」です。ただそのアプリに実は検索する機能は入っていないんです。

市原 :そう、普通にPepperに「○○で検索」と言って検索できる機能を作ろうと思ったらまずそれができなかったので。リアルタイム検索は苦肉の策でした。だからそういう意味では、今回公開した「Yahoo!音声アシスト for Pepper」が本当にやりたかったPepper向けの検索アプリですね。

――なるほど。「Yahoo!音声アシスト for Pepper」ではもちろん「○○を検索」と言えば検索してくれるんですね?

鈴江 :はい、「富士山を検索して」と言えば富士山のウェブ検索結果を出しますし、「猫の写真を見せて」と言えば猫の画像検索結果を出します。ほかにもリアルタイム検索や知恵袋検索にも対応しています。検索以外にも、もともとスマホ向け音声アシストで対応しているように、ヤフーのさまざまなサービスを使った情報についてお答えできます。たとえば天気や地図、店舗情報、株価、ニューストピックスなどですね。

ヤフー製音声認識エンジン「YJVOICE」

――音声アシストでもともと使われているという「YJVOICE」ですが、ヤフーが音声認識エンジンを作っていることはあまり知られていなさそうですね。

三宅 :ヤフーでは2010年3月から「音声検索」アプリを提供していますがその当時は他社の音声認識を採用していて、その後2年かけて自社のエンジンを開発しました。ポータルサイトを提供しているヤフーには多くのユーザーが集まります。音声認識の精度をよくする方法の1つとして、たくさんのデータを集めて辞書みたいなものを作って精度を高めるというのがあるんですが、YJVOICEは多くの方に使っていただいている結果、実際に精度を改善できています。最近だとディープラーニングという技術を取り込み、他社に負けない精度を出せています。

――スマホ向けではすでに提供している機能でも、Pepperに移植するのは大変だったんですか?

三宅 :iOS/Android OSで動作している音声認識のクライアントプログラムを、Pepper上で動くようにPepperのOS、つまりLinuxに向けに作る必要がありました。開発環境のSDKやプログラム言語がまったく違うので、Pepper用ライブラリはほぼ作り直しだったんです。Linux は自由度が高いので低レイヤーから作れそうだと思って失敗したり、音声認識ライブラリ単体ではうまく動作してもPepperアプリと結合するとCPUとかの制限が多くてうまく動かなくなって設計し直したりと、試行錯誤が多かったです。

ロボット端末「Pepper」、スマホとの違い

菅原 :開発者から見た端末として、スマホとの違いで言うと、カメラやマイクが常に動いている、つまり画像認識、音声認識 が前提だというところが大きいですね。さらに距離センサーや頭や体のタッチセンサーもある。そしてPepperからの出力は、タブレット画面もあるけど、基本はPepperがしゃべること。だからユーザーとのインタラクションがだいぶ変わってきます。
市原 :私も前回リアルタイム検索アプリを作ったときに気付いたのが、スマホ使ってケガをするってあまりないけど、Pepperがもし下手に激しい動きをしたりした場合小さい子がケガをすることがあり得るんですね。だから両腕を上げる動作があったんですが、そのスピードは速く動かし過ぎていたのを調整しました。Pepperアプリの審査も、スマホアプリに比べて慎重で、安全性が重視されているようです。

苦労したこと

――みなさんが苦労されたことは?

渡辺 :スマホとかタブレットと違って離れた位置で操作するものなので、文字の大きさの感覚が最初つかめなくて、調整が難しかったです。あとはみなさんそうだと思いますが、やはり検証ですね。自分のデスクではできないので、Pepperをフリースペースなどに運んで確認しなくてはいけなくて。雑音で音声認識がうまくいかなかったりするし、時間がかかりました。
三宅 :音声認識ももちろんマイクがないと試せないので、同じように実機確認がいちばん面倒でしたね。あと、Pepper用のSDKではエラーログの情報量が少なくて、落ちた理由を探すのも大変でした。
菅原 :そうそう。長時間動作させると安定しないという問題があって。Pepper自体の問題もあるし、アプリの問題もあるしで......。
市原 :会社のフリースペースや会議室にPepperがいると、最初の内はみんなチラチラ見てたけれど、だんだん普段の風景になっていきましたね。

▼ある日の開発風景

ロボットとのインタラクション

藤井 :Pepperでの音声アシストアプリにどう接してもらうか、インタラクションデザインに関しては、想定以上に考えないといけないことが出てきて、すでにPepperの知見を持っている市原さんに入っていただいて本当によかったです。当初は、既存サービスの移植だし荒削りとはいえプロトタイプはできているから、そんなに使い方の組み立てを考える余地はないかなと思ってたんですが、作り込む内に「あ、スマホ以上に話しかけづらい」だとか課題が見えてきて。
市原 :Pepperを使うとなると、たいてい周囲に注目されながら使うことになるんで、あがるんですよね。プロトタイプではしゃべるタイミングが決め打ちで、「3、2、1」とカウントダウンされて、「はい、話して」となってて、自分で試してもすごいプレッシャーがあった。だからまずその時間制限やめよう、好きなタイミングで話せるようにしよう、ということで。ここもYJVOICEで頑張ってもらったところですね。あと、どういう質問をしたらいいのか分からない。しかも応答がうまく返ってこないと周りに注目されているから余計つらい。それでスマホ版の音声アシストで採用されていた画面上に「こんなふうに話しかけてみて」っていう質問サンプルを出す手法を採用しました。ああ、こういうことができるんだ、というのが分かって、ひとまずその質問をして慣れてもらうことができるようになったかと思います。

これからやりたいこと

――最後に、これからの展望や理想、妄想をお聞かせください。

渡辺 :いまPepperのタブレットにはブラウザーが搭載されていないので、実は肝心の検索結果の先に遷移できないんですよね。検索結果や動画一覧は出ても、その動画自体が見られなかったりして残念。検索させたあとに本当に求めている情報までたどり着けるようにはしたいです。
:音声アシストはほかのPepperアプリに比べてユーザーとやりとり、対話できることが特長かなと思います。ほかのアプリでは一方的にPepperがしゃべったり動くだけのものが多い。だから、自分の担当したチュートリアル部分もさらに対話的にしたいなと思っています。ユーザーの発話前提ではあるのだが、まだまだやりたい。
市原 :私は今回のアプリはまずはシンプルに移植したところまで、と捉えていて。今後は、Pepper独自のセンサーや、最近発表された感情マップなんかを使って、エージェントとの感情的なやりとりなんかもできるといいなと思います。音声エージェントとロボットはめちゃくちゃ相性がいいので、いい応答をしたらPepperが喜んではりきってくれるとか、感情をからめた応答をできるようになると、さらにロボットでやる意味が出るかなと。
菅原 :自分は、いま応答した結果に対してユーザーが喜んだかどうかカメラの画像認識を使って判定して、それを元に応答内容を改善するフィードバックのしくみを作りたいです。あとその人がよくする行動から答えを提案してあげる。「ご用件は何ですか?」って聞くだけじゃなく、朝いつも天気を聞く人に対しては、Pepperから「今日の天気は......」と話しかけられるようになるといいなと。
三宅 :菅原さんと同じ画像認識やパーソナライズという観点では、性別や年齢で応答の仕方を出し分ける、というのをやってみたいですね。あと、Pepperでの音声認識についてもう1つ挙げると、スマホの場合何を検索するか決めてから一人でしゃべるけど、Pepperの場合大人数でいるなかで誰かがしゃべるという状況が多い。そうすると背景会話を間違えて認識することも起こりがちなので、メインの人だけ認識するように改善したいと思っています。
藤井 :みなさんわりと夢が広がりますね。私はまず地道なところでいうと、応答できる範囲やバリエーションを増やしたり、もっと賢く答えられるようにという部分は、(スマホアプリ版の)音声アシストとして引き続きやっていきます。あと、いまはPepper上で動作する1アプリとして提供していますが、音声認識や意図判定、対話制御のしくみはPepper本体で利用いただけるものなので、その方向も模索したいですね。それこそがロボット向けのポータルサービスで、ヤフーが持っているたくさんのサービスを便利に使ってもらえると思うんです。

――ロボット自体がどんな進化を遂げていくのか、それによって私たちの生活がどう変わるのか、とても楽しみですね。今日はみなさん、ありがとうございました。

カテゴリー:スタッフブログ

当ブログについて

Yahoo!検索スタッフブログは、Yahoo!検索の新しいサービスのお知らせ、検索データの分析レポート、検索関連の読み物コンテンツ情報などをお届けしています。

ブログ内を検索

ページのトップへ

ブログトップ > 「Yahoo!音声アシスト for Pepper」プロジェクトメンバー座談会