音声認識は、ITの活用の姿を変えて、革新的な進歩をにもたらすだろう。
「PC、携帯、家電、ナビ、ロボットに、耳を付けませんか」
人間に対応させて、IT技術の利用状況を考えれば、
1.頭脳 ・・・・コンピュータ
2.手足 ・・・・自動車など交通機関、ロボット
3.口 ・・・・音声合成による発声
4.耳 ・・・・音声認識(言語理解は頭脳)
携帯は、音を信号のまま相手に伝えるが、人間は
音を耳で聞き分け、頭で言語認識・推論し、口にだして意思や記憶を伝える。
たとえば、現在ボイスナビというドライバー向けの道案内があるが、これは車載ナビ装置のテキスト情報を読み上げるサービスである。本当のボイスナビは、「ここ どこ」と発生すれば、「**市の○○駅のそばです」と答えなければ、耳と頭脳と口のある装置とは言えない。
先日、AmiVoiceの鈴木社長にお会いして、音声認識の面白さを教えられた。
応用例
- 英語をしゃべれば発音を5段評価し、正しい発声を教えるソフト
- 希望を伝えれば、そのように動くロボット
- 携帯で問い合わせをすれば、たちまち検索し希望のページを示す装置
- 携帯などでしゃべれば、text化して、カルテや業務日報をリアルタイムで作成するシステム
- リアルタイム議事録作成 翻訳 などなど
携帯などの音声系とWebなど情報系の統合が、始まろうとしている。キラーコンテンツは、どこにあるか??????。
注目の技術:AmiVoice DSR
DSR(Distributed Speech Recognition分散音声認識)は音響分析部だけを携帯電話等のモバイルデバイスに搭載し、メインの認識処理はサーバサイドに置くことで、高精度音声認識システムを実現するものです。
DSRでは、音声そのものではなく約1/30に圧縮された声の特徴データを送信することにより、8kbps程度であっても、ほぼリアルタイムで音声認識が行えます。音響分析処理はコンパクトなプログラムですので、20MIPS程度の端末で処理することが可能です。
サーバに音声認識データ(言語モデルおよび辞書)を持ちますのでメンテナンスが容易になります。また、非常に大きな辞書(5万語以上)、言語モデルを複数動作させるようなアプリケーションも実現できます。
パケット送信される際に、従来のような圧縮による劣化がなく、ノイズが混入する余地もないのが特徴です。
ソリューションのタイプでそれぞれ構成が異なりますね
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
1.AmiVoice For WEBタイプ
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
* WEB側:AmiVoice Web.用のソフトを設置
* PC側 :AmiVoice for Web(ダウンロード)+サウンドカード・マイクロフォン
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
2.コールセンタータイプ
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
* ・コールセンター側
* 『AmiVoice CallScriber』:対話のログ録音した通話をテキスト化・統計処理
* 『AmiVoice Assist』:キーワードを認識検索し、DBと連動してオペレーターに情報提供(FAQやCMS)
* 『AIR(AmiVoice Interactive Responder)』前処理?キーワードから検索し、回答に最も適したオペレータに自動的に接続
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
3.会議議事録作成
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
ユーザー側:マイクロフォン
中間 :amivoicerecorder
サーバー側:AmiVoiceRewriter
学習させることで、言語モデル・辞書を充実させる:音声を聞きながら辞書充実可能
不特定話者の音声認識に対応可能。また議事独特の隠語も専用の辞書に登録することで高い確率で変換します。データの収集に伴い、精度が向上するシステム
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
4.AmiVoice Mobile Verification:携帯電話による認証ASPサービス
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
約3秒程度のフレーズを携帯電話に1回発話するだけで声紋登録
決済者の確実な本人認証が可能。また、取引会話の履歴もデータとして保存される:不正取引防止策
ユーザー:携帯電話
中間 :音声認識サーバー+声門認証サーバー
プロバイダー:会員向けサーバー(認証結果を専用線で受け取る)
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
<関連サイト>
AmiVoice アドバンスドメディア社
http://www.advanced-media.co.jp/
全般 †
http://it.nikkei.co.jp/it/column/enouesai.cfm?i=20040304c1000c1
http://www.bzmanaler.jp/backnumber/20040305.html
↑
サービス・ソリューション †
http://itpro.nikkeibp.co.jp/free/WAT/NEWS/20040520/5/
http://pc.watch.impress.co.jp/docs/2005/0413/zmp.htm
http://www.advanced-media.co.jp/products/index.html
http://www5f.biglobe.ne.jp/~tagu57/page2.htm
http://www.japanhitech.co.jp/audiologfiles/AMIVoice%20NEWVoIP_Mercom.pdf
http://www.ehope.co.jp/info/whatnew.html
http://ascii24.com/news/i/hard/article/2001/09/04/629337-000.html
http://www.okweb.co.jp/news/press_log/press031014.html
http://www.cbook24.com/bm_detail.asp?sku=SOFT35034
http://www.sourcenext.com/products/hpdra/
http://www.caien.co.jp/20020220.html
http://www.dkkaraoke.co.jp/dknews/p001218.html
http://www.advanced-media.co.jp/products/0902.html
http://www.stage-21.net/Amireception.htm
http://www.mee.co.jp/kaisyaan/press/prs001016.htm
http://review.ascii24.com/k-tai/news/2001/12/21/print/632315.html
http://89226197.at.webry.info/200409/article_7.html
http://www.necinfrontia.co.jp/company/press/2002/020129.htm
http://www.oki.com/jp/Home/JIS/New/OKI-News/2004/11/z04090.html
http://www.tech.softbank.co.jp/release/2004/0901.html
http://www.softbankbb.co.jp/press/sbc/p010704.html
詳細
http://www.advanced-media.co.jp/event/news/040702.html
http://k-tai.impress.co.jp/cda/article/news_toppage/12880.html
http://www.holonsoft.co.jp/products/study/onsei/eikaiwa/
https://www8.medis.or.jp/member_product_detail.asp?product_id=41
http://www.venturenow.tv/venturenews/vn20040305-04d.html
http://www.ciojp.com/contents/?id=00000330;t=21
http://www.gii.co.jp/japanese/sd12331_its_software.html
http://japan.cnet.com/news/tech/story/0,2000047674,20082645,00.htm?tag=nl
↑