OpenAIがChatGPT向けにAdvanced Voice Modeーー高度な音声モードの提供を開始した。

現在、ChatGPTには2つの音声入力機能が搭載されている。1つはキーボードの代わりに音声で文字入力する機能、もう1つがAIと会話するように生成AIを利用できる音声モードだ。

高度な音声モードは、文字どおり後者の音声モードを高度化させたもので、より自然なリアルタイムの会話が可能になるほか、利用者の感情も踏まえてAIが回答する。

従来の音声モードは質がかなり悪い。

キーボード代わりになる音声入力が、こちらの話していることをまともに理解するのに対して、音声モードはまったく理解できず話が通じない。

英語は知らないが、今すぐChatGPTから外すべきと感じるほど日本語はめちゃくちゃで、ChatGPT全体の品質を大きく下げるほどのクオリティの悪さだ。多くの人があまりの品質の低さに一瞬で使うのをやめてしまったのではないだろうか。

そういった意味でも高度な音声モードに期待がかかる。

ただ、OpenAIが今年5月に披露したデモに対して、Skyという音声が映画『her/世界でひとつの彼女』のスカーレット・ヨハンソンに酷似しているとして批判された。

AIに話をさせるにあたって音声データをAIに学習させる必要があるが、ヨハンソンに許可を得ることなく学習させたのであれば無断使用に当たる。

音声を確認したヨハンソン本人もSkyの音声が自分に似ていると感じ、不快感を覚えてOpenAIに対して音声がどのように開発されたのか説明を求めた。

OpenAIは意図的に有名人の声を模倣すべきではないとの考えを示すと共に、ヨハンソンの声を模倣したことを否定。Skyが別の声優によるものと説明しつつも、ヨハンソンに似ている件について謝罪し、同時に混乱を避けるためにSkyの使用を一時停止している。

そして今回、高度な音声モードを提供するにあたって声優と協力して開発した4つのプリセットボイスのみを使用し、異なる音声の出力をブロックするシステムを構築した説明する。OpenAIはヨハンソンとの件について一切触れていないが、強い関連性があることは間違いない。

このほかにも、より安全で誰もが高度な音声モードを楽しめるために、GPT-4oの音声機能を対象に45言語で100人以上の外部チームが攻撃者視点でシミュレーション攻撃を行うテストを行い、暴力的なコンテンツや著作権で保護されたコンテンツへのリクエストをブロックするガードレール機能を実装したと説明する。

なお、高度な音声モードはChatGPT Plusの加入者の一部に提供されている。順番待ちしているユーザーが高度な音声モードを利用できる状態になると手順が書かれたメールが届く。利用者は随時拡大する予定で、秋にはすべてのChatGPT Plusユーザーが利用可能になる予定だ。


スマホとAIをもっと見る

購読すると最新の投稿がメールで送信されます。

コメントを残す