米国のOpenAIは、ChatGPTに新しい音声と画像の機能を導入し、ユーザーがAIアシスタントに音声で会話したり、画像を表示したりできるようにしています。この機能により、ランドマークの議論や食べ物の特定、数学の問題の解決など、より直感的な方法でChatGPTと対話することができます。音声機能はiOSとAndroidで利用可能であり、画像機能はすべてのプラットフォームで利用可能です。OpenAIはプロの声優と協力し、テキスト読み上げモデルと音声認識システムを使用してこれらの機能を実現しています。段階的な展開を通じて、ツールの改善と安全性の確保を目指しています。
OpenAIは、音声とビジョンに関する高度なモデルのリスク軽減を改善し、洗練させる取り組みを行っています。彼らは音声技術を音声チャットに使用し、Spotifyなど他の企業と音声翻訳について協力しています。彼らはビジョンベースのモデルをレッドチームとアルファテスターと共にテストし、リスクに対処しています。彼らはビジョン機能の責任ある使用を確保するための努力をしており、ユーザーからのフィードバックを考慮し、モデルが人々について直接的な声明を分析や行う能力を制限しています。OpenAIはモデルの制限について透明性を持ち、特定の目的には使用しないことを助言しています。音声と画像の機能は近い将来、異なるユーザーグループに展開される予定です。
参照元:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
以下は画像を使ったGPT-4Vを解説しています。ご覧ください!