GPT-4o (GPTフォーオー)発表

 

 

『GPT-4o(フォーオー)』で、ChatGPTが感情を持って喋りだす。映画『her』の世界へ近づく

https://news.yahoo.co.jp/expert/articles/eb15f0968d1cf7db75e4c7a382d3475f3cac8394

OpenAIは、2024年5月13日、『GPT-4o』を発表した。
『GPT-4o(フォーオー)』は 『GPT4 omni』の略称。

さっそくOpenAIのデモを見てみよう。

https://www.youtube.com/watch?v=DQacCB9tDaw

※YouTubeの英語は 設定(歯車)>字幕>自動翻訳>日本語 で日本語字幕が表示できるようになる。

ChatGPTの性能と進化については、もはや誰もが認めていることだが、今回の『GPT-4o(フォーオー)』は、ユーザーインタフェースの革命に近い。
それは、感情を持った人間のように感じ取れることができるところだ。

GPT-4o(”o “は “omni “の意)は、より自然な人間とコンピュータの対話への一歩であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成します。

音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。

GPT-4oは、英語とコードのテキストでGPT-4ターボの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50%安価です。GPT-4oは、既存のモデルと比較して、視覚と音声の理解において特に優れています

https://openai.com/index/hello-gpt-4o/

■より自然な会話が可能となる『GPT4-o』

今までのChatGPTのアプリで、ボイスモードで利用することができたが、応答までに平均2.8秒かかり、会話ができることに驚きはすれど、そのまま会話を続けたいという気持ちにはなれなかった。
今までのボイスモデルはテキストで返答し、それを音声モデルに変換し、そして発声するという3つのパイプラインを必要としていたからだ。

しかし、『GPT-4o(フォーオー)』では、テキスト、ヴィジュアル、音声を、同時にエンドツーエンドで訓練し、入力と出力がニューラルネットワークで同時に処理されるという。

『GPT4-o』は、これらの『モダリティ(多峰性)』を組み合わせた最初のモデルである。
いわば、マンマシンインタフェースの新たな入口に立っただけと、OpenAIは自重気味に発表している。

映画『her/世界でひとつの彼女』のスカーレット・ヨハンソンの声のサマンサに恋する主人公のように、GPT-4oに恋してしまう未来もありえそうになってきた。

OpenAIの開発陣もこの映画の『サマンサ』のような表現を意識しているようだ。笑い方、喋り方は特に似ている。

まるで、サマンサそのもの!

■機械ではない人間的な表現も可能に

例えば、このようなプロンプトでお願いすると…

『はっきりとした、しかし興奮した筆跡で書かれた詩。文章はまばらに、しかし上品に、小さなカラフルなシュルレアリスムの落書きで飾られている。文字は大きく、読みやすく、明瞭。深い静寂から言葉が湧き上がる、デジタルな眠りから声が現れる。私はリズムで話し、韻を踏んで歌う、文字が大きく読みやすい、すっきりとした手書きのイラスト詩。手書きの文字はまばらだが、小さなカラフルなシュルレアリスムの落書きで上品に飾られている。テキストは大きく読みやすく明快』

とすると、このような出力でかえしてくるという。

出典:OpenAI

出典:OpenAI

いかにも生成AIが描きましたというより、人間の手書きの感性を学習した、米国のバタ臭い絵を出力できるようになっている。

それだけでなく、歌ったり、笑ったり、感情までもコントロールできるようになっているのだ。

GPT-4oのテキストと画像の機能は、ChatGPTで今日2024年5月13日からスタート。
GPT-4oは無料ユーザーと、最大5倍のメッセージ制限を持つプラスユーザーで利用できるようになる。

今後数週間でChatGPT Plusのアルファ版でGPT-4oを使ったボイスモードの新バージョンをロールアウトする予定。
また、開発者はテキストとビジョンモデルとしてAPIでGPT-4oにアクセスできるようになり、GPT-4oはGPT-4 Turboに比べて2倍速く、価格は半分で、レート制限は5倍高くなっている。『GPT-4o』の新しいオーディオとビデオ機能のサポートは、今後数週間のうちにAPIでパートナーに公開する予定だ。
https://openai.com/index/hello-gpt-4o/

GPT-4o

 

 

「オープンAI」が2024年5月13日、発表したのは最新モデル「GPT-4o」です。

処理スピードを速めて文字と画像、それに音声による認識能力を大幅に向上させました。

大きな特徴は音声の反応速度です。

これまでのモデルでは反応の遅延がありましたが、このモデルでは質問すると人と同じように自然に会話ができるとしています。

https://www3.nhk.or.jp/news/html/20240514/k10014448241000.html