イベントレポート: GPT-4 Vision による革新的な画像とテキスト解析の勉強会

この記事を書いた人

北爪聖也

株式会社pipon代表取締役。キャリアはADK(広告代理店)でテレビ広告運用をして残業120時間するが、ネット広告では自分の業務がAIで自動化されていることに驚愕する。そこで、機械学習受託会社に転職し、技術力を身につけた後、piponを創業。現在、製薬業界、大手監査法人、EC業界、様々な業界でAI受託開発事業を運営。

X Facebook YouTube

はじめに

先日開催された本勉強会は、AI技術の最前線に位置するGPT-4 Visionの機能とその活用例に焦点を当てました。
　今回特に着目したのは文章と画像とのやりとりができることになります。

GPT-4 Visionの核心的な特徴

GPT-4Vにはさまざまな特徴がございます。項目を４つに絞り、紹介していきます。

1. 画像とテキストの同時解析
- GPTで検索をかける時に、テキストに加え、画像も使って質問を投げることができます。これにより、文脈を持った詳細な分析が可能となります。
  ※ただし、「Chat-GPTプラス」に加入かつ、以下の画像のように、写真を投稿する欄がある方のみ使用できます。

2. 多言語と多文化の理解 ：
- こちらも画像を使って「入力/出力」が可能です。手書き文字に近い崩れたフォントについても正しく理解し、多言語に対応しております。これはグローバルな使用を意識したモデルの証左とも言えるでしょう。
3. 状況認識 :
- 常識に基づいて推論を行うことができます。
  - 例えば、ある画像で着用している服装から結婚式であるかどうか、部屋のレイアウトから気候や家主の特性を判断する際にもその能力が発揮されます。
4. 感情の理解 :
- 人間の感情を持つ画像の解釈にも対応しています。

GPT-4 Visionの具体的な活用例

画像とビデオの説明 :
- ⇨複雑なシーンでもその状況や背景を正確に文章で説明ができます。
  「この画像は何をしていますか」などの問いかけに対応しています。
物体の位置の特定 :
- 詳細な物体の位置や種類を識別。
  スプレッドシートを例として、セルの位置を特定し、座標で返してくれる。精度が高めだと感じている。（※以下に補足があります。）
文章や記号に基づいた推論 :
- 例：画像中のテスト問題の解釈など。
  実際にテストを読み込ませ、解いてもらい、推論することも可能。
生成AIの出力の改善 :
- 画像解析をもとにした新しい画像の生成。
  「画像⇨説明⇨さらに画像を生成」といった無限ループようなやりとりも可能。（※こちらも以下に捕捉があります。）