マルチモーダルAIとは？テキスト・画像・音声・動画を扱うAIの基本

先に要点

マルチモーダルAI は、テキストだけでなく、画像、音声、動画、文書など複数の形式を入力(一部は出力)として扱える AI のことです。
「何でも同じ精度で読めるAI」ではありません。画像入力はできても音声は別モデル、動画は扱えても出力はテキストだけ といった違いがあり、対応範囲の中身を必ず確認します。
料金は「画像1枚 = 数千トークン」「音声1分 = 数百〜数千トークン」という換算で乗ってきます。複数枚画像 + 長文プロンプト で想定の何倍にも跳ねるため、入力前のトークン見積もりが効きます。
細かい罫線の表や帳票では、専用 OCR の方が崩れにくい場面があります。得意/不得意を分けて、用途を絞って使うのが実務の基本です。

最近の AI を見ていると、「画像も読める」「音声でも会話できる」「動画も理解する」という説明がかなり増えました。その流れで「マルチモーダルAI」という言葉もよく出てきます。

ただ、この言葉は便利なぶん、かなり雑に使われがちです。「画像も音声も動画も全部まとめて完璧に分かるAI」のように受け取ると、実際の機能差・料金・精度のクセとズレやすくなります。

この記事では、OpenAI、Google、Anthropic の公式ドキュメントで確認したトークン換算をもとに、マルチモーダルAIの基本を整理します。用語の意味だけでなく、何ができるのか、どこで誤解しやすいのか、料金がどこで跳ねるのか、入力前にどう見積もるのか まで、実務に落とせる形でまとめます。

マルチモーダルAIとは何か

「modal(モーダル)」は、情報の種類や形式のことです。テキスト、画像、音声、動画、PDF、図表など、それぞれ情報の入り方が違います。

マルチモーダルAIは、それら複数の形式を入力として扱ったり、場合によっては複数形式で出力したりできる AI を指します。ざっくり言えば次の違いです。

テキスト専用AI

文章を読んで文章を返す。チャット、要約、分類、コード生成など。入力も出力も「文字」だけで完結します。

マルチモーダルAI

文章だけでなく、画像・音声・動画・PDF なども材料にして答える。「スクショを見て原因を説明」「録音を文字起こしして要約」のように、入力の幅が広がります。

重要なのは、入力が増えるぶん 内部では必ず変換が走っている という点です。AI は画像や音声を「人間の目や耳」で見ているわけではなく、いったんトークンという数値の単位に変換してから処理します。この変換のされ方が、後で述べる料金と精度のクセに直結します。

何ができるのか

1. 画像を見て説明する

これは一番イメージしやすい使い方です。スクリーンショット、写真、図表、UI 画面、手書きメモなどを見せて、何が写っているか、どこに問題がありそうか、何が読み取れるかを説明させます。

OpenAI の GPT-4o 系モデルは text and image inputs を受け取り text outputs を返すと案内されています。Claude も vision ドキュメントで画像の理解・分析ができると説明されています。エラー画面のスクショを貼って「この例外の原因は?」と聞く、といった使い方が現場では一番多いです。

2. 音声を文字や要約に変える

音声入力を受けて、文字起こし、会議要約、話者の意図整理などができます。Google の Gemini API には音声を前提とした機能があり、講義、会議、インタビューの整理に使われます。

3. 動画の内容を把握する

動画対応の AI では「何が起きているか」「手順の流れ」「場面の切り替わり」を整理できます。ただし、動画を「そのまま全部理解する」と考えるより、フレーム画像・音声・字幕を組み合わせて処理していると見た方が、料金も精度も予測しやすくなります。

4. 複数形式をまとめて読む

資料PDF・グラフ画像・会議音声・補足メモをまとめて渡し、全体を整理する使い方です。人間が複数資料を横断する作業を、ある程度まとめて補助できるのがマルチモーダルらしい強みです。ただし、ここが最も料金の跳ねやすい領域でもあります(次章)。

料金はどこで跳ねるのか:具体ケース

「マルチモーダルは便利」で止めず、実務では 入力がトークンに換算される瞬間 を意識する必要があります。各社の公式な換算の目安は次のとおりです。

プロバイダー	画像のトークン換算(目安)	音声・動画の換算(目安)
OpenAI(GPT-4o系 high)	基本85トークン + 512×512タイルごとに170トークン。画像は2048px四方に収め、短辺768pxへ縮小してからタイル分割	音声は別系統の単価。詳細は最新の料金ページで確認
Anthropic(Claude)	おおよそ「幅px × 高さpx ÷ 750」トークン。長辺は上限でリサイズされる	主に画像・PDFが中心。動画は短いクリップ程度
Google(Gemini)	両辺384px以下なら258トークン。大きい画像は768×768のタイルに分割し各258トークン	音声は約32トークン/秒、動画は約263トークン/秒の固定レート

この換算を頭に入れると、「なぜ思ったより高いのか」が説明できるようになります。代表的な失敗ケースを現象→原因→確認手順→回避の形で挙げます。

ケースA:複数枚画像 + 長文プロンプトで料金が跳ねる

現象:UI レビューで「画面キャプチャ10枚 + 仕様書テキスト」を1リクエストに詰めたら、テキストだけのときの何倍もの入力トークンになり、月のコストが想定を大きく超えた。
原因:高解像度のスクショ(例:Retina の 2560×1440 など)は1枚で数千トークンに換算される。Claude 換算なら 2560×1440 ÷ 750 ≒ 約4,900トークン/枚で、10枚だけで約49,000トークン。さらに長文の仕様書プロンプトが上乗せされる。Gemini なら大画像は 768×768 タイルに分割され、タイル数 × 258 で積み上がる。「画像は1枚=1トークン」のような感覚でいると、桁を読み違える。
確認手順:送る前に各画像の実ピクセル数を確認する(下のステップ参照)。送信後はレスポンスの usage / token_count に出る入力トークンの内訳を見て、画像とテキストの比率を把握する。
回避:画像を縮小してから渡す(OCR 目的なら短辺768px前後で多くは足りる)。10枚を1回に詰めず2〜3枚ずつに分割する。会話の履歴に画像を残し続けると毎ターン再課金されるため、判定が終わった画像は履歴から落とす。

ケースB:細かい表でOCRに負ける

現象:罫線が細かい帳票やExcelの縮小印刷をマルチモーダルAIに読ませたら、隣のセルの数値を取り違える、桁がずれる、空セルを詰めて読むなどの誤りが出た。
原因:画像はリサイズ・タイル分割されるため、細い罫線や小さな文字が潰れる。AI は「文字を1つずつ確実に拾う」より「全体を意味として推定する」方向に強いので、整然としたグリッドの厳密な転記は不得意になりやすい。専用 OCR(レイアウト解析つき)の方が、セル境界と座標を保ったまま抽出できる場面がある。
確認手順:同じ表を(1)マルチモーダルAIにそのまま、(2)専用OCRでテキスト化してからAIに渡す、の2通りで処理し、合計値や行数が原本と一致するか突き合わせる。
回避:数値の正確性が要る帳票は「OCRで構造化 → AIで意味づけ・要約」の二段構えにする。AIに直接読ませる場合も、抽出結果を JSON など構造化形式で受け取り、合計や件数の検算を別途かける。

入力前のトークン見積もり手順

「送ってみて請求で気づく」を避けるため、送信前に概算を出す流れを1つずつ示します。Claude の「幅×高さ÷750」を例にしますが、考え方は各社共通です。

読み込み中...

実装で見積もりを自動化したい場合は、送信前に各社のトークンカウント機能を使うのが確実です。Gemini なら countTokens、OpenAI/Anthropic はレスポンスの usage に入力・出力の内訳が返ります。CI やバッチに「見積もりが閾値を超えたら警告」を仕込んでおくと、画像枚数の増加によるコスト膨張に早く気づけます。

ただし、何でも同じようにできるわけではない

「マルチモーダルAI」と書いてあっても、実際の能力はモデルごとにかなり違います。

違い	実際に起きること
入力だけ対応	画像は読めるが、出力はテキストだけ。画像生成は別モデル・別API
モデルごとの差	画像は強いが、音声や動画は別モデルが必要なことがある
料金差	テキストと画像で単価も計算方法も違う。動画は秒数で積み上がる
精度差	写真は得意でも、細かい表や長時間動画では崩れやすい

つまり「マルチモーダル対応」は便利なラベルですが、対応範囲の中身 は必ず見た方がよいです。

よくある誤解

1. 1つのAIが全部の形式を完璧に扱えると思う

現実には、画像は得意でも動画は弱い、音声入力はできても出力は音声ではない、ということがあります。同じ会社でも用途ごとにモデルや API が分かれていることも多いです。

2. 人間のようにそのまま見て理解していると思う

AI はすごく自然に答えるので、人間と同じように画像や動画を見ている感覚になります。でも実際には、解像度制約、トークン化、フレーム化、文字抽出など、いろいろな処理を挟んでいます。そのため、小さい文字、細かいUI差分、長い動画の流れ、雑音混じりの音声では精度が落ちやすいです。

3. マルチモーダルなら最新で万能だと思う

マルチモーダルは強いですが、万能ではありません。シンプルな分類や短文要約だけなら、テキスト専用寄りの軽量モデルの方が速くて安いこともあります。前章のとおり、画像を毎回詰め込むと料金面でも不利になります。

実務ではどう使われるか

画像・画面レビュー

UIスクショの説明、デザイン差分の確認、エラー画面の状況把握。枚数を絞り、終わった画像は履歴から落とすのがコツ。

文書・資料整理

PDFの要点整理、図表入り資料の要約。細かい表はOCRで構造化してから渡すと崩れにくい。

音声・会議整理

議事録化、音声メモの要約、講義やインタビューの整理。秒数×レートで課金される点を見積もりに入れる。

動画理解

手順動画の流れ整理、教材動画の要約、デモ動画の内容抽出。長尺は秒数課金が積み上がるため短く区切る。

どの会社のモデルでも見るべきこと

マルチモーダルAIを選ぶときは、次の4点を分けて見ると分かりやすいです。

何を入力できるか … テキスト/画像/音声/動画/PDF のどれに対応するか
何を出力できるか … テキストだけか、音声・画像・動画も生成できるか
料金はどう計算されるか … 画像トークン、音声・動画の秒数レート、ストレージやツール料金
どこで精度が落ちやすいか … 小さい文字、低画質画像、長時間動画、雑音音声、表や図の細かい差

特に3と4は前章で見たとおり連動します。料金を抑えようと画像を縮小しすぎると、今度は細かい文字の精度が落ちる、というトレードオフがあるためです。

初心者が最初に試すなら

最初から「動画 + 音声 + 資料 + 検索」を全部盛りにするより、単機能で試した方が理解しやすいです。

スクリーンショットを見せて説明させる
PDF を渡して要点を整理させる
音声を文字起こしして要約させる
画像とテキストを一緒に渡して判断させる

このとき、レスポンスの入力トークン内訳も毎回見ておくと、「何が得意で、何が雑になり、何が高いか」を同時につかめます。

マルチモーダルAIに関するよくある質問

Q. どの AI がマルチモーダル対応していますか?

A. OpenAI の GPT 系(画像入力に対応)、Anthropic の Claude(画像・PDF)、Google の Gemini(画像・音声・動画・PDF が最も幅広い)などです。Gemini は当初から動画・音声を含めて設計されている点が特徴です。具体的な対応形式は改定が多いため、各社のモデルページで最新を確認してください。

Q. 画像認識は OCR と比べて精度はどうですか?

A. 手書き、レイアウト理解、図解の意味抽出はマルチモーダルAIが得意です。一方、罫線が細かい帳票や数値の厳密な転記は、レイアウト解析つきの専用OCRの方が崩れにくい場面があります。数値の正確性が要るなら「OCRで構造化 → AIで意味づけ」の二段構えが安全です。

Q. 複数枚の画像を一度に渡すと料金はどうなりますか?

A. 画像はそれぞれトークンに換算されるため、枚数ぶん積み上がります。例えば Claude 換算では 2560×1440 の画像1枚で約4,900トークン、10枚で約49,000トークンになり、ここに長文プロンプトが加わります。送信前にピクセル数からトークンを概算し、必要なら縮小・分割してください。

Q. 送信前にトークンを見積もる具体的な方法は?

A. (1)各画像の実ピクセル数を確認、(2)各社の換算式(Claude は幅×高さ÷750、Gemini は768×768タイル×258、OpenAI high は85+タイル×170)で1枚あたりを算出、(3)枚数とプロンプト文字数を合算、(4)単価を掛けて円換算、の順です。実装では Gemini の countTokens やレスポンスの usage で実測との差を埋めます。

Q. 機密文書を画像で読み込ませても良いですか?

A. 学習に使わない設定の契約なら多くは扱えますが、画像内の文字も含めて一時的にサーバー側で処理される前提です。最高機密はクラウドに出さず、社内で動かす VLM(Vision Language Model)を検討する方が無難です。社内規程と各社のデータ取り扱いポリシーを必ず確認してください。

Q. 音声入力と文字入力ではどちらが正確ですか?

A. 確実性は文字入力が上です。音声は同音異義語、固有名詞、専門用語で誤認識が起きやすいため、「音声 → 文字起こしを確認 → AI に渡す」の流れが安全です。音声は秒数でトークン課金される点も見積もりに入れてください。

Q. 動画の解析はどこまでできますか?

A. Gemini は比較的長い動画を取り込んで要約や流れの把握ができますが、トークンは秒数レート(目安で約263トークン/秒)で積み上がるため、長尺は分割するのが現実的です。GPT 系や Claude は短いクリップ寄りです。会議録画の要約などで使われます。

Q. マルチモーダル AI を業務に組み込むコツは?

A. 「単機能から始める」「定型タスクに絞る」「抽出結果を JSON など構造化で受け取る」「人間が最終確認する」「入力トークンと月額コストを毎月モニタする」の5点です。一度に全機能を使おうとすると、精度もコストも管理しきれなくなります。

まとめ

マルチモーダルAIとは、テキストだけでなく、画像、音声、動画、文書など複数の形式を扱える AI のことです。大事なのは「複数形式に対応している」のであって、「何でも同じ精度で万能に処理できる」とは限らないことです。

初心者が最初に見るべきは、(1)何を入力できるか、(2)何を出力できるか、(3)料金はどう計算されるか、(4)どこで精度が落ちやすいか、の4つです。特に、複数枚画像と長文プロンプトで料金が跳ねること、細かい表では専用OCRに負ける場面があることを押さえ、送信前にトークンを見積もる習慣をつけると、宣伝文句に振り回されずに使いこなせます。

参考リンク

OpenAI: Images and vision guide
OpenAI: API pricing
Anthropic: Vision
Anthropic: Pricing
Google AI for Developers: Understand and count tokens
Google AI for Developers: Gemini models