ソフトウェア AI 公開日 2026.04.19 更新日 2026.06.13

マルチモーダルAIとは?テキスト・画像・音声・動画を扱うAIの基本

マルチモーダルAIとは何かを、テキスト、画像、音声、動画を扱うという意味から、できること、誤解しやすい点、実務での見方まで初心者向けに整理します。

先に要点

  • マルチモーダルAI は、テキストだけでなく、画像、音声、動画、文書など複数の形式を入力(一部は出力)として扱える AI のことです。
  • 「何でも同じ精度で読めるAI」ではありません。画像入力はできても音声は別モデル動画は扱えても出力はテキストだけ といった違いがあり、対応範囲の中身を必ず確認します。
  • 料金は「画像1枚 = 数千トークン」「音声1分 = 数百〜数千トークン」という換算で乗ってきます。複数枚画像 + 長文プロンプト で想定の何倍にも跳ねるため、入力前のトークン見積もりが効きます。
  • 細かい罫線の表や帳票では、専用 OCR の方が崩れにくい場面があります。得意/不得意を分けて、用途を絞って使うのが実務の基本です。

最近の AI を見ていると、「画像も読める」「音声でも会話できる」「動画も理解する」という説明がかなり増えました。その流れで「マルチモーダルAI」という言葉もよく出てきます。

ただ、この言葉は便利なぶん、かなり雑に使われがちです。「画像も音声も動画も全部まとめて完璧に分かるAI」のように受け取ると、実際の機能差・料金・精度のクセとズレやすくなります。

この記事では、OpenAI、Google、Anthropic の公式ドキュメントで確認したトークン換算をもとに、マルチモーダルAIの基本を整理します。用語の意味だけでなく、何ができるのかどこで誤解しやすいのか料金がどこで跳ねるのか入力前にどう見積もるのか まで、実務に落とせる形でまとめます。

マルチモーダルAIとは何か

「modal(モーダル)」は、情報の種類や形式のことです。テキスト、画像、音声、動画、PDF、図表など、それぞれ情報の入り方が違います。

マルチモーダルAIは、それら複数の形式を入力として扱ったり、場合によっては複数形式で出力したりできる AI を指します。ざっくり言えば次の違いです。

テキスト専用AI

文章を読んで文章を返す。チャット、要約、分類、コード生成など。入力も出力も「文字」だけで完結します。

マルチモーダルAI

文章だけでなく、画像・音声・動画・PDF なども材料にして答える。「スクショを見て原因を説明」「録音を文字起こしして要約」のように、入力の幅が広がります。

重要なのは、入力が増えるぶん 内部では必ず変換が走っている という点です。AI は画像や音声を「人間の目や耳」で見ているわけではなく、いったんトークンという数値の単位に変換してから処理します。この変換のされ方が、後で述べる料金と精度のクセに直結します。

何ができるのか

1. 画像を見て説明する

これは一番イメージしやすい使い方です。スクリーンショット、写真、図表、UI 画面、手書きメモなどを見せて、何が写っているか、どこに問題がありそうか、何が読み取れるかを説明させます。

OpenAIGPT-4o 系モデルは text and image inputs を受け取り text outputs を返すと案内されています。Claude も vision ドキュメントで画像の理解・分析ができると説明されています。エラー画面のスクショを貼って「この例外の原因は?」と聞く、といった使い方が現場では一番多いです。

2. 音声を文字や要約に変える

音声入力を受けて、文字起こし、会議要約、話者の意図整理などができます。Google の Gemini API には音声を前提とした機能があり、講義、会議、インタビューの整理に使われます。

3. 動画の内容を把握する

動画対応の AI では「何が起きているか」「手順の流れ」「場面の切り替わり」を整理できます。ただし、動画を「そのまま全部理解する」と考えるより、フレーム画像・音声・字幕を組み合わせて処理していると見た方が、料金も精度も予測しやすくなります。

4. 複数形式をまとめて読む

資料PDF・グラフ画像・会議音声・補足メモをまとめて渡し、全体を整理する使い方です。人間が複数資料を横断する作業を、ある程度まとめて補助できるのがマルチモーダルらしい強みです。ただし、ここが最も料金の跳ねやすい領域でもあります(次章)。

料金はどこで跳ねるのか:具体ケース

マルチモーダルは便利」で止めず、実務では 入力がトークンに換算される瞬間 を意識する必要があります。各社の公式な換算の目安は次のとおりです。

プロバイダ画像のトークン換算(目安)音声・動画の換算(目安)
OpenAI(GPT-4o系 high)基本85トークン + 512×512タイルごとに170トークン。画像は2048px四方に収め、短辺768pxへ縮小してからタイル分割音声は別系統の単価。詳細は最新の料金ページで確認
Anthropic(Claude)おおよそ「幅px × 高さpx ÷ 750」トークン。長辺は上限でリサイズされる主に画像・PDFが中心。動画は短いクリップ程度
Google(Gemini)両辺384px以下なら258トークン。大きい画像は768×768のタイルに分割し各258トークン音声は約32トークン/秒、動画は約263トークン/秒の固定レート

この換算を頭に入れると、「なぜ思ったより高いのか」が説明できるようになります。代表的な失敗ケースを 現象→原因→確認手順→回避 の形で挙げます。

ケースA:複数枚画像 + 長文プロンプトで料金が跳ねる

  • 現象:UI レビューで「画面キャプチャ10枚 + 仕様書テキスト」を1リクエストに詰めたら、テキストだけのときの何倍もの入力トークンになり、月のコストが想定を大きく超えた。
  • 原因:高解像度のスクショ(例:Retina の 2560×1440 など)は1枚で数千トークンに換算される。Claude 換算なら 2560×1440 ÷ 750 ≒ 約4,900トークン/枚で、10枚だけで約49,000トークン。さらに長文の仕様書プロンプトが上乗せされる。Gemini なら大画像は 768×768 タイルに分割され、タイル数 × 258 で積み上がる。「画像は1枚=1トークン」のような感覚でいると、桁を読み違える。
  • 確認手順:送る前に各画像の実ピクセル数を確認する(下のステップ参照)。送信後はレスポンスの usage / token_count に出る入力トークンの内訳を見て、画像とテキストの比率を把握する。
  • 回避:画像を縮小してから渡す(OCR 目的なら短辺768px前後で多くは足りる)。10枚を1回に詰めず2〜3枚ずつに分割する。会話の履歴に画像を残し続けると毎ターン再課金されるため、判定が終わった画像は履歴から落とす。

ケースB:細かい表でOCRに負ける

  • 現象:罫線が細かい帳票やExcelの縮小印刷をマルチモーダルAIに読ませたら、隣のセルの数値を取り違える、桁がずれる、空セルを詰めて読むなどの誤りが出た。
  • 原因:画像はリサイズ・タイル分割されるため、細い罫線や小さな文字が潰れる。AI は「文字を1つずつ確実に拾う」より「全体を意味として推定する」方向に強いので、整然としたグリッドの厳密な転記は不得意になりやすい。専用 OCR(レイアウト解析つき)の方が、セル境界と座標を保ったまま抽出できる場面がある。
  • 確認手順:同じ表を(1)マルチモーダルAIにそのまま、(2)専用OCRでテキスト化してからAIに渡す、の2通りで処理し、合計値や行数が原本と一致するか突き合わせる。
  • 回避:数値の正確性が要る帳票は「OCRで構造化 → AIで意味づけ・要約」の二段構えにする。AIに直接読ませる場合も、抽出結果を JSON など構造化形式で受け取り、合計や件数の検算を別途かける。

入力前のトークン見積もり手順

「送ってみて請求で気づく」を避けるため、送信前に概算を出す流れを1つずつ示します。Claude の「幅×高さ÷750」を例にしますが、考え方は各社共通です。

読み込み中...

実装で見積もりを自動化したい場合は、送信前に各社のトークンカウント機能を使うのが確実です。Gemini なら countTokensOpenAI/Anthropic はレスポンスの usage に入力・出力の内訳が返ります。CI やバッチに「見積もりが閾値を超えたら警告」を仕込んでおくと、画像枚数の増加によるコスト膨張に早く気づけます。

ただし、何でも同じようにできるわけではない

「マルチモーダルAI」と書いてあっても、実際の能力はモデルごとにかなり違います。

違い実際に起きること
入力だけ対応画像は読めるが、出力はテキストだけ。画像生成は別モデル・別API
モデルごとの差画像は強いが、音声や動画は別モデルが必要なことがある
料金差テキストと画像で単価も計算方法も違う。動画は秒数で積み上がる
精度差写真は得意でも、細かい表や長時間動画では崩れやすい

つまり「マルチモーダル対応」は便利なラベルですが、対応範囲の中身 は必ず見た方がよいです。

よくある誤解

1. 1つのAIが全部の形式を完璧に扱えると思う

現実には、画像は得意でも動画は弱い、音声入力はできても出力は音声ではない、ということがあります。同じ会社でも用途ごとにモデルAPI が分かれていることも多いです。

2. 人間のようにそのまま見て理解していると思う

AI はすごく自然に答えるので、人間と同じように画像や動画を見ている感覚になります。でも実際には、解像度制約、トークン化、フレーム化、文字抽出など、いろいろな処理を挟んでいます。そのため、小さい文字、細かいUI差分、長い動画の流れ、雑音混じりの音声では精度が落ちやすいです。

3. マルチモーダルなら最新で万能だと思う

マルチモーダルは強いですが、万能ではありません。シンプルな分類や短文要約だけなら、テキスト専用寄りの軽量モデルの方が速くて安いこともあります。前章のとおり、画像を毎回詰め込むと料金面でも不利になります。

実務ではどう使われるか

画像・画面レビュー

UIスクショの説明、デザイン差分の確認、エラー画面の状況把握。枚数を絞り、終わった画像は履歴から落とすのがコツ。

文書・資料整理

PDFの要点整理、図表入り資料の要約。細かい表はOCRで構造化してから渡すと崩れにくい。

音声・会議整理

議事録化、音声メモの要約、講義やインタビューの整理。秒数×レートで課金される点を見積もりに入れる。

動画理解

手順動画の流れ整理、教材動画の要約、デモ動画の内容抽出。長尺は秒数課金が積み上がるため短く区切る。

どの会社のモデルでも見るべきこと

マルチモーダルAIを選ぶときは、次の4点を分けて見ると分かりやすいです。

  1. 何を入力できるか … テキスト/画像/音声/動画/PDF のどれに対応するか
  2. 何を出力できるか … テキストだけか、音声・画像・動画も生成できるか
  3. 料金はどう計算されるか … 画像トークン、音声・動画の秒数レート、ストレージやツール料金
  4. どこで精度が落ちやすいか … 小さい文字、低画質画像、長時間動画、雑音音声、表や図の細かい差

特に3と4は前章で見たとおり連動します。料金を抑えようと画像を縮小しすぎると、今度は細かい文字の精度が落ちる、というトレードオフがあるためです。

初心者が最初に試すなら

最初から「動画 + 音声 + 資料 + 検索」を全部盛りにするより、単機能で試した方が理解しやすいです。

  1. スクリーンショットを見せて説明させる
  2. PDF を渡して要点を整理させる
  3. 音声を文字起こしして要約させる
  4. 画像とテキストを一緒に渡して判断させる

このとき、レスポンスの入力トークン内訳も毎回見ておくと、「何が得意で、何が雑になり、何が高いか」を同時につかめます。

マルチモーダルAIに関するよくある質問

Q. どの AI がマルチモーダル対応していますか?

A. OpenAI の GPT 系(画像入力に対応)、Anthropic の Claude(画像・PDF)、Google の Gemini(画像・音声・動画・PDF が最も幅広い)などです。Gemini は当初から動画・音声を含めて設計されている点が特徴です。具体的な対応形式は改定が多いため、各社のモデルページで最新を確認してください。

Q. 画像認識は OCR と比べて精度はどうですか?

A. 手書き、レイアウト理解、図解の意味抽出はマルチモーダルAIが得意です。一方、罫線が細かい帳票や数値の厳密な転記は、レイアウト解析つきの専用OCRの方が崩れにくい場面があります。数値の正確性が要るなら「OCRで構造化 → AIで意味づけ」の二段構えが安全です。

Q. 複数枚の画像を一度に渡すと料金はどうなりますか?

A. 画像はそれぞれトークンに換算されるため、枚数ぶん積み上がります。例えば Claude 換算では 2560×1440 の画像1枚で約4,900トークン、10枚で約49,000トークンになり、ここに長文プロンプトが加わります。送信前にピクセル数からトークンを概算し、必要なら縮小・分割してください。

Q. 送信前にトークンを見積もる具体的な方法は?

A. (1)各画像の実ピクセル数を確認、(2)各社の換算式(Claude は幅×高さ÷750、Gemini は768×768タイル×258、OpenAI high は85+タイル×170)で1枚あたりを算出、(3)枚数とプロンプト文字数を合算、(4)単価を掛けて円換算、の順です。実装では GeminicountTokens やレスポンスの usage で実測との差を埋めます。

Q. 機密文書を画像で読み込ませても良いですか?

A. 学習に使わない設定の契約なら多くは扱えますが、画像内の文字も含めて一時的にサーバー側で処理される前提です。最高機密はクラウドに出さず、社内で動かす VLM(Vision Language Model)を検討する方が無難です。社内規程と各社のデータ取り扱いポリシーを必ず確認してください。

Q. 音声入力と文字入力ではどちらが正確ですか?

A. 確実性は文字入力が上です。音声は同音異義語、固有名詞、専門用語で誤認識が起きやすいため、「音声 → 文字起こしを確認 → AI に渡す」の流れが安全です。音声は秒数でトークン課金される点も見積もりに入れてください。

Q. 動画の解析はどこまでできますか?

A. Gemini は比較的長い動画を取り込んで要約や流れの把握ができますが、トークンは秒数レート(目安で約263トークン/秒)で積み上がるため、長尺は分割するのが現実的です。GPT 系や Claude は短いクリップ寄りです。会議録画の要約などで使われます。

Q. マルチモーダル AI を業務に組み込むコツは?

A. 「単機能から始める」「定型タスクに絞る」「抽出結果を JSON など構造化で受け取る」「人間が最終確認する」「入力トークンと月額コストを毎月モニタする」の5点です。一度に全機能を使おうとすると、精度もコストも管理しきれなくなります。

まとめ

マルチモーダルAIとは、テキストだけでなく、画像、音声、動画、文書など複数の形式を扱える AI のことです。大事なのは「複数形式に対応している」のであって、「何でも同じ精度で万能に処理できる」とは限らないことです。

初心者が最初に見るべきは、(1)何を入力できるか、(2)何を出力できるか、(3)料金はどう計算されるか、(4)どこで精度が落ちやすいか、の4つです。特に、複数枚画像と長文プロンプトで料金が跳ねること、細かい表では専用OCRに負ける場面があることを押さえ、送信前にトークンを見積もる習慣をつけると、宣伝文句に振り回されずに使いこなせます。


参考リンク

あとで見返すならここで保存

読み終わったあとに残しておきたい記事は、お気に入りからまとめて辿れます。