技術まるちもーだる

マルチモーダル

テキスト・画像・音声・動画を横断的に扱うAI。

詳しい解説

テキスト・画像・音声・動画など複数種類の入出力を扱えるAI。GPT-4oやGemini 1.5 Proが代表例。画像を見て説明する、音声で会話する、などが可能です。