ollama環境で動画を読み込むことができる無料のLLMを使って内容を把握する方法

はじめに

、Vision Language Models (VLM) と呼ばれる、画像とテキストを同時に理解できるマルチモーダルAI GPT-4o(OpenAI社) 、LLaVA-NeXT-Video(ByteDance社) 、Gemini 1.5 Pro(GoogleなどありますがInternVL・LLaVA-Video・Video-LLaMA GLM-4.6V-Flash Qwen2.5-VLなどのオープンソースモデルも使うことができます

モデル

ollama run blaifa/InternVL3_5:4B
ollama run ManishThota/llava_next_video
ollama run qwen2.5vl
ollama run gurubot/GLM-4.6V-Flash-GGUF:Q4_K_M

ollama

Posted by eightban