ollama環境で動画を読み込むことができる無料のLLMを使って内容を把握する方法

2026年4月30日

はじめに

、Vision Language Models (VLM) と呼ばれる、画像とテキストを同時に理解できるマルチモーダルAI GPT-4o（OpenAI社）、LLaVA-NeXT-Video（ByteDance社）、Gemini 1.5 Pro（GoogleなどありますがInternVL・LLaVA-Video・Video-LLaMA GLM-4.6V-Flash Qwen2.5-VLなどのオープンソースモデルも使うことができます

モデル

ollama run blaifa/InternVL3_5:4B
ollama run ManishThota/llava_next_video
ollama run qwen2.5vl
ollama run gurubot/GLM-4.6V-Flash-GGUF:Q4_K_M

ollama

Posted by eightban

ペイント3dの背景を透過（透明）する時に使うマジック選択代わりになるソフトは

高精度・高解像度・境界を綺麗に背景を透過できるBiRefNetを使って大量のデータを処理する

コメント一覧

まだ、コメントがありません