AI Vision × LLM 電腦視覺應用聖經:OpenCV × YOLO × Ollama 解鎖多模態全攻略

熱門：屁屁偵探李洋哈利波特星漢燦爛不敗學習力

目前尚無資料

目前位置：首頁 > 圖書十大分類 > 300 科學類 > 312 電腦科學 > AI Vision × LLM 電腦視覺應用聖經:OpenCV × YOLO × Ollama 解鎖多模態全攻略

AI Vision × LLM 電腦視覺應用聖經:OpenCV × YOLO × Ollama 解鎖多模態全攻略

作者：陳會安

出版社：旗標

出版日期：2025-06-02

語言：中文

ISBN：9789863128311

裝訂：平裝

定價：880 元

內容簡介

目錄書摘

導讀/序

作者介紹

⛧⛦ 一本搞定 LLM 看圖說故事與即時影像分析 ⛦⛧

⛧⛦ 十款熱門模型實際解決生活中 AI Vision 問題 ⛦⛧

⛧⛦ 用「自己的」資料集在本地端訓練 YOLO 模型 ⛦⛧

⛧⛦ 無痛設計 Web 互動介面,輕鬆部署 AI 模型 ⛦⛧

　　『AI Vision × LLM』劃開多模態應用的新時代
　　從輸入文字生成圖片,到上傳照片讓 LLM 看圖說故事,AI 電腦視覺技術結合 LLM 的多模態應用正席捲全球。但這些令人驚豔的應用背後,其實倚賴多項核心技術——包含物體偵測、人臉辨識、情緒與年齡分析、或是影像文字識別,以及對於文字的理解與生成,這才賦予 AI 真正「看懂」影像內容的能力。

　　實際解決現實生活中的 AI Vision 問題
　　帶領讀者以多款熱門模型如 YOLO、OpenCV DNN、MediaPipe、CVZone 3D、DeepFace、Dlib、LiteRT、EasyOCR,打造刷臉門禁系統、即時口罩偵測、微笑自拍、手勢操控投影片、AI 健身教練、車牌辨識、結帳櫃台人流與高速公路車流分析等多項實用專案,讓讀者親身體驗 AI Vision 在真實場景中的應用價值。

　　不僅會用,還能自行訓練專屬 AI 模型
　　讓你不只會活用現成的模型,還能自己動手標註資料並訓練屬於你的 YOLO 模型。並且透過 Streamlit 設計 Web 互動介面,將訓練成果部署為具備即時偵測與辨識功能的 Web 應用程式,實現從標註資料、模型訓練到應用上線的完整流程。

　　親手打造多模態 AI 應用,收穫滿滿成就感
　　整合前述 AI Vision 技術與大型語言模型(LLM),或運用 Ollama 的多模態工具 Llama-Vision,再搭配 Streamlit,即可實作出讓 LLM 分析影像內容或情境的 Web 智慧應用,例如路況分析或圖片描述,讓 AI 真正具備視覺理解與語意回應的能力。

　　零基礎也能無痛入門
　　本書主打「從做中學」的實作導向,即使沒有深厚的理論基礎,也能快速掌握 Python 的 AI 模型與實用套件。至於不熟悉的語法、函式用法、AI 模型原理,或是特定功能的程式碼編寫與修改,則交由 ChatGPT 給予我們即時協助,讓學習更有效率。

　　無論你是 AI 初學者還是開發者,本書都能帶你輕鬆入門、快速上手,從零開始打造專屬的 AI 專案,成為 AI Vision × LLM 的超酷玩家!

金寶書局網路書店