健康照護科技專題 : 1月 2025

2025年1月16日星期四

Algorithms

甚麼是演算法(Algorithm)

演算法：為計算機設計的算法（通常很 smart, 但不直覺也不好懂。好的演算法不會犯錯，如果因為設計不完善而犯錯，稱為 bug)

為什麼要學演算法

我不是資訊工程系主修，我如何運用AI學習演算法

不懂程式語言可以學習演算法嗎

以下介紹著名的電腦演算法，在AI的協助下，即使不懂程式語言，也可以藉由AI 視覺化求解過程來觀察演算法如何解決一些常見的問題，像是找到兩個地點之間的最短距離，推銷員的最佳拜訪路徑等等。

最大公約數 (GCD, Greatest Common Divisor)

具有輸出入介面的程式

Visualize QuickSort (數字排序最常用的演算法之一)

Illustrate in SVG the code.

Visualize Shortest Path (在一個網路中找到兩點之間的最短路徑與距離)

Visualize TSP (Traveling Salesman Problem) by A* search (一個推銷員要拜訪所有客戶城市，每個城市只能拜訪一次，最後要回到出發城市，請為他/她計算最短的拜訪路徑)

Add editing on canvas by click and drop. (在網頁畫布上直接增加刪除城市)

Solving river crossing puzzles

Illustrating AI Vision

AI Vision

YOLO (You Only Look Once) v9 是一個深度學習物件偵測模型系列的最新版本。

主要特點:

比舊版本如 YOLOv8 更快、更準確
改進的主幹網路架構,增加了模型對物體的識別能力
更高效的資源利用,可以在較低配置的設備上運行
更好的小物件偵測能力

應用場景:

即時影像監控和分析
自動駕駛車輛的物件識別
工業生產線的品質檢測
醫學影像分析
智慧零售中的商品識別

這種技術之所以叫「You Only Look Once」,是因為它只需要看一次圖片就能同時:

定位出物件在圖片中的位置 (用邊界框標示)
辨識出物件的類別 (例如是人、車、貓等)
計算出辨識結果的信心分數

LLaVA (Large Language and Vision Assistant) 模型

LLaVA是一個多模態AI模型,它結合了:

視覺編碼器(Vision Encoder):

使用Vision Transformer (ViT)架構
ViT將圖像分割成小塊(patches)
通過自注意力機制處理這些圖像塊
輸出圖像的向量表示

大語言模型(LLM):

接收ViT處理後的圖像特徵
將圖像特徵與文本輸入結合
能夠理解圖像內容並用自然語言回應

主要特點：

端到端訓練
可以看圖回答問題
可以描述圖像內容
支援多輪對話
具備視覺推理能力

給它看一張貓的圖片,它不僅能認出這是貓,還能描述貓的顏色、動作、周圍環境等。

2025年1月4日星期六

Perspectives in vision-enabled LLM

passengers on train

passengers on platform

訂閱：文章 (Atom)