vectorDatabase

向量資料庫

最近的 AI 發展，像是 ChatGPT/GPT3/GPT4/BERT/Diffusion Model/ .... 等等事項，幾乎都有一個共同點，那就是《萬物皆向量》

我們可以用一個固定維度 (例如 700 維) 的向量，來代表一個《詞彙、語句、文章、圖片、影片、聲音》...

這讓我們可以完成很多過去難以完成的事情

例如

找同義語句
用語句找文章 (意義相同，但詞語內容不同)
用語句找圖片 (意義相同，但格式不同)
用圖片找文章
用聲音找圖片

這些動作的背後，都牽涉到《向量資料庫》的《近似向量尋找》，這是傳統資料庫系統通常不太支援，或者支援不好的。

如果加上 Transformer 或類似 GPT 當中的 Text Complete 或《問題/答案》配對功能，那麼就可以做下列事情：

用問題找答案 (問答系統)
自動寫作 (Text Complete)

再加上 diffusion 之類的功能，就可以

用語句產生圖片 (text2image / diffusion)
用語句產生影片 (text2video)

然後透過向量的加減等方法，我們可以

用語句修改劇本、圖片或影片 (例如從原本的劇本向量 T 減去該語句向量 S 得到 T-S 之後再去產生圖片)
將圖片中的某個物體拿掉 (拿槍的貓咪 - 槍 = 貓咪)

接下來這幾年，向量資料庫將會是 AI 的一個重要基礎建設，因為在 AI 的世界裡《萬物皆向量》 ...

陳鍾誠於金門大學資訊工程系 -- 本書衍生自維基百科與 Karpathy 的 micrograd 與 minGPT ，採用 CC: BY-SA 授權

vectorDatabase

向量資料庫

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!