Skip to content

vectorDatabase

陳鍾誠 edited this page Nov 8, 2023 · 2 revisions

向量資料庫

最近的 AI 發展,像是 ChatGPT/GPT3/GPT4/BERT/Diffusion Model/ .... 等等事項,幾乎都有一個共同點,那就是《萬物皆向量》

我們可以用一個固定維度 (例如 700 維) 的向量,來代表一個《詞彙、語句、文章、圖片、影片、聲音》...

這讓我們可以完成很多過去難以完成的事情

例如

  1. 找同義語句
  2. 用語句找文章 (意義相同,但詞語內容不同)
  3. 用語句找圖片 (意義相同,但格式不同)
  4. 用圖片找文章
  5. 用聲音找圖片

這些動作的背後,都牽涉到《向量資料庫》的《近似向量尋找》,這是傳統資料庫系統通常不太支援,或者支援不好的。

如果加上 Transformer 或類似 GPT 當中的 Text Complete 或《問題/答案》配對功能,那麼就可以做下列事情:

  1. 用問題找答案 (問答系統)
  2. 自動寫作 (Text Complete)

再加上 diffusion 之類的功能,就可以

  1. 用語句產生圖片 (text2image / diffusion)
  2. 用語句產生影片 (text2video)

然後透過向量的加減等方法,我們可以

  1. 用語句修改劇本、圖片或影片 (例如從原本的劇本向量 T 減去該語句向量 S 得到 T-S 之後再去產生圖片)
  2. 將圖片中的某個物體拿掉 (拿槍的貓咪 - 槍 = 貓咪)

接下來這幾年,向量資料庫將會是 AI 的一個重要基礎建設,因為在 AI 的世界裡 《萬物皆向量》 ...

Clone this wiki locally