-
Notifications
You must be signed in to change notification settings - Fork 16
vectorDatabase
陳鍾誠 edited this page Nov 8, 2023
·
2 revisions
最近的 AI 發展,像是 ChatGPT/GPT3/GPT4/BERT/Diffusion Model/ .... 等等事項,幾乎都有一個共同點,那就是《萬物皆向量》
我們可以用一個固定維度 (例如 700 維) 的向量,來代表一個《詞彙、語句、文章、圖片、影片、聲音》...
這讓我們可以完成很多過去難以完成的事情
例如
- 找同義語句
- 用語句找文章 (意義相同,但詞語內容不同)
- 用語句找圖片 (意義相同,但格式不同)
- 用圖片找文章
- 用聲音找圖片
這些動作的背後,都牽涉到《向量資料庫》的《近似向量尋找》,這是傳統資料庫系統通常不太支援,或者支援不好的。
如果加上 Transformer 或類似 GPT 當中的 Text Complete 或《問題/答案》配對功能,那麼就可以做下列事情:
- 用問題找答案 (問答系統)
- 自動寫作 (Text Complete)
再加上 diffusion 之類的功能,就可以
- 用語句產生圖片 (text2image / diffusion)
- 用語句產生影片 (text2video)
然後透過向量的加減等方法,我們可以
- 用語句修改劇本、圖片或影片 (例如從原本的劇本向量 T 減去該語句向量 S 得到 T-S 之後再去產生圖片)
- 將圖片中的某個物體拿掉 (拿槍的貓咪 - 槍 = 貓咪)
接下來這幾年,向量資料庫將會是 AI 的一個重要基礎建設,因為在 AI 的世界裡 《萬物皆向量》 ...