BigQuery已經開始提供一項新的功能,這就是向量搜尋功能。這項新的功能能讓BigQuery的用戶在此平台內進行向量相似性的搜尋。向量搜尋也被普遍認知為近似最鄰近(Approximate Nearest-Neighbor,ANN)搜尋,這是一種能在高維度空間中迅速找到與指定向量最相近的向量的方法。
BigQuery的向量搜尋功能提供用戶一種強大的工具,用來對在BigQuery內儲存的高維度資料集進行快速且準確的搜尋。這一功能能支援各種新的資料處理和人工智慧應用的用例,例如使用大型語言模型進行語義搜尋,或是進行病歷、交通事故、圖像等的相似性搜尋。還可以結合檢索強化生成(RAG)技術,以強化生成式人工智慧工作負載。
BigQuery的向量搜尋功能的語法設計非常簡單且直覺,這跟BigQuery現有的文字搜尋功能相當類似,所以能夠簡化向量搜尋與SQL原語的組合,進而讓用戶能在BigQuery平台內處理各種資料。此外,向量搜尋功能還支援BigQuery的嵌入生成功能,這意味著它可以對大型語言模型或是預訓練模型,或是其他方式生成的嵌入進行支援。當底層的表格資料發生變化時,BigQuery的向量索引也會自動進行更新,並且用戶可以隨時監控索引的更新進度。
LangChain框架可以與BigQuery向量搜尋功能進行組合,從而強化自然語言處理的能力。LangChain可以用於編寫和管理自然語言處理任務工作管線,而BigQuery對LangChain的支援,讓Python的開發者可以方便地進行整合,並且可以與其他第三方框架一起使用。向量搜尋功能所提供的VECTOR_SEARCH向量搜尋函式,已經被針對分析用例進行了最佳化,所以能夠有效地處理大批次的查詢,並且在處理小量的輸入資料時,也能提供低延遲的推理結果。
通過BigQuery與Vertex AI的整合,用戶可以在同一資料上進行快速、低延遲的線上預測。另外,BigQuery內建的資料治理功能也能派上用場,它提供了資料遮罩、行級、列級的安全政策,這些都是在處理敏感資料時非常重要的功能。
Source : iThome