Google Cloud Search vs. Apache Solr 企業版搜尋引擎大解析 | 文章 – 滙豐機滙

透過 Google 頂尖的機器學習技術與搜索的功能,使用者可以快速搜尋企業內資料,隨時掌握所需資訊。 無論您身在何處、使用何種裝置、您都可以透過 Google Cloud Search 在 Gmail 、雲端硬碟、文件、試算表、簡報、日曆任何等服務中,找出工作需要的資訊。

越來越多的企業開始意識到,實施有效的企業搜索解決方案可以帶來許多好處,包括協助企業作出更明智的決策、讓員工更輕鬆地獲取企業知識、優化數據治理 (Data governance)以及改善顧客服務和銷售。

但,並非所有企業搜索解決方案都是一樣的

雖然Google Cloud Search(GCS)和 Apache Solr 均屬於基於文本的搜索引擎 (text-based search engine),能讓使用者透過查詢介面從結構化和非結構化資料中擷取出相關的資訊,但是它們並不完全相同。 以下是 GCS 優於 Solr 的6大理由:

一、「最佳化」設置

大多數搜索引擎具有各式各樣的設置和調整功能。 例如,搜索引擎讓您調整文字的解析方式:根據語言或上下文來判斷文字的意思; 並且讓您控制文檔的評分和排名方式。

雖然GCS 和 Solr 均依賴於複雜的演算法,但它們主要的區別在於GCS 具有為典型情況而設計的「最佳化」內置設定,而 Solr 則需要針對各個方面自行進行安裝和配置。別外, GCS 設有針對內容和語言作出假設的模型,及均衡的評分算法。 這些模型和演算法源自 Google 在 google.com 上廣泛的搜索引擎經驗,以及在多種情況下的設計和測試。
由於Solr 並沒有「最佳化」預設模式,一切都是需要自行去調整的。這意味著 Solr 可以針對許多獨特、特殊的使用情境進行調整,但也需要針對「日常」情境進行調整。 如果您沒有專業的技術員開發Solr,則不能體驗Solr的高性能表現。

 

二、規模與維護

第二個主要的差異是軟體結構和維護。 Solr 具有高度的可擴展性,可以處理非常大的工作量,前題是必須由客戶安裝、配置和維護。 Solr 支援按比例擴展的多節點安裝(稱為分片),但是必須手動設置和管理。 如果將來您的需求發生變化,則將需要透過複雜的開發與維運過程來重建節點和分片,並不會自動重新平衡或調整大小。 市場上提供了Solr 的託管版本,但不具備 Google 產品的可擴展性和可靠性。

GCS 是一項託管服務,無論是擁有 100,000 個文檔或是 100,000,000 個文檔的客戶都能享有相同效能的服務。由Google設計的GCS可容納數十億個文檔,而終端用戶則無需進行任何調整即可達到該規模。 GCS在不同層級的性能表現皆非常出色,無需自行管理備份、調整調整節點(nodes)或分片(shards)或針對結構或性能進行任何設置。

 

三、查詢功能

Solr 具有非常廣泛的查詢功能,適用於多種情況。 一些客戶使用它來搜索文檔中的大量非結構化數據,而另一些客戶則使用它來分析結構化數據,類似於SQL,但更具有性能優勢。您將在 Solr 查詢語言中找到更進階的功能,例如能夠指定接近因子proximity factors(術語接近性) (nearness of terms)、萬用字元 (wildcard)搜索、模糊搜索和動態相關性增強。 Solr 還支援跨非規範化文檔的查詢(合併)以及對經度和緯度數據的空間搜索。Solr支援特殊的查詢,但需要專業的支術員開發此功能。

另一方面,GCS所使用的搜索方式與 google.com 上的搜索界面非常相似。 Google 保持搜索界面簡單,並利用機器學習和自然語言處理功能來自動從查詢中得出其他意圖。 例如,雖然 Solr 允許您透過手動調整接近度和模糊度,但 GCS 會根據數據分析和回饋為您自動進行調整。 Google 並未透露他們可以進行的所有調整,但是我們從基本關鍵字/短語搜索中觀察到GCS對同義詞擴展、模糊性、接近度、篩選器和排名的自動調整。

  

四、索引功能

Solr 和 GCS 均支援結構化和非結構化數據,兩者可通過 API 或以流行的編程語言編寫的包裝器進行索引。 文件格式方面,GCS 支援二進位制文件格式(例如 PDF 或 Word), Solr的編制索引只支援文本格式。安全性方面, GCS索引中的每個記錄都可以具有不同的訪問控制權限; Solr 不支援任何本機安全調整,需要通過外部應用程式或元數據篩選器 (metadata filters)來控制對敏感內容的存取,這導致Solr 可能存在安全漏洞。無論如何存取數據,GCS 都會在記錄級別強制執行安全權限,無一例外。


五、性能

在一般情況下,Solr 和 GCS 都有高性能的運行。 作為Google的代管服務,GCS預設範圍內都能運行順暢。

Solr 在適當地調整下,其性能也能非常好。 但是,在大型索引活動或配置更改期間,會對Solr查詢性能造成已知的影響。 而 GCS ,即使在索引活動或配置更改期間也不會有任何停機時間。

  

六、Google的創新

GCS 是一種 SaaS 解決方案,隨著新功能的不斷開發,它將持續發展。 新功能將同時適用於新客戶和現有客戶。
例如,在G CS 推出的首年,Google新增了:

隔一年,更新增了一些創新的功能,例如「答案」卡 (“answer” cards)、知識圖 (knowledge graphs)、對排名和相關性的其他優化、對查詢中自然語言的更多理解、人員搜索等等。


若想了解更多有關 Google Cloud Search 的資訊,歡迎隨時來電洽詢,思想科技有專門的業務團隊能隨時解答您的需求,同時我們也有成功的使用案例準備與您分享!


原文轉譯自SADA