High Speed Data Ingest and Always-On Compression - 立即數十倍甚至百倍加速關聯且複雜的資料分析,數據價值 100% 發揮

SQream DB 具備創新的 AI 輔助 always-on 壓縮技術,經由高達 5:1 以上的即時資料壓縮,大量減少 I/O 次數,可顯著改善資料存取效能並降低儲存所需空間。SQream DB 優異的壓縮 / 解壓縮效能遠比傳統 CPU 快 50 倍以上,因此,SQream DB 每張 GPU 卡每小時 data ingestion 速度可高達 3TB,即使僅採用最基本款的硬體設備,亦不影響 SQream DB 運作效率。

SQream DB 具備 Load-and-Go 自動化程序,同時搭配 NVIDIA®GPU 絕佳的運算能力,data ingestion 過程自動產生 metadata chunking 與 zone maps,並轉換為columnar 資料,大幅簡化傳統資料倉儲作業的 indexing、pre-computations、aggregated tables、materialized views、projections、cubing 等資料準備過程,更可立即依據 ANSI SQL 標準進行 complex joins 關聯分析與及時Ad-hoc Analysis。



Less Data Read = Less I/O = Faster Query = Fewer Data Preparation Stages



                   SQream DB 可進行5:1動態即時資料壓縮,大幅減少磁碟存取所耗費的資源與時間




SQream DB 可無縫整合既有之 Data Warehouse 或 Hadoop 環境,彰顯既有的投資效益!

  • 更快速、更精確的資料分析查詢 - 高效能且全自動化的”Load-and-Go”架構,將前端各式來源的資料立即轉化成為可查詢的資料。
  • Ad-hoc Analysis 資料量無上限 - 再多的資料量亦胃納無虞,資料分析人員無需再花費時間於切割、分散、匯整的工作。
  • 維護便捷、學習週期極短 - SQream DB 使用 ANSI SQL,資料分析人員無需再重新學習資料存取操作方式。 



資料庫優化

SQream DB 執行時會以data skipping 技術忽略 query 用不到的資料,像是 RAM, PCIe, GPU, Disk 及網路等,以減少不必要的存取動作所導致的系統資源耗費,進而使運算效能極致發揮。SQream DB 具備專利技術於 data ingestion 時進行資料結構優化,同時記錄資料值的範圍及其他屬性以作為 metadata,以利 query 查詢時的效能極大化。



SQream DB vs. A Leading Data Warehouse

Industry - 某國外電信公司,擁有4千萬用戶。
所需分析之資料量的成長速度 - 1.4TB / 週。
既有的 MPP Data Warehouse - Greenplum, 40 compute nodes / 5 full racks。
SQream DB 環境 - 利用既有之 HP DL380g9 掛載一張 NVIDIA Tesla card。

評比結果:

Query

Description

Greenplum MPP

SQream DB

Ratio

Ad-Hoc
Simple query
Number of transactions performed on specific products. 5-table join, GROUP BY on 8 columns, filter by day 2:05 mins 0:12 min 10.5 x

Ad-Hoc
Conditional query

Count distinct mobile numbers with specific orders initiated by online service, that were completed with specific completion code 2:15 mins 0:10 min 13.2 x

Ad-Hoc
Complex query

Find active or suspended accounts with service call opened on specific days and completed on the following day. Complex join on 6 tables 2:30 mins 0:32 min 4.7 x
10-step
report generation
Identify top 3 usage locations for each customer: Identify top 3 used cells by usage during weekends and weekdays, throughout several segments of a day 2-3 hours 8:16 mins 18 x


Non-CDR Query Performance

CDR (call data records)


CDR Query Performance
CDR (call data records)


SQream Server 硬體規格

Server

HP DL380g9 with 2x Intel Xeon E5-2697 v3 @2.60 GHz  

RAM

RAM96GB

DISKS

Disks12x 600GB SAS 10K, 6TB total

GPU

1x NVIDIA-HP Tesla K80