Data Lakehouse: chỉ là một từ thông dụng điên rồ khác?

data lakehouse

Các chuyên gia dữ liệu từ lâu đã tranh luận về giá trị của hồ dữ liệu so với kho dữ liệu. Nhưng cuộc tranh luận này ngày càng trở nên gay gắt trong thời gian gần đây với sự phổ biến của khối lượng công việc phân tích và dữ liệu trên đám mây, sự thất vọng ngày càng tăng với tính giòn của Hadoop và sự cường điệu xung quanh một mô hình kiến ​​trúc mới – “data lakehouse”.

Data lakehouse là một mô hình tương đối mới đề cập đến một kiến ​​trúc dữ liệu kết hợp nhằm mục đích kết hợp những gì tốt nhất của kho dữ liệu và hồ dữ liệu. Nếu thuật ngữ này là mới đối với bạn, bạn không đơn độc.

Các điều khoản được giải thích data lakehouse

Để hiểu đầy đủ cách các thuật ngữ này phù hợp với bối cảnh dữ liệu tổng thể, bạn nên xác định những điểm tương đồng và khác biệt của chúng.

Trước hết, tất cả đều được sử dụng để quản lý dữ liệu hoạt động và giao dịch, hỗ trợ thông tin kinh doanh (BI) và khối lượng công việc phân tích trên cả bộ phận kinh doanh và chức năng của nhà phát triển. Đào sâu vào các định nghĩa cụ thể của họ cũng cho thấy các mục tiêu khác nhau mà họ phục vụ.

Ví dụ: kho dữ liệu được tối ưu hóa cho các truy vấn phân tích được xác định trước và có thể lặp lại, trong đó dữ liệu có cấu trúc có thể được chia tỷ lệ trong một tổ chức. Bởi vì chúng thường được sử dụng cho hiệu suất kinh doanh và báo cáo quy định, kho dữ liệu là môi trường dữ liệu được quản lý cao và phù hợp với các truy vấn hiệu suất cao, đôi khi phức tạp và mức độ truy cập đồng thời cao.

Các hồ dữ liệu đối chiếu dữ liệu có cấu trúc và bán cấu trúc chưa được tinh chế từ nhiều nguồn khác nhau và phải tuân theo các chế độ quản lý dữ liệu ít nghiêm ngặt hơn. Họ thường sử dụng bộ nhớ rẻ hơn và có thể mở rộng, nơi các kiểu và phương pháp xử lý khác nhau, bao gồm cả học máy (ML) và khối lượng công việc định hướng theo lô, được hỗ trợ. Tuy nhiên, các hồ dữ liệu hiếm khi được tối ưu hóa cho nhu cầu phân phối sản xuất – chẳng hạn như quản lý đồng thời, độ trễ và khối lượng công việc.

Mặc dù có một số khác biệt rõ ràng, nhưng vẫn tồn tại sự trùng lặp giữa hai mẫu kiến ​​trúc. Ví dụ: một hồ dữ liệu có thể sử dụng các phương pháp tiếp cận sử dụng lược đồ sao cho các truy vấn định hướng theo lô và một kho dữ liệu có thể được tận dụng để vận hành khoa học dữ liệu với các mô hình ML chạy dựa trên dữ liệu được quản lý.

data lakehouse
data lakehouse

Cắt ngang sự cường điệu của data Lakehouse

Về mặt khái niệm, data lakehouse được thiết kế để kết hợp các yếu tố cốt lõi của kho dữ liệu với các khái niệm cốt lõi của data lake, ví dụ: bằng cách cung cấp chi phí lưu trữ đám mây thấp hơn cho dữ liệu thô với hỗ trợ xử lý hiệu suất cao ML, BI, khối lượng công việc phân tích và quản trị dữ liệu.

Điều này nghe có vẻ là một ý tưởng hay, nhưng ngôi nhà bên hồ là một khái niệm mới nổi vẫn bị nhiều người hiểu nhầm và bị thổi phồng và đồn đoán.

Mặc dù vậy, có những người ủng hộ mạnh mẽ ở cả hai phía của sự phân chia kiến ​​trúc dữ liệu. Những người có kiến ​​thức nền tảng về kho dữ liệu sẽ xác định vị trí của Lakehouse xung quanh các khái niệm công nghệ quan hệ. Những người ở phía hồ dữ liệu có nguồn gốc từ xử lý ML và Spark, nơi hỗ trợ khối lượng công việc Java, Python và R là ưu tiên cao hơn. Tuy nhiên, cả hai đều thúc đẩy việc sử dụng đám mây để lưu trữ và xử lý phân tích.

data lakehouse
data lakehouse

Nó hiếm khi là một trong hai / hoặc quyết định

Trong khi cuộc tranh luận vẫn tiếp tục, data lakehouse không có khả năng loại bỏ nhu cầu về hồ dữ liệu hoặc kho dữ liệu, ít nhất là trong ngắn hạn, đặc biệt là đối với những tổ chức đã đầu tư đáng kể vào một trong hai hoặc cả hai. Tương tự như vậy, là một khái niệm mới nổi, nó vẫn còn rất nhiều điều phải làm về hàng thập kỷ đổi mới mà chúng ta đã thấy trong các lĩnh vực như phân tích trong cơ sở dữ liệu, truy vấn và tối ưu hóa hiệu suất cũng như lưu trữ và nén cột.

Vẫn còn một lập luận xác đáng cho sự tồn tại chung của kho dữ liệu và hồ dữ liệu, nơi nó cung cấp cơ sở cho các doanh nghiệp mở rộng quy mô và dân chủ hóa dữ liệu cũng như hợp lý hóa hệ sinh thái dữ liệu. Phương pháp đồng tồn tại, trong bất kỳ sự kết hợp nào, đều dựa trên những điểm mạnh của mỗi thiết kế kiến ​​trúc để phục vụ nhiều trường hợp sử dụng hơn bất kỳ kiến ​​trúc nào trong số các kiến ​​trúc này có thể hỗ trợ độc lập.

data lakehouse
data lakehouse

Ưu tiên tính linh hoạt

Với bối cảnh toàn cảnh dữ liệu luôn thay đổi và phức tạp, các chuyên gia dữ liệu cần đảm bảo môi trường hiện có của họ sử dụng các kho dữ liệu và / hoặc các hồ dữ liệu hoạt động cùng nhau thay vì chống lại nhau. Ví dụ: kho dữ liệu có thể cung cấp phân tích dữ liệu được xác định rõ ràng và có thể lặp lại trong khi hồ dữ liệu hỗ trợ nhiều trường hợp sử dụng ML thử nghiệm hơn hoặc do nhà phát triển hướng dẫn sử dụng nhóm dữ liệu rộng hơn.

Việc kết hợp cả hai mang lại cho các tổ chức khả năng hỗ trợ các trường hợp sử dụng khác nhau và các đối tượng khác nhau – chẳng hạn như người dùng doanh nghiệp và nhà khoa học dữ liệu, đồng thời áp dụng các phương pháp quản trị dữ liệu khác nhau, quản lý dữ liệu và chất lượng data lakehouse dữ liệu.

Vẫn còn phải xem chính xác vị trí và cách một nhà chứa dữ liệu phù hợp trong môi trường này. Khái niệm này vẫn chưa được thử nghiệm bởi thị trường nói chung, với lời hứa về phương pháp tiếp cận một kích thước phù hợp với tất cả có thể là một bước quá xa đối với những tổ chức đã đầu tư đáng kể vào các kho và hồ dữ liệu. Tuy nhiên, đây là một cuộc tranh luận quan trọng cần có trong một thị trường cơ sở hạ tầng dữ liệu đổi mới và chuyển động nhanh như vậy tiếp tục phát triển.

Từ khóa:

  • Building the data lakehouse pdf
  • Data Lakehouse là gì
  • Distributed data mesh
  • Data lake vs data warehouse vs lake house
  • Xây dựng Data Lake
  • Snowflake data lake
  • Data Lakehouse Azure
  • Delta Lake

Nội dung liên quan: