Trong 1 thập kỉ đổ lại đây, giới công nghệ thông tin thường nhắc tới cụm từ “Cloud”, đây là một lĩnh vực khá mới mẻ đang được khai thác mạnh mẽ bởi nhiều công ty lớn trên thế giới như apple, dropbox, box…Tuy nhiên, từ năm 2011 cụm từ “Big Data” đang bắt đầu thu hút được sự quan tâm từ nhiều lĩnh vực khác nhau.
Đến thời điểm hiện tại, có khá nhiều công cụ IT được sử dụng để doanh nghiệp có thể khai thác triệt để dữ liệu, thông tin vào hoạt động kinh doanh của mình. Cụ thể có thể kể đến công cụ DWH (Data warehouse) và BI (Business intelligence), đang được các doanh nghiệp sử dụng để quản lý thông tin về công cụ, sản phẩm hay thông tin khách hàng và thông tin bán hàng.
Vậy thì yếu tố nào đã giúp Big Data thu hút được sự quan tâm của của nhiều người như vậy? Loạt bài viết này sẽ mang đến cho bạn đọc câu trả lời.
Nếu dịch nguyên cụm từ Big Data ai chũng có thể nghĩ chúng mang nghĩa “Khối dữ liệu lớn”. Đối với một số doanh nghiệp đang sử dụng DWH với dung lượng quy mô lớn vào khoảng vài Terabyte thì liệu có thể được gọi là Big Data? Một ví dụ khác, khi nhắc tới cụm từ Big Data sẽ không ít người sẽ nghĩ đến những mạng xã hội kiểu Facebook hay Twitter. Cũng dễ hiểu thôi khi Facebook đã vượt ngưỡng 8 triệu thành viên và một ngày có thể xử lý tới 10 Terabyte dữ liệu. Tuy nhiên những mạng xã hội này hầu như đang sử dụng những công cụ riêng để xử lý dữ liệu như RDBMS (Relational database) hay NoSQL(1). Vậy Big Data liệu có phải là hệ thống NoSQL?
Nếu nhìn từ 2 ví dụ trên chúng ta hoàn toàn có thể suy nghĩ rằng “Big Data chính là hệ thống xử lý dữ liệu quy mô lớn cỡ Petabyte, sử dụng công cụ NoSQL. Thực ra, câu trả lời này chỉ đúng một phần, và nó không thể hiện được toàn bộ bản chất của Big Data. Big Data thực ra mang một ý nghĩa phức tạp hơn.
Tại sao lại nói như vậy? Bởi vì trên thế giới đã tồn tại những doanh nghiệp đang sử dụng hệ thống RDBMS (Relational DataBase Management System) với lượng dữ liệu sử dụng khá lớn. Ví dụ, Bank of America đang sở hữu một hệ thống DWH với dung lượng sử dụng lên tới trên 1,5 Terabyte, chuỗi cửa hàng Wal-Mart thì sử dụng tơi 2,5 Terabyte, hay dung lượng trang bán hàng trực tuyến eBay sử dụng còn lên tới 6 Terabyte. Bởi vậy, không có nghĩa rằng cứ sử dụng một lượng dung lượng lớn tới vài Tetabyte thì được gọi là Big Data.
Hơn nữa, so với RDBMS thì NoSQL được cho là hệ thống luôn hướng tới mở rộng quy mô (Scale-up: là việc tăng tốc độ sử lý bằng cách tăng số lượng máy sever và dung lượng lưu trữ). Tuy nhiên không phải vì thế mà hệ thống RDBMS trở nên không còn cần thiết. NoSQL là hệ thống thích hợp để xử lý dữ liệu phi cấu trúc hóa như văn bản hay hình ảnh, nhưng hệ thống này lại không thích hợp để xử lý những dữ liệu mang tính chính xác (dữ liệu cấu trúc hóa) như số trị. Thực tế thì Facebook vẫn đang sử dụng cả 2 hệ thống này trong hoạt động hàng ngày của mình. Tóm lại, phụ thuộc vào chủng loại dữ liệu mà hệ thống RDBMS hoặc NoSQL sẽ được sử dụng.
Vậy thì rốt cuộc Big Data là gì?
Thực tế có không ít định nghĩa về Big Data và vẫn chưa có một định nghĩa thống nhất. Trong bài viết này, tôi sẽ giới thiệu với các bạn một trong số đó.
Big Data là một cụm từ biểu thị một hệ thống mới sử dụng lượng dữ liệu lớn và đa dạng hơn bất cứ hệ thống nào đang được sử dụng tại các doanh nghiệp ở thời điểm hiện tại. Big Data được sinh ra trong quá trình phổ cập internet và kĩ thuật IT. Đặc tính của hệ thống này bao gồm: dung lượng, tốc độ cập nhật và tính đa dạng về dữ liệu (Hình 1).
Nhìn vào hình 1 chúng ta có thể nhận thấy 3 điểm khác nhau giữa Big Data với hệ thống
DWH và OLTP (On-Line Transaction Processing).
- Thứ nhất là lượng dữ liệu sử dụng lớn
- Thứ hai là sự đa dạng dữ liệu
- Thứ ba là tần suất cập nhật lớn
Nói một cách đơn giản, Big Data là một hệ thống đáp ứng được những vấn đề còn tồn đọng trong các hệ thống tại thời điểm hiện tại.
Như đã nêu ở trên, điểm đặc trưng của Big Data không chỉ nằm ở lượng mà còn cả về sự đa dạng của dữ liệu. Hệ thống này không chỉ có những dữ liệu cấu trúc hóa như số trị, thứ tự…mà còn bao gồm cả những dữ liệu phi cấu trúc hóa như âm thanh, hình ảnh…Ngoài ra, những dữ liệu bán cấu trúc hóa như thư điện tử, dữ liệu XML hoặc các dạng dữ liệu được tạo ra từ máy móc, cảm biến, thông tin liên lạc (dạng dữ liệu có tần suất cập nhật lớn) cũng có trong Big Data. Và những dữ liệu bao gồm cả dữ liệu trong và ngoài doanh nghiệp.
Trong thực tế, doanh nghiệp đang đi đầu trong việc sử dụng Big Data chỉ có Google và Facebook. Tuy nhiên dạng dữ liệu đang được sử dụng nhiều nhất không phải là những dữ liệu về doanh thu hay dữ liệu khách hàng của các doanh nghiêp, mà phần lớn chỉ là dữ liệu dạng văn bản hay hình ảnh.
Thêm vào đó, dữ liệu liên quan đến khách hàng mà các doanh nghiệp đang sử dụng hiện nay hầu như chỉ tập trung vào những thông tin về khuynh hướng của khách hàng mà không phải là những thông tin về đặc tính khách hàng.
Hình 2 sẽ cho chúng ta thấy sự khác nhau giữa Big Data và các hệ thống tại thời điểm hiện tại. Phía bên trái là những dạng dữ liệu mà hệ thống RDBMS hướng tới, còn bên phải là dạng dữ liệu mà NoSQL hướng tới. Và có thể nói rằng Big Data có hướng xử lý dữ liệu khá trên cơ sở là cách suy nghĩ bên phải. Cho đến nay, hệ thống DWH dẫu có dung lượng khá lớn và tập trung vào dạng dữ liệu cấu trúc hóa, nhưng lại không có tần suất cập nhật cao. Chính vì, một hệ thống đáp ứng được đầy đủ những yếu tố về dung lượng lớn, dữ liệu phi cấu trúc hóa, tần xuất cập nhật cao như Big Data ngày càng trở nên cấp thiết.
(1) http://searchdatamanagement.techtarget.com/definition/NoSQL-Not-Only-SQL
Thực hiện: Bùi Linh
Theo Hitachi
[…] it Nguồn: pushtechnology.com Ở bài viết trước chúng ta đã tìm hiểu về khái niệm về Big Data. Big Data không chỉ đơn thuần là […]