Nghiên cứu

Quản trị dữ liệu-nền tảng của đổi mới sáng tạo

(KHCN)-Cơ sở dữ liệu là một hệ thống các thông tin có cấu trúc, được lưu trữ trên các thiết bị lưu trữ nhằm thõa mãn yêu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng chạy cùng một lúc với những mục đích khác nhau.

Việc sử dụng hệ thống CSDL này sẽ khắc phục được những khuyết điểm của cách lưu trữ dươi dạng hệ thống tập tin, đó là:
•    Giảm trùng lặp thông tin ở mức thấp nhất, đảm bảo tính nhất quán và toàn vẹn dữ liệu
•    Đảm bảo dữ liệu được truy xuất theo nhiều cách khác nhau, từ nhiều người khác nhau và nhiều ứng dụng khác nhau.
•    Tăng khả năng chia sẽ thông tin. Ví dụ nếu ta đặt hệ thống dữ liệu tại Việt Nam thì ở bên Mỹ  nếu có password logi vào thì ta hoàn toàn có thể vào hệ thống để đọc tin
Tuy nhiên việc sử dụng hệ quản trị CSDL lại có những phiền hà không hề nhỏ sau đây:
•    Phải đảm bảo tính chủ quyền của dữ liệu, vì khi sử dụng có tính chất chia sẽ cao
•    Bảo mật quyền khai thác thông tin
•    Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra
•    Khi gặp các trục trặc sự cố thì phải bảo đảm vấn đề an toàn dữ liệu, không bị mất dữ liệu
 Khi sử dụng các hệ thống CSDL thì bạn phải có một hệ quản trị CSDL. Khi khối lượng dữ liệu sẵn có ngày càng gia tăng thì sự phát triển của các kỹ thuật và công nghệ mới trong mọi giai đoạn của vòng đời dữ liệu, từ thu thập, lưu trữ, thao tác, phân tích, sử dụng đến phổ biến dữ liệu cũng ngày càng phát triển. Ngược lại, những công nghệ này làm gia tăng giá trị của dữ liệu thô, đưa đến việc thu thập nhiều hơn và thậm chí tính khả dụng của dữ liệu cũng tăng lên.

Thu thập dữ liệu
Thu thập dữ liệu là bước đầu tiên trong chu trình đổi mới dựa vào dữ liệu. Tính đến năm 2012, khoảng 2,5 tỷ gigabyte dữ liệu đã được thu thập mỗi ngày trên toàn cầu, một phần đáng kể trong số đó là video. Trong khi đó, toàn bộ bộ sưu tập in trong Thư viện Quốc hội Hoa Kỳ mới chỉ chiếm khoảng 10.000 gigabyte.

Hai nguồn chính của dữ liệu số mới là các thiết bị cảm biến vật lý và các biểu ghi điện tử. Hầu hết các thiết bị điện tử, kích thước và giá thành của nhiều thiết bị cảm biến đã giảm đáng kể trong thập kỷ qua trong khi chức năng của chúng tăng đáng kể. Công nghệ cảm biến dẫn đến một loạt những thiết bị đo các biến số vật lý như nhiệt độ, áp suất, định vị, thành phần hóa học, dòng điện, chuyển động, hàm lượng ánh sáng và nhiều biến số khác. Các thiết bị cảm biến là một phần không thể thiếu của Internet vạn vật - IoT, một khái niệm được sử dụng để mô tả một thế giới nơi hàng ngày, các đối tượng, từ máy bay tới tủ lạnh và giày chạy, có thể giao tiếp với nhau và với người sử dụng chúng. Ví dụ, máy bay Boeing 787 tạo ra hơn một nửa terabyte dữ liệu trong mỗi chuyến bay từ các động cơ, thiết bị hạ cánh và các thiết bị khác. Các thiết bị cảm biến có tính chuyên dụng cao và nhiều biến số của thiết bị thường được sử dụng để đo một biến môi trường nhất định trong các phạm vi ứng dụng khác nhau. Các nhà khoa học dữ liệu thường sử dụng các kỹ thuật xử lý tín hiệu và lập mô hình thống kê để thu được những hiểu biết từ dữ liệu cảm biến, ví dụ như Trung tâm Khí tượng quốc gia sử dụng việc lập mô hình khí hậu trong các dự báo của mình. Lượng dữ liệu cảm biến sẽ tiếp tục tăng khi các thiết bị cảm biến hiệu quả hơn và rẻ hơn, và các công ty đã nhúng chúng vào các thiết bị ngày càng nhiều. Sự ra đời của các bộ xử lý giá rẻ, tiêu thụ điện năng thấp cũng sẽ hỗ trợ cho sự gia tăng dữ liệu cảm biến, cho phép các công ty có thể nhúng năng lực xử lý thông minh vào bất kỳ thiết bị nào.

Biểu ghi điện tử bao gồm các dữ liệu có cấu trúc và phi cấu trúc. Dữ liệu có cấu trúc là dữ liệu được tổ chức chặt chẽ và dễ dàng truy vấn, chẳng hạn như dữ liệu bảng về các giao dịch, chi tiết tài khoản và các hoạt động trực tuyến khác. Theo thiết kế, việc phân tích dữ liệu có cấu trúc thường đơn giản hơn; các ứng dụng nhất định, chẳng hạn như phân tích mạng lưới và lập mô hình dự báo, cần đến dữ liệu có cấu trúc. Dữ liệu phi cấu trúc là dữ liệu được tổ chức kém hơn và không thích hợp để truy vấn, chẳng hạn như hình ảnh, video và âm thanh. Ví dụ, một biểu ghi điện tử của phòng thí nghiệm của một bệnh viện hay một bảng kê khai hàng hóa vận chuyển được số hóa của một công ty vận tải thường được lưu trữ theo các định dạng có cấu trúc; tin tức, video trực tuyến và các đánh giá sản phẩm bằng văn bản thường là các dữ liệu phi cấu trúc.

Dữ liệu có cấu trúc được các tổ chức, cả công và tư, thu thập với số lượng lớn. Tuy nhiên, phần lớn dữ liệu được thu thập hiện nay là phi cấu trúc và nhiều trong số đó dưới dạng video. Tính đến tháng 6 năm 2012, cứ mỗi phút người dùng đã tải lên YouTube 48 giờ video.

Những tiến bộ đạt được trong các mạng cố định và không dây cũng ảnh hưởng đến lượng dữ liệu được thu thập và hàng loạt các cơ hội cho đổi mới dựa vào dữ liệu. Một phân tích của Cisco năm 2013 cho rằng lưu lượng sử dụng internet trên toàn cầu thông qua các mạng viễn thông sẽ tăng lên gần ba lần từ năm 2012 đến năm 2017, với tổng số 3,1 exabyte mỗi ngày.

Lưu trữ

Dữ liệu phải được lưu trữ ngay sau khi thu thập. Vệc lưu trữ dữ liệu hiệu quả và linh hoạt có thể làm đơn giản hóa phân tích dữ liệu và tiết kiệm đáng kể chi phí. Trong hai thập kỷ qua, lưu trữ dữ liệu đã được hưởng lợi từ những thành tựu đạt được trong đổi mới sáng tạo phần mềm và phần cứng.

Phần cứng được cải tiến cho phép chi phí lưu trữ giảm mạnh; năm 1980, chi phí cho lưu trữ một gigabyte dữ liệu vào khoảng 440.000 USD, thì năm 2013, chi phí này chỉ khoảng 0,05 USD. Những tiến bộ đạt được tại các trung tâm dữ liệu cũng đã làm cho việc lưu trữ dữ liệu với số lượng lớn của các tổ chức dễ dàng hơn và với chi phí thấp hơn do sử dụng các phương pháp lưu trữ điện toán đám mây từ xa. Ngoài những cải tiến đáng kể về phần cứng, các nhà phát triển đã tạo ra một loạt các phần mềm cơ sở dữ liệu được thiết kế để lưu trữ dữ liệu phi cấu trúc và có khả năng mở rộng “dữ liệu lớn”. Các cơ sở dữ liệu với ngôn ngữ truy vấn có cấu trúc (SQL) truyền thống dựa vào các cấu trúc được tổ chức chặt chẽ, đôi khi không phù hợp với dữ liệu đầu vào không đồng nhất và thay đổi. Những hệ thống này, đã được sử dụng trong nhiều thập kỷ để lưu trữ các tập tin của nhân viên, dữ liệu doanh số bán hàng và các thông tin được tổ chức chặt chẽ khác, không dễ dàng mở rộng cho nhiều ứng dụng khoa học dữ liệu hiện đại, chẳng hạn như lưu trữ tài liệu.

Các công ty của Hoa Kỳ, cùng với cộng đồng mã nguồn mở toàn cầu, là những người tiên phong trong việc phát triển các công nghệ khắc phục một số những hạn chế này. Nói chung, các công nghệ mới được gọi là công nghệ không phải SQL hay NoSQL (not only SQL), để biểu thị sự loại bỏ các tính chất SQL khác nhau, bao gồm cả những hạn chế về lưu trữ tập trung và sửa đổi dữ liệu.

TH
Ý kiến bình luận của bạn đã được gửi!
Bật chế độ gõ tiếng Việt
Bình luận của bạn Để thuận tiện cho việc đăng tải, bạn vui lòng nhập ý kiến phản hồi bằng tiếng Việt có dấu.

Thông tin website

Chuyên trang Bản tin khoa học công nghệ.
Thực hiện : Phòng Khoa học - Công nghệ, Trung Tâm CNTT, BộVăn hoá,Thể thao & Du lịch.
Người chịu trách nhiệm chính: Nguyễn Thanh Liêm - Giám đốc.

Địa chỉ: Ngõ 2 số 20, Vân Hồ, Hoa Lư, Hà Nội;
Tel: 0243 9745845
Email: khoahoccongnghe@cinet.gov.vn
Ghi rõ nguồn khi phát lại thông tin từ website này.

Liên hệ Tòa soạn