(data.gov.vn) Trong cơ quan nhà nước, vấn đề cũng sảy ra khi mỗi bộ, ngành, địa phương hay thậm chí là các đơn vị chuyên môn trong các cơ quan có dữ liệu riêng của mình nhưng các hệ thống thông tin rời rạc, thiếu gắn kết, dữ liệu phân mảnh. Điều này sẽ dẫn đến các mỗi cơ quan, đơn vị chuyên môn báo cáo các số liệu, thông tin khác nhau. Dữ liệu không đủ độ tin cậy cho việc chỉ đạo điều hành tổng thể. Đây là một vấn đề sảy ra nếu không chú ý đến việc quản lý và duy trì dữ liệu chủ.
Nhiều cơ quan, tổ chức, doanh nghiệp ngày nay, đặc biệt là các cơ quan, tổ chức, doanh nghiệp có phạm vi hoạt động rộng lớn cả nước hay toàn cầu có rất nhiều lên đến hàng trăm ứng dụng và hệ thống riêng biệt (như ERP, CRM...) và sử dụng cho các đơn vị khác nhau. Dữ liệu sử dụng trong nhiều đơn vị, bộ phận của tổ chức có thể dễ dàng bị phân mảnh, trùng lặp và không đồng bộ. Khi những vấn đề phân mảnh, trùng lặp dữ liệu sảy ra, điều này sẽ dẫn đến các thông tin tổng hợp không chính xác. Các thông tin giữa các đơn vị sai lệch thiếu đồng bộ sẽ dẫn đến các bộ phận trong một tổ chức hoạt động thiếu gắn kết, rời rạc.
Trong cơ quan nhà nước, vấn đề tương tự cũng sảy ra khi mỗi bộ, ngành, địa phương hay thậm chí là các đơn vị chuyên môn trong các cơ quan có dữ liệu riêng của mình nhưng các hệ thống thông tin rời rạc, thiếu gắn kết, dữ liệu phân mảnh. Điều này sẽ dẫn đến các mỗi cơ quan, đơn vị chuyên môn báo cáo các số liệu, thông tin khác nhau. Dữ liệu không đủ độ tin cậy cho việc chỉ đạo điều hành tổng thể. Đây là một vấn đề sảy ra nếu không chú ý đến việc quản lý và duy trì dữ liệu chủ.
Chính vì những vấn đề vướng mắc này và góp phần xử lý việc cát cứ về dữ liệu, Nghị định 47/2020/NĐ-CP ra đời đã đưa ra khái niệm dữ liệu chủ. Đây là lần đầu tiên có đề cập đến khái niệm Dữ liệu chủ trong các văn bản quy phạm pháp luật. Cụ thể các điều khoản có đề cập đến dữ liệu chủ bao gồm:
- Khoản 9, Điều 3: Dữ liệu chủ (master data): là dữ liệu chứa thông tin cơ bản nhất để định danh và mô tả các đối tượng thực thể nghiệp vụ cốt lõi và độc lập.
- Tại Khoản 2, Điều 9 có quy định nguyên tắc quản lý dữ liệu trong cơ quan nhà nước có quy định Việc tạo lập, thông tin dữ liệu trong các cơ sở dữ liệu trong cơ quan nhà nước phải sử dụng thống nhất các bảng mã danh mục dùng chung, thống nhất với dữ liệu chủ do cơ quan nhà nước có thẩm quyền ban hành.
- Khoản 3, Điều 12 có quy định Cơ sở dữ liệu quốc gia chứa dữ liệu chủ của Chính phủ làm cơ sở tham chiếu, đồng bộ dữ liệu giữa các cơ sở dữ liệu của bộ, ngành, địa phương;
- Điểm a, Khoản 1, Điều 34 quy định Dữ liệu chủ trong CSDLQG và dữ liệu chủ trong cơ sở dữ liệu của bộ, ngành, địa phương phải được chia sẻ theo hình thức chia sẻ mặc định.
Vậy dữ liệu chủ như thế nào, và trong công nghệ thông tin thì khái niệm dữ liệu chủ được hiểu thế nào và tầm quan trọng của dữ liệu chủ ra sao, chúng ta cùng tổng hợp một số nội dung, kinh nghiệm trong lĩnh vực công nghệ thông tin nói chung trên thế giới để có cách nhìn tổng quan về dữ liệu chủ.
Theo Techtarget.com, dữ liệu chủ là dữ liệu cốt lõi cần thiết cho hoạt động trong một lĩnh vực nhất định hoặc trong một cơ quan, tổ chức. Các loại dữ liệu được coi là dữ liệu chủ được sử dụng xuyên suốt từ lĩnh vực này sang lĩnh vực khác và thậm chí từ cơ quan, tổ chức này sang cơ quan tổ chức khác trong cùng một hoặc nhiều lĩnh vực.
Theo Wikipedia: Dữ liệu chủ là dữ liệu đại diện cho các đối tượng nghiệp vụ có chứa thông tin có giá trị nhất, được thống nhất và chia sẻ trong một tổ chức. Theo nghĩa này, nó cung cấp bối cảnh cho các hoạt động và giao dịch nghiệp vụ; trả lời các câu hỏi như ai, cái gì, khi nào và như thế nào cũng như mở rộng khả năng hiểu rõ các hoạt động này thông qua phân loại, nhóm và phân cấp. Nó có thể bao gồm dữ liệu tham chiếu tương đối tĩnh, giao dịch, phi cấu trúc , phân tích, phân cấp và siêu dữ liệu . Do đó, yếu tố cấu thành dữ liệu chủ theo định nghĩa này không chỉ về dữ liệu cơ bản (ví dụ: nó là một thực thể nghiệp vụ cung cấp bối cảnh cho các giao dịch nghiệp vụ), mà là về bối cảnh mà tổ chức đã quyết định xử lý dữ liệu.
Về bản chất, dữ liệu chủ hầu như luôn không mang tính giao dịch mà dữ liệu chủ là chủ thể để tạo nên các giao dịch và được ghi nhận các giao dịch dưới dạng dữ liệu giao dịch.
Theo định nghĩa của Gartner: dữ liệu chủ là tập hợp các định danh thống nhất và các thuộc tính mở rộng. Và nó mô tả các thực thể cốt lõi của tổ chức, doanh nghiệp bao gồm các dữ liệu như khách hàng, nhà cung cấp, đơn vị kinh doanh, tài khoản,…
Theo Philip Russom: dữ liệu chủ là các định nghĩa nhất quán trong toàn bộ doanh nghiệp, tổ chức (khách hàng, sản phẩm,…). Và các dữ liệu về các thực thể này được quản lý trên một hệ thống công nghệ thông tin tổng thể của tổ chức., doanh nghiệp, thậm chí vượt ngoài phạm vi doanh nghiệp.
Theo technopedia: Một mô tả rõ ràng về dữ liệu chủ gồm dữ liệu thông tin khách hàng, hàng hóa,… Loại dữ liệu này được coi là dữ liệu chính khác với các dữ liệu của giao dịch. Các dữ liệu chủ được sử dụng liên tục và nhất quán trong các giao dịch liên quan trên toàn hệ thống. Và dựa vào các thông tin này để phân tích hành vì khách hàng, thiết lập danh bạ hoặc tiến hành nghiên cứu ở tầm cao.
Theo Profisee, Dữ liệu chủ là Dữ liệu cốt lõi trong doanh nghiệp mô tả các đối tượng xung quanh nơi hoạt động nghiệp vụ được tiến hành. Nó thường không thường xuyên thay đổi và có thể bao gồm dữ liệu tham chiếu cần thiết để vận hành của tổ chức. Dữ liệu chủ về bản chất không phải là dữ liệu giao dịch, nhưng nó mô tả các giao dịch.
Trong một tổ chức, doanh nghiệp, dữ liệu chủ thường bao gồm một số loại dữ liệu sau:
- Dữ liệu con người (khách hàng, nhân viên, cán bộ, người dân….);
- Dữ liệu đối tượng quản lý (sản phẩm, vật phẩm, công cụ, tài sản, …);
- Dữ liệu địa điểm (vị trí, văn phòng, địa chỉ, địa danh…);
- Đối tượng dữ liệu khác khác (giấy phép, hợp đồng, văn bản…).
Một số loại dữ liệu trên có thể được chia nhỏ hơn nữa. Ví dụ: khách hàng có thể được chia nhỏ hơn dựa trên các phân loại như “khách hàng bình thường” và “khách hàng lớn” hoặc theo lịch sử của khách hàng. Sản phẩm có thể được phân chia theo lĩnh vực và ngành. Các khu vực địa lý có thể được chia nhỏ hơn nữa thành các lãnh thổ hoặc theo mức độ tập trung của khách hàng.
Theo Sermachy: Dữ liệu chủ được xác định theo năm danh mục dữ liệu chính:
- Dữ liệu các bên tham gia (Parties): thể hiện đối tượng là cá nhân, tổ chức tham gia vào một nghiệp vụ của tổ chức bao gồm: khách hàng, khách hàng tiềm năng, nhà cung cấp và đối tác.
- Dữ liệu nơi chốn (Places): Các địa điểm trên thực tế bao gồm cả vị trí trụ sở của cơ quan, doanh nghiệp, chi nhánh, khu vực
- Dữ liệu vật thể (Things): các đối tượng quản lý, sản phẩm của cơ quan, tổ chức như tài sản, dịch vụ, sản phẩm.
- Dữ liệu tài chính và tổ chức (Financial and Organisation): các danh mục kế toán, cơ cấu tổ chức, tài khoản, bảng giá…
- Dữ liệu tham chiếu (Reference Data): Dữ liệu danh mục chứa các giá trị cung cấp ngữ cảnh cho dữ liệu chính khác hoặc dữ liệu giao dịch khác. Ví dụ nư danh mục quốc gia, tiểu bang, lĩnh vực hoạt động, danh mục phân loại phân loại, v.v.
Khái niệm dữ liệu được theo khái niệm phân định bên trên chủ thường gắn với các đối tượng quản lý, nhưng không phải tất cả dữ liệu phù hợp với khái niệm trên nhất thiết phải được xác định là dữ liệu chủ. Nói chung, dữ liệu chủ thường là một phần nhỏ của tất cả dữ liệu trong các cơ quan, tổ chức nhưng đó là một số dữ liệu phức tạp nhất và có giá trị nhất để duy trì và quản lý của các tổ chức.
Các loại dữ liệu nào được xác định là dữ liệu chủ và việc xác định dữ liệu chủ theo tiêu chí gì? Một số tiêu chí sau được sử dụng cân nhắc đồng thời để xác định dữ liệu chủ:
- Hành vi: Dữ liệu chủ được mô tả bằng hành vi tương tác với dữ liệu khác. Dữ liệu chủ thường là chủ thể của hành vi còn dữ liệu giao dịch là hành vi do chủ thể đó tạo ra. Nói một cách nôm na là dữ liệu chủ được hình dung như là danh từ trong khi dữ liệu giao dịch xác định là động từ và cả dữ liệu chủ và dữ liệu giao dịch ghép lại là một câu.
- Vòng đời: Dữ liệu chủ được xác định là đối tượng dữ liệu có vòng đời. Điều đó có nghĩa là nó được tạo ra, truy vấn, cập nhật và hủy. Ví dụ: dữ liệu chủ là thông tin khách hàng của một tổ chức sẽ xác định bằng việc tổ chức đó khởi tạo khi có một khách hàng mới, khách hàng đó được quản lý trong hệ thống công nghệ thông tin, cập nhật và được loại bỏ khỏi hệ thống khi người đó không còn là khách hàng thêm nữa.
- Số lượng: xác định dữ liệu là dữ liệu chủ phụ thuộc và số lượng phần tử dữ liệu quản lý. Đây là yếu tố cân nhắc. Đối tượng dữ liệu có số lượng quá nhiều hoặc quá ít cũng không được xác định là dữ liệu chủ.
- Biến động: dữ liệu chủ có xu hướng xác định là dữ liệu ít biến động. Một số cơ quan, đơn vị, tổ chức có thể coi dữ liệu về hợp đồng là một phần tử dữ liệu chủ. Nhưng một tổ chức khác có thể coi đó là dữ liệu đó giao dịch. Điều này tùy thuộc vào thời hạn của hợp đồng và sự ảnh hưởng của hợp đồng với các thông tin, hoạt động khác của tổ chức
- Độ phức tạp: một phần tử dữ liệu có độ phức tạp thấp thường không được xem xét xác định là dữ liệu chủ. Ví dụ: Một phần tử dữ liệu mô tả một loại tài sản có độ phức tạp thấp và thường ít thay đổi dẫn đến nhu cầu quản lý duy trì cho phần tử đó thấp. Đối với các tài sản này thường được quản lý theo số lượng để kiểm kê.
- Giá trị: một phần tử dữ liêu mô tả đối tượng có giá trị của cơ quan, tổ chức thì khả năng xác định phần tử dữ liệu đó là dữ liệu chủ cao.
- Sự cập nhật: dữ liệu chủ thường là ít được cập nhật, ít có sự thay đổi về thuộc tính nhưng đối với các đối tượng dữ liệu hoàn toàn không có sự biến động dữ liệu thường không xác định là dữ liệu chủ.
- Sử dụng lại: Tiêu chí quan trọng nhất để xác định dữ liệu chủ là sử dụng lại dữ liệu đó trong nhiều hệ thống khác nhau.
Trong một tổ chức, lĩnh vực, khi quyết định loại thực thể nào được coi là dữ liệu chủ nên phân loại chúng theo hành vi và thuộc tính của chúng trong bối cảnh nhu cầu của tổ chức quản lý và trên cơ sở phân tích, đánh giá của chuyên gia dữ liệu hơn là chỉ dựa vào danh sách tiêu chí thuần túy nêu trên. Các tiêu chí trên là các thông tin giúp định hình việc xác định dữ liệu chủ còn việc áp dụng xác định cụ thể dữ liệu chủ phải căn cứ trên giải pháp thiết kế kiến trúc dữ liệu và tổ chức quản lý dữ liệu trên thực tế.
Các phân tích và thống kê quan trọng trong tổ chức thường phụ thuộc vào độ chính xác của dữ liệu tổng thể. Dữ liệu chủ có thể được lưu trữ bằng cách sử dụng kho lưu trữ trung tâm, hoặc được tham chiếu tập trung thông qua một chỉ mục. Tuy nhiên, trong một số trường hợp dữ liệu chủ cũng có thể được lưu trữ trong nhiều ứng dụng khác nhau trong một tổ chức. Dữ liệu khi được nhân bản có thể thiếu sự nhất quán (hoặc không chính xác). Để khắc phục điều này, dữ liệu chủ nên có chính sách quản lý, phân quyền cập nhật phù hợp để quản lý thống nhất.
Vậy tại sao cần xác định dữ liệu chủ và vai trò của dữ liệu chủ? Vì dữ liệu chủ được sử dụng bởi nhiều ứng dụng, tham chiếu nhiều cơ sở dữ liệu nên một sai sót trong dữ liệu có thể gây ra lỗi cho tất cả các ứng dụng, cơ sở dữ liệu tham chiếu, sử dụng nó. Vì vậy, dữ liệu chủ là yếu tố thống nhất toàn bộ dữ liệu giữa các ứng dụng, thành phần, đơn vị hay các lĩnh vực có liên quan đến nhau.
(Xin xem tiếp phần 2: Quản lý dữ liệu chủ -Master Data Management)
Tài liệu tham khảo:
https://searchdatamanagement.techtarget.com/definition/master-data
https://profisee.com/master-data-management-what-why-how-who/
https://www.tibco.com/reference-center/what-is-master-data-management
https://en.wikipedia.org/wiki/Master_data
https://erps.vn/master-data-la-gi/
https://www.semarchy.com/what-is-master-data/
https://www.dataqualitypro.com/blog/beginners-guide-to-mdm-master-data-management
https://www.tibco.com/reference-center/what-is-master-data-management
Tin xem nhiều

Các câu hỏi để kiểm tra mức độ an toàn khi chia sẻ dữ liệu
- Tổng quan về mô hình hóa dữ liệu (Lượt đọc: 20780)
- Công nghệ tiêu chuẩn của kiến trúc Dịch vụ Web service (Lượt đọc: 18241)
- Kinh tế dữ liệu Châu Âu, hiện trạng và định hướng đến 2025 (Lượt đọc: 17248)
- Quản lý dữ liệu và các nguyên tắc quản lý dữ liệu tốt (Lượt đọc: 16641)
- Nghiên cứu và phân tích các mô hình cơ sở dữ liệu phổ biến (Lượt đọc: 12034)
- Tổng quan 7 điểm cơ bản về quản trị dữ liệu (Lượt đọc: 8150)
- Dữ liệu chủ và xác định dữ liệu chủ (Lượt đọc: 7839)
- Xác định cơ sở dữ liệu quốc gia và những điểm mới quy định về cơ sở dữ liệu quốc gia tại Nghị định 47/2020/NĐ-CP (Lượt đọc: 7366)
- Hướng dẫn mô hình công dân trong tổng thể các CSDL trong CQNN (Lượt đọc: 6197)
- Hiện trạng triển khai các Cơ sở dữ liệu quốc gia (Lượt đọc: 5863)
- Ứng dụng công nghệ thông tin trong điều tra thống kê và chia sẻ dữ liệu với các bộ, ngành (Lượt đọc: 5650)
- Phương pháp phân tích dữ liệu của Trung tâm phân tích dữ liệu thông minh tại Ấn Độ- CEDA (Lượt đọc: 5116)
- Tiêu chuẩn Lược đồ XML 1.1 (eXtensible Markup Language Schema 1.1 – XSD 1.1) (Lượt đọc: 5007)
- Bộ Thông tin và Truyền thông xin ý kiến về Chiến lược dữ liệu quốc gia (Lượt đọc: 4832)
- Hiểu đúng về chính phủ Mở (Lượt đọc: 4563)
- Hướng dẫn tuân thủ các yêu cầu cơ bản về tính năng, chức năng, đặc tính cung cấp dữ liệu của CSDLQG (Lượt đọc: 4184)
- Long An ban hành danh mục cơ sở dữ liệu dùng chung của tỉnh (Lượt đọc: 4182)
- Những thành phần cơ bản của XML (Lượt đọc: 3960)
- 61 cơ quan, đơn vị đã kết nối, liên thông dữ liệu qua nền tảng NGSP do Bộ TT&TT xây dựng (Lượt đọc: 3887)