Khóa luận Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại

Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh nghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến lược kinh doanh cho mình một cách chính xác.

Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu quản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý.

Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý phân tích dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến lược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu.

Tại Công Ty Cổ Phần Truyền Thông VMG , xây dựng kho dữ liệu có ý nghĩa hết sức quan trọng. Kho dữ liệu sẽ thu thập dữ liệu từ các hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho các nhà quản lý có thể có những thông tin chính xác nhanh chóng, hỗ trợ cho việc ra các quyết định kịp thời và có lợi nhất cho doanh nghiệp. Ngoài ra kho dữ liệu còn cung cấp cho những người phát triển các ứng dụng phân tích dữ liệu dễ dàng tiếp cận dữ liệu, có được dữ liệu chính xác hơn và phát triển ứng dụng dễ dàng hơn.

Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần Truyền Thông VMG , khóa luận sẽ thực hiện “Áp dụng kho dữ liệu trong phân tích số liệu về các dịch vụ giá trị gia tăng trên điện thoại” bằng công cụ của Microsoft SQL Server 2005 với mong muốn xây dựng được kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý tại Công Ty Cổ Phần Truyển Thông VMG.

 

doc71 trang | Chia sẻ: luyenbuizn | Lượt xem: 1038 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Lương Thái Đức Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Lương Thái Đức Áp dụng Data Warehouse trong phân tích thông tin về các dịch vụ giá trị gia tăng trên điện thoại KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: ThS. Lê Hồng Hải HÀ NỘI - 2010 LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo ThS. Lê Hồng Hải, người đã tận tình hướng dẫn em trong suốt quá trình nghiên cứu và hoàn thành khóa luận tốt nghiệp. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ là hành trang giúp em vững bước trong tương lai. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những người luôn kịp thời động viên và giúp đỡ em vượt qua những khó khăn trong cuộc sống. Hà nội, ngày 21/05/2010 Nguyễn Lương Thái Đức DANH SÁCH HÌNH VẺ Hình 1.1 Kiến trúc kho dữ liệu 12 Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu 15 Hình 2.3 Tiến trình ETL nằm ở server chứa kho dữ liệu 15 Hình 2.3 Tiến trình ETL nằm ở server trung gian 16 Hình 2.4 Lược đồ hình sao 17 Hình 2.5 lược đồ hình bông tuyết 18 Hình 2.6 Mô hình dữ liệu nhiều chiều 18 Hình 3.1 Các dịch vụ của SQL Server 2005 22 Hình 3.2 Công cụ phát triển SSIS 24 Hình 3.3 Kiến trúc của SSAS 26 Hình 3.4 Kết quả truy vấn 29 Hình 3.5 Kiến trúc của Reporting Service 31 Hình 3.5 Mô hình xây dựng kho dữ liệu 32 Hình 4.1 sơ đồ kho dữ liệu tổng hợp sản lượng dịch vụ 35 Hình 4.2 Sơ đồ kho dữ liệu chủ đề quảng cáo và doanh thu 40 Hình 4.3Mô hình dữ liệu nguồn của chiều quảng cáo. 42 Hình 4.4 Mô hình kho dữ liệu chủ đề chi tiết sử dụng dịch vụ 43 Hình 4.5 Mô hình ETL 45 Hình 4.6 Ánh xạ chiều mã dịch vụ 46 Hình 4.7 Ánh xạ chiều mạng viễn thông 46 Hình 4.8 Ánh xạ chiều đầu số 47 Hình 4.9 Ánh xạ nhóm dịch vụ 47 Hình 4.10 Ánh xạ chiều quảng cáo. 48 Hình 4.11 Ánh xạ cho chiều khách hàng. 49 Hình 4.12 Lược đồ kho dữ liệu tổng hợp sản lượng. 50 Hình 4.13 Chọn các bảng cho data soures views 51 Hình 4.14 Đặt các quan hệ cho các bảng 52 Hình 4.15 Quyết định các bảng chiều và sự kiện 53 Hình 4.17 Chọn các Measures. Các thành phần tính toán. 53 Hình 4.18 Định nghĩa các hàm tính toán 54 Hình 4.19 Kết quả hiển thị truy vấn 55 Hình 4.20 Xây dựng truy vấn 57 Hình 4.21 Thiết kế báo cáo 58 Hình 4.22 Màn hình xây dựng báo cáo 58 Hình 4.22 Kết quả hiển thị. 59 Hình 4.24 Báo cáo theo mạng viễn thông. 60 Hình 4.25 Báo cáo theo nhóm dịch vụ 61 THUẬT NGỮ VÀ VIẾT TẮT SSIS (SQL Server Intergration Services): Dịch vụ tích hợp dữ liệu của SQL Server 2005 SSAS(SQL Server Analysis Services): Dịch vụ phân tích dữ liệu của SQL Server 2005 SSRS(SQL Server Reporting Services): Dịch vụ quản lý báo cáo của SQL Server 2005 MSSQL(Microsoft SQL Server ): Hệ quản trị cơ sở dữ liệu của Microsoft. OLAP (Online Transaction Processing): xử lý giao dịch trực tuyến. ETL (Extract Transform Load ): Tiến trình trích xuất, chuyển đổi và nạp dữ liệu. MDX(Multidimensional eXpressions) : Ngôn ngữ truy vấn đa chiều. BIDS(Business Intelligence Deverlopment Studio) : công cụ phát triển của SQL Server 2005. TÓM TẮT NỘI DUNG Nội dung chính của đề tài là xây dựng kho dữ liệu cho việc quản lý kinh doanh các dịch vụ giá trị gia tăng trên điện thoại tại Công Ty Cổ Phần Truyền Thông VMG Việt Nam. Đề tài sẽ sử dụng các công cụ của Microsoft SQL Server 2005 để xây dựng kho dữ liệu từ hệ thống hiện tại của công ty, quản lý kho dữ liệu và xây dựng các báo cáo cho người dùng có thể xem qua web. MỞ ĐẦU Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh nghiệp nào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến lược kinh doanh cho mình một cách chính xác. Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu quản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý. Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý phân tích dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến lược kinh doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu. Tại Công Ty Cổ Phần Truyền Thông VMG , xây dựng kho dữ liệu có ý nghĩa hết sức quan trọng. Kho dữ liệu sẽ thu thập dữ liệu từ các hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho các nhà quản lý có thể có những thông tin chính xác nhanh chóng, hỗ trợ cho việc ra các quyết định kịp thời và có lợi nhất cho doanh nghiệp. Ngoài ra kho dữ liệu còn cung cấp cho những người phát triển các ứng dụng phân tích dữ liệu dễ dàng tiếp cận dữ liệu, có được dữ liệu chính xác hơn và phát triển ứng dụng dễ dàng hơn. Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần Truyền Thông VMG , khóa luận sẽ thực hiện “Áp dụng kho dữ liệu trong phân tích số liệu về các dịch vụ giá trị gia tăng trên điện thoại” bằng công cụ của Microsoft SQL Server 2005 với mong muốn xây dựng được kho dữ liệu hoàn chỉnh hỗ trợ cho việc quản lý tại Công Ty Cổ Phần Truyển Thông VMG. Nội dung của khóa luận bao gồm những phần chính như sau: Mở đầu Đây là phần giới thiệu chung về lý do chọn đề tài, cũng như bố cục chung của khóa luận Chương 1: Tổng quan Nội dung chính của chương này là nêu lên tổng quan về dữ liệu của hệ thống cung cấp các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu , phạm vi của đồ án , công cụ và phương pháp xây dựng kho dữ liệu. Chương 2: Tổng quan về Data WareHouse Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data warehouse. Chương 3 Tổng quan về Microsoft SQL Server 2005 Mục tiêu chính của chương này nhằm giới thiệu về các công cụ sẽ được sử dụng để xây dựng kho dữ liệu. Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 , dịch vụ Sql Server Analysis Service , Ngôn ngữ truy vấn MDX trên cơ sở dữ liệu đa chiều, dịch vụ Sql Server Reporting Service và hướng xây dựng kho dữ liệu bằng các công cụ này. Chương 4: Phân tích thiết kế và triển khai kho dữ liệu hoạt động dịch vụ Nội dung chính của chương này bao gồm : Tìm hiểu về dữ liệu hệ thống, xác định yêu cầu đặt ra , thiết kế mô hình kho dữ liệu dựa trên yêu cầu đã phân tích và dữ liệu hệ thống nguồn, thiết kế tiến trình ETL để chuyển dữ liệu vào hệ thống, sử dụng công cụ SQL Server Analysis Service để xây dựng các cơ sở dữ liệu nhiều chiều , sử dụng công cụ SQL Reporting Service để xây dựng các báo cáo. Kết luận Đây là phần kết kuận của khóa luận đưa ra những điều đã làm được và chưa làm được của khóa luận và hướng phát triển của khóa luận. Các tài liệu tham khảo. Các phụ lục CHƯƠNG 1: TỔNG QUAN Tóm lược nội dung : Mục tiêu của chương này nhằm trình bày lý do lựa chọn đề tài, tổng quan về dữ liệu của hệ thống cung cấp các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu và phạm vi của đồ án , công cụ và phương pháp xây dựng kho dữ liệu. Tổng quan về hệ thống và lý do lựa chọn đề tài. Công Ty Cổ Phần Truyền Thông VMG là một trong những đơn vị đi đầu về kinh doanh dịch vụ giá trị gia tăng trên điện thoại di động. Công ty có một hệ thống theo dõi và báo cáo sản lượng nhằm phục vụ cho báo cáo thống kê và phân tích hoạt động của dịch vụ phục vụ cho việc quản lý. Hệ thống này hoạt động dựa trên số liệu về quá trình sử dụng dịch vụ của khách hàng. Sau một thời gian dài hoạt động gần đây do dữ liệu hệ thống ngày một gia tăng cùng với nhu cầu cao hơn trong phân tích số liệu khách hàng hệ thống cũ đã không đáp ứng được các nhu cầu sau đây: Do dữ liệu ngày càng gia tăng vì thế tốc độ xử lý các truy vấn để tạo báo cáo sản lượng chậm. Tổ chức dữ liệu theo mô hình cơ sở dữ liệu quan hệ khiến cho việc truy vấn dữ liệu không linh hoạt. Với những câu hỏi nghiệp vụ phức tạp việc truy vấn là rất khó khăn và thời gian xử lý chậm. Dữ liệu dùng cho hệ thống báo cáo sản lượng là dữ liệu nghiệp vụ chưa qua xử lý, còn dư thừa nhiều, không phù hợp với một hệ thống báo cáo và phân tích số liệu. Trong những năm gần đây, kho dữ liệu được phát triển và sử dụng nhiều trong các hệ thống phân tích số liệu. Với những ưu thế có thể lưu trữ dữ liệu lớn , có khả năng khai thác dữ liệu đa chiều và theo chiều sâu , đáp ứng được nhu cầu phân tích số liệu của các doanh nghiệp. Xuất phát từ nhu cầu thực tiễn tại Công Ty Cổ Phần Truyền Thông VMG, đồ án sẽ xây dựng kho dữ liệu cho hệ thống quản lý của công ty và xây dựng các báo cáo phục vụ cho công việc quản lý của công ty. Dữ liệu của hệ thống . Dữ liệu báo cáo và thống kê của hệ thống cung cấp dịch vụ giá trị gia tăng bao gồm dữ liệu lịch sử hoạt động của khách hàng, dữ liệu kế toán, và dữ liệu chăm sóc khách hàng. Dữ liệu lịch sử hoạt động khách hàng : mỗi yêu cầu khách hàng vào hệ thống sẽ được lưu giữ lại trong cơ sở dữ liệu, nó bao gồm thông tin về dịch vụ sử dụng, yêu cầu, thời gian, trạng thái của các yêu cầu. Thông thường những dữ liệu này chỉ dùng để đối soát và thanh toán với các mạng viễn thông , không được ứng dụng vào các công cụ phân tích theo dõi .Cấu trúc dữ liệu các bảng bao gồm . Dữ liệu kế toán : đây là dữ liệu về các thông tin kế toán bao gồm giá trị của các dịch vụ, giá thanh toán với các mạng viễn thông, thông tin về các quảng cáo của các dịch vụ. Dữ liệu này kết hợp với dữ liệu lịch sử hoạt động khách hàng để thanh toán tiền với các đối tác thuê sử dụng dịch vụ và các mạng viễn thông. Dữ liệu này cùng với dữ liệu tổng hợp của lịch sử hoạt động khách hàng còn dùng cho phân tích , thống kê và báo cáo định kỳ. Dữ liệu chăm sóc khách hàng: Đây là dữ liệu về thông tin về khách hàng của trung tâm chăm sóc khách hàng của công ty gồm các cuộc gọi đến trung tâm, trạng thái khách hàng, thông tin về thắc mắc của khách hàng. Mục tiêu và phạm vi của đề tài. 1.3.1 Mục tiêu. Xây dựng và triển khai kho dữ liệu cho hệ thống báo cáo và thống kê sản lượng dịch vụ dựa trên kết quả tìm hiểu và phân tích hệ thống nguồn tại công ty Cổ Phần và Truyền Thông VMG đang sử dụng nhằm hỗ trợ các phòng ban , lãnh đạo công ty đưa ra các quyết định nhanh chóng và chính xác. Xây dựng cơ sở dữ liệu hoàn chỉnh cho kho dữ liệu, ánh xạ dữ liệu từ hệ thống nguồn vào kho dữ liệu, xây dựng các báo cáo và công cụ tra cứu báo cáo . 1.3.2 Phạm vi của đề tài. Việc xây dựng kho dữ liệu là một quá trình lâu dài phức tạp và bao gồm nhiều công đoạn . Trong phạm vi đồ án này, dữ liệu xây dựng chỉ tập trung vào dữ liệu khách hàng, thông tin chăm sóc khách hàng và dữ liệu kế toán . Đồ án này sẽ tập trung vào xây dựng kho dữ liệu từ các hệ thống nguồn nói trên sau đó sử dụng công cụ SQL Server Analysis Service để định nghĩa lên các khối dữ liệu đa chiều cuối cùng sử dụng công cụ SQL Server Reporting Service để tạo ra các báo cáo và xuất ra ứng dụng cho người dùng xem . Công cụ thực hiện Hệ quản trị cơ sở dữ liệu cho kho dữ liệu . Trong những năm gần đây, Microsoft SQL Server là một hệ quản trị cơ sở dữ liệu thông dụng với nhiều ưu điểm: Công cụ quản lý mạnh mẽ, công cụ phát triển đa dạng, khả năng mở rộng tốt, phù hợp với các doanh nghiệp trung bình. Chính vì thế đồ án sẽ sử dụng SQL Server 2005 làm công cụ quản lý kho dữ liệu. Công cụ xây dựng kho dữ liệu. Tiến trình ETL sẽ được xây dựng bằng ngôn ngữ truy vấn T-SQL của MSSQL hỗ trợ cùng với công cụ SQL Server Business Intelligent và dịch vụ SQL Server Intergration Service. Thông qua tiến trình ETL dữ liệu được đưa từ dữ liệu nguồn đến kho dữ liệu được xây dựng. Sau đó sử dụng dịch vụ SQL Server Analysis Service để xây dựng lên các khối dữ liệu đa chiều(cubes) phục vụ phân tích . Công cụ xây dựng báo cáo. Sử dụng dịch vụ SQL Server reporting Services và công cụ cụ SQL Server Business Intelligent để xây dựng và quản lý các báo cáo, đưa báo cáo lên web server sử dụng IIS(Internet Information System) để người dùng có thể tra cứu qua web. CHƯƠNG 2 TỔNG QUAN VỀ DATA WAREHOUSE Tóm lược nội dung: Nội dung chính của chương này là trình bày tổng quan về data warehouse gồm: định nghĩa, đặc tính,mô hình, kiến trúc và xu hướng tương lai của data warehouse. Định nghĩa kho dữ liệu. Định nghĩa do W.H.Inmon đề xướng : DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý.[1] Các đặc trưng của kho dữ liệu 2.2.1 Hướng chủ đề . Hướng chủ để có nghĩa là kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản phẩm, sản xuất . Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà ra quyết định mà không tập trung vào các xử lý thông thường. Cung cấp cho người dùng một khung nhìn toàn vẹn, đơn giản và đầy đủ về các sự kiện quanh các chủ đề. 2.2.2 Tính tích hợp Dữ liệu trong kho dữ liệu được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau và các nguồn có tổ chức khác nhau : Cơ sở dữ liệu, các file excel, các flat file hoặc các raw file. Khi đưa vào kho dữ liệu , các dữ liệu được làm sạch và tích hợp dữ liệu nhằm đảm bảo tính nhất quán của dữ liệu. 2.2.3 Tính bền vững: Dữ liệu trong kho dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ trong một thời gian dài, khi dữ liệu được chuyển đổi vào đây thì các thao tác cập nhật và xóa dữ liệu thường không xảy ra. Dữ liệu trong kho dữ liệu chỉ có hai thao tác: Chèn mới và đọc dữ liệu. 2.2.4 Gắn với thời gian . Phạm vi về thời gian của dữ liệu được lưu trữ trong kho dữ liệu dài hơn so với các hệ thống tác nghiệp, nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời kho dữ liệu cung cấp thông tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ và nhiều thông tin hơn. Trong kho dữ liệu thời gian được lưu trữ như một thành phần của khóa chính để đảm bảo tính duy nhất của dữ liệu và cung cấp một đặc trưng thời gian của dữ liệu. Dữ liệu trong kho luôn gắn với một giá trị thời gian nhất định 2.2.5 Dữ liệu tổng hợp : Dữ liệu được tích hợp vào các bảng tổng hợp trong kho dữ liệu nhằm phục vụ cho các mục đích xử lý và phân tích. Ngoài ra còn có các bảng ghi dữ liệu chi tiết các sự kiện nhằm cung cấp các thông tin chi tiết . Kiến trúc của kho dữ liệu Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần : Dữ liệu nguồn, khu vực xử lý và kho dữ liệu . Hình 2.1 Kiến trúc kho dữ liệu 2.3.1 Nguồn dữ liệu . Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau: - Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp. - Dữ liệu từ hệ thống phân tích : Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã cũ và tổ chức lại theo nhiều phương pháp khác nhau. - Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty, có thể do các tổ chức khác thu thập và tạo ra, nó được sử dụng cho các yêu cầu phân tích dữ liệu. Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau ví dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML... Vì thế trước khi đưa vào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu. 2.3.2 Khu vực xử lý . Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu. 2.3.2.1 Nhiệm vụ : Làm sạch dữ liệu vào : Đây là quá trình kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu sai định dạng hoặc lỗi. Nhiệm vụ của bước này bao gồm. Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào. Chỉnh sửa lỗi dữ liệu. Cảnh báo về lỗi dữ liệu đầu vào. Chuyển đổi dữ liệu : Đây là quá trình chuyển đổi dữ liệu nhằm đảm bảo tính nhất quán trước khi chuyển vào kho dữ liệu. Quá trình này bao gồm các bước. Sử dụng các luật về chuyển đổi dữ liệu để chuyển đồi. Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích Chuyển đổi dữ liệu vào một lược đồ nhất quán. 2.3.2.2 Các bước :Tiến trình ETL gồm có 3 bước. Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô. Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý. Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Ở bước này sẽ phải sử dụng các phép chuyển đổi như: Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết ) Chuyển đổi dữ liệu. Ví dụ : chuyển 1 thành Nam hay ngược lại. Tạo ra các cột tính toán mới . Ví dụ: Điểm trung bình = Tổng điểm /số trình Lọc dữ liệu. Sắp xếp dữ liệu Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình). Tạo ra các giá trị mới (tạo khóa tự tăng ). Tìm kiếm hay so sánh dữ liệu. Có thể nói đây là bước quan trọng nhất trong tiến trình ETL , nó thực hiện hầu hết các nhiệm vụ của tiến trình ETL. Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được chuyển đổi vào kho dữ liệu. Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào kho dữ liệu. 2.3.2.3 Các kiểu kiến trúc ETL Có 3 kiểu kiến trúc ETL chính đó là kiểu push, kiểu pull, kiể server trung gian Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại server chứa nguồn dữ liệu . Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu. Mô hình này thường được sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh để xử lý tiến trình ETL. Thông thường mô hình này sử dụng khi dữ liệu nguồn không quá phức tạp và khối lượng dữ liệu không quá lớn. Hình 2.2 tiến trình ETL nằm ở nguồn dữ liệu Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server chứa kho dữ liệu . Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu. Ở kiến trúc này dữ liệu nguồn có thể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng lực xử lý tiến trình ETL. Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn. Hình 2.3 Tiến trình ETL nằm ở server chứa kho dữ liệu Kiểu server trung gian: Đây là kiến trúc mày tiến trình ETL sẽ được chạy trên một máy độc lập với cả kho dữ liệu và nguồn dữ liệu. Tiến trình sẽ đến lấy dữ liệu từ nguồn dữ liệu sau đó xử lý và nạp vào kho dữ liệu. Kiểu kiến trúc này thường được áp dụng cho các kho dữ liệu lớn, ở đây tiến trình ETL sẽ được chạy trên một máy độc lập đủ năng lực xử lý . Hình 2.4 Tiến trình ETL nằm ở server trung gian 2.3.3 Kho dữ liệu . Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mô hình hình sao hay mô hình bông tuyết. Mô hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ dữ liệu chính vì thế mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc độ xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa. Ngoài ra kho dữ liệu còn chứa các dữ liệu khác như. Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu được lưu trữ trong kho dữ liệu. Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu. Siêu dữ liệu gồm có các dạng sau: Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu. Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu. Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn. Dữ liệu định nghĩa và chú thích về tiến trình ETL. Dữ liệu định nghĩa các luật về chất lượng dữ liệu , các mức độ sai lệch của dữ liệu và cách thức xử lý. Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu. Dữ liệu chứa các sự kiện hoạt động của các ứng dụng. Bảng sự kiện tổng hợp : Các bảng tổng hợp này lưu dữ các dữ liệu tính toán được nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra. Đây là dữ liệu có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý dữ liệu này được lưu trữ để không phải tính toán lại mỗi khi có truy vấn. 2.4 Mô hình logic của kho dữ liệu 2.4.1 Lược đồ hình sao Trong mô hình dữ liệu này,phạm vi dữ liệu được tổ chức trong các bảng chiều, mỗi chiều ứng với một đặc trưng của dữ liệu ( khách hàng, sản phẩm , bán hàng, thời gian…), các bảng sự kiện biểu diễn các sự kiện xảy ra và các thông tin chi tiết về các sự kiện đó . Ưu điểm của mô hình này bao gồm. Trực quan , đơn giản phù hợp với cách nhìn nhận về dữ liệu của người sử dụng. Dễ dàng truy vấn, hỗ trợ đa dạng các loại truy vấn. Sự phi chuẩn hóa đã tránh được việc phải nối nhiều bảng lại trong quá trình xử lý điều này làm tăng tốc độ truy vấn và việc lưu trữ các cột tổng hợp có tác dụng làm tăng tốc độ xử lý truy vấn. Chiều Sản phẩm Bảng sự kiện bán hàng Chiều cửa hàng Chiều khách hàng Chiều thời gian Hình 2.4 Lược đồ hình sao. 2.4.2 Lược đồ hình bông tuyết. Đây là mô hình tương tự mô hình sao tuy nhiên nó mở rộng hơn mô hình sao , trong mô hình này một chiều của dữ liệu có thể gồm nhiều bảng, và trong đó có 1 bảng sự kiện , bảng sự kiện này chính là một chiều trong mô hình lớn hơn. Chiều thời gian Cửa hàng phân phối Chiều sản phẩm Chiều khách hàng Bảng sự kiện bán hàng Loại sản phẩm Hình 2.5 lược đồ hình bông tuyết. 2.4.3 Mô hình dữ liệu nhiều chiều Đây là mô hình chức dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ của người quản lý. Có thể nhìn dữ liệu được tổ chức như là một khối , trong đó mỗi chiều là một chủ đề trong nghiệp vụ . Hình 2.6 Mô hình dữ liệu nhiều chiều Ở hình trên, khối dữ liệu gồm có 3 chiều : khách hàng, sản phẩm , thời gian. Mỗi ô trong đó là một bản ghi được lưu giữ trong bảng sự kiện. Với mô hình này người dùng có thể dễ dàng đặt ra các câu hỏi theo các tiêu chí khác nhau, việc trả lời truy vấn cũng dễ dàng hơn và tốc độ xử lý nhanh hơn tổ chức theo mô hình bảng quan hệ. 2.5 Ứng Dụng của kho dữ liệu. Ngày nay, kho dữ liệu được triển khai trong các doanh nghiệp với nhiều mục đích khác nhau như tạo các báo cáo tổng hợp, tích hợp dữ liệu,quản trị doanh nghiệp thông minh(Business Intelligence) , quản lý quan hệ khách hàng, khai phá dữ liệu. [2] 2.5.1 Quản trị doanh nghiệp thông minh (Busines Intelligence). Kho dữ liệu ngày nay được sử dụng cho việc quản trị doanh nghiệp thông minh , nó giúp người quản lý có thể hiểu tổng quan và đầy đủ về công việc kinh doanh của doanh nghiệp hơn. Thông qua các loại báo cáo tổng hợp, các kỹ thuật phân tích dữ liệu từ kho dữ liệu người quản lý có thể đưa ra các quyết định một cách nhanh chóng và hợp lý. Ngày càng nhiều các doanh nghiệp xây dựng hệ thống quản trị doanh nghiệp thông minh để giúp cho họ xử lý các thông tin nhằm hiểu rõ hơn về công việc kinh doanh, hỗ trợ việc ra các quyết định chính xác hơn, nâng cao chất lượng kinh doanh và dịch vụ. Kho dữ có thể trích xuất thông tin từ một nguồn dữ liệu rất lớn vì thế nên thông tin nó đưa ra có cái nhìn tổng quan và đầy đủ hơn các hệ thống thông thường. 2.5.2 Quản lý mối quan hệ khách hàng. Hệ thống quản lý quan hệ khách hàng bao gồm các ứng dụng hỗ trợ quản lý mối quan hệ khách hàng. Ứng dụng của kho dữ liệu vào hệ thống này bao gồm. Đồng nhất khách hàng: cung cấp một cái nhìn tổng thể về khách hàng Quản lý việc cho phép . Phân đoạn khách hàng theo các nhóm tiêu chí. Hỗ trợ khách hàng . Phân tích khách hàng: kho dữ liệu cung cấp đầy đủ thông tin cho các ứng dụng phân tích khách hàng. 2.5.3 Khai phá dữ liệu . Khai phá dữ liệu là quá trình đi tìm kiếm các thông tin tiềm ẩn có giá trị trong các khối dữ liệu lớn. Công cụ khai phá dữ liệu có thể phát hiện các thông tin mang tính dự đoán, hay các thông tin hỗ trợ cho việc ra quyết định của người quản lý doanh nghiệp. Kho dữ liệu được sử dụng cho các ứng dụng khai phá bởi vì những lý do sau Dữ liệu trong nó đã được làm sạch có cấu trúc, Kho dữ liệu có siêu dữ liệu định nghĩa về dữ liệu. Dữ liệu trong kho dữ liệu đã được tích hợp sẵn. Dữ liệu có tính bền vững. Việc phân cấp dữ liệu trong các chiều thích hợp với các thuật toán khai phá dữ liệu. Ngày nay hầu hết các ứng dụng khai phá dữ liệu đều sử dụng kho dữ liệu làm nguồn dữ liệu để khai phá. 2.5.4 Quản lý dữ liệu chủ . Dữ liệu chủ hay master data là dữ liệu bao gồm các thực thể mô tả các sự kiện xảy ra . Dữ liệu chủ có thể trả lời đầy đủ các câu hỏi xung quanh sự kiện xảy ra . Ví dụ: trong việc kinh doanh có sự kiện khách hàng mua một sản phẩm, thì dữ liệu chủ ở đây là khách hàng, sản phẩm, nhãn hiệu. Việc quản lý dữ liệu chủ ở đây là quá trình trích xuất, làm sạch, l

Các file đính kèm theo tài liệu này:

  • docNguyen Luong Thai Duc_K51MMT_Khoa luan tot nghiep dai hoc.doc
Tài liệu liên quan