An ninh bảo mật - Chương 4: An toàn cơ sở dữ liệu thống kê

Chúngta đisâuvàocácvấnđềsuydiễn

trêncácCSDLthốngkê.

Thảoluậnmộtsốkỹthuậtbảovệcơbản:

 Kỹthuậtdựavàokháiniệm

Kỹthuậtdựavàohạnchế

 Kỹthuậtdựavàogâynhiễu

 Đánhgiáchungvềđặctrưng củacáckỹ

thuậtnày.

121 trang | Chia sẻ: Mr Hưng | Lượt xem: 1199 | Lượt tải: 0

Bạn đang xem trước 20 trang nội dung tài liệu An ninh bảo mật - Chương 4: An toàn cơ sở dữ liệu thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

uy vấn mở rộng  Kiểm soát chồng lấp tập truy vấn  Kiểm soát dựa vào kiểm toán  Gộp  Kỹ thuật giấu ô  Kỹ thuật kết hợp 4.4.2 Kỹ thuật dựa vào hạn chế  Kiểm soát kích cỡ tập truy vấn  Kiểm soát kích cỡ tập truy vấn mở rộng  Kiểm soát chồng lấp tập truy vấn  Kiểm soát dựa vào kiểm toán  Gộp  Kỹ thuật giấu ô  Kỹ thuật kết hợp 4.4.2.5 Kỹ thuật gộp (microaggregation)  Các câu truy vấn thống kê được tính toán trên các cá thể tổng hợp. Dữ liệu riêng sẽ được nhóm lại thành một khối nhỏ trước khi đưa ra.  Giá trị trung bình của nhóm gộp sẽ thay thế cho mỗi giá trị riêng của dữ liệu được gộp  Kỹ thuật này giúp ngăn chặn khám phá dữ liệu riêng. 4.4.2.5 Kỹ thuật gộp (microaggregation)  Ví dụ: Cục thống kê nông nghiệp quốc gia (NASS) công bố dữ liệu về các nông trường, trang trại. Để bảo vệ chống lại sự khám phá dữ liệu, dữ liệu chỉ được đưa ra ở mức vùng. Dữ liệu tại các nông trại ở mỗi vùng sẽ được gộp để bảo vệ tính riêng tư và tránh bị khám phá. Microaggregation Microaggregation Q ue ry R es ul ts 4.4.2.5 Kỹ thuật gộp (microaggregation)  Ưu điểm:  Tránh được việc để lộ thông tin nhạy cảm  Nhựơc điểm:  Kết quả đưa ra không chính xác 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Kỹ thuật này được thiết kế cho các SDB vĩ mô (đưa ra các thống kê trong bảng 2- chiều, ví dụ các thống kê dân số).  Giấu ô: trong các bảng, giấu đi tất cả các ô tương ứng với các thống kê nhạy cảm và các ô tương ứng với các thống kê có thể gián tiếp khám phá ra các thống kê nhạy cảm (Giấu bổ sung). 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Tiêu chuẩn giấu ô:  Thống kê Count: kích cỡ tập truy vấn bằng 1, nghĩa là Count(C) =1  Thống kê Sum, tiêu chuẩn nhạy cảm được sử dụng là quy tắc «đáp ứng n, trội k% » . Theo tiêu chuẩn này, một thống kê là nhạy cảm nếu n giá trị thuộc tính của n hoặc ít hơn n bản ghi tạo thành k% hoặc lớn hơn k% trong toàn bộ thống kê Sum đó. Các tham số n và k được giữ bí mật và do DBA xác định. 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Ví dụ: Giả sử n = 2 và k = 90% Tổng lương của nam,nữ công nhân trong các phòng Giới tính Mã phòng Tổng lương Phong1 Phong2 Phong3 M F 135 120 80 360 50 100 265 580 Tổng lương 255 440 150 845 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Nếu chỉ có 1 công nhân nam làm ở phòng ‘phong3’ thì ta có: (n = 1 và k = 90%) Count(MaPhong = Phong3  GioiTinh=M) = 1 Sum(Lương, MaPhong = Phong3  GioiTinh=M) = 50  Do đó ô (1,3) là ô nhạy cảm cần phải giấu đi vì lương của công nhân này tạo thành 100% của toàn bộ tổng lương tại ô đó (với n=1 <2 trội 100%>90%).  Giấu bổ sung ô (2,3) vì nếu lấy tổng của cột 3 trừ đi tổng ở ô (2,3) sẽ tìm được tổng của ô (1,3). 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Kết quả: Giới tính Mã phòng Tổng lương Phong1 Phong2 Phong3 M F Sum 135 120 255 80 360 440 _ _ 150 265 580 845 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Tuy nhiên, để an toàn, trên hàng chứa một ô bị giấu, phải giấu bổ sung thêm 1 ô nữa! Giới tính Mã phòng Tổng lương Phong1 Phong2 Phong3 M F Sum 135 _ 255 _ 360 440 _ _ 150 265 580 845 4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)  Ưu điểm:  Chống được các tấn công kết hợp dựa vào Count và Sum  Nhược điểm:  Hạn chế khả năng hữu ích của SDB, vì phải che giấu một số ô trong CSDL. 4.4.2 Kỹ thuật dựa vào hạn chế  Kiểm soát kích cỡ tập truy vấn  Kiểm soát kích cỡ tập truy vấn mở rộng  Kiểm soát chồng lấp tập truy vấn  Kiểm soát dựa vào kiểm toán  Gộp  Kỹ thuật giấu ô  Kỹ thuật kết hợp 4.4.2 Kỹ thuật dựa vào hạn chế  Kiểm soát kích cỡ tập truy vấn  Kiểm soát kích cỡ tập truy vấn mở rộng  Kiểm soát chồng lấp tập truy vấn  Kiểm soát dựa vào kiểm toán  Gộp  Kỹ thuật giấu ô  Kỹ thuật kết hợp 4.4.3 Các kỹ thuật dựa vào gây nhiễu  Kỹ thuật gây nhiễu dữ liệu  Kỹ thuật gây nhiễu đầu ra Data Perturbation 4.4.3.1 Kỹ thuật gây nhiễu dữ liệu  Gây nhiễu cố định (fixed perturbation)  Gây nhiễu dựa vào truy vấn 4.4.3.1 Kỹ thuật gây nhiễu dữ liệu  Gây nhiễu cố định (fixed perturbation)  Cho N là kích cỡ của SDB và ta xét thuộc tính Aj.  Mỗi giá trị thực xij (với i =1,...,N) của một thuộc tính Aj bị thay thế bằng một giá trị gây nhiễu x‘ij x‘ij = xij + ei với i =1,...,N  Vector e = (x' - x) = (e1,..., eN) là một vector gây nhiễu ngẫu nhiên  x = (x1j ,..., xNj), x'=(x‘1j ,..., x‘Nj) là các vector của giá trị thực và giá trị gây nhiễu của các bản ghi trong SDB, dành cho thuộc tính Aj 4.4.3.1 Kỹ thuật gây nhiễu dữ liệu  Gây nhiễu cố định (fixed perturbation)  e = (e1,..., eN), mỗi thành phần ei là các biến ngẫu nhiên, độc lập tuyến tính. E(ei) = 0, D(ei) =  2  Các giá trị của mỗi thuộc tính Aj sẽ được cộng thêm một vector e ngẫu nhiên.  Xác suất lỗi trong một câu truy vấn vượt quá giá trị giới hạn  cho trước là:  P(|q’(C) – q(C)| )>= | |X(C)| | )<= 2/(|X(C)|2 )  Như vậy |X(C)| càng lớn thì xác suất lỗi càng nhỏ  4.4.3.1 Kỹ thuật gây nhiễu dữ liệu  Gây nhiễu cố định (fixed perturbation)  Ưu điểm:  Chống được nhiều tấn công, kể cả tấn công tính trung bình (lặp nhiều lần)  Nhược điểm:  Chỉ áp dụng cho thuộc tính số  Kết quả trả về không chính xác 4.4.3.1 Kỹ thuật gây nhiễu dữ liệu  Gây nhiễu dựa vào truy vấn  Không yêu cầu tạo một SDB nhiễu  Với mỗi truy vấn được tạo ra trong SDB, một hàm gây nhiễu sẽ được áp dụng với tất cả các thuộc tính của tập truy vấn đó.  Giả sử thống kê q(C), với mọi giá trị xij thuộc X(C): x’ij = f(xij).  Giá trị  = x’ij – xij là ngẫu nhiên. 4.4.3.1 kỹ thuật gây nhiễu dữ liệu  Gây nhiễu dựa vào truy vấn  Thống kê Sum:  Xét thống kê S= q(C) = Sum(C, Aj), n là số lượng các bản ghi tập truy vấn X(C).  S’ = với xij ’ = f(xij) = xij + z1 ( xij - ) + z2  z1 và z2 là các biến ngẫu nhiên độc lập được sinh ra cho mỗi bản ghi   n i ijx 1 ' jC x 4.4.3.1 kỹ thuật gây nhiễu dữ liệu  Gây nhiễu dựa vào truy vấn  Thống kê Count:  Giả sử thống kê Count(C) = m  m’ = Với E(z3) = 1 và Var(z3) = a 2 1 /m,  và z3 được sinh ngẫu nhiên và độc lập với các bản ghi xi trong X(C).  E(m’) = m và Var(m’) = a21   n j z 3 3 4.4.3.1 kỹ thuật gây nhiễu dữ liệu  Gây nhiễu dựa vào truy vấn  Ưu điểm:  Gây nhiễu dữ liệu nên chống được nhiều tấn công  Nhược điểm:  Với mỗi thống kê, lại phải áp dụng một hàm gây nhiễu f, với gía trị nhiễu=> tốn công, giảm hiệu năng hệ thống.  Kết quả đưa ra không chính xác. 4.4.3.2 Kỹ thuật gây nhiễu đầu ra Query 4.4.3.2 Kỹ thuật gây nhiễu đầu ra  Các kỹ thuật gây nhiễu đầu ra thực hiện sửa đổi trên các kết quả được tính toán chính xác của một câu truy vấn thống kê, trước khi chuyển nó cho người sử dụng.  Kỹ thuật Làm tròn (rounding) 4.4.3.2 Kỹ thuật gây nhiễu đầu ra  Kỹ thuật Làm tròn (rounding)  Kết quả mọi câu truy vấn sẽ được làm tròn: Q' = r(Q)  Làm tròn có hệ thống (systematic rounding)  Làm tròn ngẫu nhiên (random rounding) 4.4.3.2 Kỹ thuật gây nhiễu đầu ra  Làm tròn có hệ thống (systematic rounding)  Q' là một kết quả sửa đổi, nó được tính toán cho thống kê yêu cầu q(C).  b'= (b+1)/2 (ký hiệu   chỉ làm tròn xuống số nguyên gần nhất), giá trị b do Admin chọn.  d = Q mod b.  r(Q) =         ' ' 0 bdnêudbQ bdnêudQ dnêuQ 4.4.3.2 Kỹ thuật gây nhiễu đầu ra  Làm tròn ngẫu nhiên (random rounding)  Q' là một kết quả sửa đổi, nó được tính toán cho thống kê yêu cầu q(C).  b'= (b+1)/2 (ký hiệu   chỉ làm tròn xuống số nguyên gần nhất)  d = Q mod b.  r(Q) =  Xác suất p = d/b         psuâtxácvoidbQ psuâtxácvoidQ dnêuQ 1 0 4.4.3.2 Kỹ thuật gây nhiễu đầu ra  Kỹ thuật Làm tròn (rounding)  Ưu điểm: Bảo vệ được những tấn công đơn giản.  Nhược điểm:  Không chống được những tấn công trung bình, tấn công trình theo dõi  Kết quả đưa ra cũng không chính xác. Nội dung  4.1 Giới thiệu  4.2 Các khái niệm cơ bản và giả định  4.3 Một số kiểu tấn công suy diễn  4.4 Các kỹ thuật chống suy diễn  4.4.1 Các kỹ thuật khái niệm  4.4.2 Các kỹ thuật dựa vào hạn chế  4.4.3 Các kỹ thuật dựa vào gây nhiễu  4.4.4 Các kỹ thuật dựa vào mẫu ngẫu nhiên  4.5 So sánh các kỹ thuật chống suy diễn 4.4.4 Kỹ thuật mẫu ngẫu nhiên  Cục điều tra dân số Mỹ sử dụng kỹ thuật mẫu ngẫu nhiên để ngăn chặn suy diễn trong các cơ sở dữ liệu thống kê.  Ý tưởng: của kỹ thuật này là sử dụng các mẫu bản ghi từ các tập truy vấn tương ứng với các truy vấn thống kê, thay vì lấy mẫu trong toàn bộ SDB. 4.4.4 Kỹ thuật mẫu ngẫu nhiên  Cơ chế cơ bản của kỹ thuật này là thay thế tập truy vấn (có liên quan đến một câu truy vấn thống kê) bằng một tập truy vấn được lấy mẫu (sampled query set) gồm một tập con các bản ghi được chọn lựa chính xác trong tập truy vấn gốc. Sau đó, tiến hành tính toán thống kê yêu cầu trên tập truy vấn mẫu này. Sử dụng một hàm chọn f(C, i) để chọn lựa các bản ghi từ tập truy vấn gốc tương ứng với thống kê q(C) mà người dùng yêu cầu. Nội dung  4.1 Giới thiệu  4.2 Các khái niệm cơ bản và giả định  4.3 Một số kiểu tấn công suy diễn  4.4 Các kỹ thuật chống suy diễn  4.4.1 Các kỹ thuật khái niệm  4.4.2 Các kỹ thuật dựa vào hạn chế  4.4.3 Các kỹ thuật dựa vào gây nhiễu  4.4.4 Các kỹ thuật dựa vào mẫu ngẫu nhiên  4.5 So sánh các kỹ thuật chống suy diễn 4.5 So sánh các kỹ thuật chống suy diễn  Các tiêu chuẩn so sánh:  Security: đánh giá mức độ bảo vệ của kỹ thuật (chống được những tấn công nào), chống được suy diễn, có lộ chính xác, lộ từng phần không.  Mức đầy đủ của thông tin: kết quả trả về có chính xác không, có nhất quán không và có bị mất mát thông tin hay không.  Cost: chi phí thực hiện, chi phí xử lý trên một câu truy vấn (thời gian CPU), chi phí đào tạo ngươì dùng. 4.5 So sánh các kỹ thuật chống suy diễn Method Security Richness of Information Costs Query-set Restriction Low Low1 Low Microaggregation Moderate Moderate Moderate Data Perturbation High High-Moderate Low Output Perturbation Moderate Moderate-low Low Auditing Moderate-Low Moderate High Sampling Moderate Moderate-Low Moderate

Các file đính kèm theo tài liệu này:

slide_chuong_4_4592.pdf