Chúngta đisâuvàocácvấnđềsuydiễn
trêncácCSDLthốngkê.
Thảoluậnmộtsốkỹthuậtbảovệcơbản:
Kỹthuậtdựavàokháiniệm
Kỹthuậtdựavàohạnchế
Kỹthuậtdựavàogâynhiễu
Đánhgiáchungvềđặctrưng củacáckỹ
thuậtnày.
121 trang |
Chia sẻ: Mr Hưng | Lượt xem: 1079 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu An ninh bảo mật - Chương 4: An toàn cơ sở dữ liệu thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
uy vấn mở rộng
Kiểm soát chồng lấp tập truy vấn
Kiểm soát dựa vào kiểm toán
Gộp
Kỹ thuật giấu ô
Kỹ thuật kết hợp
4.4.2 Kỹ thuật dựa vào hạn chế
Kiểm soát kích cỡ tập truy vấn
Kiểm soát kích cỡ tập truy vấn mở rộng
Kiểm soát chồng lấp tập truy vấn
Kiểm soát dựa vào kiểm toán
Gộp
Kỹ thuật giấu ô
Kỹ thuật kết hợp
4.4.2.5 Kỹ thuật gộp (microaggregation)
Các câu truy vấn thống kê được tính toán
trên các cá thể tổng hợp. Dữ liệu riêng sẽ
được nhóm lại thành một khối nhỏ trước khi
đưa ra.
Giá trị trung bình của nhóm gộp sẽ thay thế
cho mỗi giá trị riêng của dữ liệu được gộp
Kỹ thuật này giúp ngăn chặn khám phá dữ
liệu riêng.
4.4.2.5 Kỹ thuật gộp (microaggregation)
Ví dụ: Cục thống kê nông nghiệp quốc gia
(NASS) công bố dữ liệu về các nông
trường, trang trại. Để bảo vệ chống lại sự
khám phá dữ liệu, dữ liệu chỉ được đưa ra ở
mức vùng. Dữ liệu tại các nông trại ở mỗi
vùng sẽ được gộp để bảo vệ tính riêng tư và
tránh bị khám phá.
Microaggregation
Microaggregation
Q
ue
ry
R
es
ul
ts
4.4.2.5 Kỹ thuật gộp (microaggregation)
Ưu điểm:
Tránh được việc để lộ thông tin nhạy cảm
Nhựơc điểm:
Kết quả đưa ra không chính xác
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Kỹ thuật này được thiết kế cho các SDB vĩ
mô (đưa ra các thống kê trong bảng 2-
chiều, ví dụ các thống kê dân số).
Giấu ô: trong các bảng, giấu đi tất cả các ô
tương ứng với các thống kê nhạy cảm và
các ô tương ứng với các thống kê có thể
gián tiếp khám phá ra các thống kê nhạy
cảm (Giấu bổ sung).
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Tiêu chuẩn giấu ô:
Thống kê Count: kích cỡ tập truy vấn bằng 1,
nghĩa là Count(C) =1
Thống kê Sum, tiêu chuẩn nhạy cảm được sử
dụng là quy tắc «đáp ứng n, trội k% » . Theo
tiêu chuẩn này, một thống kê là nhạy cảm nếu n
giá trị thuộc tính của n hoặc ít hơn n bản ghi tạo
thành k% hoặc lớn hơn k% trong toàn bộ thống
kê Sum đó. Các tham số n và k được giữ bí mật
và do DBA xác định.
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Ví dụ: Giả sử n = 2 và k = 90%
Tổng lương của nam,nữ công nhân trong các phòng
Giới tính Mã phòng Tổng lương
Phong1 Phong2 Phong3
M
F
135
120
80
360
50
100
265
580
Tổng lương 255 440 150 845
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Nếu chỉ có 1 công nhân nam làm ở phòng ‘phong3’
thì ta có: (n = 1 và k = 90%)
Count(MaPhong = Phong3 GioiTinh=M) = 1
Sum(Lương, MaPhong = Phong3 GioiTinh=M)
= 50
Do đó ô (1,3) là ô nhạy cảm cần phải giấu đi vì
lương của công nhân này tạo thành 100% của toàn
bộ tổng lương tại ô đó (với n=1 <2 trội
100%>90%).
Giấu bổ sung ô (2,3) vì nếu lấy tổng của cột 3 trừ
đi tổng ở ô (2,3) sẽ tìm được tổng của ô (1,3).
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Kết quả:
Giới tính Mã phòng Tổng
lương
Phong1 Phong2 Phong3
M
F
Sum
135
120
255
80
360
440
_
_
150
265
580
845
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Tuy nhiên, để an toàn, trên hàng chứa một ô bị
giấu, phải giấu bổ sung thêm 1 ô nữa!
Giới tính Mã phòng Tổng
lương
Phong1 Phong2 Phong3
M
F
Sum
135
_
255
_
360
440
_
_
150
265
580
845
4.3.2.5 Kỹ thuật Giấu ô (Cell suppression)
Ưu điểm:
Chống được các tấn công kết hợp dựa vào
Count và Sum
Nhược điểm:
Hạn chế khả năng hữu ích của SDB, vì phải che
giấu một số ô trong CSDL.
4.4.2 Kỹ thuật dựa vào hạn chế
Kiểm soát kích cỡ tập truy vấn
Kiểm soát kích cỡ tập truy vấn mở rộng
Kiểm soát chồng lấp tập truy vấn
Kiểm soát dựa vào kiểm toán
Gộp
Kỹ thuật giấu ô
Kỹ thuật kết hợp
4.4.2 Kỹ thuật dựa vào hạn chế
Kiểm soát kích cỡ tập truy vấn
Kiểm soát kích cỡ tập truy vấn mở rộng
Kiểm soát chồng lấp tập truy vấn
Kiểm soát dựa vào kiểm toán
Gộp
Kỹ thuật giấu ô
Kỹ thuật kết hợp
4.4.3 Các kỹ thuật dựa vào gây nhiễu
Kỹ thuật gây nhiễu dữ liệu
Kỹ thuật gây nhiễu đầu ra
Data Perturbation
4.4.3.1 Kỹ thuật gây nhiễu dữ liệu
Gây nhiễu cố định (fixed perturbation)
Gây nhiễu dựa vào truy vấn
4.4.3.1 Kỹ thuật gây nhiễu dữ liệu
Gây nhiễu cố định (fixed perturbation)
Cho N là kích cỡ của SDB và ta xét thuộc tính Aj.
Mỗi giá trị thực xij (với i =1,...,N) của một thuộc tính
Aj bị thay thế bằng một giá trị gây nhiễu x‘ij
x‘ij = xij + ei với i =1,...,N
Vector e = (x' - x) = (e1,..., eN) là một vector gây
nhiễu ngẫu nhiên
x = (x1j ,..., xNj), x'=(x‘1j ,..., x‘Nj) là các vector của giá
trị thực và giá trị gây nhiễu của các bản ghi trong
SDB, dành cho thuộc tính Aj
4.4.3.1 Kỹ thuật gây nhiễu dữ liệu
Gây nhiễu cố định (fixed perturbation)
e = (e1,..., eN), mỗi thành phần ei là các biến ngẫu
nhiên, độc lập tuyến tính.
E(ei) = 0, D(ei) =
2
Các giá trị của mỗi thuộc tính Aj sẽ được cộng thêm
một vector e ngẫu nhiên.
Xác suất lỗi trong một câu truy vấn vượt quá giá trị
giới hạn cho trước là:
P(|q’(C) – q(C)| )>= | |X(C)| | )<= 2/(|X(C)|2 )
Như vậy |X(C)| càng lớn thì xác suất lỗi càng nhỏ
4.4.3.1 Kỹ thuật gây nhiễu dữ liệu
Gây nhiễu cố định (fixed perturbation)
Ưu điểm:
Chống được nhiều tấn công, kể cả tấn công tính
trung bình (lặp nhiều lần)
Nhược điểm:
Chỉ áp dụng cho thuộc tính số
Kết quả trả về không chính xác
4.4.3.1 Kỹ thuật gây nhiễu dữ liệu
Gây nhiễu dựa vào truy vấn
Không yêu cầu tạo một SDB nhiễu
Với mỗi truy vấn được tạo ra trong SDB, một
hàm gây nhiễu sẽ được áp dụng với tất cả các
thuộc tính của tập truy vấn đó.
Giả sử thống kê q(C), với mọi giá trị xij thuộc
X(C): x’ij = f(xij).
Giá trị = x’ij – xij là ngẫu nhiên.
4.4.3.1 kỹ thuật gây nhiễu dữ liệu
Gây nhiễu dựa vào truy vấn
Thống kê Sum:
Xét thống kê S= q(C) = Sum(C, Aj), n là số
lượng các bản ghi tập truy vấn X(C).
S’ = với xij
’
= f(xij) = xij + z1 ( xij - ) + z2
z1 và z2 là các biến ngẫu nhiên độc lập được
sinh ra cho mỗi bản ghi
n
i
ijx
1
'
jC
x
4.4.3.1 kỹ thuật gây nhiễu dữ liệu
Gây nhiễu dựa vào truy vấn
Thống kê Count:
Giả sử thống kê Count(C) = m
m’ =
Với E(z3) = 1 và Var(z3) = a
2
1 /m,
và z3 được sinh ngẫu nhiên và độc lập với các
bản ghi xi trong X(C).
E(m’) = m và Var(m’) = a21
n
j
z
3
3
4.4.3.1 kỹ thuật gây nhiễu dữ liệu
Gây nhiễu dựa vào truy vấn
Ưu điểm:
Gây nhiễu dữ liệu nên chống được nhiều tấn
công
Nhược điểm:
Với mỗi thống kê, lại phải áp dụng một hàm
gây nhiễu f, với gía trị nhiễu=> tốn công, giảm
hiệu năng hệ thống.
Kết quả đưa ra không chính xác.
4.4.3.2 Kỹ thuật gây nhiễu đầu ra
Query
4.4.3.2 Kỹ thuật gây nhiễu đầu ra
Các kỹ thuật gây nhiễu đầu ra thực hiện
sửa đổi trên các kết quả được tính toán
chính xác của một câu truy vấn thống kê,
trước khi chuyển nó cho người sử dụng.
Kỹ thuật Làm tròn (rounding)
4.4.3.2 Kỹ thuật gây nhiễu đầu ra
Kỹ thuật Làm tròn (rounding)
Kết quả mọi câu truy vấn sẽ được làm tròn:
Q' = r(Q)
Làm tròn có hệ thống (systematic rounding)
Làm tròn ngẫu nhiên (random rounding)
4.4.3.2 Kỹ thuật gây nhiễu đầu ra
Làm tròn có hệ thống (systematic rounding)
Q' là một kết quả sửa đổi, nó được tính toán cho
thống kê yêu cầu q(C).
b'= (b+1)/2 (ký hiệu chỉ làm tròn xuống số
nguyên gần nhất), giá trị b do Admin chọn.
d = Q mod b.
r(Q) =
'
'
0
bdnêudbQ
bdnêudQ
dnêuQ
4.4.3.2 Kỹ thuật gây nhiễu đầu ra
Làm tròn ngẫu nhiên (random rounding)
Q' là một kết quả sửa đổi, nó được tính toán cho thống
kê yêu cầu q(C).
b'= (b+1)/2 (ký hiệu chỉ làm tròn xuống số
nguyên gần nhất)
d = Q mod b.
r(Q) =
Xác suất p = d/b
psuâtxácvoidbQ
psuâtxácvoidQ
dnêuQ
1
0
4.4.3.2 Kỹ thuật gây nhiễu đầu ra
Kỹ thuật Làm tròn (rounding)
Ưu điểm: Bảo vệ được những tấn công đơn
giản.
Nhược điểm:
Không chống được những tấn công trung bình,
tấn công trình theo dõi
Kết quả đưa ra cũng không chính xác.
Nội dung
4.1 Giới thiệu
4.2 Các khái niệm cơ bản và giả định
4.3 Một số kiểu tấn công suy diễn
4.4 Các kỹ thuật chống suy diễn
4.4.1 Các kỹ thuật khái niệm
4.4.2 Các kỹ thuật dựa vào hạn chế
4.4.3 Các kỹ thuật dựa vào gây nhiễu
4.4.4 Các kỹ thuật dựa vào mẫu ngẫu nhiên
4.5 So sánh các kỹ thuật chống suy diễn
4.4.4 Kỹ thuật mẫu ngẫu nhiên
Cục điều tra dân số Mỹ sử dụng kỹ thuật
mẫu ngẫu nhiên để ngăn chặn suy diễn
trong các cơ sở dữ liệu thống kê.
Ý tưởng: của kỹ thuật này là sử dụng các
mẫu bản ghi từ các tập truy vấn tương ứng
với các truy vấn thống kê, thay vì lấy mẫu
trong toàn bộ SDB.
4.4.4 Kỹ thuật mẫu ngẫu nhiên
Cơ chế cơ bản của kỹ thuật này là thay thế tập truy
vấn (có liên quan đến một câu truy vấn thống kê)
bằng một tập truy vấn được lấy mẫu (sampled
query set) gồm một tập con các bản ghi được chọn
lựa chính xác trong tập truy vấn gốc. Sau đó, tiến
hành tính toán thống kê yêu cầu trên tập truy vấn
mẫu này. Sử dụng một hàm chọn f(C, i) để chọn
lựa các bản ghi từ tập truy vấn gốc tương ứng với
thống kê q(C) mà người dùng yêu cầu.
Nội dung
4.1 Giới thiệu
4.2 Các khái niệm cơ bản và giả định
4.3 Một số kiểu tấn công suy diễn
4.4 Các kỹ thuật chống suy diễn
4.4.1 Các kỹ thuật khái niệm
4.4.2 Các kỹ thuật dựa vào hạn chế
4.4.3 Các kỹ thuật dựa vào gây nhiễu
4.4.4 Các kỹ thuật dựa vào mẫu ngẫu nhiên
4.5 So sánh các kỹ thuật chống suy diễn
4.5 So sánh các kỹ thuật chống suy diễn
Các tiêu chuẩn so sánh:
Security: đánh giá mức độ bảo vệ của kỹ thuật
(chống được những tấn công nào), chống được suy
diễn, có lộ chính xác, lộ từng phần không.
Mức đầy đủ của thông tin: kết quả trả về có chính
xác không, có nhất quán không và có bị mất mát
thông tin hay không.
Cost: chi phí thực hiện, chi phí xử lý trên một câu
truy vấn (thời gian CPU), chi phí đào tạo ngươì
dùng.
4.5 So sánh các kỹ thuật chống suy diễn
Method Security Richness of
Information
Costs
Query-set Restriction Low Low1 Low
Microaggregation Moderate Moderate Moderate
Data Perturbation High High-Moderate Low
Output Perturbation Moderate Moderate-low Low
Auditing Moderate-Low Moderate High
Sampling Moderate Moderate-Low Moderate
Các file đính kèm theo tài liệu này:
- slide_chuong_4_4592.pdf