Chương trình phân tích đã có trong cá mô hình thống kê sinh học
Trước tiên, chúng ta thiết lập một ma trận có chứacác giá trị phương sai (variance) và hợp sai (covariance) giữa các tính trạng có quan hệvới nhau, để tìm ra các phương trình biến đổi của các biến số có tương quan.
Kế đến tính D2 từng cặp giá trị và phân nhóm di truyền. Tính khoảng cách di truyền trong từng nhóm và giữa các nhóm.
Các genotypes ở cùng một nhóm ít khác biệt hơn kiểu gen ở nhóm khác. Hệ số D ở trong nhóm nhỏ hơn rất nhiều so với hệ số D giữa các nhóm.
Có ba đặc điểm quan trọng trong khi chọn lựa các genotypes là:
- Chọn nhóm có genotype làm bố mẹ.
- Chọn các genotypes ở trong nhóm có khoảng cách di tryuền với các nhóm khác càng xa càng tốt.
- Chú ý các tính trạng có mức độ đóng góp cao nhất về độ khác biệt về di truyền.
Phải tiếp tục thực thiện việc lai thử nghiệm, mới có kết luận cụ thể về ưu thế lai giữa hai nhóm có khoảng cách xa, cũng như sự phân ly củacác dòng con lai.
17 trang |
Chia sẻ: zimbreakhd07 | Lượt xem: 1763 | Lượt tải: 2
Nội dung tài liệu Giáo trình Di truyền số lượng - Chương 2: Phân tích tính đa dạng về di truyền, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương 2
PHÂN TÍCH TÍNH ĐA DẠNG VỀ DI TRUYỀN
Phương pháp đo lường khoảng cách của các nhóm trên cơ sở nhiều tính trạng khác
nhau được đề xuất (Mahalanobis 1928).
Phương pháp nầy còn được gọi là hiệu số "bình phương" (D2 - Mahalonobis).
Các bước phân tích bao gồm:
(i) Thu thập số liệu
(ii) Trắc nghiệm mức độ ý nghĩa
(iii) Chuyển đổi các giá trị
(iv) Tính hiệu số D2
(v) Trắc nghiệm mức độ ý nghĩa của D2 với phép thử Chi bình phương
(vi) Mức độ đóng góp của các tính trạng vào sự phân nhóm.
(vii) Xếp nhóm các cluster di truyền:
- Phương pháp Tocher
- Canonical graph.
Chương trình phân tích đã có trong cá mô hình thống kê sinh học
Trước tiên, chúng ta thiết lập một ma trận có chứa các giá trị phương sai (variance) và
hợp sai (covariance) giữa các tính trạng có quan hệ với nhau, để tìm ra các phương trình biến
đổi của các biến số có tương quan.
Kế đến tính D2 từng cặp giá trị và phân nhóm di truyền. Tính khoảng cách di truyền
trong từng nhóm và giữa các nhóm.
Các genotypes ở cùng một nhóm ít khác biệt hơn kiểu gen ở nhóm khác. Hệ số D ở
trong nhóm nhỏ hơn rất nhiều so với hệ số D giữa các nhóm.
Có ba đặc điểm quan trọng trong khi chọn lựa các genotypes là:
- Chọn nhóm có genotype làm bố mẹ.
- Chọn các genotypes ở trong nhóm có khoảng cách di tryuền với các
nhóm khác càng xa càng tốt.
- Chú ý các tính trạng có mức độ đóng góp cao nhất về độ khác biệt về di truyền.
Phải tiếp tục thực thiện việc lai thử nghiệm, mới có kết luận cụ thể về ưu thế lai giữa
hai nhóm có khoảng cách xa, cũng như sự phân ly của các dòng con lai.
2-1. PHƯƠNG SAI & HỢP SAI (variance, covariance)
(Σx)2
Σx2 - -------
n
Var x = ----------------------------------- (phương sai)
n - 1
Σxy - (ΣxΣy) / n
Cov xy = -------------------------- (hợp sai)
n –1
Phương pháp metroglyph và tính chỉ số điểm đánh giá đã được Anderson đề nghị từ năm
1957. Sau đó, rất nhiều tác giả khác đã phát triển phương pháp này như Ramanujam và
Kumar (1964), Mukherjee và ctv.(1971), Venketrao và ctv. (1973)
2-2. HIỆU SỐ D2
pD2 = b1d1 + b2d2 + b3d3 + .... + bpdp
pD2 = Wij (mean xi1 - mean xi2) (mean xj1 - mean xj2)
Trong đó Wij là ma trận của các giá trị phương sai và hợp sai của những tính trạng mục tiêu
được sử dụng để phân tích mức độ đa dạng di truyền
Các bước tính toán được tiến hành theo trình tự sau
1. Phân tích ANOVA và ANCOVA của các tính trạng mục tiêu
2. Tìm phương sai kiểu gen và phương sai kiểu hình, hợp sai kiểu gen và hợp sai kiểu
hình
3. Sắp xếp ma trận của các giá trị phương sai và hợp sai tương ứng theo cột và hàng của
ma trận [G] kiểu gen và [P] kiểu hình. Trong trường hợp chung, chúng ta có thể chỉ
cần sử dụng ma trận [G]. Trường hợp bố trí thí nghiệm không có lập lại, phương sai và
hợp sai được tính theo một dãy số, không có bảng ANOVA và ANCOVA, chúng ta
chỉ có một matrix duy nhất.
4. Giải ma trận theo cách trình bày kiểu “pivotal” (kiểu rễ đuôi chuột). Vế bên trái của hệ
thống phương trình là ma trận của các giá trị phương sai, hợp sai. Bên phải là ma trận
đơn vị tương ứng. Thí dụ nếu chúng ta phân tích trên 4 tính trạng mục tiêu, ma trận
đơn vị sẽ là
1 0 0 0 (1)
0 1 0 0 (2)
0 0 1 0 (3)
0 0 0 1 (4)
5. Chuyển đổi giá trị của các biến số. Thí dụ chúng ta có 4 tính trạng mục tiêu, giá trị
chuyển đổi sẽ được tính theo công thức như sau:
X1
Y1 = --------------------------
(σ2X1)
1/2
trong đó σ2X1 là phương sai của tính trạng 1
aX1 + X2
Y2 = --------------------------
(A)1/2
trong đó a là hệ số kết qủa cột 1 của hệ phương trình (2) trong ma trận đơn vị khi tính tóan.
A là hệ số kết qủa của số đầu tiên bên vế trái khi tính toán, tương ứng với hệ phương trình (2)
bX1 + cX2 + X3
Y3 = -------------------
(B)1/2
trong đó b là hệ số kết qủa của cột 1, c của cột 2 trong hệ phương trình (3), trong ma trận đơn
vị khi tính toán, và B là hệ số kết qủa của số đầu tiên bên vế trái của hệ phương trình (3)
eX1 + fX2 + gX3 + X4
Y4 = ---------------------------
(C)1/2
trong đó e là hệ số kết qủa của cột 1, f của cột 2, g của cột 3 trong hệ phương trình (4), trong
ma trận đơn vị khi tính toán, và C là hệ số kết qủa của số đầu tiên bên vế trái của hệ phương
trình (4)
Như vậy chúng ta sẽ có hệ phương trình chuyển đổi giá trị với các giá trị lệ thuộc lẫn
nhau
6. Lập bảng giá trị mới rồi tính hiệu số bình phương
Var 1 Cova1.2 Cova1.3 Cova1.4
Var 2 Cova2.3 Cova2.4
Var 3 Cova3.4
Var 4
Quần thể Y1 Y2 Y3 Y4
1 ... ... ... ...
2 ... ... ... ...
D (1-2) hiệu số giữa 1 và 2
D2 (1-2) hiệu số bình phương giữa 1 và 2 = Σdi2
Tương tự, chúng ta tính hiệu số bình phương của từng cặp genotypes trong phân tích
đa dạng di truyền của quần thể. Thí dụ:
D2 (1-3), D2 (1-4), D2 (1-5), .... D2 (1-n)
D2 (2-3), D2 (2-4) , ....................D2 (2-n)
.................................................................
D2 (10-11) ,................................D2 (10-n)
.......
D2 ([n-1]-n)
2-3. XẾP NHÓM KIỂU GEN VÀO NHỮNG CLUSTER DI TRUYỀN KHÁC NHAU
Căn cứ vào giá trị D2, người ta tiến hành xếp nhóm theo trình tự như sau:
Phương pháp Tocher:
Xếp nhóm giống theo những cluster khác nhau căn cứ vào giá trị D2 nhỏ nhất ở hàng
đầu tiên của tất cả các cột (biểu thị từng giống so với giống còn lại) và mức độ sai biệt có ý
nghĩa với giá trị D2 lớn nhất ở hàng đầu tiên. Chú ý, những giá trị D2 ở mỗi cột được xếp theo
thứ tự từ thấp đến cao.
Phương pháp Canonical:
Tính toán giá trị tổng bình phương (sum of square), giá trị SS và tổng của các tích
(sum of products), giá trị SP, đối với tất cả giá trị Y (gía trị chuyển đổi). Hình thành ma trận
chứa các giá trị SS và giá trị SP. Đặt tên ma trận này là [A]. Tính [A]p, trong đó p là số tính
trạng mục tiêu được sử dụng để phân nhóm. Thí dụ với 4 tính trạng ta sẽ có [A]4. Sau cùng,
chúng ta phải tính giá trị Z.
2-4. NGHIÊN CỨU CHUYÊN ĐỀ
“Phân tích độ khác biệt di truyền của các giống lúa nướcsâu được sử dụng làm vật liệu lai “
(Bùi chí Bửu 1987)
Phân tích độ khác biệt hay độ phong phú về di truyền (divergence analysis) được áp
dụng để phân lập các kiểu gen khác nhau, phục vụ cho việc lai tạo giống có hiệu quả mong
muốn.
Áp dụng phép thử D2 của Mahalonobis để xếp nhóm các vật liệu khởi đầu theo những
tính trạng di truyền số lượng.
2-4-1. Giống được sử dụng làm vật liệu gồm có:
1) Ba bông 2) Ba thiệt 3) Chùm ruột
4) Cù là 5) Chệt cụt 6) Lem lùn
7) Lúa phi 8) Nàng tây đùm 9) Nàng keo
10) Tất nợ 11) Trắng chùm 12) Trắng lùn
13) Trắng phước 14) Trắng tép 15) Nàng tây lớn
2-4-2. Tính trạng mục tiêu: Chiều cao cây, số bông/m2 và ngày trổ bông có hệ số di truyền rất
cao, theo thứ tự (bảng 1)
Năng suất có hệ số di truyền thấp, ảnh hưởng ngoại cảnh có tác động khá lớn, phương
sai do môi trường (0.27) lớn hơn do kiểu gen.
2-4-3. Phân tích sự đóng góp của các tính trạng có ảnh hưởng đối với độ khác biệt về di
truyền cho thấy: hiệu số khác biệt cao nhất xuất hiện ở tính trạng số bông/m2 và chiều cao
cây. Tỉ lệ đóng góp của mỗi yếu tố nầy là 38.09%. Ngày trổ bông có tỷ lệ thấp hơn (18.09%)
và năng suất lúa mùa có ảnh hưởng thấp nhất (5.63%). Do đó, đối với lúa nước sâu, lúa nổi,
yếu tố chiều cao cây và số bông/m2 trong điều kiện ngập sâu có vai trò quan trọng về di
truyền.
5-4. Áp dụng phương pháp xếp nhóm của Tocher và phương pháp phân tích Mahalomobis-
D2, có 4 nhóm khác nhau về di truyền là:
Nhóm I Nhóm II Nhóm III Nhóm IV
Ba bông Lem lùn Ba thiệt Cù là
Chệt cụt Lúa phi Chùm ruột
Nàng tây đùm Trắng chùm
Nàng keo Trắng lùn
Tất nợ Trắng tép
Nàng tây lớn Trắng phước
2-4-4. Khoảng cách di truyền giữa nhóm và trong nhóm được trình bày ở hinh 12, bảng 20.
Khoảng cách I và III, II và IV, III và IV khá lớn.
Các genotypes ở trong cùng một nhóm ít khác biệt hơn ở kiểu gen ở nhóm khác. Hệ số
D trong nhóm nhỏ hơn rất nhiều so với hệ số D giữa các nhóm.
Người ta thường đề cập đến 3 đặc điểm quan trọng trong khi chọn lựa các genotype là
(Singh và Chaudhary 1985):
Bảng 1: Phương sai và hệ số di truyền của các tính trạng.
Ngày trổ bông Cao cây Bông/m2 Năng suất
2
gσ 276.95 643.39 518.31 0.22
2
eσ 45.45 36.78 50.06 0.27
2
pσ 322.40 680.17 638.37 0.49
h2 0.8590 0.9459 0.9216 0.4489
2
gσ = phương sai do kiểu gen
2
eσ = phương sai do môi trường
2
pσ = phương sai do kiểu hình
h2 = hệ số di truyền
Bảng 2: Giá trị khoảng cách di truyền "D" trong nhóm và giữa các nhóm.
Nhóm I II II IV
I 4.21 7.12 9.14 7.23
II 2.95 9.00 12.58
III 0.13 14.91
IV 0.00
Hình 2-1: Khoảng cách di truyền giữa các nhóm
IV
III
I
II
- Chọn nhóm genotype được dùng làm bố mẹ
- Chọn các genotype ở trong nhóm có khoảng cách di truyền với nhóm khác càng xa
càng tốt.
- Chú ý tính trạng có mức độ đóng góp cao nhất về độ khác biệt di truyền (ở đây số
bông/m2 và chiều cao cây có ảnh hưởng mạnh mẽ nhất).
Khoảng cách di truyền giữa nhóm III và IV lớn nhất cho thấy sự khác biệt tối đa về di
truyền. Trong trường hợp như vậy, kết quả lai tạo sẽ thành công để có những phân ly mạnh
mẽ ở các dòng con lai, rất có lợi cho nhà chọn giống để khai thác các biến dị này.
Tuy nhiên các tính trạng quan trọng khác như kháng sâu bệnh, phẩm chất hạt... cần
được lưu ý khi chọn vật liệu làm bố mẹ.
Bước kế tiếp nên chọn 1 giống từ mỗi nhóm, tiến hành lai vòng (diallel cross) và phân
tích khả năng phối hợp, kết quả đạt được sẽ cao hơn (Singh và Chaudhary 1985).
Kết quả phân tích độ khác biệt về di truyền cho thấy: phần lớn các giống được xếp
cùng một nhóm có xuất xứ về địa lý giống nhau. Thí dụ như nhóm I tập hợp các giống lúa nổi
ở vùng 5, trừ hai giống Nàng keo và Tất nợ. Nhóm II tập hợp các giống ở vùng 4. Nhóm III
tập hợp các giống ở vùng 2. Nhóm IV là giống mùa sớm Cù là.
Phương pháp phân tích này chỉ là bước đầu tiên để phân lập các kiểu gen khác nhau.
Phải tiếp tục thực hiện việc lai thử nghiệm, mới có kết luận cụ thể về ưu thế lai giữa hai nhóm
có khoảng cách xa, cũng như sự phân ly mạnh mẽ ở các dòng con lai.
2-5. PHÂN TÍCH NHÓM TRÊN CƠ SỞ ĐIỆN DI VÀ BIỂU HIỆN ĐA HÌNH
Với sự phát triển của sinh học phân tử, người ta có xu hướng phân nhóm đa dạng di
truyền ở mức độ phân tử. Như vậy, sự chính xác sẽ cao hơn rất nhiều so với phương pháp
truyền thống dựa trên tính trạng hình thái học.
Người ta khai thác những khả năng phân tích rất nhanh nhạy của máy tính (computer)
với nhiều phần mềm chuyên dùng, trong đó NTSYS là phần mềm tương đối khá phổ biến.
Theo nội dung này, chúng ta cho điểm 1 khi có băng thể hiện, và điểm 0 khi băng không thể
hiện trong điện di.
2-5-1. Phân tích ma trận tương đồng, ma trận khoảng cách
(similarity / distance matrix)
Các giá trị tương đồng và khoảng cách là những giá trị ước đoán về mặt số lượng
nhằm mô tả sự gần gủi và khoảng cách di truyền giữa hai cặp đơn vị mục triêu. Giá trị tương
đồng biến thiên từ 0 đến 1. Khoảng cách giảm khi giá trị tương đồng tăng. Khoảng cách
(distances) còn được dùng với thuật ngữ “dissimilarities”
Sokal và Sneath (1963) mô tả nhiều cách tính toán khoảng cách và mức độ giống nhau
giữa hai đơn vị mục tiêu. Khi giá trị ở dạng nhị phân (binary), nghĩa là 1 (có) và 0 (không có),
chúng ta đưa chúng về bảng hai chiều như sau
Isolate j m = a + d
u = b + c
n = m + u
Trong đó, m là số dữ liệu tương ứng, u là số dữ liệu không tương ứng, u là tổng số
băng ghi nhận được
a b
c d
Isolate i
1 0
1
0
Chỉ số tương ứng giản đơn (simple matching coefficient)
m
SSM =
n
Ở đây, người ta gọi “negative matches” khi nào cả hai “isolates” i và j đều không thể
hiện băng, không đếm được
Chỉ số Jaccard (Jaccard’s coefficient)
Khi đo mức độ giống nhau không có tình trạng “negative matches”, người ta áp dụng
công thức sau đây để có chỉ số Jaccard
a
Sj =
a + u
Chỉ số Dice (Dice’s coefficient)
Một chỉ số khác mô tả mức độ giống nhau bao gồm trường hợp có “negative
matches”, đó là chỉ số Dice
2a
Sb =
2a + u
Khi đề cập đến thành phần các băng thể hiện trong điện di, chỉ số Dice có thể được
viết lại thành công thức như sau
2a
Sb =
ni + nj
Trong đó, ni là số băng của “isolate i”, và nj là số băng của “isolate j”
Giá trị khoảng cách
Giá trị khoảng cách là độ lệch của những chỉ số biểu thị mức độ giống nhau. Chỉ số
tương đồng S (similarity) biến thiến từ 0 đến 1 có thể được chuyển đổi thành giá trị d
(distance) theo công thức
d = 1 - S
Chúng ta có thể tính toán bằng tay để chuyển đổi chỉ số Dice thành chỉ số khoảng
cách, nhưng với phần mềm chuyên dùng NTSYS, chúng ta sẽ dễ dàng hơn rất nhiều để có kết
qủa với nhiều cặp đơn vị mục tiêu.
2-5-2. Cách tính bằng tay
Đếm số băng của isolate 1 và isolate 2 với ký hiệu n1 và n2, theo thứ tự
Đếm số băng trùng nhau của isolate 1 và isolate 2, ký hiệu là a12
Tính chỉ số Dice theo công thức
2 a12
Sb =
n1 + n2
Chuyển đổi thành giá trị khoảng cách bằng cách lấy 1 trừ đi SD
dD = 1 -SD
Lập lại qui trình nói trên với những cặp isolate còn lại, thí dụ 1 và 3, 1 và 4, 2 và 3, 2 và 4,
v.v...
2-5-3. Xếp nhóm bằng phương pháp UPGMA
Phân tích nhóm (cluster analysis) thực sự là phương pháp sắp xếp các giống thành
những cụm nhóm khác nhau trên cơ sở mức độ giống nhau theo qui ước (người ta còn gọi với
thuật ngữ agglomerative clustering). Nó được thực hiện theo qui trình tiêu chuẩn, nên người
ta còn gọi đó là “greedy algorithm”. Qui trình theo cácbướctiến hành như sau:
• Tìm các cặp (i, j) có giá trị khoảng cách nhỏ nhất (hoặc giống nhau nhất)
• Nhập các cặp này lại thành một nhóm (cluster)
• Tạo ra nhóm lớn hơn tương ứng với nhóm mới sao cho các cặp (i, j) mới tương thích
với giá trị mức độ giống nhau
• Lập lại qui trình
Một trong những phương pháp đơn giản nhất là phương pháp tính khoảng cách trung
bình với giá trị số đại số UPGMA (được viết tắt từ chữ unweighted pair-group method with
arithmetic mean)
Cách tính bằng tay
• Tìm giá trị khoảng cách nhỏ nhất trong ma trận khoảng cách
• Xếp nhóm 2 isolate này lại với nhau, theo giá trị khoảng cách cụ thể, ghi giữa hai điểm
• Xây dựng ma trận khoảng cách mới phối hợp giữa hai isolate gần nhất trong một
nhóm riêng. Khoảng cách giữa hai nhóm mới này và một isolate khác sẽ được ghi
nhận với giá trị khoảng cách trung bình của isolate mới với những isolate trong cluster
• Lập lại qui trình cho đến hết
Thí dụ: ma trận khoảng cách có 5 isolate
Isolate 1 2 3 4
2 d12
3 d13 d23
4 d14 d24 d34
5 d15 d25 d35 d45
Trong đó, dij là khoảng cách giữa isolate i và isolate j
Thí dụ khoảng khoảng giữa isolate 3 và 4 (d34) là ngắn nhất. Hai isolate này được xếp vào một
nhóm với khoảng cách điểm nhánh là (d34/2)
d34 / 2
d34 / 2
Ma trận khoảng cách mới trên cơ sở nhóm (3, 4) và những isolate khác
Isolate 1 2 (3, 4)
2 d12
(3, 4) d1(3,4) d2(3, 4)
5 d15 d25 d5(3, 4)
3
4
d13 + d14
d1(3,4) =
2
d23 + d34
d2(3,4) =
2
d35 + d45
d5(3,4) =
2
Trong ma trận mới, tìm giá trị khoảng cách nhỏ nhất. Thí dụ ở đây là d12, như vậy có nhóm (1,
2) được hình thành
d12 / 2
d12 / 2
Như vậy, có thêm một ma trận khoảng cách mới
Isolate (1, 2) (3, 4)
(3, 4) d(12)(34)
5 d(12)5 d(34)5
d5(12) được tính toán giống như trên, trong khi đó d(12)(34) được tính toán bằng cách lấy trung
bình của d1(34) và d2(34):
d1(34) + d2(34)
d(12)(34) = ------------------------
2
Trong khi đọc giá trị khoảng cách của ma trận mới, thí dụ chúng ta ghi nhận d(12)(34) có
khoảng cách ngắn nhất. Điều này có nghĩa là hai nhóm (1, 2) và (3, 4) nằm cùng trong nhóm
((1, 2), (3, 4)) với khoảng cách :
d(12)(34)
2
d(12)(34) / 2
Ma trận mới được tính toán bằng cách lấy trung bình của d5(12) và d5(34).
Isolate ((1, 2), (3, 4))
5 d5((1, 2), (3, 4))
Giá trị khoảng cách
d5((1, 2), (3, 4)) = [ d5(12) + d5(34) ] / 2
1
2
d12 / 2
d12 / 2
d34 / 2
d34/ 2
1
2
3
4
Cuối cùng, chúng ta có giản đồ phân 5 nhóm như sau
d5((1, 2), (3, 4)) / 2
Biến thiên trong quần thể có thể được định tính bằng hiện tượng dị hợp hoặc hiện
tượng đa dạng di truyền, trong đó đa dạng di truyền tưong thích với quần thể cận giao hơn.
Phương sai của những tính trạng đo đếm được trên cơ sở trung bình giữa các loci, cần phân ra
ở các mức độ khácnhau về sự biến thiên tại những loci này, và chúng cũng cần được kết hợp
theo mức độ biến dị ở những loci khác nhau (Weir 1996)
2-5-4. Phân tích thông qua chương trình NTSYS-pc trên computer
NTSYS-pc là chương trình phần mềm do Rohlf (1992) thiết kế dùng để tìm kiếm và
thành lập kiến trúc những dữ liệu có nhiều biến. NTSYS có thể được thao tác với nhiều loại
hình phân tích một cách linh động
Tạo file NTSYS
Nhằm tạo ra thao tác trong phân tích nhóm với dữ liệu thu thập từ kết qủa đếm băng
điện di, người ta phải tạo ra file NTSYS ở dạng các ma trận. Một ma trận chứa 4 loại hình của
những “records”. Những câu lệnh và các dòng đánh dấu có tính chất chọn lựa tùy thích
Matrix parameter line
Ma trận chứa thông số được viết theo hàng, hàng này chứa 4-5 số (2 trong chúng là
một “suffix L”). Dãy số được cách nhau một khoảng trống
Số hạng đầu tiên là một mã số của ma trận theo cách biểu hiện như sau:
1 = ma trận có dạng chữ nhật
2 = ma trận vuông số liệu không đối xứng
3 = ma trận vuông số liệu đối xứng
5 = ma trận có dạng cây, số liệu không đối xứng
6 = ma trận có dạng cây, số liệu đối xứng
Số hạng thứ hai và thứ ba là những số của hàng và cột trong ma trận
Số hạng thứ tư là 0 nếu chúng không có “số liệu thiếu” trong ma trận
Nếu có số liệu thiếu, số hạng thứ tư sẽ là 1
Số hạng thứ năm rất cần thiết. Nó cung cấp giá trị của số liệu thiếu
Đánh dấu hàng và cột
Chữ L được đặt sau những số của hàng hoặc cột. Thông thường ký hiệu hàng được ưu
tiên trước và cột được ký hiệu sau. Ký hiệu cột phải được bắt đầu từ một hàng mới. Ký hiệu
đánh dấu bảo gồm một dãy chữ số (có thể hơn 8 chữ số hoặc digits nhưng không được chừa
khoảng trống)
1
2
3
4
5
Matrix data lines
Thành phần của ma trận sẽ được viết vào thành hàng tương ứng với một hoặc nhiều
hàng của đầu số liệu vào, sao cho ma trận luôn luôn ở trạng thái “rowwise”. Ma trận vuông
được nhập số liệu thành hàng, bắt đầu từ cột 1
Chạy chương trình NTSYS
Đánh chữ ntsys, rồi ấn phím Enter ở DOS prompt. Màn hình NTSYS hiện ra. Ấn
phím làm rõ màn hình và khởi động ở ô “main program”
Ấn “Page Down” để ô cửa sổ biểu thị nhiều chương trình chọn lựa tiếp theo. Chúng ta
có thể trở lại trang chủ bằng cách sử dụng lệnh “Page Up”
Tính toán ma trận vuông, số liệu đối xứng bằng SIMQUAL
SIMQUAL có thể được sử dụng để tính trong trường hợp ma trận dạng đối xứng, số
liệu mang giá trị nhị phân (binary), trong đó 1 biểu thị có băng hiện diện, và 0 biểu thị không
có băng
1. Chọn Qualitative từ danh mục của “main program”. Cổng SIMQUAL mở ra cho phép
chúng ta thao tác
2. Chọn Name of input matrix, đánh vào “file name” của thư mục chứa số liệu nhị phân
của chúng ta. “File” này sẽ xác định tính chất ma trận NTSYS đã được mô tả ở trên.
3. Khi chúng ta di chuyển đến Coefficient entry, một liệt kê kết qủa phân tích sẽ cho
chúng ta các hệ số cần thiết. Trở lại DICE và chọn bằng cách dùng phím mũi tên di
chuyển lên, xuống, phải, trái. Bấm Enter để chọn lệnh
4. Tại cửa sổ Name ở output matrix, chúng ta ấn lệnh enter vào “filename” cần thiết, để
lưu giữ matrix
5. Câu lệnh hỏi chúng ta hiện trên màn hình: “By rows or cols?. Nhấn phím vào lệnh
ROW.
6. Ấn F2 để chạy chương trình
Xếp nhóm bằng phương pháp SAHN
1. Chọn SAHN Clustering từ danh mục trong “main program”. Ô SAHN mở ra.
2. Chọn Name of input matrix, ấn “filename” của ma trận khoảng cách
3. Chọn Name of output matrix, ấn file name nơi mà chúng ta muốn lưu giữ ở cây
thư mục UPGMA. Chương trình hoạt động thông qua một “tree matrix”
4. Ấn F2 để chạy chương trình. Ấn ESC hai lần để trở lại “main program”
In giản đồ
1. Đưa về Name of tree matrix. Lúc bấy giờ chúng ta có thể thay đổi tên file nếu cần
2. Ấn F2, chương trình sẽ vẽ giản đồ giống như cây gia hệ, biểu thị các cluster và
khoảng cách di truyền. Ấn Alt-P để in cây gia hệ
3. Nếu chúng ta muốn điều chỉnh, nhấn ESC hai lần để trở về “Tree entry window”.
Nhập thông tin mong muốn trong Minimum for scale. Lập lại bước 2.
Muốn thoát ra chương trình, nhấn ESC trở về “main program”
NTSYSpc trong WINDOW
Hiện nay, người ta đã có thể sử dụng NTSYS trong Window. Chúng ta vào số liệu
trong Excel theo như qui định chung. Sau khi nhập số liệu, ở hành đầu tiên chúng ta ký hiệu
cột đầu tiên là 1 trong trường hợp ma trận hình chữ nhật, cột thứ hai ghi số hàng, cột thứ ba
ghi số cột, và cột thứ tư ghi số 0 nếu không có số liệu thiếu (giống như nguyên tắc trong
DOS).
Kế tiếp, chúng ta lưu trữ file với tên file trong excel, rồi đóng lại
Chúng ta mở chương trình NTSYS, nhấp chuột vào “similarity”, xong nhấp “interval
data”. Khung chương trình sẽ hỏi tên file ở “Input”. Nhấp chuột hai lần (double click) và
chọn tên file vừa nhập số liệu trong Excel. Thanh điều khiển “distance” được nhấp chuột để
tìm phương án, thí dụ ta chọn “DIST” để tính khoảng cách giữa các nhóm, nhấn chuột.
Khung chương trình sẽ hỏi tên “Output”. Nhấp chuột hai lần và đặt tên file mới của
output. Kế đến chúng ta bấm chuột vào lệnh “compute”. Chúng ta có thể kiểm tra lại cách xếp
đặt ma trận có chuẩn không trên màn hình. nếu có một sai sót nào đó, màn hình sẽ báo lỗi
ngay lập tức. Nếu ma trận được lập đúng, chúng ta thực hiện tiếp chương trình phân nhóm.
Chọn “clustering”, màn hình sẽ hiện giản đồ cácphương án khácnhau, chọn tiếp phương pháp
SAHN trong các phương pháp trên màn hình, chương trình sẽ hỏi tên input file, chúng ta phải
ghi vào bằng tên của matrix output, xong đặt tên output mới ở câu lệnh kế tiếp, rồi bấm chuột
vào lệnh “compute”. Bấy giờ, ở cuối màn hình bên góc trái sẽ thể hiện tín hiệu của SAHN.
Bấm chuột vào tín hiệu mới xuất hiện này, lập tức chúng ta sẽ có được giản đồ phân nhóm.
Nên nhớ, giá trị được phân nhóm được xếp thành hàng, giá trị thuộc tính của nhóm được xếp
theo cột của ma trận.
Bài tập
Xếp nhóm 40 giống lúa theo kết qủa điện di trên acrylamide gel với 17 loci (SSR marker)
theo phương pháp SAHN, sử dụng NTSYSpc.
1 17 40 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
O.14 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0
O.33-A 1 1 0 0 1 0 1 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 1 0 0 0
O.33-B 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 1 0 0 1 1 1 0 1 0 0 0
O.34 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
O.35 1 1 1 1 1 1 1 0 1 0 0 0 0 1 0 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 1 0 1 1 1 1 0 0 0 0
O.163 1 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 0 1 0 1 1 0 1 1
R.202-A 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 1 0 0 0 1 0 1 0 0 1 0 1 1 0 1 1 0 1 0 1 0 0 0 0 1
R.202-B 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 1 0 1 0 1 1 0 1 1 0 1 0 1 0 0 0 0 0 1
R.206-A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
R.206-B 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 1 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
R.215 1 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 1 1 0 1 0 0 0 0 0
R.220-A 1 1 0 0 1 1 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
R.220-B 0 0 0 0 0 0 0 0 0 1 1 0 0 1 1 0 0 1 1 1 0 1 0 1 0 0 0 0 0 1 0 0 0 1 1 0 0 1 0 0
R.220-C 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
R.231 1 0 0 1 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0 1 0 0 1 1 1
R.235 0 0 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
R.281 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1
Kết qủa ghi nhận được trong NTSYSpc
Coefficient
0.24 0.34 0.44 0.54 0.64
10
1
2
5
13
9
36
31
14
8
12
21
29
26
18
38
23
37
24
32
25
39
40
3
27
4
6
28
33
35
7
Các file đính kèm theo tài liệu này:
- chuong-2.pdf