Search engine phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ khoá mà
người dùng cần tìm kiếm. Thuật ngữ search engine đôi lúc được dùng không chính xác để chỉ các chỉ
mục Web do các biên tập viên biên soạn.
Web crawler còn được gọi là spider (con nhện) là một phần của search engine, chuyên “chu du” khắp
Web, sao chép từng trang nó tìm được và lập chỉ mục các từ khóa, tên trang.
Hãy thử tưởng tượng một cuộc sống hoàn toàn không có niên giám điện thoại hay một trợ giúp nào
khác. Sử dụng điện thoại lúc đó sẽ trở nên rất khó khăn. Điều này cũng tương tự như dùng Web mà
không có công cụ tìm kiếm (search engine). Với search engine, bạn chỉ cần biết một vài thông tin hay từ khoá là có thể tìm được nơi cần đến.
Theo một nghiên cứu do công ty Zona Research (Mỹ) tiến hành năm 1999 thì search engine hiện là
phương thức tìm kiếm thông tin trên Web được sử dụng nhiều nhất, nó chiếm tới 77% tổng thời gian tìm kiếm. Theo kết quả khảo sát người tiêu dùng của một công ty khác vào năm 1999 thì 88% người dùng trực tuyến có sử dụng một search engine và 72% có dùng một search engine để tìm kiếm hàng hoá bán lẻ.
Đối với nhiều người dùng, search engine là yếu tố định hình nên bức tranh về kho thông tin trên Web.
Tuy nhiên, một nghiên cứu gần đây của NEC Research Institute và Inktomy cho thấy có tới hơn một tỷ trang Web riêng biệt trên Internet và hầu hết các search engine đã bỏ qua không lập chỉ mục cho 1/4 số trang này. Mặt khác, khoảng 7-14% những nội dung đã được lập chỉ mục lại không còn tồn tại trên Net.
77 trang |
Chia sẻ: luyenbuizn | Lượt xem: 1242 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Tài liệu tổng hợp các bài viết SEO - Search Engine Optimization (căn bản), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 1
Tài liệu tổng hợp các bài viết
SEO- Search Engine Optimization
(căn bản)
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 2
Contents
I. TỔNG QUAN VỀ SEO ............................................................................................................................. 4
1.1 Search Engine là gì? ........................................................................................................................... 4
1.2 Search Engine làm việc như thế nào? ................................................................................................. 6
1.3 SEO là gì? ........................................................................................................................................ 10
1.4 Kết quả tự nhiên và kết quả được tài trợ (Google SEO và Google Adwords) .................................... 10
1.5 Mục đích của các Search Engine Optimization ................................................................................. 13
1.6 SEO là nghệ thuật hay khoa học ? .................................................................................................... 13
II. CÁC SEARCH ENGINE XẾP HẠNG CÁC TRANG WEB NHƯ THẾ NÀO?.................................................. 15
III QUY TRÌNH THỰC HIỆN 1 CHIẾN DỊCH SEO ..................................................................................... 17
3.1 Nghiên cứu & xác định từ khóa......................................................................................................... 18
3.2 Tối ưu hóa trong trang .................................................................................................................... 19
3.3 Tối ưu hóa ngoài trang ..................................................................................................................... 20
3.4 Theo dõi thứ hạng ............................................................................................................................ 21
IV. NGHIÊN CỨU & XÁC ĐỊNH TỪ KHÓA ................................................................................................ 21
4.1 Thực tế quá trình chọn keyword cho 1 Website ................................................................................ 21
4.2 Nghiên cứu từ khóa .......................................................................................................................... 23
4.2.1 Nghiên cứu từ khóa mục tiêu trước khi SEO .................................................................................. 23
4.2.2 Bốn bước nghiên cứu từ khóa thiết kế web ................................................................................... 25
4.3 Sử dụng các công cụ nghiên cứu từ khóa ......................................................................................... 27
4.3.1 Công cụ gợi ý từ khóa trong seo .................................................................................................... 27
4.3.2 10 công cụ nghiên cứu từ khóa miễn phí hay nhất ...................................................................... 28
4.3.4 công cụ keyword của google.......................................................................................................... 31
4.3.5 Tối ưu keyword cho seo tốt hơn ................................................................................................... 39
V. TỐI ƯU HÓA TRONG TRANG (ON-PAGE OPTIMIZATION) .................................................................. 41
5.1 Tối ưu snippets với thẻ meta description .......................................................................................... 41
5.2 tối ưu hóa thẻ meta descriptions .............................................................................................. 43
5.3 TỐI ƯU CÁC THÀNH PHẦN CỦA HTML .............................................................................................. 45
5.3.1 tối ưu metal Title ........................................................................................................................... 45
5.3.2 Tối ưu hóa thẻ Alt và Title Image cho hình ảnh ............................................................................. 45
5.3.3 nội dung trong phần body ............................................................................................................. 47
5.3.4 Sử dụng thật tốt các thẻ : H1 ,H2 , H3 ,P, LI ................................................................................. 47
5.3.5 Nội dung trong liên kết .................................................................................................................. 47
5.3.5 Tối ưu hóa cấu trúc URL trở nên thân thiện với công cụ tìm kiếm ................................................. 47
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 3
5.4 TỐI ƯU BỐ CỤC CỦA TRANG ............................................................................................................ 49
5.5 TỐI ƯU NAVIGATOR & MENU ........................................................................................................... 52
5.6 CSS & SEO ........................................................................................................................................ 53
5.7 TRÙNG LẶP NỘI DUNG- NỘI DUNG KÉP ........................................................................................... 60
5.7.1 Nội dung kép và phương pháp phát hiện mới của Google .............................................................. 60
5.7.2 cách tránh lỗi Trùng lặp nội dung (Duplicate Content) ................................................................... 62
5.8 SEO & VỊ TRÍ ĐỊA LÝ ........................................................................................................................ 63
5.8 CÁC VẤN ĐỀ LIÊN QUAN ĐẾN KHẢ NĂNG LẬP CHỈ MỤC................................................................... 66
5.8.1 Đạt nhiều chỉ mục từ Google (Google Index) ................................................................................. 66
5.8.2 Làm thế nào để tạo google sitemap cho website của bạn ............................................................. 67
5.8.3 cách làm sitemap cho yahoo .......................................................................................................... 69
5.8.4 - 7 bước làm tăng tốc độ index webiste của Google ...................................................................... 70
5.8.5 Để Google index các videos của bạn? ............................................................................................ 71
5.8.6 Các cách ngăn không cho google index một số trang trên website ................................................ 71
5.9 Tính khả dụng và thứ hạng trên máy tìm kiếm ................................................................................. 72
5.19 Robots.txt & Googlebot - Allow & Disallow ...................................................................................... 74
5.19 Sử dụng nhiều keyword ở các trang hơn là tập trung keyword ở trang chủ .................................... 76
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 4
I. TỔNG QUAN VỀ SEO
1.1 Search Engine là gì?
Search engine phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ khoá mà
người dùng cần tìm kiếm. Thuật ngữ search engine đôi lúc được dùng không chính xác để chỉ các chỉ
mục Web do các biên tập viên biên soạn.
Web crawler còn được gọi là spider (con nhện) là một phần của search engine, chuyên “chu du” khắp
Web, sao chép từng trang nó tìm được và lập chỉ mục các từ khóa, tên trang.
Hãy thử tưởng tượng một cuộc sống hoàn toàn không có niên giám điện thoại hay một trợ giúp nào
khác. Sử dụng điện thoại lúc đó sẽ trở nên rất khó khăn. Điều này cũng tương tự như dùng Web mà
không có công cụ tìm kiếm (search engine). Với search engine, bạn chỉ cần biết một vài thông tin hay từ
khoá là có thể tìm được nơi cần đến.
Theo một nghiên cứu do công ty Zona Research (Mỹ) tiến hành năm 1999 thì search engine hiện là
phương thức tìm kiếm thông tin trên Web được sử dụng nhiều nhất, nó chiếm tới 77% tổng thời gian
tìm kiếm. Theo kết quả khảo sát người tiêu dùng của một công ty khác vào năm 1999 thì 88% người
dùng trực tuyến có sử dụng một search engine và 72% có dùng một search engine để tìm kiếm hàng
hoá bán lẻ.
Đối với nhiều người dùng, search engine là yếu tố định hình nên bức tranh về kho thông tin trên Web.
Tuy nhiên, một nghiên cứu gần đây của NEC Research Institute và Inktomy cho thấy có tới hơn một tỷ
trang Web riêng biệt trên Internet và hầu hết các search engine đã bỏ qua không lập chỉ mục cho 1/4
số trang này. Mặt khác, khoảng 7-14% những nội dung đã được lập chỉ mục lại không còn tồn tại trên
Net.
Bên trong việc tìm kiếm
Với quy mô của Web, với số lượng quá lớn các trang không được truy cập đến trong nhiều năm và trang
có chứa những từ quá phổ biến dẫn đến những site không liên quan, việc lập chỉ mục dù chỉ một phần
của Web để có thể trả về kết quả phù hợp là một quá trình đòi hỏi rất nhiều công sức to lớn.
Tuy nhiên, về căn bản, công việc này rất đơn giản: chương trình phần mềm thông minh sẽ “chu du”
khắp trên Web, tìm kiếm và lưu trữ bất cứ thông tin nào chưa có trong chỉ mục và thường là lưu toàn bộ
trang Web. Thông tin thu thập được có thể từ những trang đã được lập chỉ mục trước đó nhưng đã thay
đổi, liên kết đến những trang chưa được lập chỉ mục và các địa chỉ Web do các công ty thứ ba đưa lên.
Một khi các chỉ mục đã được tập hợp lại, chúng sẽ được kiểm tra để loại bỏ những thông tin trùng lắp,
chẳng hạn như các phiên bản khác nhau của cùng một site (site dự phòng); loại bỏ những trang lập lại
quá nhiều lần cùng từ khoá. Một số search engine còn có khả năng gán trạng thái đặc biệt cho trang
Web có dùng siêu thẻ (metatag) chứa các thành phần mô tả thông tin. Một số search engine có khả
năng phân tích nội dung trang Web và cho biết tần suất mà những trang khác liên kết đến trang này.
Như vậy, trang Web càng phổ biến thì nội dung của nó càng dễ tìm kiếm.
Khi người dùng đưa yêu cầu tìm kiếm thông tin cho search engine hay dịch vụ thư mục, các giải thuật
tinh vi bên trong sẽ được kích hoạt. Mỗi search engine có một cách xử lý khác nhau đối với thông tin mà
nó nhận được từ người dùng, nhưng mục tiêu thì giống nhau: dự đoán người dùng cần gì và trả về
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 5
thông tin tương ứng. Những vấn tin của người dùng thường được phân tích rất chi tiết để phát hiện
những sai sót chính tả trong từ khoá hay liệu thông tin này đã được tìm kiếm chưa.
Nguyên lý hoạt động
Một Search Engine hoạt động theo các bước sau:
Web crawling
Indexing
Searhing
Search Engine làm việc bằng cách lưu trữ thông tin về nhiều trang Web trên WWW. Những thông tin
này sẽ được thu thập bởi các Spider (chính là Web crawling) và nội dung của mỗi trang sẽ được phân
tích để SE quyết định nên index cái nào (ví dụ, những từ khoá được thu thập từ các titles, heading hay
một số trường đặc biệt gọi là meta tags) để trả về những thông tin mà người tìm kiếm mong muốn
nhất. Dữ liệu về những trang Web sẽ được lưu trữ tại các cơ sở dữ liệu chỉ mục để sử dụng cho những
lần truy vấn sau. Một số Search Engine, như Google chẳng hạn, sẽ lưu trữ toàn bộ hay một phần trang
gốc (được xem như một cache) cũng như thông tin về trang Web đó, trái lại với một số SE khác, như
AltaVista, sẽ lữu trữ tất cả các từ của những trang mà nó tìm thấy.
Khi người dùng nhập vào các Search Engine một truy vấn (chủ yếu là các keyword), các SE này sẽ kiểm
các index của nó và cung cấp danh sách các trang Web phù hợp nhất, thường là các cụm từ ngắn hay
một phần của một đoạn văn bản. Hầu hết các Search Engine đều sử dụng các Boolean
Operators (toán tử luận lý) như AND, OR và NOT để xác định các search query (truy vấn tìm
kiếm). Một số SE khác lại sử dụng những phương pháp tiên tiến hơn như Proximity Search
(tìm kiếm gần kề) để cho phép người dùng xác định được khoảng cách giữa các từ khoá.
Dịch vụ thư mục
Các dịch vụ thư mục như của Yahoo và hỏi-đáp như của Ask Jeeves không dùng phần mềm thu thập tự
động thông tin Web. Thay vào đó, các biên tập viên sẽ thực hiện việc tổng hợp thư mục Web một cách
thủ công. Mặc dù Yahoo không lập chỉ mục trang Web như cách của search engine nhưng nó thực sự
cung cấp dữ liệu chất lượng cao. Tuy nhiên, với mức tăng trưởng hàng năm 70% tổng số trang Web từ
nay đến 2003 theo như dự báo của International Data Corp. thì những dịch vụ thư mục kiểu này sẽ phải
gia tăng liên tục số lượng biên tập viên để có thể duy trì được tính hữu dụng của dịch vụ.
Một loại search engine lai mới đang xuất hiện, sử dụng phương pháp phân tích ngôn ngữ để xác định
dịch vụ thư mục, search engine hay cơ sở dữ liệu sẽ đáp ứng tốt nhất cho yêu cầu tìm kiếm thông tin
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 6
của người dùng. Ví dụ, vấn tin “dân số Việt Nam” sẽ trả về thông tin điều tra dân số của Việt Nam, liên
kết đến các Web site, thư mục và các thông tin có liên quan.
Tương lai của việc tìm kiếm
Một số search engine đã có tính năng tìm kiếm các đối tượng thay vì văn bản – chẳng hạn ảnh của một
“ngôi sao” nào đó ở dạng JPEG. Tuy nhiên, còn rất nhiều nội dung multimedia như hình ảnh động của
Shockware, Flash và dạng âm thanh, hình ảnh liên tục, hiện thời chưa thể lập chỉ mục được.
XML là một ngôn ngữ mô tả nội dung, không chỉ có khả năng chuyển tải thông tin mà còn có các thẻ
định danh để mô tả thông tin này có ý nghĩa gì. Search engine có thể lập chỉ mục trang Web XML dễ
dàng hơn nhờ những thẻ này cho biết thông tin tương ứng xuất hiện ở đâu trên trang. Ví dụ, thẻ định
danh “125” báo cho search engine biết rằng 125 là giá. Điều này cho phép search engine so sánh giá
của nhiều nhà bán lẻ khác nhau một cách dễ dàng và nhanh chóng.
1.2 Search Engine làm việc như thế nào?
Internet và World Wide Web có đến hàng trăm triệu website có sẵn mang các thông tin về nhiều chủ đề
khác nhau. Tuy nhiên hầu hết chúng đều được đặt tiêu đề theo ý thích của tác giả, và được đặt trên
máy chủ với các tên khó hiểu. Khi bạn cần biết về một chủ đề nào thì sẽ phải đọc các trang nào? Phần
lớn mọi người khi băn khoăn về vấn đề này họ sẽ sử dụng một công cụ tìm kiếm trên Internet (Internet
search engine).
Search engine trên Internet là các site đặc biệt trên web, được thiết kế để giúp mọi người tìm kiếm
thông tin được lưu trên các site khác nhau. Có nhiều cách khác nhau trong cách tìm kiếm này, nhưng
tất cả chúng đều thực hiện ba nhiệm vụ cơ bản:
Tìm kiếm Internet – hoặc chọn các mẩu thông tin trên Internet – dựa trên các từ quan trọng
Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng
Cho phép người dùng tìm kiếm các từ hoặc cụm từ được tìm kiếm trong chỉ mục đó.
Các cỗ máy tìm kiếm trước kia đều giữ chỉ mục của hàng trăm ngàn trang web và tài liệu, chúng thường
nhận có thể một hoặc hai nghìn yêu cầu tìm kiếm mỗi ngày. Ngày nay, cỗ máy tìm kiếm hàng đầu đánh
chỉ mục hàng trăm triệu trang và đáp trả đến hàng chục triệu yêu cầu mỗi ngày. Trong bài này chúng
tôi muốn giới thiệu về các nhiệm vụ chính sẽ được thực hiện như thế nào, và cách các cỗ máy tìm kiếm
này sẽ xử lý như thế nào để cho phép bạn tìm thông tin cần thiết trên web.
Xem xét Web
Khi hầu hết mọi người nói về các cỗ máy tìm kiếm Internet, họ đều cho đó là cỗ máy tìm kiếm World
Wide Web. Tuy nhiên trước khi Web trở thành phần dễ thấy nhất của Internet thì thực sự đã có các cỗ
máy tìm kiếm để giúp mọi người có thể tìm được các thông tin trên mạng. Các chương trình với những
cái tên như "gopher" và "Archie" đã giữ chỉ số của các file được lưu trên máy chủ kết nối với Internet,
đã giảm được một cách rõ rệt số lượng thời gian cần thiết để tìm kiếm các chương trình và tài liệu. Vào
những năm cuối thập kỷ 80, việc có được các giá trị quan trọng từ Internet có nghĩa là biết cách sử
dụng gopher, Archie, Veronica và một số chương trình tương tự khác.
Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm kiếm của họ trên Web, chính vì vậy
chúng tôi sẽ giới thiệu vấn đề này bằng cách tập trung vào nội dung của các trang web.
Khởi đầu
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 7
Trước khi cỗ máy tìm kiếm có thể cho bạn biết về nơi một file hoặc tài liệu nào đó được lưu trữ thì nó
phải tìm ra được chúng. Để tìm các thông tin trên hàng trăm triệu trang web đang tồn tại, mỗi một cỗ
máy tìm kiếm phải sử dụng đến các robot phần mềm đặc biệt, các robot phần mềm này được gọi là
spider (con nhện), để thành lập danh sách các từ tìm thấy trong các website. Quá trình spider xây dựng
danh sách được gọi là Web crawling. Để tạo và duy trì một danh sách hữu dụng cho việc tìm kiếm thì
spider của cỗ máy tìm kiếm phải xem được nội dung của các trang web.
Vậy cách spider thực hiện công việc của nó trên Web như thế nào? Điểm khởi đầu là danh sách các máy
chủ và trang web phổ biến. Spider sẽ bắt đầu với một site phổ biến nào đó, đánh chỉ mục các từ trên
trang của nó và theo các liên kết tìm thấy bên trong site này. Theo cách này, hệ thống Spider sẽ nhanh
chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần được sử dụng rộng rãi nhất của
web.
Google.com bắt đầu như một cỗ máy tìm kiếm của trường đại học. Trong bài viết mô tả về cách hệ
thống được xây dựng như thế nào, Sergey Brin và Lawrence Page đã lấy một ví dụ về spider của họ có
thể làm việc nhanh đến cỡ nào. Họ đã xây dựng hệ thống ban đầu để có thể sử dụng nhiều spider,
thường là có đến 3 spiders hoạt động đồng thời. Mỗi Spider có thể giữ tới khoảng 300 kết nối với các
trang web mỗi thời điểm. Với hiệu suất đỉnh của nó, sử dụng đến 4 Spider, hệ thống của họ có thể tìm
thêm trên 100 trang mỗi giây, tạo ra khoảng 600KB dữ liệu mỗi giây.
Việc giữ được tốc độ tìm kiếm nhanh cũng có nghĩa phải xây dựng hệ thống có thể cung cấp được các
thông tin cần thiết cho Spider. Hệ thống Google trước kia có một máy chủ chuyên dụng dùng để cung
cấp các URL cho Spider. Thay cho việc phụ thuộc vào nhà cung cấp dịch vụ về DSN để dịch tên của máy
chủ thành địa chỉ, Google đã có DSN của chính họ để độ giữ chậm diễn ra chỉ trong khoảng thời gian tối
thiểu.
Khi Spider của Google xem các trang HTML, nó lưu ý hai thứ:
Các từ bên trong trang
Nơi tìm thấy các từ
Các từ xuất hiện trong tiêu đề, phụ đề, các thẻ meta và các phần quan trọng khác có liên quan được lưu
ý bằng những xem xét đặc biệt cho những tìm kiếm của người dùng sau đó. Spider của Google đã được
xây dựng để có thể đánh chỉ mục mọi từ quan trọng trên một trang và chỉ để lại các mạo từ như "a,"
"an" và "the". Các Spider khác lại sử dụng các phương pháp khác.
Các phương pháp khác mà Spider áp dụng thường là cố gắng làm cho hệ thống của Spider diễn ra
nhanh hơn, cho phép người dùng có thể tìm kiếm hiệu quả hơn, hoặc cả hai. Ví dụ, một số Spider giữ
liên hệ với các từ trong tiêu đề, các heading nhỏ và liên kết, cùng với 100 từ thường được sử dụng trên
trang và các từ trong 20 dòng đầu tiên của văn bản.
Các hệ thống khác chẳng hạn như AltaVista lại tiếp cận theo một hướng khác, đánh chỉ mục các từ đơn
trên mỗi trang, gồm có cả "a," "an," "the" và các từ “không quan trọng” khác. Tính đầy đủ trong
phương pháp này được so khớp bởi các hệ thống khác trong phần thẻ meta của Website.
Các thẻ Meta
Thẻ Meta cho phép chủ sở hữu của trang có thể chỉ định các từ khóa và khái niệm sẽ được đánh chỉ
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 8
mục. Đây là một trong các thẻ rất hữu dụng, đặt biệt trong nhiều trường hợp các từ trên trang có thể có
đến hai hoặc 3 nghĩa - thẻ Meta có thể hướng dẫn cỗ máy tìm kiếm trong việc chọn nghĩa nào trong số
các nghĩa có thể là đúng đối với một từ nào đó. Tuy vậy vẫn có một lo lắng trong việc tin cậy nhiều vào
thẻ Meta vì các trang kém chất lượng mà chủ sở hữu của nó lại đưa vào thẻ này những chủ đề phổ biến
nhưng không có nội dung gì về nó. Để khắc phục hiện tượng này, Spider sẽ tương quan các thẻ Meta
với nội dung của trang, loại ra các thẻ không thỏa khớp với các từ trong trang.
Tất cả vấn đề này khởi nguồn từ chủ sở hữu của trang này, họ muốn trang web được hiển thị trong kết
quả tìm kiếm của các cỗ máy tìm kiếm này. Nhiều khi, chủ sở hữu không muốn trang của họ xuất hiện
trên các trang kết quả của một cỗ máy tìm kiếm hoặc không muốn Spider truy cập vào trang của họ. (Ví
dụ, một game xây dựng các trang active mới mỗi lần các section của trang được hiển thị hoặc theo sau
là các liên kết mới. Nếu một Spider Web có thể truy cập vào và bắt đầu đi theo tất cả liên kết cho các
trang mới thì game có thể mắc lỗi activity cho player tốc độ cao và kéo dài sự kiểm soát.) Để tránh tình
trạng này, giao thức loại trừ robot đã được phát triển. Giao thức này bổ sung vào phần thẻ meta ở bắt
đầu mỗi trang, thông báo cho Spider phải rời trang của nó – không đánh chỉ mục các từ trên trang này
hoặc cố gắng lần theo các liên kết của nó.
Xây dựng chỉ mục
Khi Spider đã hoàn tất nhiệm vụ tìm thông tin trên các trang web (chúng tôi lưu ý rằng đây là nhiệm vụ
không bao giờ hoàn tất vì luôn có sự thay đổi của các trang nên điều đó có nghĩa là Spider sẽ luôn thực
hiện nhiệm vụ của nó), cỗ máy tìm kiếm phải lưu các thông tin này theo một cách nào đó để có lợi nhất.
Có hai thành phần chính liên quan tới việc tạo dữ liệu đã thu thập được để có thể truy cập với người
dùng:
Thông tin được lưu với dữ liệu
Phương pháp mà thông tin được đánh chỉ mục
Trong trường hợp đơn giản nhất, một cỗ máy tìm kiếm có thể chỉ lưu các từ và URL nơi mà nó tìm ra.
Trong thực tế, điều này sẽ làm hạn chế rất nhiều vì sẽ không có cách nào để nói từ đó đã được sử dụng
là quan trọng hay không có giá trị trên trang đó, hoặc từ đã được sử dụng một lần hay nhiều lần, hoặc
trang đó có chứa liên kết đến các trang khác có chứa từ hay không. Nói theo cách khác là sẽ không có
cách nào xây dựng được danh sách thứ hạng để bình chọn các trang hữu ích nhất ở trên đầu mỗi danh
sách kết quả tìm kiếm.
Để làm cho các kết quả tìm kiếm được phù hợp nhất, hầu hết các cỗ máy tìm kiếm đều lưu nhiều từ và
URL. Một engine có thể lưu số lần từ nào đó xuất hiện trong một trang. Nó có thể gán “trọng lượng” cho
mỗi một entry nào đó, tăng dần giá trị gán cho các từ khi chúng xuất hiện gần phía trên của tài liệu,
trong các heading con, các liên kết và trong thẻ meta hoặc trong tiêu đề của trang. Mỗi một cỗ máy tìm
kiếm mang tính thương mại đều có một công thức khác nhau đối với việc gán trọng lượng cho các từ
trong chỉ mục của nó. Đây chính là một trong những lý do tại sao một tìm kiếm cho những từ giống
nhau trên các cỗ máy tìm kiếm khác nhau lại cho ra danh sách khác nhau, các trang được thể hiện theo
thứ tự khác nhau.
Không quan tâm đến sự kết hợp nghiêm ngặt các mẩu thông tin bổ sung được lưu bởi mỗi search
engine, dữ liệu sẽ được mã hóa để lưu trữ trong các điểm lưu trữ riêng.
Một chỉ mục chỉ có một mục đích: Nó cho phép thông tin được tìm thấy một cách nhanh chóng. Có khá
nhiều cách cho việc xây dựng chỉ mục, nhưng cách hiệu quả nhất vẫn là xây dựng một bảng hash. Một
công thức được sử dụng để gắn giá trị bằng số cho mỗi một từ. Công thức này được thiết kế để cung
cấp cho các entry trên số lượng được xác định trước các phần chia. Phần chia bằng số này khác với
Tài liệu SEO căn bản Phạm Duy Anh
duyanhphamkiller@gmail.com Page 9
phần chia từ trong bảng alphabet và đó chính là hiệu lực chính của bảng hash.
Trong tiếng Anh, có một số ký tự được bắt đầu nhiều hơn với các ký tự khác. Ví dụ như bạn sẽ thấy
phần “M” của từ điển sẽ dày hơn phần “X”. Sự không công bằng này có nghĩa rằng việc tìm một từ bắt
đầu với một ký tự “phổ biến” có thể lâu hơn nhiều so với việc tìm một từ bắt đầu với một ký tự kém phổ
biến hơn. Thuật toán Hash cân bằng sự khác nhau này, và giảm thời gian trung bình để tìm kiếm mỗi
entry. Nó cũng phân biệt chỉ mục với entry thực tại. Bảng hash gồm có các số được đánh hash cùng với
một con trỏ dữ liệu, con trỏ này có thể được phân loại theo bất cứ cách nào cho phép lưu trữ hiệu quả
nhất. Sự kết hợp giữa việc đánh chỉ mục hiệu quả và lưu trữ hiệu quả làm cho người dùng có thể thực
hiện các thao tác tìm kiếm một cách nhanh chóng thậm chí khi họ tạo một tìm kiếm phức tạp.
Xây dựng một tìm kiếm
Việc tìm kiếm thông qua một chỉ mục cần người dùng xây dựng một truy vấn và đệ trình nó thông qua
search engine. Truy vấn có thể khá đơn giản như một từ chẳng hạn. Việc xây dựng một truy vấn phức
tạp hơn cần sử dụng các toán tử Boolean để cho phép bạn lọc và mở rộng dưới dạng tìm kiếm.
Các toán tử Boolean thường được sử dụng nhất là:
AND – Tất cả các mục đã được nối
Các file đính kèm theo tài liệu này:
- seo_search_engine_optimization_0641.pdf