Robots.txt là một trong những yếu tố mà bạn cần phải kiểm tra và tối ưu trong kỹ thuật SEO. Bất kì một sự cố hoặc cấu hình sai nào trong File Robots.txt nào của bạn cũng có thể gây ra các vấn đề SEO, tác động tiêu cực đến thứ hạng của web trên bảng tìm kiếm. Robot.txt là tập tin văn bản trong thư mục gốc của website. Robot.txt cung cấp chỉ dẫn cho các công cụ tìm kiếm dữ liệu về các site mà họ có thể thu thập thông tin, dữ liệu để lập chỉ mục. Vậy Robot.txt là gì? Và cách tạo file Robot.txt chuẩn SEO thế nào? Cùng tham khảo qua bài viết sau nhé!
File robots.txt là gì?
robots.txt là một file văn bản để quan trị website khai báo cho phép hay không cho phép các user-agent của search engine (BOT) thu thập dữ liệu(crawl) trong tài nguyên một website.
Tệp này cũng dùng để ngăn trình thu thập dữ liệu request trang web của bạn quá nhiều, nó không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng lệnh noindex (ngăn lập chỉ mục) với thẻ meta robots hoặc bảo vệ trang của bạn bằng mật khẩu cho một trang web.
File robots.txt được xem như một tập tin đơn giản chuyên được sử dụng trong quản trị website. Nó là một phần của REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn về web theo quy định. Công dụng của File robots.txt là giúp cho các nhà quản trị web có được sự linh hoạt và chủ động hơn trong việc kiểm soát bọ của Google.
File robots.txt được sử dụng để cấp quyền chỉ mục cho những con bọ của công cụ tìm kiếm. Bất cứ một website nào thì cũng nên sử dụng File robots.txt, đặc biệt là những trang web lớn hoặc đang xây dựng.
Vai trò của File robots.txt đối với website
- Chặn bọ từ google trong quá trình xây dựng web
- Chèn Sitemap
- Chặn bọ quét backlink
- Chặn các thư mục cần bảo mật
Những mã nguồn của website thường đều có các thư mục cần được bảo mật. Ví dụ như wp-includes, phpinfo.php, wp-admin, memcached, cgi-bin…
Những trang web này chắc chắn không được index. Bởi một khi nội dung được công khai trên internet, các hacker sẽ có thể lấy cắp đi những thông tin quan trọng, thậm chí là tấn công vào hệ thống của bạn. Công dụng của robots.txt sẽ giúp ngăn chặn việc google index các nội dung này.
- Chặn các mã độc hại
- Chăn bọ đối với các trang thương mại điện tử
Một số hạn chế của robots.txt
Trước khi tạo hoặc chỉnh sửa tệp robots.txt, bạn nên biết những hạn chế của phương pháp chặn URL này. Tùy thuộc vào mục tiêu và tình huống của bạn, bạn nên cân nhắc những cơ chế khác để đảm bảo URL của bạn không tìm được trên web.
Một số công cụ tìm kiếm có thể không hỗ trợ các lệnh trong tệp robots.txt.
Trình thu thập dữ liệu có quyền quyết định việc có tuân theo lệnh trong tệp hay không. Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots.txt, tuy nhiên, một số trình thu thập dữ liệu khác có thể không như vậy. Vì vậy, nếu bạn muốn đảm bảo an toàn cho thông tin của mình trước các trình thu thập dữ liệu web, bạn nên dùng những phương thức chặn khác, chẳng hạn như bảo vệ các tệp riêng tư bằng mật khẩu trên máy chủ.
Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
Các trình thu thập dữ liệu web có uy tín sẽ tuân theo các lệnh trong tệp robots.txt, tuy nhiên, có thể mỗi trình thu thập dữ liệu lại có cách thức riêng để diễn giải các lệnh. Bạn nên nắm được cú pháp thích hợp dành cho từng trình thu thập dữ liệu web vì một số trình thu thập có thể không hiểu được một số hướng dẫn nhất định.
Xem thêm: website là gì? cách hoạt động của một website.
Một trang bị tệp robots.txt chặn vẫn có thể được lập chỉ mục nếu có trang web khác liên kết đến trang đó.
Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị tệp robots.txt chặn, tuy nhiên, chúng tôi vẫn có thể tìm thấy và lập chỉ mục một URL bị tệp robots.txt chặn khi có những nơi khác liên kết đến URL đó. Kết quả là các địa chỉ URL và có thể là cả thông tin công khai khác như văn bản liên kết trong các đường liên kết đến trang vẫn sẽ xuất hiện trong kết quả tìm kiếm trên Google. Để ngăn URL của bạn xuất hiện trong kết quả tìm kiếm trên Google, hãy bảo vệ các tệp trên máy chủ bằng mật khẩu, dùng thẻ meta noindex hoặc tiêu đề phản hồi hoặc xóa toàn bộ trang.
Lợi ích khi sử dụng robots.txt?
- Ngăn chặn nội dung trùng lặp xuất hiện trong SERPs (lưu ý rằng robot meta thường là lựa chọn tốt hơn cho việc này)
- Giữ toàn bộ các phần của trang web ở chế độ riêng tư
- Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP công khai
- Chỉ định vị trí của sơ đồ trang web (sitemap)
- Ngăn công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
- Chỉ định độ trễ thu thập dữ liệu để ngăn máy chủ của bạn bị quá tải khi trình thu thập dữ liệu tải nhiều phần nội dung cùng một lúc
- Chặn tất cả các trình thu thập dữ liệu web từ tất cả nội dung
- Cho phép tất cả các trình thu thập dữ liệu web truy cập vào tất cả nội dung
- Chặn một trình thu thập dữ liệu web cụ thể từ một thư mục cụ thể
Những định dạng và công cụ phổ biến của robots.txt
Các định dạng cơ bản của robots.txt
- User-agent: [user-agent name]
- Disallow: [URL string not to be crawled]
Trong file robots.txt, mỗi bộ chỉ thị User-agent xuất hiện dưới dạng một bộ riêng biệt, được phân tách bằng dấu ngắt dòng:
Ví dụ:
Msnbot, Discobot và Slurp đều được gọi cụ thể, vì vậy những user-agent đó sẽ chỉ chú ý đến các chỉ thị trong các phần của tệp robots.txt. Tất cả các User-agent khác sẽ tuân theo các chỉ thị trong nhóm User-agent:
- buzzfeed.com muốn msnbot dừng chờ 120 mili giây sau mỗi lần crawl 1 trang, và không được thu thập các chuỗi URL được liệt kê theo cú pháp
- Tất cả các user-agents (trừ msnbot, Discobot, Slurp) không được thu thập các URL có cú pháp được liệt kê
- Discobot sẽ không đươc phép thu thập bất kỳ URL nào của buzzfeed
- Slurp(user-agent của yahoo) sẽ phải chờ 4 mili giây sau mỗi lần thu thập trang, được thu thập tất cả các URL của Buzzfeed.com
Các user-agent phổ biến của công cụ tìm kiếm
Tại đây, một danh sách các user-agent bạn có thể sử dụng trong tệp robots.txt của mình để khớp với các công cụ tìm kiếm được sử dụng phổ biến nhất:
Ví dụ robots.txt:
Dưới đây là một số ví dụ về robots.txt hoạt động cho trang web www.example.com:
URL tệp robots.txt: www.example.com/robots.txt
Công cụ tìm kiếm có hai công việc chính:
- Crawling: Thu thập dữ liệu trên web để khám phá nội dung;
- Indexing: Lập chỉ mục nội dung đó để nó có thể được phục vụ cho những người tìm kiếm đang tìm kiếm thông tin.
Để thu thập dữ liệu trang web, công cụ tìm kiếm theo liên kết để đi từ trang này sang trang khác – cuối cùng, thu thập dữ liệu qua nhiều tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi được gọi là spidering.
Sau khi đến một trang web nhưng trước khi xem nó, trình thu thập thông tin tìm kiếm sẽ tìm tệp robots.txt. Nếu nó tìm thấy một, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm nên thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn thêm hành động của trình thu thập thông tin trên trang web cụ thể này.
Nếu tệp robots.txt không chứa bất kỳ chỉ thị nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.
Các thuật ngữ/cú pháp dùng trong robots.txt
Cú pháp robots.txt có thể được coi là ngôn ngữ của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn có thể gặp trong một tệp robots.txt Chúng bao gồm:
- User-agent: Trình thu thập dữ liệu web cụ thể mà bạn đang hướng dẫn thu thập thông tin (thường là công cụ tìm kiếm).
- Disallow: Lệnh được sử dụng để thông báo cho user-agent không thu thập dữ liệu URL cụ thể. Chỉ một dòng “Disallow:” được phép cho mỗi URL.
- Allow(Chỉ áp dụng cho Googlebot): Lệnh thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con mặc dù trang mẹ hoặc thư mục con của nó có thể không được phép.
- Crawl-delay: Cần bao nhiêu giây để trình thu thập thông tin trước khi tải và thu thập nội dung trang. Lưu ý rằng Googlebot không thừa nhận lệnh này, nhưng tốc độ thu thập dữ liệu có thể được đặt trong Google Search Console.
- Sitemap: Được sử dụng để gọi ra vị trí của bất kỳ (các) sơ đồ trang web XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
Khớp mẫu
- * là ký tự đại diện cho bất kỳ chuỗi ký tự nào
- $ khớp với phần cuối của URL
Thực hành tốt nhất về SEO
Đảm bảo bạn không chặn bất kỳ nội dung hoặc phần nào trên trang web của bạn mà bạn muốn thu thập thông tin.
Liên kết trên các trang bị chặn bởi robots.txt sẽ không được theo dõi. Điều này có nghĩa là
- Trừ khi chúng cũng được liên kết từ các trang có thể truy cập bằng công cụ tìm kiếm khác (nghĩa là các trang không bị chặn thông qua robots.txt, meta robot hoặc cách khác), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục.
- Không có link equity có thể được chuyển từ trang bị chặn đến đích liên kết. Nếu bạn có các trang mà bạn muốn vốn chủ sở hữu được thông qua, hãy sử dụng một cơ chế chặn khác ngoài robots.txt.
Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ mật khẩu hoặc chỉ thị meta noindex.
Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Chẳng hạn, Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image cho tìm kiếm hình ảnh.
Công cụ tìm kiếm sẽ lưu trữ nội dung robots.txt, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn bạn có thể gửi robots.txt của mình cho Google tại đây.
Cách tạo File robots.txt chuẩn SEO
Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Hãy tham khảo 3 cách tạo robots.txt cho WordPress dưới đây:
Sử dụng Yoast SEO
Bạn có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress trên chính WordPress Dashboard với vài bước đơn giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.
Nhìn phía bên trái màn hình, click vào SEO > Tools > File editor.
Tính năng file editor sẽ không xuất hiện nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt đấy.
Qua bộ Plugin All in One SEO
Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.
Để tạo file robots.txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt
Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:
Và khi đó, mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh file robots.txt WordPress tại đây.
Tuy nhiên, bộ plugin này có một chút khác biệt so với Yoast SEO tôi vừa đề cập ở trên.
All in One SEO làm mờ đi thông tin của file robots.txt thay vì bạn được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.
Tạo rồi upload file robots.txt qua FTP
Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì tôi có 1 cách này cho bạn – Tự tạo file robots.txt thủ công cho WordPress của mình.
Bạn chỉ mất vài phút để tạo file robots.txt WordPress này bằng tay. Sử dụng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress theo Rule tôi đã giới thiệu ở đầu viết. Sau đó upload file này qua FTP không cần sử dụng plugin, quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.
Xem thêm: Thiết kế web trọn gói nhanh tại Tmarketing với giao diện chuyên nghiệp, đầy đủ các tính năng ở đa dạng lĩnh vực.
Một số lưu ý về robots.txt
Để được tìm thấy, tệp robots.txt phải được đặt trong thư mục cấp cao nhất(root) của trang web.
robots.txt phân biệt chữ hoa chữ thường: tệp phải được đặt tên là robots.txt (không phải Robots.txt, hay robots.TXT).
Một số user-agent(robot) có thể chọn bỏ qua tệp robots.txt của bạn. Điều này đặc biệt phổ biến với các trình thu thập dữ liệu bất chính hơn như robots phần mềm độc hại hoặc người dọn dẹp địa chỉ email.
Mỗi tên miền phụ trên một tên miền gốc sử dụng các tệp robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng (tại blog.example.com/robots.txt và example.com/robots.txt).
Để đảm bảo tìm thấy tệp robots.txt của bạn, hãy luôn đưa nó vào thư mục chính hoặc tên miền gốc.
Những câu hỏi về robots.txt
Robots.txt ở đâu trên một trang web?
Bất cứ khi nào các công cụ tìm kiếm và các robot thu thập dữ liệu đến một trang web (như trình thu thập thông tin của Facebook , Facebot) đều tìm kiếm tệp robots.txt. Nhưng, họ sẽ chỉ tìm tệp đó ở một nơi cụ thể: thư mục gốc (thường là tên miền gốc hoặc trang chủ của bạn).
Nếu một user-agent truy cập seothetop.com/robots.txt và không tìm thấy tệp robots ở đó, nó sẽ cho rằng trang web không có và tiến hành thu thập mọi thứ trên trang (và thậm chí trên toàn bộ trang web).
Ngay cả khi trang robots.txt tồn tại tại, ví dụ: example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, nó sẽ không được phát hiện bởi các user-agent và do đó trang web sẽ được xử lý như thể nó không có tập tin robots nào cả.
Làm thế nào để kiểm tra xem bạn có tệp robots.txt không?
Không chắc chắn nếu bạn có tệp robots.txt? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Chẳng hạn, tệp robots của Seothetop được đặt tại seothetop.com/robots.txt.
Nếu không có trang .txt xuất hiện, bạn hiện không có trang robots.txt (trực tiếp).
Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?
Cho đến nay, tất cả đều xử lý một quy tắc tại một thời điểm. Nhưng nếu bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì sao?
Bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot.
Ví dụ: Nếu bạn muốn tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn có thể thực hiện như sau:
- User-agent: *
- Disallow: /wp-admin/
- User-agent: Bingbot
- Disallow: /
Ở đây, tất cả các bot sẽ bị chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn.
Bạn có cần chỉnh sửa robots.txt không?
Người dùng WordPress thông thường sẽ không cần sửa đổi nhiều tệp robots.txt. Tuy nhiên, điều đó có thể thay đổi nếu một bot nào đó tỏ ra phiền phức hoặc nếu cần thiết phải thay đổi cách các công cụ tìm kiếm tương tác với một chủ đề hoặc plugin WordPress cụ thể hoặc thậm chí có thể tùy thuộc vào máy chủ lưu trữ web của bạn .
Tại sao file robots.txt lại quan trọng?
Quản trị viên web được hưởng lợi từ tệp robots.txt vì nó cho trình thu thập thông tin của công cụ tìm kiếm biết những trang nào trên trang web cần tập trung vào để lập chỉ mục. Điều này giúp các trang quan trọng nhất được chú ý trong khi các trang ít quan trọng hơn bị bỏ qua. Các quy tắc phù hợp cũng có thể ngăn chặn bot lãng phí tài nguyên máy chủ của trang web của bạn.
Sự khác biệt giữa robots.txt vs meta robot vs x-robot này là gì?
Trước hết, robots.txt là một tệp văn bản thực tế, trong khi meta và x-robot là các chỉ thị meta. Chúng phục vụ các chức năng khác nhau.
robots.txt ra lệnh cho hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi đó meta và x-robot có thể ra lệnh cho hành vi lập chỉ mục từng trang riêng lẻ.
Thiết lập file robots đúng cách là cần thiết trong Technical SEO. Tmarketing hy vọng với những thông tin hữu ích này sẽ giúp bạn hiểu rõ hơn về robots.txt. Chúc bạn luôn thành công.