Hướng dẫn tạo file robots txt Informational
Khi bạn bắt đầu một chiến dịch SEO onpage, thì chắc hẳn bạn đã từng nghe qua về việc tạo file robots.txt để hỗ trợ hoặc ngăn chặn các công cụ tìm kiếm website của mình. Trong bài này, tôi sẽ hướng dẫn cách bạn tạo ra file robots.txt bằng Yoast SEO và cách để khai thác file robots.txt triệt để nhất cho SEO. Show
Trước tiên, bạn cần biết làm sao các công cụ tìm kiếm thu thập được dữ liệu từ website của bạn. Đó là nhờ những con bots tự động được tạo ra từ những thuật toán vô cùng phúc tạp. Những bot này thu thập dữ liệu trên mạng để giúp các công cụ tìm kiếm như Google lập chỉ mục và xếp hạng hàng tỷ trang trên Internet. Hầu hết các website sẽ được thiết lập index toàn bộ website, những tài nguyên trên website được index sẽ hiển thị trên google mỗi khi người nào đó tìm kiếm những từ khóa liên quan về nó. Bạn sẽ không thích những thư mục, tài nguyên nhạy cảm của website được thu thập và công khai trên các công cụ tìm kiếm, nó sẽ chứa rất nhiều rủi ro về bảo mật. Như vậy, file robots.txt được sinh ra đưa ra những chỉ dẫn cho các bots của các công cụ tìm kiếm, đâu là nơi bạn nên đến và không nên đến để thu thập dữ liệu. Tại sao bạn nên quan tâm đến tệp Robots.txt của mình?Đối với hầu hết các quản trị web, lợi ích của tệp robot.txt có cấu trúc tốt thường sẽ có hai tác dụng chính sau:
Tạo file robots.txt trên website WordPress như thế nào?Có nhiều cách đê tạo ra file này, một cách đơn giản là sử dụng plugin Yoast SEO – Plugin tối ưu SEO tổng hợp. Ngoài việc hỗ trợ tạo nhanh robots.txt thì bạn có thể tìm hiểu thêm những tính năng SEO vô cung hữu ích từ Yoast SEO. Tại giao diện quản trị website (Dashboard) → Plugins → Add new. Bạn có thể download plugin Yoast SEO miễn phí tại đây hoặc tìm kiếm trong kho thư viện của WordPress với từ khóa “Yoast SEO” và tiến hành cài đặt vào website. Tại Yoast SEO → Công cụ → Trình chỉnh sửa tập tin. Nhấn chọn Tạo File robots.txt, tiếp tục nhấn Lưu thay đổi vào robots.txt để hoàn tất quá trình tạo file hoặc chỉnh sửa robots.txt. Làm sao để kiểm tra file Robots.txt?Bạn có thể kiểm tra tệp Robots.txt của bạn bằng công cụ Robots.txt tester của Google. Chỉ cần nhấp vào Please select a property, và chọn website của bạn, Google sẽ hiển thị công cụ kiểm tra hoạt động file robots.txt. Bạn có thể điền bất kỳ URL nào, bao gồm cả trang chủ của bạn. Bạn sẽ thấy một màu xanh lá cây tức là mọi thứ có thể thu thập dữ liệu. Bạn cũng có thể kiểm tra các URL bạn đã chặn để đảm bảo chúng thực sự bị chặn và không được phép thu thập thập dữ liệu . Tùy chỉnh file Robots.txt nâng caoNếu bạn chỉ cần tạo một file robots.txt đơn giản, thì đây là tất cả, nếu bạn muốn hiểu chuyên sâu về cách làm việc và cách tối ưu file robots.txt thì hãy tham khảo tiếp những hướng dẫn dưới đây. Robots.txt có chặn hoàn toàn việc các công cụ tìm kiếm lập chỉ mục.Robots.txt không phải là một cách dễ dàng để kiểm soát các trang công cụ tìm kiếm lập chỉ mục. Nếu mục tiêu chính của bạn là ngăn các trang nhất định không được đưa vào kết quả của công cụ tìm kiếm, cách tiếp cận phù hợp là sử dụng thẻ meta noindex hoặc một phương pháp trực tiếp tương tự khác. Điều này là do Robots.txt của bạn không trực tiếp yêu cầu các công cụ tìm kiếm không lập chỉ mục nội dung – nó chỉ bảo họ không thu thập dữ liệu. Mặc dù Google sẽ không thu thập dữ liệu các khu vực được đánh dấu từ bên trong trang web của bạn, nhưng chính Google tuyên bố rằng nếu một trang web bên ngoài liên kết đến một trang mà bạn loại trừ với tệp Robots.txt của bạn, Google vẫn có thể lập chỉ mục trang đó. John Mueller, Nhà phân tích quản trị trang web của Google, cũng đã xác nhận rằng nếu một trang có các liên kết được trỏ đến nó, ngay cả khi nó bị chặn bởi tệp robots.txt, vẫn có thể được lập chỉ mục . Trong tệp Robots.txt của bạn có gì?Được rồi, bây giờ bạn có tệp robot.txt vật lý trên máy chủ của mình mà bạn có thể chỉnh sửa khi cần. Nhưng bạn thực sự làm gì với tập tin đó? Chà, như bạn đã học trong phần đầu tiên, robot.txt cho phép bạn kiểm soát cách robot tương tác với trang web của bạn. Bạn làm điều đó với hai lệnh cốt lõi:
Ngoài ra còn có một lệnh Allow mà bạn sẽ sử dụng trong các tình huống thích hợp. Theo mặc định, mọi thứ trên trang web của bạn được đánh dấu bằng Allow , do đó không cần thiết phải sử dụng lệnh Allow trong 99% tình huống. Nhưng nó có ích khi bạn muốn Disallow truy cập vào một thư mục và các thư mục con của nó nhưng Allow truy cập vào một thư mục con cụ thể. Trước tiên, bạn thêm quy tắc bằng cách chỉ định User-agent nào nên áp dụng quy tắc và sau đó liệt kê các quy tắc sẽ áp dụng bằng Disallow và Allow. Ngoài ra còn có một số lệnh khác như Crawl-delay và Sitemap sẽ có những tác động sau:
Tùy chỉnh Robots.txt theo từng trường hợp.Chúng ta hãy đi qua một số trường hợp sử dụng cụ thể để cho bạn thấy làm thế nào tất cả kết hợp với nhau. Cách sử dụng Robots.txt để chặn truy cập vào trang web toàn bộ của bạnGiả sử bạn muốn chặn tất cả quyền truy cập trình thu thập thông tin vào trang web của mình. Điều này dường thường áp dụng cho một trang web mới phát triển, bạn sẽ không muốn Google hay Bing index những nội dung tạm thời của bạn đâu, vì sau khi bạn cập nhật nội dung mới bạn sẽ nhận được hàng tá các yêu cầu xử lý lỗi 404… Để làm điều đó, bạn sẽ thêm mã này vào tệp robots.txt của WordPress:
Điều gì đang xảy ra trong mã đó? Dấu sao (*) bên cạnh User-agent là ký tự đại diện, có nghĩa là nó áp dụng cho mọi User-agent. Dấu gạch chéo bên cạnh Disallow nói rằng bạn không cho phép truy cập vào tất cả các trang có chứa “tenmiencuaban.com/” (đó là trang duy nhất trên trang web của bạn). Cách sử dụng Robots.txt để chặn một Bot truy cập trang web của bạnTrong ví dụ này, tôi sẽ giả vờ rằng bạn không thích việc Bing thu thập dữ liệu các trang của bạn. Bạn đang cố gắng để Google index càng nhiều càng tốt và thậm chí không muốn Bing nhìn vào trang web của bạn. Để chỉ chặn Bing thu thập dữ liệu trang web của bạn, bạn sẽ thay dấu sao (*) bằng Bingbot:
Về cơ bản, đoạn mã trên nói rằng chỉ áp dụng quy tắc Disallow cho các bot với User-agent là Bing Bingbot . Bây giờ, bạn không muốn chặn truy cập vào Bing – nhưng kịch bản này sẽ có ích nếu có một bot cụ thể mà bạn không muốn truy cập trang web của mình. Cách sử dụng Robots.txt để chặn truy cập vào một thư mục hoặc tệp cụ thểTrong ví dụ này, giả sử rằng bạn chỉ muốn chặn quyền truy cập vào một tệp hoặc thư mục cụ thể (và tất cả các thư mục con của thư mục đó). Để áp dụng điều này cho WordPress, giả sử bạn muốn chặn:
Bạn có thể sử dụng các lệnh sau:
Cách sử dụng Robots.txt để cho phép truy cập vào một tệp cụ thể trong thư mục không được phépBây giờ hãy nói rằng bạn muốn chặn toàn bộ thư mục, nhưng bạn vẫn muốn cho phép truy cập vào một tệp cụ thể trong thư mục đó. Đây là nơi lệnh Disallow có ích, và nó thực sự rất phù hợp với WordPress. Trên thực tế, tệp robot.txt ảo của WordPress minh họa hoàn hảo ví dụ này:
Đoạn này chặn truy cập vào toàn bộ / wp-admin / thư mục trừ các /wp-admin/admin-ajax.php tập tin. Cách sử dụng Robots.txt để ngăn chặn Bots thu thập dữ liệu kết quả tìm kiếm WordPressMột tinh chỉnh dành riêng cho WordPress mà bạn có thể muốn thực hiện là ngăn các trình thu thập tìm kiếm thu thập dữ liệu các trang kết quả tìm kiếm của bạn. Theo mặc định, WordPress sử dụng tham số truy vấn tên? S =. Vì vậy, để chặn truy cập, tất cả những gì bạn cần làm là thêm quy tắc sau:
Cách tạo các quy tắc khác nhau cho các Bots khác nhau trong Robots.txtCho đến bây giờ, tất cả các ví dụ đã xử lý một quy tắc tại một thời điểm. Nhưng nếu bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì sao? Bạn chỉ cần thêm từng bộ quy tắc theo khai báo Tác nhân người dùng cho mỗi bot. Ví dụ: nếu bạn muốn tạo một quy tắc áp dụng cho tất cả các bot và quy tắc khác áp dụng cho chỉ Bingbot , bạn có thể thực hiện như sau:
Trong ví dụ này, tất cả các bot sẽ bị chặn truy cập / wp-admin /, nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn. Kết luậnNhư vậy là bạn đã hiểu rõ tác dụng của robots.txt trong SEO Onpage, cách để tạo ra một file robots.txt cho webite và tùy chỉnh file robots.txt theo ý muốn rồi phải không nào. Việc vấu hình sai file robots.txt có thể dẫn tới nhiều vấn đề về thu thập dữ liệu trên các công cụ tìm kiếm vì vậy hãy cẩn thận trước khi chỉnh gì đó nhé, chúc các bạn thành công. |