Usando robots.txt para bloquear paginas o directorios de los buscadores
Algunas veces nos vemos forzados a usar iframes donde llamamos un directorio x de nuestro site, el cual puede ser un subodominio, pero no queremos nuestros visitantes salgan de nuestro URL padre hacia un subodminio, muchas veces esto se da mucho con joomla, dicho CMS viene con un modulo para url externas llamado wrapper, la ventaja de esto es que podemos mostrar el contenido en nuestro site usando un “iframe” creado automaticamente por joomla.
Ya sebemos que todo es posible, y mas ir a subdomino, si alguien sabe el nombre de dicho subdominio, pues es facil ir a el, pero creo que de cierta forma, podemos crear un nombre unico, o mejor dicho dificil de adivinar, en fin, suponiendo que la seccion (hablando de joomla) es una seccion privada la cual necesita login de usuario, pues un wrapper no siempre es buena idea, pero muchas veces no hay de otra.
Si alguien realiza una busqueda en google escribiendo unicamente el nombre del dominio, en el resultado podra salir nuestro subdominio listado, cosa que no es buena ya que se supone que es parte privada de un website, y ahi es donde entra el uso de meta tags y el uso de robots.txt.
Cómo excluir a los buscadores utilizando Meta Tags:
Metodo Meta Tag:
Para excluir a los buscadores de una pagina x, y / o de las paginas que dependen de esta use robots meta mag de la siguiente forma:
....
Nuestro Meta Tag es el siguiente:
Hay cuatro diferentes combinaciones para robots meta tag:
- No indexar, no seguir links. <meta name=”robots” content=”noindex,nofollow” >
- No indexar, seguir links. <meta name=”robots” content=”noindex,follow” >
- Indexar la pagina, y seguir los links. <meta name=”robots” content=”index,follow” >
- Indexar la pagina, pero no seguir los links. <meta name=”robots” content=”index,nofollow” >
- Si queremos que los buscadores visiten todo el website:
User-agent: *
Disallow: - Si queremos bloquear los buscadores en todo el website:
User-agent: *
Disallow: / - Si queremos bloquear algunos directorios de los buscadores visiten todo el website:
User-agent: *
Disallow: /fotos/
Disallow: /logs/
Disallow: /admin/
Disallow: /cgi-local/
Disallow: /cgi-bin/
Cuando hablamos de no seguir los links, es cuando paginaX, tiene un link que lleva a paginaZ, sencillo.
Metodo robots.txt
Este archivo es utilizado por los administradores (webmaster??) de un site, para excluir ciertas secciones de los buscadores, se puede excluir una pagina, como un directorio, asi como una seccion completa.
Cuando un buscador esta visitando un website, el primero verifica la existencia de este archivo (robots.txt), por ejemplo: ” http://www.asinox.net/robots.txt “, se tiene que aclarar que solo puede existir un archivo robots.txt por website.
Trabajando con robots.txt
Esta ultima parte se traduce de la siguiente forma: No visitar (excluir): ” http://www.asinox.net/fotos/, http://www.asinox.net/logs/, http://www.asinox.net/admin/, http://www.asinox.net/cgi-local/, http://www.asinox.net/cgi-bin/ “, fijandonos bien en que se necesita separar por lineas cada seccion a se excluida.
Par mas informacion relacionda con robots.txt The Web Robots Pages
About the author
A Sabanalamarino guy With Computers and System's Studies, 3D Art and Animation, Web Developer, Media, Teacher of Tech's, self-taught person, Web Standards, CSS +, CodeIgniter PHP Framework, Wordpress Theme Developer, Dreamweaver, Python, Django Framework, Fireworks expert,and more skills about Internet and Media.
| Print article | This entry was posted by Asinox on February 6, 2010 at 6:11 pm, and is filed under Ayuda, Code, Desarrollo web, Google, XHTML, internet. Follow any responses to this post through RSS 2.0. You can leave a response or trackback from your own site. |





about 6 months ago
Excelente aporte…
No lo sabía, jiji….
Hummm habrá que usarlo…