Algunas veces nos vemos forzados a usar iframes  donde llamamos un directorio x de nuestro site, el cual puede ser un subodominio, pero no queremos nuestros visitantes salgan de nuestro URL padre hacia un subodminio, muchas veces esto se da mucho con joomla, dicho CMS viene con un  modulo para url externas llamado wrapper, la ventaja de esto es que podemos mostrar el contenido en nuestro site usando un “iframe” creado automaticamente por joomla.

Ya sebemos que todo es posible, y mas ir a subdomino, si alguien sabe el nombre de dicho subdominio, pues es facil ir a el, pero creo que de cierta forma, podemos  crear un nombre unico, o mejor dicho dificil de adivinar, en fin, suponiendo que la seccion (hablando de joomla) es una seccion privada la cual necesita login de usuario, pues un wrapper no siempre es buena idea, pero muchas veces no hay de otra.

Si alguien realiza una busqueda en google escribiendo unicamente el nombre del dominio, en el resultado podra salir nuestro subdominio listado, cosa que no es buena ya que se supone que es parte privada de un website, y ahi es donde entra el uso de meta tags y el uso de robots.txt.

Cómo excluir a los buscadores utilizando Meta Tags:

Metodo Meta Tag:

Para excluir a los buscadores de una pagina x, y / o de las paginas que dependen de esta use robots meta mag de la siguiente forma:

1
2
3
4
5
6
7
8
9
10
11
12
 
<html>
<head>
   <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/>
   <meta name="robots" content="noindex,nofollow"/>
   <meta name="description" content="instrucciones para excluir pagina de los buscadores"/>
   <title>Excluyendo Buscadores</title>
</head>
<body>
....
</body>
</html>

Nuestro Meta Tag es el siguiente:

1
 <meta name="robots" content="noindex,nofollow"></meta>

Hay cuatro diferentes combinaciones para robots meta tag:

  1. No indexar, no seguir links. <meta name=”robots” content=”noindex,nofollow” >
  2. No indexar, seguir links. <meta name=”robots” content=”noindex,follow” >
  3. Indexar la pagina, y seguir los links. <meta name=”robots” content=”index,follow” >
  4. Indexar la pagina, pero no seguir los links. <meta name=”robots” content=”index,nofollow” >

    Cuando hablamos de no seguir los links, es cuando paginaX, tiene un link que lleva a paginaZ, sencillo.

    Metodo robots.txt

    Este archivo es utilizado por los administradores (webmaster??) de un site, para excluir ciertas secciones de los buscadores, se puede excluir una pagina, como un directorio, asi como una seccion completa.

    Cuando un buscador esta visitando un website, el primero verifica la existencia de este archivo (robots.txt), por ejemplo: ” http://www.asinox.net/robots.txt “, se tiene que aclarar que solo puede existir un archivo robots.txt por website.

    Trabajando con robots.txt

    • Si queremos que los buscadores visiten todo el website:
      User-agent: *
      Disallow:
    • Si queremos bloquear los buscadores en todo el website:
      User-agent: *
      Disallow: /
    • Si queremos bloquear algunos directorios de los buscadores visiten todo el website:
      User-agent: *
      Disallow: /fotos/
      Disallow: /logs/
      Disallow: /admin/
      Disallow: /cgi-local/
      Disallow: /cgi-bin/

    Esta ultima parte se traduce de la siguiente forma: No visitar (excluir): ” http://www.asinox.net/fotos/, http://www.asinox.net/logs/, http://www.asinox.net/admin/, http://www.asinox.net/cgi-local/, http://www.asinox.net/cgi-bin/ “, fijandonos bien en que se necesita separar por lineas cada seccion a se excluida.

    Par mas informacion relacionda con robots.txt The Web Robots Pages

VN:F [1.8.4_1055]
Rating: 0.0/10 (0 votes cast)
VN:F [1.8.4_1055]
Rating: 0 (from 0 votes)
  • Share/Bookmark