Si tú me dices ven, lo indexo todo (3+2)

[>Palabras <clave> ‘resumen‘<]

Unbreve” <resumen> respecto a ·palabras· (y conceptos) #clave# con loexplicadoanteriormente, y seguimos por donde nos quedamos en el artículo #3+1#:

1, RTXT, 3-2

 -> Básicamente en realidad es tan sólo un “simple” #archivo de texto# que colocamos en la <raíz> de nuestra “web”, es decir lo podemos encontrar en:

  • https://miwebchula.com/robots.txt

2, RTXT, 3-2

-> El #archivo# <robots.txt> leindica o insinúa a losbuscadores” (es decir, al <Sr. Google> y compañía), como deben <interactuar> con el contenido de nuestraweb“, quéURLspuede <indexar> y quéURLsno, ya que por defecto el <Sr. Google> nosindexará todo el contenido que encuentre, así.. tal cuál. Perocuidado“, porque como ya os he dicho, en realidad le estamos <insinuando>. Luego no osfiéismucho porque el <buscador> hará lo que le de la gana (si quiere).

3, RTXT, 3-2

-> Losbuscadores suelen (habitualmente) <respetarlo y utilizarlo>. De hecho incluso #Google# dispone de un <apartado y unaherramienta“> para el archivorobots.txten <Google Webmasters Tools>.

4, RTXT, 3-2

-> Muchocuidado“, porque el #archivo# “robots.txtes <público!> es decir que si tenemos una <página #privada#> que no queremos que seindexe“:

  • https://miwebchula.com/urltopsecretdificildeencontrar 

Si laponemosen el <robots.txt>, es cierto que no la va aindexar“, pero también es cierto que la estamosponiendoen un #archivo# fácil de ver para cualquiera. Es decir, los <malotes> comienzan echando un vistazo por ahí (no confundir el términomalotecon #Hacker#) para ver si encuentran algointeresanteque atacar. Asi que no uséisrobots.txtpara ocultar información, tan sóloevitarque se <indexe> contenido inútil.

5, RTXT, 3-2

-> <User agent>=”Robot“, es decir, el <buscador> al cuál nos queremos dirigir (y lo que por #lógica#) da sentido al nombre. Si nos queremos dirigir a cualquierrobot“, simplemente escribiremos esto:

  • Useragent: *

Y ya está. Eso nos dice que las <normas> que pongamos a continuación serán para todos losrobots“; ya sean del <Sr. Google>, #Bing#, etcétera, o de lo que nos haga falta.

6, RTXT, 3-2

Siqueremos” <dirigirnos> a alguno en #especial#, deberemos poner sunombre“. En el caso del <Sr. Google>, esGooglebot“:

  • Useragent: Googlebot

Fácil ¿verdad?.. pues <cuidadín> porque hay muchos más <bots> de los que pensáis. Para que os hagáis unaleve idea“, <¡Google dispone de diez“!>; para #móviles#, <vídeos>, #imágenes#, etcétera.. “aquítenéis el listado por si os apetece echarle un vistazo.

7, RTXT, 3-2

-> Son los dos <comandos> mástípicos“. Por ejemplo, si queremos queNoindexe un <directorio> en concreto, lo haremos tal que así:

  • Useragent: Googlebot

Disallow: /directorio/

Con estoevitamosque <indexe> estaURL” (/directorio/) y todo su contenido.

Un caso muy <habitual> es paradesindexarlas carpetas de #administración#:

  • Useragent: Googlebot

 Disallow: /wpadmin/

Disallow: /wpincludes/

Esas “dos <carpetas>” son las que van -siempre- con #Wordpress#. Sin embargo, nunca pondremos la <carpeta> “/wp-content/”, ya que por “norma <habitual>” ahí se guardan las <imágenes>, por lo cuál si queremos que se “indexe”.

8, RTXT, 3-2

Las <dos> formas másradicalesacerca del uso del <Disallow> son las depermitir” #acceso# a todo:

  • Useragent: *

Disallow:

Y la deNopermitir #acceso# a nada (cuidado con esto, <Google> no nos verá):

  • Useragent: *

 Disallow: /

9, RTXT, 3-2

Ya va, tranquilos. También tenemos (por otra parte) el <comando> “Allow“, que nos ofrece laposibilidadde <permitir laindexación“> de un cierto <subdirectorio> y/o #archivo# dentro de undirectorioal cuál le habíamos <prohibido> “indexar“. Es decir:

  • Useragent: *

Disallow: /directorionopermitido/

Se puedecrearuna <excepciónpuntual“>, por ejemplo:

  • Useragent: *

 Disallow: /directorionopermitido/

Allow: /directorionopermitido/excepcion/

Dentro de ese <directorio> “no permitido“, podemoscrearuna <excepción> que si sea #indexada#, en el caso que queramos.

10, RTXT, 3-2

Hay unacierta” #jerarquía# deinstruccionesque depende del nivel de <especificidad> de cadaUseragent“. De manera que, si disponemos de varias <instrucciones> que pueden cumplirse en función de este #parámetro#, ganará la más <específica>. Ejemplo:

  • Useragent: *

Disallow: /directorio/

Useragent: Googlebot

Allow: /directorio/

En este caso en concreto, el <Sr. Google> podría seguir tanto la <primerainstrucción“>, ya que tiene unasterisco” (*) que indica que esa norma se dirige a todos losrobots“, pero también la <segunda>, que esespecífica para él. Como lasnormasson <contradictorias>, gana lasegunda“, por ser más <específica>.

11, RTXT, 3-2

Esto aún no os lo heexplicadopero es una <interesantealternativa“> al #archivo# “robots“; Es la <metaetiqueta> “robots“, que en lugar de ir en ese #archivo# , va a nivel de <página>:

  • <meta name=”robotscontent=”noindex“>

Al contrario del #archivo# “robots.txt“, esto no está <listado> enningún sitio“, sino que se encuentra en el #código# de cada <página>. Además, a parte de poderindicarel #parámetro# <noindex>, también podemos utilizar <nofollow>, para queNose sigan los <enlaces> de esapágina“.

12, RTXT, 3-2

Pues si, así es.. <Crawdelay> es otro #parámetro# muyútil“, dice <cada cuanto> “tiempodebería pasarse ese robot“, parabuscar– <nuevocontenido“>.Funciona de esta manera:

  • Useragent: *

Crawdelay: 3600

Con esto le decimos atodos losrobots“- que se pueden pasar cada <3600 segundos>, es decir, cada hora. Esto es lorecomendablepara <periódicos> osites que actualizan contenidos varias veces al día.

Aunque para estos <menesteres>  elSr. Googleyadisponede una <herramienta> de #crawling# en <Google Webmaster Tools> (tal y como os dije antes), que esrecomendableutilizar antes detoquetearel #archivo# “robots.txt“:

13, RTXT, 3-2

Captura: Mejor seráutilizarla #herramienta# <Google Webmaster Tools> antes detocar– “robots.txt“.

14, RTXT, 3-2

Otra opciónmás y <muyinteresante“> del #archivo# “robots.txtes la <posibilidad> de utilizarcaracteres <comodín>”. Es decir, siqueremos” <bloquear> todas lasURLsque contengan un <interrogante> (?) lo haremos tal que así:

  • Useragent: *

 Disallow: /*?

Esto es de muchautilidadsi <no queremos> que seindexen” –URLscon #parámetros#, por ejemplo; <búsqueda>, #comentarios#, <campañas personalizadas>, etcétera. En el casoconcretopara las <búsquedas> enWordPressse utiliza el #parámetro# “s”, con lo cuál podemosdetallarmás:

  • Useragent: *

Disallow: /?s=

De esta manera <estaremosseguros“> queNose <indexa> ninguna <página debúsqueda“>, aunque la tengamos en unenlace” <interno o externo>, y así evitaremos <problemas> de contenido duplicado:

Otro #parámetro# <comodín> es elsímbolodel <dólar> ($), quepermite” <afectar> a cualquierURLque contenga una cierta cadena. Es decir, siqueremos” <dexindexar> todos los #archivos# terminados en “.phplo haremos tal que así:

  • Useragent: Googlebot

Disallow: /*.php$

Porlógica“, esto lo <podríamoshacer“> en cualquier extensión o cadena-, y nos <permiteasegurarnos“> queNose va a <indexar> ningún #archivo# que no nos interese.

Me hepicadoun <poco> (poquito) explicando a modo deresumen losconceptos“, etcétera acerca del #archivo# “robots.txt“. Terminaré deexplicar el asunto en el <próximo artículo>.

Salu2

15, RTXT, 3-2

Anuncios

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s