Si tú me dices ven, lo indexo todo (2)

:|*Cuidadito* con lo que escribes en los *Robots.txt*|:

Unabreve” –captura delartículo anterior– (el final del mismo) para saber por donde quedo el asunto, y continuamos con el lío:

1, RTXT, 2
Captura: Si tú me dices ven, lo indexo todo (1)

Ahoradaremosun pasito más (tras explicar lo anterior) para continuar con estasegunda parte“: le vamos a decir a <Bing> que no queremos (repito) “no queremosque <indexe> la #carpeta# “documentos“, sería tal que así:

2, RTXT, 2

 En esteejemplo-, <Google> va a indexar (por omisión) todo el contenido del <sitio>, mientras que #Bing# –indexará todo excepto lo que sea quese encuentreen el contenido de la carpetadocumentos“. De esta manera queda muy claro que, para <definir> unacarpetaen el #archivo# “robots“, se debe poner (después de la barra inicial; “/“, siempre) el nombre más otra barra adicional al final (/elnombrequesea/).

Ahora con esterobots“, le vamos a decirabsolutamente a todos los <crawlers> (sin excepción) que no queremos que3 páginasen concreto seanindexadas-; <pagina1.html>, #pagina2.php# y <pagina3.html> que se encuentra (como veis) en la carpetadocumentos“:

3, RTXT, 2

Ahora vamos aintroducir el <comando> #Allow#, cuya función es la contraria al <Disallow> y la barra posterior (“/“) la hemos quitado. Así que con esto le decimos a #Google# queSI puede indexar NADA“. Si os fijáis, debería ser lo mismo (funcionar igual) que un <Disallow: /”> que <impide> completamente la #indexación# de unsitio web“, pero no es así. Veamos:

4, RTXT, 2

Aquí nos encontramos con uno de loserroresmás <habitualmente> cometidos a la hora de hacer la configuración del #archivo# <robots>, se debentener en cuenta– “algunasconsideraciones #importantes# respecto al #comando# <Allow>, que es bastante gracioso jodido. es decir:

Punto.1 – -> Sólo tiene “lógica” si es acompañado de un <Disallow>; Pues se trata de una ordenNo restrictiva-, así que cuando vasolo” <No> se aplica. Dicho de otro modo, por defecto #Google# (que es así de especial) “puede” <indexar todo>, si le decimos únicamenteSIpodrá <indexar>, se la traerá al pairo, seguiráindexando todo lo que pille a su paso. Incluso en el <ejemplo anterior>, donde le hemos dicho queSI puede indexar NADA“, volverá alpairo” (pasará de la orden que le demos) y seguirá <indexando todo>. Mucho <CUIDADO> con este tema.

Punto. 2 – – > Si nos vamos a lateoría“, lasreglasseaplicanen orden, a partir de laprimera“. Con lo cuál, tenemos que los <Allow>, que al serexcepcionesa los <Disallow>, “deberíanirprimero-. En la <práctica> losprincipales #buscadores#- lo interpretaránbienaunque no se haga así.

Punto. 3 – -> El #comando# <Allow> no es parteoficialde lohabitual“, #Google# y el resto delos grandeslo reciben de manera perfecta, pero para <ciertosrobots“> puede llegar a ser un pocoproblemático-.

-|Dudas y *configuraciones avanzadas*|-

5, RTXT, 2

Hastaaquítodo parece muy <tranquilo>, hasta sencillo.. pero! (siempre hay unpero“):

¿Qué podemos hacer con el #archivo# “robots“? os diré “algunasdudas a preguntas habituales, las cuales #seguro# que os habéis encontrado.

|-¿Qué ocurre cuando la URL de la página termina con la barra “/”?-|

Bastante a menudoocurre“, especialmente en #sitios web# “montadossobre plataformas como <WordPress>, que puede <existir> una página en #nuestro sitio# con una <estructura> parecida a esta: “midominio.com/servicios/”. En tal caso, estaURLes una página donde se nos muestran los #servicios# de una <empresa>; es probable que por debajo de ellaexistan” <páginas> de este tipo: “midominio.com/servicios/nombreservicio1” o parecidas.

Pero, un momento: ¿Cómo le decimos alrobotsque excluya tan sólo la <página superior>, sin que nosjodatodas las que se encuentran por <debajo>?.

Un #impulso# (por nuestra parte) para esto sería lo siguiente:

6, RTXT, 2

 Os dejo con esto (de momento) para que podáis <pensar y reflexionar> un poco hasta el #próximo artículo#. Ya que al tratarse de <artículos básicos>, mucha gente podría <saturarse> si resulta muy largo.

Salu2

7, RTXT, 2

 

 

 

 

 

 


TH-TLS, blog

 

Anuncios

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s