Si tú me dices ven, lo indexo todo (1)

-|El más incomprendido.. *Robots.txt*|-

Sin lugar a dudas se podría (y se puede) *afirmar* que elficheroarchivo <Robots.txt> es al que menos <aceptación y reconocimiento> le dan todos, por no decirincomprensión“. No hay una plantillaestándar” para crear tal fichero (lawikipedialo clasifica como tal) ya que cada cuál lo hace como le viene en gana y cada –buscadorimplementa tal fichero como quiere (o le apetece), y es de una facilidad asombrosa saltarse lo que pone. Llegando a la conclusióna la hora de jugar un poco alUniversoHacking“- que llega a ser una gran fuente de curiosidades.

Se ha de tomar muy en serio, ya quepuede” llevar directamente a una vía de ataque.

|-Hazlo bien, configura el *Robots.txt*-|

#Google# nosrecomienda– (y también informa) acerca del uso deherramientascomo el archivoRobots.txto el #sitemap# (formatoxml“) para <rastrear> mejor la #información#.

Esto, en teoría, le hace la vidabastante cómoda a <Google> porque le sirve de guía a sus #Crawlers# (arañas o robots que rastrean la red) hasta el contenido de mayor interés en un menor tiempo que si solamente siguieranenlaceso si tan sólo tuvieran que determinar (por si mismos) cuál o qué contenido no deben #indexar#. Hasta aquí todo perfecto ¿si?

-|Y en la práctica..|-

Pues en la <práctica> la verdad es que #no es nada raro# ver como a <Google> “se la trae al pairolo que contenga dicho <archivo>, ya que se lo salta como le viene en gana (según se levanta por la mañana, así hace) e indexa las <páginas y archivos> que hay en él. De la misma manera que tambiénignora– (aleatoriamente) las #metaetiquetas# –robotsque se pueden incluir en el <código> de las páginas (ole!).

Yes que– <en bastantes ocasiones>, muchas.. demasiadas, el <archivo #Robots#> se #configura# de manera incorrecta porque se dan por hechas algunas cosas.

Veamos sise pueden aclararciertos #conceptos# –muy importantesque afectan (de manera habitual) al uso que <Google> hace de los sitios.

1, RTXT, 1

Elconocido” –Robotses un <archivo> en formato <.TXT> que se puede #crear y editar# con tan sólo un simplebloc de notas” (oeditor de texto básico cualquiera) por ejemplo: <“wordpad“, “notepad“> etcétera. Una vez que hemoscreadodicho #archivo# le pondremoscomo “nombre particular“- <Robots.txt> y locolgaremosen el #directorio raíz# de nuestro <sitioweb“>, ya que es el sitio donde los #crawlers# (buscadores) lo van a poder encontrar sin problemas.

Su #configuración <básica># es muysencilla-, solamente incluye dos parámetros“: elCrawleral que nos vamos a dirigir, y unaorden” (instrucción) <“dandooquitando“> permisos para que #indexe# algo; (un #archivo#, una <carpeta>, todo el #contenido#, o nada) etcétera.

#Bola extra#: Dicho de otro modo, tratamos de decirle a cada #Bot# (una especie de <guía del desfiladero> o <rastreador> (enplural“) que #Google# saca de paseo por los más de <1.100 millones> depáginas webque existen en la actualidad (una más, una menos) para estar al día respecto a su <contenido> y mostrarlo adecuadamente en los resultados de búsqueda y a que #información# –puede o no– <acceder> paraleer e indexartal <información>. No os diréqué ocurre” (pues imagino que lo sabréis) si, por defecto, no le decimos nada.

Efectivamente (os lo digo), elCrawlerse comerá toda la #información# que se encuentre a su paso y la <incluirá> en su brutal #índice# decontenidosweb“-.

2, RTXT, 1

Un <ejemplo> muybásicode esto que os hablo respecto al <contenido> de unarchivo” #Robots.txt# es el siguiente, veamos:

3, RTXT, 1
Ejemplo: <Useragent> ycomando” #Disallow#. 

Tal y como podéisapreciar“, primero definimos el <Useragent> o #bot# al cuál damos la orden (sea cuál sea; (#Google web search#, <Google images>, #Bing#, etcétera) y después laspáginasque debeignorar– (no indexar“) con elcomando <Disallow>” o que de manera explícita #indexe# todo su contenido con elcomando #Allow#”. En tal casodecimosque para todos los #Robots# (con unasterisco” <*>) deberán <noindexar“> (ignorar) todas las páginas con la/” (barra de la teclasiete“) sin absolutamente nada más detrás, pues le decimos que es una orden para todo eldirectorioraíz“-.

4, RTXT, 1
Ejemplo: <Useragent> (Robot; Bing) y “comando” #Disallow#.

Con esteejemplo le decimos al #Robot# de <Bing> que noindexeabsolutamente nada de nuestro sitio, omitiendo al resto de #Robots# (incluido el de <Google>) que podránpasearse e indexartodo el contenido de nuestrositio web“.

Hastaaquítodo bien ¿verdad? – seguiremos en el <próximo artículo>.

Salu2

5, RTXT, 1

Anuncios

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s