¿Cómo se aumenta la Encontrabilidad?

¿Cómo se aumenta la Encontrabilidad?
 
-A +A

Tras analizar qué es y cómo se mide la Encontrabilidad queda claro que una de las metas de un Sitio Web será la de tener la mayor capacidad de ser encontrado desde los buscadores, ya que eso garantizará que los usuarios de Internet tengan acceso a la información que el Sitio Web puede ofrecer.

Para ello, en esta sección se aborda este desafío desde dos perspectivas: el código HTML y el contenido de las páginas, ya que desde ambos se contribuye a aumentar la capacidad de acercarse a este objetivo.

Lo primero que se analiza es el código HTML puesto que en la medida que el Sitio Web se desarrolle mediante el uso de código estándar habrá mayores posibilidades de que su posicionamiento sea mayor.

Estándares y Códigos relacionados

Aunque la Encontrabilidad de un Sitio Web tiene una serie de elementos desde los cuales se puede explicar su buen resultado en los buscadores, la calidad de su código es uno de lo más relevantes.

Como se ha explicado antes, el código del Sitio Web debe ser estándar y por lo mismo ofrecer un cumplimiento concreto en el uso de las etiquetas HTML a lo largo de sus páginas, siendo las de la zona del <head> las más relevantes.

Etiquetas de <head>

Las páginas web bien estructuradas dividen su contenido en las zonas de <head> y <body>. La primera se ubica en la parte superior de las páginas y entrega información de referencia para el sistema computacional que utiliza y despliega la página, a fin de que pueda entender de qué manera se ha codificado el contenido y de esa manera mostrarlo adecuadamente a través del browser o programa navegador que se utilice.

Respecto de la Encontrabilidad, las etiquetas sobre las que hay que poner la mayor atención son las siguientes:

  • <title>: permite indicar el título que aparece en el encabezado de la ventana de cada página del Sitio Web ; se recomienda que lleve el nombre del Sitio Web más un título que describa el contenido de la página. Por ejemplo: "Ministerio del Interior - Chile: Acerca del Ministro". De esta manera, esta información será la que aparezca en los buscadores cuando se muestre el enlace al usuario que busca alguna palabra o frase que tenga dicha página.
  • <meta>: una de las etiquetas "meta" de esta sección está orientada a dar una instrucción concreta a los robots de búsqueda, cual es la de indexar el contenido. Para ello, su texto debe indicar lo siguiente:

    <meta name="robots" content="index,follow">

    Es importante considerar que los modificadores que se agregan al elemento "content" tienen efecto sobre el buscador, de la siguiente manera:

    • index: indica que el contenido debe ser indexado.
    • noindex: indica que el contenido no debe ser indexado.
    • follow: indica que los enlaces existentes en la página deben ser seguidos.
    • nofollow: indica que los enlaces existentes en la página no deben ser seguidos.

Uso de robots.txt

Icono con el símbolo de información adicionalSe recomienda visitar el Sitio Web robotstxt.org para obtener información acerca del uso de este protocolo.

En forma paralela a lo que se indique en cada página, para el sitio se debe generar un archivo que cumple una función similar a la señalada para la etiqueta <meta> anterior, cual es la de indicar a los robots de los buscadores cuál es la acción global que debe desarrollar en el Sitio Web.

Para ello, en la raíz del servidor se debe incluir un archivo de texto que lleve el nombre robots.txt y en el que se indique la información acerca de la acción a desarrollar. El contenido estándar está dado por dos líneas, que son las siguientes:

User-agent: *
Disallow:

Se debe considerar que la línea "User-agent" puede incluir el nombre de cualquier robot y que si tiene un asterisco, indica que la directiva se aplica a todos; en tanto que la línea "Disallow" permite indicar los directorios del Sitio Web que no se desee incluir en la indexación. Si está en blanco, indica que permite indexar todo el contenido del Sitio Web.

Se debe considerar que este archivo es revisado por todos los robots de búsqueda que acceden al Sitio Web por lo que es muy importante su presencia, ya que constituye una de las buenas prácticas en torno a los buscadores, debido a que forman parte de una suerte de bienvenida formal a todos los programas enviados por los sistemas de búsqueda de Internet.

Cómo mostrar contenidos

De acuerdo a lo indicado en los párrafos precedentes, el Sitio Web deberá cumplir con tener los siguientes elementos para asegurar que los buscadores de Internet los indexen:

<meta>: en esta sección la línea debe indicar lo siguiente:

<meta name="robots" content="index,follow">

robots.txt: en este archivo el contenido debe indicar lo siguiente:

User-agent: *
Disallow:

Cómo esconder contenidos

Para evitar que el contenido del Sitio Web sea indexado, se debe tener el siguiente contenido en las páginas que no se desee incluir en los sistemas de búsquda:

<meta>: en esta sección la línea debe indicar uno de los siguientes contenidos:

<meta name="robots" content="noindex,follow">
<meta name="robots" content="noindex,nofollow">

Con el primero se consigue no indexar el contenido, pero que el robot siga los enlaces ofrecidos; con el segundo se consigue que no haya indexación ni que se sigan los enlaces existentes.

robots.txt: en este archivo el contenido debe indicar lo siguiente, dependiendo del caso:

User-agent: *
Disallow: /

Con la primera línea se indica que la instrucción es para todos los robots y con la segunda, se señala que desde la raíz en adelante, no se debe indexar nada.

User-agent: *
Disallow: /fotos/

Con la primera línea se indica que la instrucción es para todos los robots y con la segunda, se señala que el directorio llamado fotos no debe ser indexado.

Uso de sitemaps.xml

Icono con el símbolo de información adicionalSe recomienda visitar el Sitio Web Sitemaps.org para obtener información acerca del uso de este protocolo.

Como se revisó en las páginas anteriores, una de las dificultades más importantes referidas a la indexación en buscadores dice relación con la manera de indicar a estos sistemas cuáles son las direcciones de las páginas web que se desea incluir en ellos.

Para enfrentar este tema, desde los sistemas de búsquedas se planteó el uso de un protocolo denominado Sitemaps que consiste en un archivo XML en el que se enumeran todas las URL de un sitio junto, a las que se agregan metadatos adicionales acerca de cada una de ellas. Por ejemplo, se indica la fecha de la última actualización, la frecuencia de modificación de sus contenidos y la importancia relativa de la página en el sitio.

Un archivo estándar de este tipo tiene el siguiente contenido:

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>

Los elementos que se definen por cada línea son los siguientes:

<urlset>: su contenido es obligatorio y es el que permite encapsular el archivo, haciendo referencia al protocolo sitemaps vigente.

<url>: también es obligatorio y es la etiqueta que permite definir cada una de las páginas web diferentes que se desea incluir en el archivo.

<loc>: también es obligatorio y permite indicar la dirección o URL de la página que se incluye. Debe comenzar con el protocolo correspondiente (http en el caso del web) y termina con una barra diagonal o "slash".

<lastmod>: es un valor opcional que permite indicar la fecha de la última modificación del archivo que se está incluyendo; para la fecha se usa el formato AAAA-MM-DD.

<changefreq>: es un valor opcional que hace referencia a la frecuencia con la que cambia la página a la que se hace referencia; sus valores son en idioma inglés y corresponden a siempre (always), cada hora (hourly), diariamente (daily), semanalmente (weekly), mensualmente (monthly), anualmente (yearly) y nunca (never). Es importante considerar que el valor "always" se utiliza para describir documentos que cambian cada vez que se accede a ellos, mientras que "never" se utiliza para describir URL archivadas.

<priority>: es un valor opcional que permite informar a los motores de búsqueda las páginas que se consideran más importantes dentro del Sitio Web. Los valores aceptados abarcan desde 0,0 a 1,0. La prioridad predeterminada de una página es 0,5. De acuerdo a la información del protocolo, los motores de búsqueda pueden utilizar esta información para elegir entre varias URL del mismo sitio.

Es importante considerar que el protocolo Sitemaps es un estándar que ya fue aceptado por Google, Yahoo! y Bing, lo que garantiza que su uso permite atender a los principales buscadores actuales de la Internet.

Una vez que el archivo ha sido creado y contiene todas las direcciones de páginas web que se desea indexar, hay que hacer referencia de él al Sitio Web mediante una de las siguientes actividades:

  • Mediante la interfaz de envío del motor de búsqueda: se debe consultar la documentación ofrecida por los propios motores de búsqueda, los que indican la forma de hacerlo.
  • Mediante el archivo robots.txt: se debe añadir una línea al final del archivo que consigne la ubicación del archivo con el sitemap. Dicha línea deben indicar:

    Sitemap: <ubicación_sitemap>

  • De acuerdo a lo que se indica en el Sitio Web en que se difunde este protocolo, la forma de ingresar la información correspondiente a la <ubicación del sitemap> debe ser la URL completa del Sitemap, como por ejemplo: http://www.sitioweb.gob.cl/sitemap.xml.
  • Mediante una solicitud http desde el browser: para hacerlo se debe utilizar el propio browser y en la línea de la dirección escribir lo siguiente:

    <searchengine_URL>/ping?sitemap=sitemap_url

Administración de contenidos

Tal como se indicó antes, la calidad del código HTML de un Sitio Web es uno de lo aspectos más relevantes para conseguir que sus contenidos sean incorporados adecuadamente en los índices y aparezcan entre los primeros lugares de las búsquedas realizadas por los usuarios.

No obstante, tal como se indica en el párrafo anterior, quienes visitan los buscadores siempre solicitarán contenidos y por tanto, será la calidad de éstos apoyada por la forma en que se ha creado el código HTML de la página, lo que determine lo forma de aparecer en las páginas de resultados.

A continuación se revisan los tres grandes elementos que se deben vigilar en cada página, para apoyar una adecuada Encontrabilidad:

Estructura de contenidos

Para que los contenidos de una página web reciban un trato adecuado en los motores de búsqueda debe existir una concordancia entre las diferentes partes del código. En este sentido, es importante velar porque el texto que aparezca en la etiqueta <title> de la sección <head> sea el mismo que aparece en la etiqueta <h1> de la sección <body>. También es adecuado que las palabras que aparezcan en la etiqueta <meta ... content="keywords"> de la sección <head> incluya palabras que también aparezcan en la etiqueta <h1> de la sección <body>

Gracias a esta relación, se estará dando una prueba de que la página se refiere a los contenidos que se exponen en estas etiquetas, generando una demostración de credibilidad que es valorada dentro de los parámetros de los buscadores.

Otro elemento de interés es que el contenido esté estructurado utilizando etiquetas del tipo <h> para los subtítulos, ya que gracias a ello se demostrará que se ha utilizado el estándar. Adicionalmente, es interesante utilizar la etiqueta <strong> o <em> para indicar contenidos destacados, dejando de lado la etiqueta <b> que sólo denota negritas. Además, si dichas etiquetas se asignan a palabras que están en la lista de palabras claves ("keywords") antes señaladas, se aumentará la correspondencia interna de la página lo cual, a su vez, ayudará en la calidad de su indexación.

Características de los contenidos

Un tema central de la página tiene que ver con la titulación de la página, vale decir, con la frase que aparece repetida tanto en la etiqueta <title> como en la etiqueta <h1>. Se debería intentar que dicha frase incorporara la forma en que el contenido es llamado por los usuarios a través de los buscadores.

Por ejemplo, si el contenido se refiere a la "Cédula de Identificación", será interesante utilizar la denominación "Carné o Carnet de Identidad" en lugar de su nombre oficial. De esta manera, habrá más posibilidades que al ser indexada, la página tenga las palabras que sean más cercanas a lo que las personas utilizarán para hacer la búsqueda respectiva.

Otra de las prácticas habituales para apoyar la Encontrabilidad de los Sitios Web y fomentar su posicionamiento en las páginas de resultados, tiene que ver con el hecho de que se debe "convencer" a los robots de búsqueda de que la página se refiere a los temas que aparecen tanto en <title> como en <h1>. Para ello es vital que dentro del texto aparezcan varias veces los términos utilizados en dichas secciones. La lógica detrás de esta situación es que si una página se refiere a un tema determinado, es natural que en su contenido, las palabras utilizadas en los títulos (de la página y del texto), aparezcan nombradas con cierta frecuencia. Gracias a esto, se busca reprimir una mala práctica realizada por algunos sitios que para subir en su posicionamiento, ponen ciertas palabras en la lista de palabras claves ("keywords") pero luego no las usan en los contenidos.

Esto puede ser apoyado por los enlaces que ofrezca la página, que deberían ir naturalmente hacia otros sitios donde también se encuentren las mismas palabras, con lo que se reforzará el contenido de la propia página. Adicionalmente dichos enlaces deberían usar el elemento "title" en su sintaxis, de tal manera de poner allí alguna frase que refuerce la idea de que se accederá a contenidos relacionados con el tema de la propia página.

¿Cuántas veces se deben repetir los contenidos? La respuesta tiene que ver con la redacción: se debe repetir tantas veces como sea necesario para la comprensión del texto por parte de un "humano" que esté leyendo y menos de las que se puedan interpretar como que se está haciendo dicha repetición sólo para el robot de búsqueda.

Otro elemento de interés en este sentido, es que los buscadores valoran el hecho de que haya enlaces que apunten hacia el contenido que se ofrece. En este sentido, aparece como una herramienta importante, la capacidad que tenga el Sitio Web de ofrecer elementos que puedan ser enlazados desde diferentes sitios. En la medida que se haga dicha acción, aumentará la posibilidad de que los contenidos del sitio aparezcan en mejores lugares en las páginas de resultados de los buscadores.

Calidad de los contenidos

Por último y aunque esto se planteó previamente, es importante reconocer que por muy importante que sean los buscadores, los contenidos que se ofrecen serán leídos por personas y por lo tanto deberán ser creados para fomentar su comprensión por parte de ellas.

En este sentido, hay que convenir que en la medida que los contenidos que se ofrezcan sean de calidad y provengan de una fuente importante como es el servicio público propietario del Sitio Web, será bien recibido, creído y, eventualmente, enlazado desde otros Sitios Web creando de esta manera el círculo virtuoso que permite mejorar la presencia y posición en las páginas de resultados de los buscadores.