Simbiontes
Cada loco con su tema   

Blog |  Acerca de...  |  Asuntos recurrentes  | 

Webalizer hacks: añadir buscadores en Webalizer

Escrito por El Malvado Acidonitrix , Miércoles 9 de Marzo de 2005
   1 Comentarios
Archivado en: Codeblog

El fichero de configuración de webalizer no recoge muchas cadenas de buscadores, como las versiones regionales de Google y MSN. Explicamos cómo incluirlos. Otros buscadores regionales como Terra tampoco aparecen en la lista. Este defecto puede corregirse con facilidad si se dispone de acceso al servidor.

Aspecto de un informe de WebalizerWebalizer es un programa que lee los registros de Apache y crea una estadística de visitas a una página web. Está muy extendido. Por ejemplo, viene de serie con todos los paneles de control Plesk y Cpanel, y mucha gente lo tiene en su servidor de forma independiente. Un simple pantallazo reducido permite reconocerlo por su inconfundible combinación de colores (que pueden cambiarse, pero casi nadie lo hace). Aunque es robusto y fiable, no se actualiza desde 2002, y su archivo de configuración predeterminada no recoge determinados cambios en Internet, por lo que algunos apartados del informe se dejan cosas en el tintero, como las visitas originadas en versiones regionales de Google y MSN, o de buscadores de fuerte implantación local como Terra. Pero este defecto puede corregirse si se dispone de acceso al servidor.

Qué hacer
El fichero de configuración suele estar en /etc/webalizer.conf.

Edítalo y localiza este apartado (hacia la línea 518).

SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine eureka.com q=
SearchEngine lycos.com query=
SearchEngine hotbot.com MT=
SearchEngine msn.com MT=
SearchEngine infoseek.com qt=
SearchEngine webcrawler searchText=
SearchEngine excite search=
SearchEngine netscape.com search=
Searc'hEngine mamma.com query=
SearchEngine alltheweb.com query=
SearchEngine northernlight.com qr=

Esta configuración ignora los buscadores regionales como google.es y msn.fr. Para corregirlo, cambia las líneas respectivas eliminando el dominio de primer nivel de esta manera:

  • Cambia SearchEngine google.com q= por SearchEngine google. q=
  • Cambia SearchEngine msn.com MT= por SearchEngine msn. q=

Es conveniente señalar que esta combinación puede dar por buenos referers originados en páginas no asociadas al buscador. Por ejemplo, una visita originada en google.dirson.com puede entrar en la primera condición, aunque la variable ( q= ) no aparezca en el referer. Aquí el comportamiento es impredecible, pero entiendo que el margen de error provocado es despreciable.

Añade también tus buscadores favoritos. Por ejemplo, buscando en Terra la palabra "simbiontes", el enlace de la página de resultados es:

http://buscador.terra.es/default.asp?ca=s&query=simbiontes

Localiza el término de búsqueda, que vendrá precedido por &loquesea=. En este caso es &query=. Descarta el ampersand (&) y quédate con la variable (query). Añade esta línea:

SearchEngine terra. query=

Pon cuidado en NO colocar el dominio de primer nivel, ya que de esa manera tendrías que hacer una línea por cada variante regional (com.ar, mx, etc).

Caché y traducciones
Con un afán completista, puedes añadir las visitas originadas por páginas cacheadas o tratadas por un traductor automático. Son opciones disponibles en buscadores que generan unas cuantas visitas, especialmente la caché, ya que resalta los términos de búsqueda y muchas veces son una ayuda para la persona que está buscando. El problema de estos referers es que suelen estar originados sin dominio, usando una dirección IP en su lugar. Por ejemplo:

http://66.102.7.104/search?q=cache:H_fa3ozS_JgJ:
www.simbiontes.com
/+Bruce+Culver&hl=es&lr=lang_es

El primer término indica a Webalizer indica qué cadena debe buscar en el referer, y la segunda dónde empiezan los términos de búsqueda. Teniendo esto en cuenta, puedes añadir lo siguiente:

SearchEngine search?q=cache: q=cache:

No es tan limpio como los términos de búsqueda, pero puede funcionar.

Para las visitas originadas en traducciones automáticas el ejemplo es parecido:

http://translate.google.com/translate?hl=es&sl=en&u=
http://www.warplanner.com/recentrolls.aspx
&prev=/search%3Fq%3Dacidonitrix%26hl%3Des%26lr%3D%26sa%3DG

Añade:

SearchEngine translate?hl prev=

El resultado ofrece una pista de solicitudes de traducción. Los términos de búsqueda están enmascarados, pero es posible obtenerlos en el informe y detectar su aparición. Si la frecuencia llama tu atención, puedes analizar los logs con detenimiento y realizar una extracción de términos más elaborada.

Listas completas
Hay montones de buscadores. Si te pierde el afán completista, puedes encontrar una lista de cadenas para Webalizer aquí: More Webalizer.conf hacking.

Cómo funciona
Uno de los parámetros más interesantes para seguir el ritmo de visitas de una web es conocer qué consultas en un buscador terminan en una visita. Esto requiere que se proporcione el "referer", es decir, el enlace desde el que se llega. No todos los proveedores de acceso lo dan siempre, ya que no es un requisito, y por tanto se pierde mucha información, pero la que llega es muy abundante.

Si se dispone del referer de una visita, es posible analizarlo y verificar el origen de una visita. Por ejemplo, si el referer es http://www.google.es/search?q=vicio+duro&hl=es&lr=&start=10&sa=N, es posible trocearlo en varias partes:

  • La primera es el dominio o página de origen: http://www.google.es/search
  • La segunda los parámetros, que en el caso de un buscador indican los términos de búsqueda: ?q=vicio+duro&hl=es&lr=&start=10&sa=N.

La parte de los parámetros contiene información sobre el idioma, el paginado (cuando los resultados del buscador van de diez en diez, por ejemplo) y otra información relativa. La más interesante es la del término de búsqueda: q=vicio+duro. Algunas personas han llegado hasta simbiontes de esa forma (ya que aparecemos como el resultado 19 de la búsqueda).

Webalizer puede reconocer entonces qué términos de búsqueda originan una visita. En este caso, Google cree que en Simbiontes hablamos de "vicio duro" porque nuestro lema es "vicio y subcultura" y hablamos amenudo de disco duro (concretamente de la unidad virtual para que Gmail actúe de disco duro).


1 comentarios

Bla Bla
Dice: M, Miércoles 9 de Marzo de 2005

Mola! Ahora mismo voy a meter mano a mi Webalizer! :)

por cierto, para los referrers, lo mejor, http://www.textism.com/tools/refer/

Un saludo!



Enviar un comentario










Introduce el código que aparece aquí...
Recordar información personal en este PC...







Mostrar búsqueda avanzadaActivar búsqueda avanzada

Bienvenido al repositorio de los simbiontes

Una página colectiva y ecléctica para comentar y apuntar cosas.

Estás viendo los archivos de Marzo de 2005. Visita la portada para ver las últimas notas.

Sugerencias de lectura

Los simbiontes hablan de...

Sugerencias de lectura

Si quieres curiosear, puedes consultar:

  • todas las entradas archivadas por categoría (abstract).
  • Las entradas ordenadas mensualmente.
  • Suscribirte a los feeds (más abajo).
  • Lo que vienen buscando otras personas.
  • Si lo prefieres, puedes ver la portada en el formato anterior.
  • ...o leer la presentación para saber qué es esto y si puedes fiarte o no de lo que aquí se dice, y por qué pensamos que esto no es un blog aunque lo llamemos así para entendernos entre nosotros.

Sindicación RSS

  • ¿Qué es un feed?
  • Agregadores recomentados

Lecturas edificantes y tráfico de influencias

La tira Ecol

Tira Ecol

http://tira.escomposlinux.org
La tira ecol ha vuelto.