Registrando robots de búsqueda en Apache
Wednesday, 3. October 2007 12:56
Hace unos días, un cliente me comentó su necesidad de loguear las entradas de los robots de búsqueda en un fichero aparte, para después procesarlas. Como me resultó novedoso el tema (en tanto que nunca he hecho algo parecido) me decidí a escribir un post. También han ayudado factores como recordarme que si me pagan el dominio, lo podría ir usando. Melón.
Vamos a ponernos en faena. Apache tiene una directiva para definir variables de entorno en función de una serie de condiciones. Me refiero a la directiva SetEnvIf. Para nuestro ejemplo también nos valdría BrowserMatch pero opté por la primera por ser más genérica. Simplificaré un poco el montaje (mi cliente tenía varios dominios virtuales). En nuestro caso lo vamos a hacer con mi dominio, por ejemplo.
Lo primero que tenemos que hacer es abrir el fichero donde definimos nuestro virtualhost. Sobre la línea que define el CustomLog escribimos:
SetEnvIf User-Agent bot is_a_robot
CustomLog /var/log/apache2/robots_access.log combined env=is_a_robot
Estas dos líneas sirven para definir la variable is_a_robot y activar el log en caso de que esa variable de entorno exista (con el tipo de log combined)
Fácil ¿no? Ya para terminar y rizar el rizo, hice un pequeño script en perl para separar cada bot en un fichero. Os lo pego aquí mismo (y os incluyo un enlace de paso aquí)
#!/usr/bin/perl
#
# Iñaki Rodriguez (2007)
#
# Split robots in separate files (using md5 as filename)
#
# License: GPL
use Digest::MD5 'md5_hex';
my $robot_log = '/var/log/apache2/robots_access.log';
my $output_dir = '/var/log/apache2/robots/';
my %bots;
open BOTLOG, "<$robot_log" or die ("$robot_log: I can't open it");
open INDEX, "<".$output_dir."index.txt";
while() {
chomp();
my ($md5,$ua) = split(/\t/);
$bots{$md5} = $ua;
}
close(INDEX);
while() {
chomp();
m/^(.+?) (.+?) (.+?) (\[.+?\]) (".+?") (\d\d\d) (.+?) (".+?") (".*")$/;
my $md5 = md5_hex($9);
my $tmpf = $output_dir.$md5.".log";
open LOG,">> $tmpf" or die ("$tmpf: I can't write it");
print "Adding entry to $tmpf ($9)\n" if ($ARGV[0] ne '-q');
$bots{$md5} = $9 if (!$bots{$md5});
print LOG $_."\n";
close(LOG);
}
close(BOTLOG);
open INDEX, ">".$output_dir."index.txt" or die($output_dir."index.txt: I can't create it");
foreach $md5 (keys %bots) {
print INDEX $md5."\t".$bots{$md5}."\n";
}
close(INDEX);
Solo comentar un par de cosas del script. La variable $output_dir especifica el directorio donde va a guardar los logs por separado. En este mismo directorio se creará un fichero index.txt que guarda la correspondencia de cada log con su user agent. El nombre del fichero es la suma md5 del campo User Agent del log. Por último la variable $robot_log es la que establece el fichero donde se almacenan los registros de todos los robots.
Se podría mejorar. Invito al lector a añadir:
- Registro de la última entrada para no duplicarlas
- Exclusiones
Y hasta aquí el post del día.
Nota Mental: Arreglar el css que se descuadra (el theme no es mío)
Thema: Linux, Perl, Receta, apache | Kommentare (0) | Autor: Iñaki