Page d'accueil(allemand)     Choses ordinateur(allemand) [deutsch] [english]

RGXStat

pour la dépouillement temporale des fichiers log HTTP

Téléchargement

rgxstat-0.43.tgz (77K) [Le code exécutable et stripped est environ 90KB. Le paquet contient les sources et une documentation en anglais et partiellement en allemand.]

rgxstat-0.20.tgz (55K) [Le code exécutable et stripped est environ 80KB. Le paquet contient les sources et une documentation html en anglais et en allemand.]

(est besoin de fichiers include standard et GTK. Extrêmement utile sont aussi les GNU plotutils (vois plus bas).)


Description

RGXStat est un programme pour suivre les changements temporals dans les accès aux régions divers d'une page Web, de façon qu'on peut les comparer. Peut-être deux exemples le montrent mieux:

stistique 1

Sur cette image on voit le nombre d'accès aux fichiers html des régions individuels sur ma page dès mi-2000 jusqu'à la fin 2001, réparti après les semaines. La régression vers 0 au début de 2001 est un artéfact du programme, probablement résulté des semaines avec moins de 7 jours au début et à la fin des années.

statistique 2

Cette image montre les accès aux fichiers de formats différents, répartis après l'heure de l'accès. On peut voire, que chaque fichier html charge en moyenne 1,5 fichiers jpg. Mais dans la nuit le bruit au fond de robots de moteurs de recherche domine.

On peut trouver deux ou trois statistiques des plus sur la page avec les statistiques supplémentaires.

On définit les régions à comparer avec l'aide des expressions rationelles. Dans le cas dernier par exemple j'ai pris \.html. \.jpg etc.. De plus on peut donner des expressions rationelles pour le referrer, le navigateur, le domaine etc., ansi qu'on peut défiltrer par exemple tous les accès des utilisateurs de netscape, venant de google (ou choses comme ça). La définition des unités de temps, dans lesquels les accès sont accumulés n'est pas si flexible, mais en revanche plus facile. Aussi le format utilisé du serveur HTTP pour les lignes log devoit être définit par une expression rationelle modifiée. Alors il faut qu'on s'y connaît avec des expressions rationelles. Ce programme n'est pas facile à utiliser.

Les sorties graphiques comme en haut sont crées du programme avec l'aide du libplot, une bibliothèque faisant partie des GNU plotutils. Alternativement le programme peut faire de la sortie html et ascii. Mais html ne fonctionne guère, parce que je n'ai pas l'utiliser depuis longtemps. J'en déconseillerais. La sortie ascii est pensée comme entrée pour des autres programmes.

De plus le paquet contient quatre exécutables sans GUI. L'un cherche des mots de requête, qui menent des moteurs de recherche à la page étudiée. L'autre essaye de trouver les relations entre les régions d'une page (c.a.d. il étudie, quelles régions sont souvent visitées ensemble avec quelles autres régions). Et il produit un arbre de ascii-art, représentant cettes relations. Le troisième liste des sites référants. Le dernier est un filtre pour les deux autres.

Au moment le programme ne se laisse pas installer, seulement se compiler dans la répertoire et exécuter.

Copyright

Les parts de programme de moi sont sous le licence BSD. Mais les GNU plotutils étant sous GPL, les programmes dérivés, qui les utilisent aussi, devoient aussi être sous GPL. Il est possible de compiler RGXStat sans libplot. mais en ce cas, on n'a plus de sorties graphiques bien sûr.

Conditions au système

Le programme fonctionne sur mes boîtes Linux (SuSE-6.4 et 7.0), et se laisse compiler avec le gcc. Pour le GUI il utilise GTK, mais le programme se laisse compiler aussi sans GUI. Pour des sorties graphiques il est besoin aussi de la libplot des GNU plotutils. Ceux-ci font partie de la plupart des distributions, mais ne sont pas installés par défaut.


Page d'accueil(allemand)     Choses ordinateur(allemand) by Michael Becker, 1/2002. Dernière modification 11/2002