3 /***************************************************************************\
4 * SPIP, Systeme de publication pour l'internet *
6 * Copyright (c) 2001-2019 *
7 * Arnaud Martin, Antoine Pitrou, Philippe Riviere, Emmanuel Saint-James *
9 * Ce programme est un logiciel libre distribue sous licence GNU/GPL. *
10 * Pour plus de details voir le fichier COPYING.txt ou l'aide en ligne. *
11 \***************************************************************************/
14 * Gestion du compage des statistiques de visites (cron)
16 * @plugin Statistiques pour SPIP
18 * @package SPIP\Statistiques\Genie
21 if (!defined("_ECRIRE_INC_VERSION")) {
24 if (!defined('_CRON_LOT_FICHIERS_VISITE')) {
25 define('_CRON_LOT_FICHIERS_VISITE', 100);
28 ### Pour se debarrasser du md5, comment faire ? Un index sur 'referer' ?
29 ### ou alors la meme notion, mais sans passer par des fonctions HEX ?
33 * Prendre en compte un fichier de visite
35 * @param string $fichier
36 * Nom du fichier de visite
39 * @param array $visites_a
40 * Couples id_article => nombre : comptage par identifiant d'article
41 * @param array $referers
42 * Couples url_referer => nombre : comptage par url de referer
43 * @param array $referers_a
44 * Couples id_article => array (url_referer => nombre) : comptage par article puis url de referer
47 function compte_fichier_visite($fichier, &$visites, &$visites_a, &$referers, &$referers_a) {
49 // Noter la visite du site (article 0)
53 if (lire_fichier($fichier, $content)) {
54 $content = @unserialize
($content);
56 if (!is_array($content)) {
60 foreach ($content as $source => $num) {
61 list($log_type, $log_id_num, $log_referer)
62 = preg_split(",\t,", $source, 3);
66 $log_referer = nettoyer_referer($log_referer);
67 if (!isset($referers[$log_referer])) {
68 $referers[$log_referer] = 0;
70 $referers[$log_referer]++
;
73 // S'il s'agit d'un article, noter ses visites
74 if ($log_type == 'article'
75 and $id_article = intval($log_id_num)
77 if (!isset($visites_a[$id_article])) {
78 $visites_a[$id_article] = 0;
80 $visites_a[$id_article]++
;
82 if (!isset($referers_a[$id_article][$log_referer])) {
83 $referers_a[$id_article][$log_referer] = 0;
85 $referers_a[$id_article][$log_referer]++
;
93 * Calcule les statistiques de visites, en plusieurs étapes
95 * @uses compte_fichier_visite()
96 * @uses genie_popularite_constantes()
99 * Timestamp de la dernière exécution de cette tâche
101 * - null si aucune visite à prendre en compte ou si tous les fichiers de visite sont traités,
102 * - entier négatif s'il reste encore des fichiers à traiter
104 function calculer_visites($t) {
105 include_spip('base/abstract_sql');
108 $visites = array(); # visites du site
109 $visites_a = array(); # tableau des visites des articles
110 $referers = array(); # referers du site
111 $referers_a = array(); # tableau des referers des articles
113 // charger un certain nombre de fichiers de visites,
114 // et faire les calculs correspondants
116 // Traiter jusqu'a 100 sessions datant d'au moins 30 minutes
117 $sessions = preg_files(sous_repertoire(_DIR_TMP
, 'visites'));
119 $compteur = _CRON_LOT_FICHIERS_VISITE
;
120 $date_init = time() - 30 * 60;
121 foreach ($sessions as $item) {
122 if (($d = @filemtime
($item)) < $date_init) {
125 } // si le fs ne donne pas de date, on prend celle du traitement, mais tout cela risque d'etre bien douteux
126 $d = date("Y-m-d", $d);
127 spip_log("traite la session $item");
128 compte_fichier_visite($item,
129 $visites[$d], $visites_a[$d], $referers[$d], $referers_a[$d]);
131 if (--$compteur <= 0) {
135 #else spip_log("$item pas vieux");
137 if (!count($visites)) {
141 include_spip('genie/popularites');
142 list($a, $b) = genie_popularite_constantes(24 * 3600);
144 // Maintenant on dispose de plusieurs tableaux qu'il faut ventiler dans
145 // les tables spip_visites, spip_visites_articles, spip_referers
146 // et spip_referers_articles ; attention a affecter tout ca a la bonne
147 // date (celle de la visite, pas celle du traitement)
148 foreach (array_keys($visites) as $date) {
149 if ($visites[$date]) {
151 // 1. les visites du site (facile)
152 if (!sql_countsel('spip_visites', "date='$date'")) {
153 sql_insertq('spip_visites',
154 array('date' => $date, 'visites' => $visites[$date]));
156 sql_update('spip_visites', array('visites' => "visites+" . intval($visites[$date])), "date='$date'");
159 // 2. les visites des articles
160 if ($visites_a[$date]) {
161 $ar = array(); # tableau num -> liste des articles ayant num visites
162 foreach ($visites_a[$date] as $id_article => $n) {
163 if (!sql_countsel('spip_visites_articles',
164 "id_article=$id_article AND date='$date'")
166 sql_insertq('spip_visites_articles',
168 'id_article' => $id_article,
173 $ar[$n][] = $id_article;
175 foreach ($ar as $n => $liste) {
176 $tous = sql_in('id_article', $liste);
177 sql_update('spip_visites_articles',
178 array('visites' => "visites+$n"),
179 "date='$date' AND $tous");
181 $ref = $noref = array();
182 foreach ($liste as $id) {
183 if (isset($referers_a[$id])) {
189 // il faudrait ponderer la popularite ajoutee ($n) par son anciennete eventuelle
190 // sur le modele de ce que fait genie/popularites
192 sql_update('spip_articles',
194 'visites' => "visites+$n",
195 'popularite' => "popularite+" . number_format(round($n * $b, 2), 2, '.', ''),
198 sql_in('id_article', $noref));
202 sql_update('spip_articles',
204 'visites' => "visites+" . ($n +
1),
205 'popularite' => "popularite+" . number_format(round($n * $b, 2), 2, '.', ''),
208 sql_in('id_article', $ref));
211 ## Ajouter un JOIN sur le statut de l'article ?
214 if (!isset($GLOBALS['meta']['activer_referers']) or $GLOBALS['meta']['activer_referers'] == "oui") {
215 // 3. Les referers du site
216 // insertion pour les nouveaux, au tableau des increments sinon
217 if ($referers[$date]) {
219 $trouver_table = charger_fonction('trouver_table', 'base');
220 $desc = $trouver_table('referers');
221 $n = preg_match('/(\d+)/', $desc['field']['referer'], $r);
222 $n = $n ?
$r[1] : 255;
223 foreach ($referers[$date] as $referer => $num) {
224 $referer_md5 = sql_hex(substr(md5($referer), 0, 15));
225 $referer = substr($referer, 0, $n);
226 if (!sql_countsel('spip_referers', "referer_md5=$referer_md5")) {
227 sql_insertq('spip_referers',
230 'visites_jour' => $num,
231 'visites_veille' => 0,
233 'referer' => $referer,
234 'referer_md5' => $referer_md5
237 $ar[$num][] = $referer_md5;
241 // appliquer les increments sur les anciens
242 // attention on appelle sql_in en mode texte et pas array
243 // pour ne pas passer sql_quote() sur les '0x1234' de referer_md5, cf #849
244 foreach ($ar as $num => $liste) {
245 sql_update('spip_referers', array('visites' => "visites+$num", 'visites_jour' => "visites_jour+$num"),
246 sql_in('referer_md5', join(', ', $liste)));
250 // 4. Les referers d'articles
251 if ($referers_a[$date]) {
254 // s'assurer d'un slot pour chacun
255 foreach ($referers_a[$date] as $id_article => $referers) {
256 foreach ($referers as $referer => $num) {
257 $referer_md5 = sql_hex(substr(md5($referer), 0, 15));
258 $prim = "(id_article=$id_article AND referer_md5=$referer_md5)";
259 if (!sql_countsel('spip_referers_articles', $prim)) {
260 sql_insertq('spip_referers_articles',
263 'id_article' => $id_article,
264 'referer' => $referer,
265 'referer_md5' => $referer_md5
272 // ajouter les visites
273 foreach ($ar as $num => $liste) {
274 sql_update('spip_referers_articles', array('visites' => "visites+$num"), join(" OR ", $liste));
275 ## Ajouter un JOIN sur le statut de l'article ?
282 // S'il reste des fichiers a manger, le signaler pour reexecution rapide
283 if ($compteur == 0) {
284 spip_log("il reste des visites a traiter...");
291 * Nettoyer les IPs des flooders 24H apres leur dernier passage
293 function visites_nettoyer_flood() {
294 if (is_dir($dir = _DIR_TMP
. 'flood/')) {
295 include_spip('inc/invalideur');
296 if (!defined('_IP_FLOOD_TTL')) {
297 define('_IP_FLOOD_TTL', 24 * 3600);
300 'mtime' => $_SERVER['REQUEST_TIME'] - _IP_FLOOD_TTL
,
302 purger_repertoire($dir, $options);
307 * Nettoyer les urls en enlevant les variables de personnalisation marketing, ou variantes Amp
310 function nettoyer_referer($url){
313 $url = preg_replace("`[?&]utm_.*$`","",$url);
316 $url = preg_replace("`[?&]fbclid.*$`","",$url);
319 $url = preg_replace("`[?&]amp=1$`","",$url);
325 * Cron de calcul de statistiques des visites
327 * Calcule les stats en plusieurs étapes
329 * @uses calculer_visites()
332 * Timestamp de la dernière exécution de cette tâche
334 * Positif si la tâche a été terminée, négatif pour réexécuter cette tâche
336 function genie_visites_dist($t) {
337 $encore = calculer_visites($t);
339 // Si ce n'est pas fini on redonne la meme date au fichier .lock
340 // pour etre prioritaire lors du cron suivant
345 // nettoyer les IP des floodeurs quand on a fini de compter les stats
346 visites_nettoyer_flood();