'&', '"'=>'"', '<'=>'<', '>'=>'>', 'è'=>'è', 'é'=>'é', 'à' => 'à') ); $cherche = array ( /*a1*/ ',]*>,', /*a2*/ ',]*>,', /*a3*/ ',]*>,', /*a3*/ ',]*>,', /*01*/ '@]*?>.*?@si', // Supprime le javascript /*02*/ '@]*?>.*?@si', // Supprime les styles inline /*03*/ ",]*>,Uims", // les css /*04*/ ",]*alt=['\"]([^'\"]*)['\"][^>]*>,Uims", // les images /*05*/ ',(<(div|br|p)),i', /*06*/ '@<[\/\!]*?[^<>]*?'.'>@si', // Supprime les balises HTML /*07*/ '@([\r\n])[\s]+@', // Supprime les espaces /*08*/ ',[\r\n][_]{2},sm', /*09*/ '@&(quot|#34);@i', // Remplace les entites HTML /*10*/ '@&(amp|#38);@i', /*11*/ '@&(lt|#60);@i', /*12*/ '@&(gt|#62);@i', /*13*/ '@&(nbsp|#160);@i', /*14*/ '@&(iexcl|#161);@i', /*15*/ '@&(cent|#162);@i', /*16*/ '@&(pound|#163);@i', /*17*/ '@&(copy|#169);@i', /*18*/ '@’@i', /*19*/ '@&#(\d+);@e' ); $remplace = array ( /*a1*/ "\n__--------------------------------------------------------\n", /*a2*/ "\n__...........\n", /*a3*/ "\n__\n__+++", /*a3*/ "+++", /*01*/ '', /*02*/ '', /*03*/ '', /*04*/ '[\1]', /*05*/ "\n__\\1", /*06*/ '', /*07*/ '\1', /*08*/ "\n", /*09*/ '"', /*10*/ '&', /*11*/ '<', /*12*/ '>', /*13*/ ' ', /*14*/ chr(161), /*15*/ chr(162), /*16*/ chr(163), /*17*/ chr(169), /*18*/ "'", /*19*/ 'chr(\1)' // Evaluation comme PHP ); $texte = preg_replace($cherche, $remplace, $texte); return $texte; } // filtre qui extrait le contenu texte d'une page html, a l'exclusion de quelques balises elementaires function version_texte($texte){ $texte = charset2unicode($texte); // accentuer le texte avant de suprimer les tags $texte = strtr($texte, array('&'=>'&', '"'=>'"', '<'=>'<', '>'=>'>', 'è'=>'è', 'é'=>'é', 'à' => 'à') ); $cherche = array ( /*01*/ '@]*?>.*?@si', // Supprime le javascript /*02*/ '@]*?>.*?@si', // Supprime les styles inline /*03*/ ",]*>,Uims", // les css /*04*/ ",]*alt=['\"]([^'\"]*)['\"][^>]*>,Uims", // les images ); $remplace = array ( /*01*/ '', /*02*/ '', /*03*/ '', /*04*/ '[\1]', ); // voir : TODO.txt $texte = preg_replace($cherche, $remplace, $texte); return $texte; } ?>