Dans ce tuto avant tout destiné aux développeurs, nous vous proposons une solution pour implémenter un système de recherche avec MySQL & FULLTEXT en mode BOOLEAN.

Nous vous invitons à consulter le précédent article intitulé "Recherche & Pertinence avec MySQL & FULLTEXT" qui en est l'introduction et contient un premier tuto avec du code, ainsi que des explications détaillées nécessaires à la compréhension de ce qui va suivre...

Généralités sur MySQL FULLTEXT IN BOOLEAN MODE

Contrairement au mode NATURAL vu dans le précédent article, un des avantages du mode BOOLEAN est de pouvoir utiliser les "operators" suivants + - > < ( ) ~ " @ * permettant une recherche avancée.

Notre choix est de n'utiliser (proposer aux internautes) que seulement 4 de ces operators (vous trouverez des explications complètes dans la doc officielle MySQL).

operator +

Le mot doit obligatoirement être présent. La requête 'fauteuil +cuir' sortira des résultats uniquement si le mot 'cuir' est présent ('fauteuil en cuir', 'canapé cuir', etc.)

operator -

Le mot ne doit pas être présent. La requête 'teeshirt -rouge' sortira des résultats qui "match" avec 'teeshirt', mais uniquement si le mot 'rouge' est absent.

operator *

Wildcard : n'importe quel caractère après le mot. La requête 'table*' sortira des résultats pour : 'table', 'tables déco', mais également pour 'tableau noir', etc.

operators ""

Pour effectuer une recherche exacte. Exemple : "canapé cuir" => les deux mots doivent être présents ET dans l'ordre ('canapé d'angle en cuir' ne "match" pas).

Le code PHP

Le code PHP ci-dessous n'est pas directement exploitable, car il doit être adapté à vos propres méthodes, votre code gérant la recherche, etc.

Il est commenté et il contient des sections de A) à E) qui feront l'objet d'explications plus détaillées dans cet article.

Comme on dit dans le jargon du métier des mécanos du web, mettons sans plus attendre "les mains dans l'cambouis" :

<?php /* A) Initialisation */ $sRecherche = 'article machin'; // les mots-clés de la recherche $bWildcard = false; // concaténation d'un wildcard ? $iCoefDescCourte = 0.5; // coefficients / scores $iCoefDescLongue = 0.1; $oPDO = new PDO('dsn', 'username', 'password'); // Connexion à la base de données /* B) Récup. des mots-clés Filtrage des espaces */ $aMots = preg_split('/\s+/', $sRecherche); $sMots = ''; foreach ($aMots as $sElem) { /* C) Filtre anti-erreurs SQL limitation des operators Fulltext à [ + - * "] */ if (!preg_match('/^(?:[\+\-\"\*])?[^\+\-><\(\)~*\"@]+(?:\-[^\+\-><\(\)~*\"@]+)?(?:[\"*])?$/', $sElem, $aMatch)) { continue; } /* D) Ajout ou non d'un widcard * suivant config (true/false) */ if ($bWildcard && !(strrpos($sElem, '*') || strrpos($sElem, '"'))) { $sMots .= $sElem.'* '; } else { $sMots .= $sElem.' '; } /* Debug visu des mots-clés filtrés par la regex et traités */ // print_r('<br><br>Mot : '.$sElem); } /* suppression du dernier espace */ $sMots = rtrim($sMots); /* sécurisation avec PDO */ $sMots = $oPDO->quote($sMots); /* F) Une partie de la requête SQL */ $sRequete = ' SELECT nom, description_courte, description_longue, MATCH(nom) AGAINST('.$sMots.' IN BOOLEAN MODE) AS score_nom, MATCH(description_courte) AGAINST('.$sMots.' IN BOOLEAN MODE) AS score_description_courte, MATCH(description_longue) AGAINST('.$sMots.' IN BOOLEAN MODE) AS score_description_longue FROM produits WHERE MATCH(nom) AGAINST('.$sMots.' IN BOOLEAN MODE) OR MATCH(description_courte) AGAINST('.$sMots.' IN BOOLEAN MODE) OR MATCH(description_longue) AGAINST('.$sMots.' IN BOOLEAN MODE) ORDER BY (score_nom+score_description_courte*'.$iCoefDescCourte.'+score_description_longue*'.$iCoefDescLongue.') DESC; '; /* Debug */ // print_r($oPDO->query($sRequete)->fetchAll(PDO::FETCH_ASSOC));

Quelques explications sur le code section par section

A) Initialisation

$sRecherche

Récupération des mots-clés (saisis dans le champ du formulaire de recherche).

$bWildcard

Booléen : si sa valeur est true on ajoutera un wildcard, une * à la fin de chacun des mots recherchés de façon à ce qu'une recherche sur "lunette" au singulier "match" également avec son pluriel "lunettes", etc.

$iCoefDescCourte

$iCoefDescLongue

Affecte un coefficient au score trouvé par MySQL par rapport à chaque description (courte et longue) qui "match" afin de moduler l'importance qu'à le champ dans la recherche. Plus d'explication dans le précédent article.

Plage recommandée : 0 < coefficient ⩽ 1

B) Traitement des mots-clés (avant le foreach)

La fonction preg_split génère un tableau (array) contenant chaque mot-clé de la requête. On gère du même coup les éventuels espaces en doublon.

C) Filtre anti-erreurs SQL

La regex (de la mort) dans le preg_match filtre chaque mot (boucle foreach) qui ne correspond pas au pattern autorisé. Sans cela, le fait de pouvoir passer à la requête SQL un mot contenant des operators placés au mauvais endroit ou doublonnés comme : '+++machin', 'rouge-', etc. ferait planter la requête SQL. Essayez sans et vous verrez !

Note : je n'ai pas trouvé plus simple alors si vous avez mieux...

D) Ajout ou non d'un widcard *

Si vous testez avec $bWildcard = true; (voir A) une * sera concaténée à la fin de chaque mot.

Cela permet une recherche plus étendue, exemple : 'table*' "matchera" avec 'tables' ou 'tableau'. Grâce aux strrpos on évitera de polluer la jolie requête SQL avec des * ou des " doublonnés.

E) Une partie de la requête SQL

Mis à part l'ajout de "IN BOOLEAN MODE", nous n'avons quasi pas de différences du point de vue du code. Je vous invite donc une fois de plus à consulter le précédent article qui contient quelques explications relatives à cette requête SQL. En apparence peu de changement, mais dans l'exécution c'est tout autre chose...

Conclusion

Pour nos clients, nous avons jugé bon de leur permettre de paramétrer via leur admin/config le mode de recherche FULLTEXT comme ils le souhaitent :

2 petits champs "input" pour saisir les coefficients à affecter aux descriptions (voir : A) Initialisation). Un 0 (zéro) leur permet de zapper totalement une des descriptions ou les deux (recherche uniquement sur le nom du produit). De notre côté nous conditionnons simplement la requête SQL en fonction de cela.

Deux petites cases à cocher : l'une pour sélectionner soit le mode "NATURAL" soit le "BOOLEAN" et l'autre correspondant au $bWildcard (voir : A) Initialisation).

N'hésitez pas à nous faire part de vos remarques ou suggestions afin que tous ensemble nous fassions avancer la recherche ; )