J’ai invité Françoise Halper, ma co-speaker au SMX, pour partager les réflexions que lui ont inspirées cette conférence, notamment sur l’avenir du métier de SEO revu par RankBrain, l’intelligence artificielle de Google. Attention, remise en cause assurée sur les stratégies de contenus… Le clavier est maintenant à Françoise...
Retour vers le futur dans le monde du SEO…
Imaginez ! Je dis « imaginez », parce que cela pourrait être de la science-fiction… Vous êtes au micro devant une salle d’auditeurs venus là pour « comprendre les Fondamentaux du Search ». Nous sommes au bon endroit… c’est ce qu’indique le programme de la conférence SMX Paris 2016 !
Pendant 45 minutes montre en main, vous donnez la réplique à Sylvain, expert SEO et boss d’Axenet, pour expliquer comment réussir à créer/refondre un site internet en lui offrant toutes les chances de visibilité grâce aux moteurs de recherche. C’est à peine si vous n’auriez pas souhaité qu’il y ait beaucoup plus de monde pour écouter cette bonne parole, tant vous savez que leur sont expliqués ce matin-là des principes réellement fondamentaux !
Là, je crois que vous vous demandez (légitimement) où se trouve la science-fiction ! Parce que même si vous ne connaissez pas Sylvain (ce qui m’étonnerait), une conférence, des gens qui écoutent des personnes qui parlent devant des slides qui défilent… fut-ce génialissime (en toute modestie), cela n’a rien « d’étrange » ! Alors, quoi ? Patience, j’y viens…
Ce qui est étrange, c’est le paradoxe !
Nous avons évangélisé des principes établis, des techniques rôdées, le tout assisté par des outils numériques, et destiné à servir la visibilité de sites web en se basant sur les mécanismes des moteurs de recherche. Que veut Google ? Qu’attend-il d’une page web pour l’inscrire dans les résultats de recherches qu’il sert aux internautes ? Comment faire pour répondre à ses attentes ? Important non ? Surtout quand on sait qu’en moyenne ses réponses représentent 30 à 50% des entrées sur un site !
Sylvain a distillé les réponses forgées par son expertise (immortalisées sur ces slides). J’ai même inséré quelques touches personnelles de mise en perspective de ces fondamentaux au sein d’une stratégie globale de communication, histoire de ne pas perdre de vue le contexte.
Alors là, Françoise, tu pousses… J’te ferai dire qu’on attend de savoir ce qu’il y a de paradoxal dans tout ça !
Exact. Le paradoxe n’est arrivé que quelques heures plus tard. Il s’appelle Marcus Tober, fondateur de Searchmetrics.com. Il est venu raconter à une salle comble (tout le peuple SMX…) les exploits de RankBrain, dernier-né de la dynastie algorithmique de Google !
Vous l’aurez compris… c’est du lourd ! Parce que RankBrain n’a rien à voir avec le « gentil » bestiaire calculateur de mots et de liens auquel Google nous avait habitué !
Le futur de Google c’est aujourd’hui, il s’appelle RankBrain !
Signes particuliers de RankBrain : il n’a ni plumes ni poils… c’est une intelligence artificielle ! Mais pas une intelligence artificielle qui se contente de « compter » comme AlphaGo. Non, une IA « auto-apprenante »… Et Google est loin d’être à la traine en matière de « machine learning » !
Certes, RankBrain n’est pas une surprise ! A sa naissance en 2015, certains avaient même déjà vu en lui « le 3ème critère de classement » du moteur de recherche. Mais l’algorithme intelligent avait juste commencé par aider Google à traiter des requêtes d’internautes peu courantes ou ambigües. C’était certainement pour se faire la main… Selon le principe du deep learning, RankBrain apprend vite, chaque jour davantage !
Concrètement, il est déjà capable de faire remonter dans les SERPs de Google, des pages ne contenant pas la requête de l’internaute, simplement parce que le sens du contenu de ces pages a été identifié comme une réponse pertinente par RankBrain.
Et voilà le paradoxe…
Oui, parce que… quid des mots-clés, des contenus sémantiques, des sacs de mots, des champs lexicaux… noyaux durs des techniques et stratégies SEO que nous étions venus évangéliser le matin même ?
Lors de sa keynote, Marcus Tober explique que « Google devient plus intelligent ! ». Dit autrement, il assure que désormais le moteur de recherche est presque (pour le moment) capable de répondre aux requêtes des internautes comme le ferait un interlocuteur humain, en utilisant la pensée. Une pensée affutée, tenant compte de ce qu’il aura « appris » de l’internaute : ses goûts, ses intentions, ses habitudes… Et il en apprend des choses sur nous ! On n’a pas idée…
Exemple, vous êtes RankBrain (j’ai dit « exemple » !). Si deux personnes vous interrogent sur « que faire à Paris ce week-end », votre réponse sera-t-elle la même si l’une est mon fils de 20 ans, passionné d’ornithologie, ou sa Mamie, fan de tennis ?
N’en doutons pas, RankBrain connaitra bientôt votre ado et votre maman mieux que vous ! Il saura alors répondre à Junior : « pas de sortie pour toi ce week-end, va plutôt voir cette page de révisions pour ton bac philo ! »… La page en question accueillera le jeune homme avec un chatbot dont l’avatar sera une belle « Princesse Leia » férue de Socrate, Kant ou Spinoza… Et il répondra à votre maman qu’il pleut sur Roland Garros et qu’il vaut mieux qu’elle aille se faire une toile à deux pas de chez elle en lui collant le programme bien évidence !
Science- fiction pour le coup ? Même pas, juste science en marche et apprentissage exponentiel des intelligences artificielles, que Ray Kurzweil, le futurologue de Google, appelle « loi du retour accéléré » !
Moi, SEO, suis-je cette fois relégué au musée du web ?
Le doute s’installe ? Il faut dire que depuis longtemps, à chaque fois que Google éternue, certains envisagent de signer le certificat d’inhumer des pros du SEO… Alors, avec RankBrain, ils sont sans doute prêts à appeler les pompes funèbres ! Ce n’est pourtant pas tout à fait l’avis de Marcus Tober. Celui-ci signale « simplement » qu’il vaut mieux commencer à disrupter le « vieux fond de commerce » du SEO : les mots-clés et le travail sur les liens… Il recommande au « SEO nouveau » de travailler véritablement les contenus web pour les humains… Normal, puisque c’est quasiment comme un humain que RankBrain commence à arpenter le web ! D’ailleurs, à peine ironique, il se demande pourquoi est-ce que cela n’a pas toujours été ainsi !
Le SEO est mort, vive le SUO « Search User Optimization » !
Selon une grande loi de la nature, « les espèces qui survivent ne sont pas les plus fortes mais celles qui s’adaptent » !
Alors, il faut peut-être éviter de condamner trop vite le SEO… Du moins celui qui va savoir s’adapter ! En effet, en tant que référenceur aguerri, il a acquis une forte expérience sur son meilleur ennemi. Même si celui-ci a maintenant le neurone exponentiel, il a (et va) conserver son ADN de moteur de recherche !
Comme dans la nature, l’évolution des espèces numériques, si rapide soit-elle, ne se fait pas en un jour ! D’autant que « l’animal Google » est imposant. Combien de pages et autres contenus mis en ligne chaque jour sont à crawler, sans parler des contenus existants… Il lui faudra donc un peu de temps pour faire cette mue. Au SEO (plus agile) de commencer la sienne… et que le meilleur gagne !
Par quoi commencer ?
Dans leur processus de transformation numérique, un des premiers critères travaillés par les entreprises, quel que soit leur secteur d’activité, est le client. Ce n’est pas un hasard… « User centric » est l’un des maitres mots de l’évolution de leurs business models. On ne voit pas comment le référencement qui se dit « naturel » échapperait à cette logique, d’autant moins qu’avec RankBrain, Google s’est doté des moyens de faire bouger les lignes. Alors peut-être que sa piste de survie est, comme le fait Google, de raisonner « humain »…
Pour commencer, question de cohérence, est-ce que le SEO peut conserver ce nom s’il n’est plus en charge d’optimiser les pages web pour les moteurs de recherche, mais pour les internautes ? Certes non. Pour officialiser ce virage, le « Search Engine Optimization » ne devrait-il pas s’affirmer comme SUO, pour « Search User Optimization » ?
La nouvelle brique pour faire du SUO… raisonner humain, parler humain !
A part les SEO (et encore, pas en toutes circonstances), je ne connais pas d’humains qui s’expriment spontanément en chapelets de mots clés ou en grappes sémantiques…
Créer des contenus web qui raisonnent, pensent, parlent humain… ce sera prendre en compte des critères comme la pertinence, l’engagement, la motivation, l’émotion, les valeurs. Ce sera apprendre à cerner les langages propres à véhiculer ces critères comme ont été appris les raisonnements sémantiques.
Ajouter cette brique sémantique « User Centric » à l’expérience acquise par le « Search Engine Optimization » me semble porter l’avenir de la visibilité sur le web !
Vous qui me connaissez pour vous avoir exprimé mes préoccupations sur l’aventure de l’écriture web, vous aurez compris que je me réjouis d’imaginer cette nouvelle vie pour de tels contenus web ! Que de beaux et bons textes en perspective… Des textes réfléchis, pétris d’émotions humaines pour nourrir de riches stratégies de communication numérique !
Nous, les « marchands de mots porteurs de sens », les « pilotes de cohérence éditoriale », les « gentils organisateurs d’influence », les « apôtres de stratégie globale », tous prêts à jurer que le moindre détail compte pour séduire le client numérique et donner à la marque la reconnaissance qu’elle mérite attend… Nous, nous avons appris (enfin j’espère) à faire entrer le SEO dans les clous stratégiques de notre job ! Et si demain dès à présent les SEO se laissaient aller à cet autre langage stratégique ?
Si le SMX Paris 2017 poursuit l’aventure du « cycle des fondamentaux » engagée cette année, nous pourrions peut-être nous y retrouver pour partager/échanger sur ces fondamentaux-là !
Françoise Halper (stratégie digitale) à suivre sur Twitter @FrHalper et Sur LinkedIn
Je ne suis pas sûr que l'émergence de Rankbrain soit une bonne nouvelle pour les rédacteurs web. En effet quoi de plus pertinent qu'une intelligence artificielle pour répondre à une intelligence artificielle : les algorithmes permettent de créer des textes naturels à partir d'un corpus de mots ( voir lab-sense par exemple)
De plus si Rankbrain adapte les résultats de recherche en fonction de l'internaute et bien les algos de création de contenu peuvent faire de même : à savoir proposer en temps réel un contenu texte différent selon les internautes et tester par exemple quels mots ou tournures sémantiques convertissent le mieux selon les internautes
Salut Sylvain,
Le SUO pourquoi pas lol.
un nouveau débat est née.
Bon dimanche.
Deux observations.
La 1ère. Pourriez-vous nous donner une exemple très concret d'une requête dont les résultats seraient pilotés par le fameux "RankBrain" ?
La 2e. Le RankBrain ne serait-il pas en fait un problème algorithmique, une espèce de "bruit" dû à la croissance de l'index et, en corollaire, à des sortes d'effet de bord liés à la recherche de type Full Text ? Je ne vois pas comment, avec le blocage de Google Analytics du fait de la généralisation des bloqueurs et aussi avec la réécriture des liens afin d'empêcher le tracking, Google pourrait "prendre" davantage d'expérience utilisateur.
@ Denis
Je peux répondre pour la première question, Au SMX l'exemple suivant avait été donné :
"acteur français toujours bourré"
Après ça se discute surement car les mots-clés sont dans les contenus.
Pour ta 2eme question, Google Chrome n'est il pas le meilleur mouchard ? Et puis même pas besoin de ça, notre navigateur est une empreinte suffisante pour nous identifier de manière unique dans la plupart des cas.
edit : une lecture interessante dans la foulée (en anglais) http://www.blindfiveyearold.com/rankbrain-survival-guide
@Sylvain
Bien vu sur Google Chrome.
Par contre, je suis très circonspect sur la réalité du RankBrain par rapport à l'exemple cité : Aucun résultat trouvé pour "acteur français toujours bourré".
-https://www.google.fr/search?q="acteur+français+toujours+bourré"
Et sans guillemet, la requête retourne des liens comprenant les quatre mots recherchés ! Pas de rankbrain à l'horizon. Un peu comme du beurre en broche ?
-https://www.google.fr/search?q=acteur+fran%C3%A7ais+toujours+bourr%C3%A9
@ Denis
Bein avec guillemet c'est assez normal que ça ne retourne rien ( ça le fera bientôt avec ce blog 🙂 )
Et pour l'autre je suis d'accord, c'est ce que je disais.
Mais rankbrain est encore tout petit, il apprend, il arrive...
Un bon exemple reposait aussi sur la manière de comprendre de mieux en mieux une requête avec mot négatif ( lis l'article que j'ai mis en lien dans mon précédent commentaire).
Mais bon, pour le moment Google aime encore beaucoup beaucoup les mots-clés, le tout est de bien comprendre que c'est en train de changer doucement mais surement. Il leur reste un sacré boulot à faire, mais ça viendra.
@Sylvain
Eh bien, pour ma part, je n'y crois pas au RankBrain ! Et les faits semblent, pour l'instant, prouver que j'aurais plutôt raison, n'est-ce pas. Google Chrome n'est qu'à 47% de parts de marché. ;+) Et les outils pour bloquer l'expérience utilisateur existe aussi sur Google Chrome, même si la fuite des données personnelles est plus simple à orchestrer pour Google à partir de Chrome, en effet.
@ Denis
Pas sur qu'il y ait plus de 0,0001% des gens qui bloquent les possibilités d'identifier l'empreinte de leur navigateur (et justement, un bloqueur est une manière de plus d'alimenter l'empreinte). Du coup Google peut tout savoir, c'est assez simple.
Après je ne sais pas à quel point ils en sont. Pour moi c'est l'avenir à 5 à 7 ans pour une grande partie des requêtes, mais pas toutes puisque ce n'est pas nécessaire dans un très grand nombre de cas.
En gros, le jour ou tu as une onebox sur Michelle Obama avec son age pour la requête " quel est l'age de la femme de barack obama" tu sauras que Rankbrain fonctionne bien. Et je pense que ça viendra assez vite.
Tu as déjà des trucs impressionnants, teste donc par exemple cette requête "Comment est mort martin luther king" sans guillemet.
@Denis
Dès à présent RankBrain est une réalité, mais comme l'a dit Sylvain "il est encore tout petit, il apprend, il arrive" !
C'est le propre des intelligences artificielles de type Deep Learning. Concrètement, elles sont comme un enfant qui découvre le langage par exemple. On n'magine pas un bébé capable de réciter un poème de Victor Hugo ! Même pour dire "papa" ou "maman", il faudra qu'il comprenne, mémorise, répète...
Disons qu'aujourd'hui, Bébé RankBrain ne remplace pas les "vieux algorithmes" de Google. Mais comme lorsque l'enfant paraît, la famille SEO doit certainement commencer à se préparer à l'accueillir (pousser les meubles, mettre des sécurités sur les portes...) ! 😉
@Sylvain
Cet exemple avec Martin Luther King qui marche avec Mitterrand, Danton, Robespierre et Chirac (Laurence) me semble une extension du Knowledge Graph.
C'est vérifiable avec Aragon.
-> https://www.google.fr/search?q=Comment+est+mort+Louis+Aragon
@Françoise
Je ne vois pas comment l'association sémantique aurait pu être faite par un automate entre "Comment est mort" et "Cause de la mort".
@ Denis
Sachant que Rankbrain transforme du langage écrit en entités, l'objectif est justement de lui permettre de comprendre la relation entre "comment est mort" et "cause de la mort" comme étant la même recherche. Et le knowledge graph fonctionne justement avec des entités.
Ce que dit Google :
RankBrain uses artificial intelligence to embed vast amounts of written language into mathematical entities — called vectors — that the computer can understand. If RankBrain sees a word or phrase it isn’t familiar with, the machine can make a guess as to what words or phrases might have a similar meaning and filter the result accordingly, making it more effective at handling never-before-seen search queries.
Rankbrain est justement là pour mieux comprendre les recherches avant tout.
J'y crois assez pour dire qu'il faudra de plus en plus penser à l'intention de l'internaute quand il fait une recherche pour être certain d'avoir une page bien optimisée sur la réponse à cette intention. Sans doute à terme les "mots-clés" purs et durs compteront un peu moins pour certaines requêtes.
Bon, pour le moment, j'ai aussi des tas d'exemples qui montrent que ce n'est pas gagné et que GG est encore sacrément facile à entourlouper, mais moins qu'il y a 10 ans, et le petit Rankbrain aura sans doute pas mal appris dans 10 ans. A coup sur, il saura mieux accorder un participe passé qu'un humain bac+5 moyen 🙂
Bref, dans le machine learning il faut que la machine apprenne, pour le moment Rankbrain est à la maternelle mais je me demande s'il ne va pas sauter des classes ?
Rankbrain n'est utilisé que sur les requetes qui n'ont jamais été utilisées , les exemples comme " quelle est l'âge de la femme d'Obama " ou " cause de la mort de MLK " ne rentrent donc pas dans le champ de rankbrain.
Le corollaire est donc que rankbrain relie des requetes non connues à une requête connue qui elle rentre dans le cadre de l'algorithme " classique "
Rankbrain n'est pas non plus comparable à un bébé : ca fait longtemps que l'algorithme apprend, il est donc déjà mature ( l'apprentissage de rankbrain se fait entièrement hors ligne avec les ingénieurs de Google ) , vous imaginez bien que Google ne peut pas lancer un bébé sur le marche 🙂 de même qu'il ne ferait pas coder ses algos a un enfant de 6 ans 🙂
Pour Antoine
Pourrais tu détailler tes propos car il y a deux points que je ne comprends pas.
Rankbrain n'a meme pas un an. Pour du machine learning tu penses que c'est mature ?
Le principe du machine learning est justement de se passer des humains. Penses tu que Google fait le contraire et utilise ses ingénieurs pour faire apprendre rankbrain ? Ceci contredit completement ton premier propos qui dit que rankbrain est mature.
Ma perception est plutôt que rankbrain apprend au quotidien et qu'il a encore beaucoup à apprendre mais par lui même. Note que je pense tout de même que les ingénieurs viennent mettre un coup de tournevis de temps en temps.
Merci
@Denis et @Sylvain
Ce qui permet de penser que RankBrain n’est ni un mythe ni un gadget (même s’il en est encore à ses premiers pas), c’est d’une part qu’on imagine mal Google investir dans quelque chose qui ne soit pas « prometteur » (pour lui s’entend…) !
D’autre part, ce sont les avancées et réussites en matière d’IA déjà dans de nombreux domaines. J’en avais cité quelques-unes ici : http://bit.ly/1QQsoQw il y a quelques semaines.
Dans un futur plus ou moins proche, la seule chose que l’on ignore est le temps que cela va prendre, l’entrée de RankBrain va changer le Web que l’on connait actuellement ! Les SEO, la rédaction web et les stratégies de contenus numériques seront les premiers concernés. Peut-être vaut-il mieux commencer à s’adapter. Le bons sens populaire dit qu’un homme averti en vaut deux. Il faudra bien cet avantage face une intelligence artificielle élevée par GG ! 😉
@Antoine
Je partage l'avis de François. A l'échelle "intelligence artificielle type deep learning" Rankbrain est encore un bébé ! C'est juste qu'on a du mal à nous représenter ce "bébé algorithmique"... la faute à nos tendances innées à l'anthropomorphisme ! 😉
Hello,
félicitation pour cet article très intéressant et dynamique je l'ai dévoré 🙂
Pour le débat rankbrain mythe ou réalité, vous êtes bien qu'une bande de référenceurs :D.
Si finalement on rédigeais pour intéresser le lecteur, l'inciter à lire l'article jusqu'au bout (celui ci en est un exemple !), laisser un commentaire, dire à ses amis d'aller le lire, etc... Ne serait-ce pas mieux ?
Après tout c'est ce que Google à toujours voulu et il à "peut-être" trouver un moyen de le faire.
Si rankbrain existe tant mieux nous seront mieux référencer, s'il n'existe pas "tant mieux" nos lecteurs seront content 🙂
@Olivier
Merci pour votre appréciation !
Je partage à 3000% votre avis sur la façon d'écrire pour le web. Je prêche depuis longtemps pour que la première démarche d'un(e) rédacteur (trice) web soit l'intérêt qu'il va donner à son contenu web ! Avant tout autre ! Aujourd'hui, il (elle) doit aussi tenir compte de ce que des algorithmes vont comprendre (techniques SEO). Ce sera encore le cas pendant quelques temps. Mais tant mieux pour les auteurs de contenus et pour les internautes si, petit à petit, les deux cibles fusionnent !
Les référenceurs peuvent s'y préparer. Après tout, ils connaissent Google mieux que personne... Ça, et un "petit" changement de regard sur les contenus... ils sortiront gagnants de cette évolution !
Et puis se frotter à de l'intelligence artificielle, et en sortir gagnant, ça a un petit côté fun, non ? 😉
"Et puis se frotter à de l'intelligence artificielle, et en sortir gagnant, ça a un petit côté fun, non ?"
On a l'impression de se retrouver dans Terminator, avec la résistance qui combat Skynet 🙂
Ca me plait bien de jouer le rôle de Kyle Reese 🙂
Humm... Merci pour cet instant de réflexion futuriste, deux choix s'ouvrent à nous, fuir ou courir ...
Bon ce n'est pas si simple (comme le SEO après tout) mais merci pour cet article, je vais l'avoir en tête toute la journée maintenant ^^
Juste un petit complément ce matin :
Peut-être RankBrain va-t-il "grandir" + vite qu'on ne le pense...
En effet, Google annonce (http://www.lemonde.fr/pixels/article/2016/06/17/intelligence-artificielle-google-lance-un-groupe-de-recherche-europeen-sur-l-apprentissage_4952666_4408996.html) un groupe de recherche européen en intelligence artificielle dont l'objectif est clairement « Aider les ordinateurs à mieux comprendre le langage » !
Il semblerait logique de penser qu'en avançant sur la reconnaissance/traduction du langage, il saura mettre à profit les avancées de Google Brain au service de son moteur avec le petit RankBrain !
Encore merci pour vos commentaires et à Sylvain de m'avoir ouvert à nouveau les portes du blog Axenet !
Bonjour,
Je ne suis pas inquiet pour le SEO, puisqu'au final, le "SUO" à pour finalité le SEO et n'est alors qu'un élément d'une stratégie actuelle...
De plus, le moteur semble "apprendre" très bêtement depuis plusieurs années avec une pondération importante des taux de clic et de rebond sur les résultats. Il en résulte des SERP grand public (satisfaction du plus grand nombre) et non spécialisées (réponse humaine attendue) et parfois des résultats très surprenants :
Recherchez "date" pour trouver un exemple concret. Google ne donne pas la date du jour et en plus renvoi la doc PHP en bonne position.
(testé depuis plusieurs IP, navigateurs, OS et le PC d'une personne âgée très éloignée de la programmation)
RankBrain est un rêve de Google seulement et un moyen de pression sur les SEO trop "black hat" et leurs clients.
Aucune intelligence en vue à ce jour. L'exemple fourni de l'acteur bourré, présente des mots du champ lexical graissé mais n'étant des mots clés : "saoul" par exemple. Rien de nouveau à attendre de RankBrain malheureusement.
Je remarque à titre personnel que la pertinence se dégrade à mesure que la précision de mes recherches s'affine. Où est RankBrain pour me trouver la solution ?
Est-ce vraiment essentiel pour l'utilisateur d'avoir une moteur de recherche biaisé lui répondant ce qu'il veut entendre ?
En reprenant l'exemple de "que faire à Paris", pourquoi google se cantonnerait aux infos de tennis pour la mamie ou a l'ornithologie pour le fil. Le but de moteur de recherche et de proposer des contenus pertinents et surtout proposer de la découverte ! S'il restreint son champ de recherche à nos goûts et nos passions il perd, pour moi une grande part d'intérêt et contribue à cloisonner les gens.
Ça plus l'intelligence artificielle... j'ai l'impression que l'on confond trop souvent innovation et aliénation de l'homme.
La technologie doit être un outil au service de l'homme non une part de lui même. Quand j'entends les actualités sur la voiture intelligente et l’algorithme de choix du mort.... mon dieu quelle société désenchantée !
Bonjour Sylvain
Il faut tempérer tout de même, pour plusieurs raisons.
L'article est toujours intéressant lorsque de nouvelles technologies sont déployées a de telles échelles.
Toutefois, l'intelligence artificielle, aujourd'hui, n'est encore qu'au stade statistique. La sémantique, le sens, tout cela est rangé dans des tables, des champs, des objets.
Dans un large corpus de 5 mots, on peu effectivement ranger le mot en cours, suivi des deux suivants, les deux précédents éventuellement, et compter les occurrences.
Evidement, sur 10 phrases, il faut oublier l'IE ...
Sur des centaines de millions ou des milliards de documents, cela change la donne.
Il suffit de prendre le titre (pour des pages web) ou le H1 (si la balise title est identique sur plusieurs pages), et ce qui suit devrait logiquement développer le sujet. Sur un site, on établi des masques par zone ou par div, afin d'éliminer les éléments récurrents (tel que les menus, les zones de pub, etc), pour essayer de conserver et d'extraire l'essentiel. Selon les ressources machines, on peu encore affiner ...
Une première passe sur les titres donnera des indications a forte valeur sur chaque mot et son association avec d'autres, avec des valeurs majorées ou minorées selon qu'il s'agisse de nom propre ou commun, d'adjectif, de verbe etc.
Cette première base statistique conduit a créer des corpus, des ensembles regroupés de mots associés entres eux.
Ensuite, l'exploration des contenus associés vont venir renforcer les statistiques précédentes, les elargirs, en associant pour chaque mot tous ceux qui y sont associés au moins une fois.
ex :
titre : maison de quartier
contenu : parmi les habitations de cette rue, a été construite une maison de quartier pour les associations.
Titre2 : maison en bois
contenu : Habiter dans une maison en bois offre de multiples avantages ...
Titre3 : Chape de béton armé
contenu : Construire une maison nécessite, pour une habitation solide et durable, une chape en béton armé...
Le mot Habitation( en racine lexicale HABIT - ou HABITATION), associé a une majorité de textes ou figure le mot "MAISON", et même dans d'autres titre, sera par calcul considéré comme "parent" possible de "maison". On crée alors le corpus "HABITATION", puis on le teste pour verifier sur toutes les données associées.
Le mot Beton se retrouvera dans le corpus "MAISON", mais pas seulement. L'approche n'est pas unique, mais répartie selon les contextes des mots proches, ou figurant sur le même document.
On rangera ainsi par STATISTIQUE des corpus, des sous corpus, etc.
Il est donc logique par la suite que lorsque vous taperez "habitation avec chape en béton armée" , l'index vous trouvera des maisons, des bâtiments, si ils appartiennent a un corpus parent de maison, ou celui de bricolage, ou de construction, ou un mixage des 3.
Sans trop s'étaler, il s'agit d'intelligence de statistique et d'indexation que d'intelligence artificielle , pour le moment. Le principe d'intelligence artificielle est plutôt basé pour le moment sur la statistique, et l'association de gestion des erreurs par comparaison et élimination. Comme notre cerveau essaye de le faire pour projeter une idée, d'imaginer cette idée et puis finalement contempler son résultat, nous avons plus ou moins du gérer des erreurs d'omission ou d'appreciation, puis les résoudres une a une.
Le coté émotionnel de l'informatique n'existe pas, pour le moment, et il a du mal a anticiper les risques ; et si... et si il pleut ... et si ils construisent une autoroute .. et si ma fille tombe malade ... alors que notre "connaissance" sait interpréter toute cette riche experience, dans un tout petit volume de cerveau ...
Mais le SEO, tel qu'on le pratiquais jusqu'à aujourd'hui, aura légèrement moins d'influence. Légèrement, car les moteurs ne peuvent se passer des centaines de critères essentiel (au moins une vingtaine) pour le bon classement d'une page.
PS: on bosse sur notre moteur sur ce sujet depuis quelques mois, et mis en pratiques fin d'année 2016. C'est à la fois complexe et passionnant .
@ Marc
On est d'accord sur tout !
Tu obtiens en prime le prix du meilleur commentaire de l'année car j'aime ta pédagogie et les exemples concrets que tu présentes.
@Sylvain, merci, mais pas de clap clap, on apprend, on essaye de faire a notre sauce, on regarde ces évolutions d'IE et d'apprentissage intelligent ... on est tout le temps dépassé aussi ... et on se brûle sans cesse les neurones face a des compétences réunis telles qu'on les trouve chez les géant comme Google et d'autres ...
Mais en pur SEO, avant que les 3 premières places ne correspondent plus aux mots clés d'un titre ou d'une url, il risque de s'écouler de nombreuses années... mais pas non plus une éternité ...
PS : un petit PS et lien sympa pour ceux qui s'intéressent à la sémantique, le moteur WolframAlpha (en anglais) ;
ex : How many years of differences Carla Bruni and Nicolas Sarkozy?
réponse : http://www.wolframalpha.com/input/?i=How+many+years+of+differences+Carla+Bruni+and+Nicolas+Sarkozy%3F
=> classification des termes interrogatifs , et du type des éléments classés (comme dans les objets => ATTRIBUT : VALEUR (nombre, date, texte ...) )
Les sources de wkipédia (libre en téléchargement) sont structurés de la sorte : "
{{infobox
|attribut ................ = valeur
|nom ..................... = Richard
|prénom................ = Sylvain
|date naissance ... = ya pas longtemps ^^
|age ....................... = encore jeune ^^
}}
RankBrain pourrait aussi (surtout) apprendre a déceler le "bourrage" et ce qui n'est pas "normal".
@ Marc
Logique, mais impressionnant quand même !
Et merci pour mon âge 🙂 D'ailleurs c'est dans la tête, non ?
On s’envoie des fleurs par ici 😉
La difficulté est surtout "comment découper la question", une fois les termes associés isolés la réponse n'est pas si complexe :
How many => réponse de type numérique
years => travaille sur des dates en années
of difference => soustraction
Carla BRUNI => Personne
Nicolas SARKOZY => Personne
comparaison d'années d'individus => comparaisons de dates de naissances
résultat arrondi à l'année = 13
Le plus dur étant de déterminer les masques de mots à séparer et ceux à grouper (du moins pour ce cas) d'autant plus que le terme "BRUNI" peut faire référence à un qualificatif... Il y a alors un choix à faire par rapport aux corpus identifiés et aux termes voisins. Ce rapprochement est évoqué par Marc dans son explication très complète et qui est toute la complexité du développement d'un moteur de recherche !
Pour François :
Le machine learning se décompose en 2 phases :
1) Une phase de test ou l'algorithme est "entrainé" : on lui donne des données test et on lui fait apprendre à partir de ces données. Le travail de l'ingénieur est alors de regarder si la prédiction atteint un score suffisant. Si oui on passe à l'étape suivante. Si non on retravaille les données ou l'algo
2)Une phase de validation ou on lui soumet des nouvelles données, alors inconnues par l'algorithme et on regarde alors si la prédiction atteint un score suffisant, si NON : on repart à l'étape 1 , éventuellement en cherchant à être moins précis sur l'étape de test car il y a un risque que l'algorithme intégre trop de "bruits" ce qui réduira son score de prédiction sur la deuxiéme phase.
Pour faire simple un bruit c'est une donnée qui intégre trop de composantes irrationnelle, qu'on ne pourra pas modéliser (par exemple si on prédit le prix d'achat d'une maison, il pourra y avoir des variations fortes si tu connais la personne qui vend la maison ou au contraire si tu as un coup de coeur pour la maison et que tu es prêt à mettre beaucoup d'argent, ce sont des facteurs que l'on ne pourra pas intégrer au contraire de la superficie, du nombre de chambres, de l'ancienneté, du quartier etc)
Ces 2 phases sont supervisées par les ingénieurs et peuvent prendre du temps. UNe fois qu'on juge l'algo assez "mature" c'est à dire qu'il atteint un score de prédiction suffisant, on le lance en production.
Une fois en production, on verfie le score de prédiction et on cherche à l'améliorer en intégrant les nouvelles données
Autre point : Google a toujours utilisé la machine learning ! 🙂 UN algo qui inclue "officiellement " 200 facteurs et en réalité beaucoup plus ne peut par être fait "à la main" donc Google a toujours utilisé des technique de machine learning pour implémenter son algo (qui est un agrégat de plusieurs algo mais au final ce qui sort c'est un unique algorithme avec plusieurs composantes).
Ce qui change ce sont les techniques de deep learning qui permettent faire des réseaux de neurome à plusieurs couches et dont sont issues les technique de "vectorisation" du language : par exemple le vecteur reliant Espagne à Madrid est le même qui relie France à Paris ou Etats-UNis à Washington . C'est ce qui est nouveau dans l'approche de Google qui a du faire une grosse communication là dessus car ils sont en train de se faire dépasser par Facebook (Facebook analyse algorithmiquement chacune des images qui sont chargées sur le réseau , et fait deux analyses : la première permet de la catégoriser (foorball, tennis etc..) puis une autre qui permet d'identifier les personnes sur la photo ( la feature n'est pas sortie en Europe) avec des scores de prédiction très élevés.)
Pour Françoise , quand tu dis "Signes particuliers de RankBrain : il n’a ni plumes ni poils… c’est une intelligence artificielle ! Mais pas une intelligence artificielle qui se contente de « compter » comme AlphaGo. Non, une IA « auto-apprenante »… Et Google est loin d’être à la traine en matière de « machine learning » !"
Alpha go aussi est une IA auto-apprenante et utilise le deep-learning ! Concrétement ce qu'il s'est passé avec Alpha Go, c'est qu'il a joué ou enregistré des millions de parties de manière à ce que pour chaque coup joué, il puisse calculer un score de probabilité de victoire. Ainsi plus le nombre de parties jouées augmente , plus le score de probabilités s'affine , il peut alors jouer le coup qui a le plus de probabilité de victoire.
Quand à te remarque sur le deep learning, à l'heure actuelle le deep learning en est plutôt au stade de jeune adulte , les recherches sur le sujet ont débuté il y a plusieurs dizaines d'années. Le deep-learning date des années 1980 ! (et le machine learning des années 50), ce qu'il manquait à l'époque , c'était la puissance de stockage et de calcul des ordinateurs
Crôis tu que google aurait lancé la "Google Car" si le deep learning en était au stade de bébé 🙂 => tu vois que l améthode est donc largement mature
J'ai été trop vite sur les différentes phases de création d'un algo de machine learning ci-dessus :
Lors de la phase de création de l'algo on le soumet à des données réparties en 2 groupes:
1) UN premier groupe qui contient les données d'entrainement pour que l'algorithme "apprenne" et augmente son score de prédiction ( en général 80% des données)
2) Un deuxiéme groupe de données dites "test" sur lesquelles l'algo va valider son score de prédiction. Si le score n'est pas suffisant , on le modifie et il repart en "entrainement"
Si l'algorithme obtient un score jugé suffisant sur les données test on lui propose un nouveau jeu de données dites de "validation".
Pourquoi un troisième jeu ? car il y a le risque que l'algo s'adapte aussi au jeu de données test : en gros il va s'entrainer sur les données training mais peut aussi s'adapter pour mieux répondre aux données test.En lui proposant un troisème jeu , ce jeu n'aura ainsi pas d'incidence sur l'entrainement de l'algo
Donc il y a en fait 3 types de données, mais ça c'est pour la théorie car dans la pratique les librairies de machine learning telles que celles développées sur python ou R gérent automatiquement la phase d'entrainement et de test : vous rentrez votre jeu de données, vous fixez une proportion training/test ( en générale 80/20) et les méthodes vont automatiquement gérées les 2 premières phases et les "aller-retour " entre le jeu de données training et test (qui peuvent être nombreuses et prendre plusieurs jours si vous avez énormément de données :))
Donc en théorie , il faut passer par 3 jeu de données, mais dans la pratique les librairies Python ou autres permettent de rentrer un seul jeu de données pour la phase training et test, il vous faudra alors un troisième jeu de données pour valider l'algo(en fait un deuxiéme jeu:) puisque les 2 premiers sont regroupés dans le même)
Pour ceux que ça intéresse, je suis en train de préparer un article sur le machine learning pour un blogeur, en partant de l'hypervulgarisation en proposant un algo de machine learning hyper simple que tout le monde peut comprendre puis en développant au fur et à mesure vers des méthodes plus complexes telles que le deep learning , en passant par les random forest, K-mean, KNN, SVM , les notions de biais vs variance, overfitting, algo supervisé , algo non-supervisé, et plein d'autres gros mots mais très passionnant.
je pourrais laisser le lien ici si Sylvain me le permet 🙂 ,
François et Françoise :
Pour comprendre la phase d'apprentissage, il faut bien voir que cette phase se fait "hors ligne" sous la validation des ingénieurs, une fois l'algo en ligne il n'apprend plus rien.
Ce qui n'empêche pas de faire des itérations hors ligne avec des nouvelles données pour l'optimiser.
C'est comme pour un logiciel : il y la v1.0 , 1.1 , 1.2 , 2.0 .. : Google a lancé RankBrain 1.0 et ça restera la v1.0 pendant 6 mois ou 1 an, en attendant ils vont travailler en interne pour améliorer l'algo puis sortir la v1.1, mais entre-temps l'algo n'aura pas bougé
De plus Google ne peut pas se permettre de lancer un MVP , il faut que le produit soit suffisamment mur et abouti , d'où ma remarque précédente, surtout s'ils le mettent en critère numéro 3 de référencement. A la limite ils auraient pu le tester en critère minoritaire (ce qu'ils ont sans doute fait à mon avis), mais si c'est le critère numéro 3 il faut que l'algo soit hyper solide.
Un algo ne peut pas apprendre sans la supervision humaine : il y a des risques de surapprentissage qui faussent totalement les résultats et réduisent sa précision
Il faut vraiment faire le rapprochement avec la Google Car : l'algo doit être au point au moment du lancement : la google-Car ne peut pas se permettre d'avoir des accidents tous les 50m au début, ni même 1 seul accident 🙂
@Antoine Beyer :
Dans le cas de la voiture autonome, celle-ci doit apprendre 2 éléments : La configuration de la route (texture, carrefours, panneaux...) et le comportement de ses usagers.
Si la route évolue, cela se fera (à priori) dans le sens de la simplification pour faciliter la conduite automatique et fluidifier le trafic (en France le nombre de carrefours ambigües est plus important qu'aux Etats Unis).
Pour la partie comportement et anticipation des usagers, plus le nombre de véhicules autonomes va augmenter, plus le risque d'accident avec un conducteur humain va augmenter. Puisque le comportement humain ne sera plus représentatif du "comportement moyen" dans la masse de comportements autonomes pour arbitrer la prise de décision. D'autant que les comportements humains peuvent être très différents dans une même situation ce qui réduit la prise en compte de toutes ces individualités dans un contexte global (le biais de la statistique et du Deep-Learning).
Aussi peut-on parler d'IA quand ce ne sont que des interprétations statistiques de situations similaires pour arbitrer un probable meilleur choix.
L'algo ne devient qu'un calcul de probabilité complexe issu de données collectées par le passé. Il va ainsi sortir un résultat expliquant :
- Freinage = 60% de chance d'éviter l'accident
- Accélération = 30% de chance d'éviter l'accident
- Ne rien faire = 10% de chance d'éviter l'accident
ON FREINE !!! Et ce, même ci dans le cas présent il ne fallait rien faire...
Sur la route la complexité des situations nécessite un sacré volume de données pour espérer pouvoir se sortir d'une situation "rare". Il y a plus de 40 000 000 de permis en France et "seulement" 3 500 décès par an sur les routes. Soit chaque année 0.009% de risque de décès pour chaque conducteur. Peut-on collecter des données statistiques fiables sur ces situations rares dont chacune présente des données de situation très différentes ?
On dérive un peu de la recherche et du SEO mais cela me semble un point important de ce que l'on appel IA. Et dans le domaine de la recherche le biais est identique. Lorsque je cherche "date" sur Google, j'ai :
- Qu'est ce qu'une date (définition temporelle)
- La fonction date() PHP (technique)
- Le fruit, une date (alimentaire)
- le calendrier des JO 2016 (évènement/actualité)
L'avantage étant que Google peut nous proposer 10 possibilités triées par probabilité. Si la voiture autonome à 10 choix possibles, il va falloir en prendre 1.
Suis-je dans le vrai, où est-ce trop simplifié et trop loin de la complexité du système ? Merci en tout cas pour ces détails techniques passionnants 🙂
Bonjour
Vraiment, le SEO n'est pas une chose facile. Ce n'est pas un jeu d'enfant puisqu'il demande beaucoup de techniques
@ Kombiz
Le SEO demande aussi un peu de finesse, surtout quand on vient spammer un blog SEO... ( Tu ne m'en voudras pas, j'ai modifié ton lien...). Moi je demanderais aux bourrins de Madagascar qui font ton netlinking de faire un peu plus attention à ce qu'ils font.