Les 20+ pipelines Discover : l'architecture cachée du feed
Quand on parle de « l'algorithme » Discover, on imagine une boîte noire monolithique. La réalité est plus crue : Discover empile plus de 20 pipelines distincts qui s'enchaînent, chacun pouvant éliminer ou rétrograder votre article. Voici la carte complète.
Quand un éditeur perd 60 % de son trafic Discover du jour au lendemain, on lui répond invariablement la même chose : « l'algorithme a changé ». Cette formulation arrange tout le monde — sauf vous, qui ne savez pas où regarder. La réalité est plus dure et plus actionnable : Discover n'est pas un algorithme. C'est une chaîne de plus de 20 pipelines distincts qui s'exécutent en cascade, et votre article peut être éliminé à n'importe lequel des 20 maillons. Comprendre cette architecture, c'est arrêter de tirer dans le brouillard.
Discover empile 20+ pipelines regroupés en 5 phases : ingestion, classification, qualité, personnalisation, re-ranking. Votre article peut chuter à 20 endroits différents, et chaque pipeline a sa propre signature de défaillance. Savoir lequel vous étrangle, c'est savoir où optimiser — au lieu de "réécrire le titre" en espérant que ça passe.
Pourquoi parler de pipelines plutôt que d'« algorithme »
Le mot « algorithme » suggère une fonction unique : on entre des signaux d'un côté, on récupère un score de l'autre. Cette image est fausse depuis au moins dix ans. Les papiers de recherche IR de Google publiés entre 2018 et 2024 décrivent toujours la même architecture : une suite de classifieurs spécialisés qui se passent le contenu de l'un à l'autre, chacun annotant, filtrant ou rétrogradant.
La fuite Content Warehouse de mai 2024 a confirmé cette structure de manière chirurgicale. Les 2 596 modules documentés exposent des noms internes comme topic_embedding, helpful_content_score, nsr_data (Normalized Site Rank), chard_score (Content Effort) ou imageQualityClickSignals. Aucun de ces composants n'est « l'algorithme Discover ». Ce sont les pièces séparées que la chaîne Discover assemble à l'exécution.
Officiellement, Google parle depuis 2023 de « many small models » — des dizaines de petits classifieurs entraînés indépendamment, agrégés à l'inférence. C'est exactement la même architecture que Search depuis BERT/MUM, et Discover l'a héritée. Conséquence pratique : un article performant doit survivre à 20+ filtres successifs, pas séduire un seul juge.
La carte complète : 5 phases, 20+ pipelines
On peut grouper l'ensemble des pipelines Discover en 5 phases ordonnées dans le temps. Un article publié à 9 h 00 traverse la chaîne dans cet ordre, et chaque phase est bloquante : si vous échouez en phase 2, vous n'arrivez jamais en phase 4. Voici la carte.
- Phase 1 — Ingestion & indexation : Google découvre l'URL, la crawle, la rend, en extrait les signaux structurels.
- Phase 2 — Classification & entity binding : l'article est associé à des sujets, votre site à des entités, votre autorité sur ce sujet est scorée.
- Phase 3 — Scoring qualité : qualité éditoriale, image hero, prédicteur de dwell-time, classifieur helpful-content.
- Phase 4 — Personnalisation & ranking : matching avec les centres d'intérêt utilisateur, boost de fraîcheur, dédup thématique, pertinence géographique.
- Phase 5 — Re-ranking & rétrogradation : démotion clickbait, démotion pogo-stick, plafond de saturation, co-présence avec AI Overviews.
20+ pipelines, 5 phases, et seulement ~5 % des articles publiés qui survivent à toute la chaîne pour atterrir dans un feed utilisateur. Voyons chaque phase en détail.
Phase 1 — Ingestion & indexation
C'est la phase la plus mécanique, la plus testable, et celle où une majorité de petits éditeurs perdent la partie sans même le savoir. Si Google ne récupère pas correctement votre article ici, rien de ce qui suit n'a lieu.
1. Crawler reach (couverture du robot)
Le pipeline discovery_url reçoit votre URL via le sitemap, les liens internes, les hreflang ou un ping IndexNow. Il décide à quelle vitesse Googlebot va passer. Sur un site média avec un crawl budget faible (DA < 40, peu de liens internes vers les nouvelles), le délai entre publication et premier crawl peut atteindre 6 à 24 heures. Or la fenêtre Discover dure 48-72h. Faites le calcul : vous perdez la moitié de votre fenêtre avant même d'avoir été vu.
Signature de chute : zéro impression dans Search Console > Couverture > Découvert — actuellement non indexé.
2. Render budget (rendu JavaScript)
Une fois crawlé, l'article passe par web_rendering_service (WRS), qui exécute le JavaScript dans un Chromium headless. Si votre contenu principal n'apparaît qu'après hydratation client (SPA, lazy-load agressif), Google peut ne pas voir votre titre, votre image hero ou votre article:published_time. Le rendu est échelonné — premier passage HTML brut, second passage rendu — et Discover lit principalement le second.
Signature de chute : article indexé, mais avec un titre tronqué ou un thumbnail générique dans Discover.
3. Canonical resolution
Le pipeline canonical_url dédoublonne. Si votre article existe en plusieurs URLs (paramètres UTM, AMP, version mobile distincte), Google choisit une seule URL canonique — pas forcément la vôtre. Le signal rel=canonical est une suggestion, pas un ordre. Une mauvaise canonicalisation peut envoyer tous les signaux d'engagement vers une URL fantôme.
Signature de chute : impressions Discover sur une URL que vous n'avez jamais voulu pousser (souvent une AMP ou une version sans le bon JSON-LD).
4. Structured data extraction
Le pipeline structured_data_parser extrait votre JSON-LD NewsArticle ou Article : auteur, date de publication, image, organisation publisher. Une erreur de schéma — date manquante, image < 1200px de large, auteur absent — et l'article est déclassé en candidat de seconde zone. Discover privilégie massivement les articles avec un schéma propre. Pour vérifier le vôtre, l'outil Schema Auditor liste les 12 propriétés critiques que Google attend (et signale les pièges classiques comme datePublished au format MM/JJ/AAAA au lieu d'ISO 8601).
Signature de chute : article indexé en Search mais jamais en Discover, image hero remplacée par votre logo dans les SERP.
Phase 2 — Classification & entity binding
L'ingestion réussie, l'article entre dans une phase de compréhension sémantique. Google n'envoie pas votre article au monde entier : il décide d'abord qui pourrait être intéressé, et ce calcul commence par classifier le contenu lui-même.
5. Topic classifier
Le module topic_classifier (basé sur des embeddings BERT/MUM-style) projette votre article dans l'espace des ~5 000 sujets de la taxonomie Google. Le résultat est un vecteur de probabilités : 0,82 « football », 0,11 « transferts », 0,05 « ligue 1 », etc. Si votre article est trop vague (« actu sport »), aucun sujet ne dépasse 0,5 et l'article est classé « low-confidence topic » — ce qui le rend inéligible à la plupart des feeds personnalisés.
Signature de chute : impressions négligeables malgré un trafic Search correct.
6. Entity resolver (Knowledge Graph)
Le pipeline entity_resolution rattache les noms cités dans votre article à des entités du Knowledge Graph : « Mbappé » → MID /m/0gn30, « Real Madrid » → MID /m/0g5lhl7. Si Google n'arrive pas à désambiguïser (homonymes, manque de contexte, entités locales sans fiche KG), l'article reste « non-entité » et perd son ticket d'entrée vers les utilisateurs qui suivent ces entités. Votre site lui-même doit être une entité reconnue — c'est exactement ce que vérifie l'outil Profiler en récupérant votre Google Web Profile.
Signature de chute : 0 impression sur des sujets pourtant brûlants où vos confrères trustent le feed.
7. Site authority on topic (NSR)
Le score nsr_data (Normalized Site Rank) n'est pas un score de site global — c'est un score de site × sujet. Vous pouvez avoir un NSR de 0,85 sur « tech » et 0,12 sur « cuisine ». Discover ne pousse votre article que si le NSR de votre site sur ce sujet précis dépasse un seuil. Les sites généralistes qui « font tout » s'écrasent ici.
Signature de chute : vos articles « pilier » (sujet où vous avez de l'autorité) cartonnent, mais vos articles « tests » sur des nouveaux thèmes ne décollent jamais.
8. Language & locale detection
Le pipeline locale_classifier détecte la langue principale, le pays cible (via ccTLD, balises hreflang, géo des backlinks). Un article français mal hreflangué peut se retrouver poussé à des utilisateurs anglophones — où il n'engage pas — et la chaîne de feedback comportemental le pénalise immédiatement.
Signature de chute : CTR moyen Discover anormalement bas (< 1,5 %), avec des pays de provenance inattendus dans Search Console.
Phase 3 — Scoring qualité
Une fois classifié, l'article entre dans la phase la plus discriminante. Selon nos audits internes, environ 40 % des articles techniquement éligibles sont éliminés à ce stade. C'est ici que la « qualité » devient un score numérique, pas un slogan.
9. Editorial quality model
Le module chard_score (Content Effort, exposé dans la fuite 2024) quantifie l'effort éditorial perçu : longueur utile, ratio texte/HTML, profondeur des paragraphes, présence de citations, originalité par rapport aux 50 articles concurrents sur le même sujet. Un article dupliqué/spinné/AI-généré sans valeur ajoutée tombe sous le seuil et reçoit une marque permanente sur l'URL.
Signature de chute : impressions correctes pendant 2-4h puis effondrement brutal — Google a recalculé le score après le premier batch d'engagement.
10. Hero image scoring
Le pipeline imageQualityClickSignals évalue votre image hero : netteté, ratio (16:9 préféré), présence de visages humains (boost ≈ 12 %), surcharge textuelle (pénalité forte), résolution effective > 1200px. Une image floue ou stockée à 800px tue le CTR avant même que le pipeline 17 ne puisse en mesurer l'engagement. L'Image Validator de DiscoReady reproduit les 8 checks principaux.
Signature de chute : votre article apparaît avec une vignette floue ou recadrée n'importe comment dans Discover.
11. Dwell-time predictor
Avant même d'envoyer l'article aux utilisateurs, Google prédit le temps moyen passé. Le module dwell_predictor utilise des features comme la longueur, la lisibilité Flesch, la présence d'images intégrées, la structure H2/H3, l'absence de paywall agressif. Un article avec une prédiction < 25 secondes ne sortira tout simplement pas du sandbox initial.
Signature de chute : article publié, indexé, mais 0 impression Discover dans les premières heures.
12. Helpful-content classifier
Le helpful_content_score est le plus médiatisé des classifieurs Google. Il pénalise globalement les sites qui empilent du contenu thin, AI-spammy ou sans expertise démontrée — et ce score s'applique au site entier, pas à l'article individuel. Un seul article publié sur un site marqué « unhelpful » porte la marque.
Signature de chute : effondrement coordonné de Discover ET Search le même jour, sur tous vos articles, après un Helpful Content Update.
Phase 4 — Personnalisation & ranking
Bienvenue dans la phase où l'article quitte le pur scoring intrinsèque pour rentrer dans la mise en concurrence. Ici, votre article n'est plus jugé seul : il est comparé en temps réel aux ~10 000 candidats que Google a sélectionnés pour ce slot d'utilisateur.
13. User-interest scoring
Pour chaque utilisateur, Google maintient un vecteur d'intérêts (issu de l'historique web, de l'activité Search, des followings YouTube, des swipes Discover passés). Le pipeline interest_match calcule un produit scalaire entre votre vecteur d'article (sortie du pipeline 5) et ce vecteur utilisateur. Sous un seuil, vous n'apparaissez pas dans son feed — même si vous avez tout bien fait par ailleurs.
Signature de chute : impressions globales correctes mais reach très étroit (peu d'utilisateurs uniques).
14. Freshness boost (la courbe de décroissance 2-96h)
Le pipeline freshness_boost applique un multiplicateur qui démarre à 100 % à H+2 et décroît jusqu'à 0 % à H+96. La courbe n'est pas linéaire : elle est spécifique à la catégorie.
- Live sport : pic à H+2, mort effective à H+6 à H+12. Une finale de Ligue des champions ne génère plus rien le lendemain matin.
- Politique & news chaude : pic à H+4, demi-vie à H+12, mort à H+24 à H+36.
- Tech & business : courbe plus douce, demi-vie à H+24, mort à H+48-72.
- Lifestyle, cuisine, voyage : pic plus tardif (H+8), demi-vie à H+36, mort à H+72 à H+96.
- Evergreen indexé : pas de freshness boost, mais éligible au pipeline « evergreen recommendation » (rare, ~3 % du feed).
Concrètement : si votre CMS publie à 23 h 47 alors que vos lecteurs cibles consomment Discover à 7 h 30, vous brûlez 8 heures de votre courbe sans lecteurs. C'est l'erreur d'organisation éditoriale la plus coûteuse — et la plus invisible — sur Discover.
15. Topic deduplication per session
Discover ne montre pas 5 articles sur la même finale dans un seul feed. Le pipeline session_dedup regroupe les candidats par cluster de sujet et n'en garde que 1 ou 2 par session. Dans un cluster où Le Monde, Le Figaro et BFM publient simultanément, deux d'entre eux disparaissent — et la sélection se fait sur le NSR (pipeline 7) et le freshness (pipeline 14).
Signature de chute : votre article était bon, mais un confrère plus autoritaire l'a écrasé en cluster.
16. Location-relevance
Le pipeline geo_match pondère par la distance entre la géographie cible de l'article et celle de l'utilisateur. Un article sur un fait divers à Toulouse aura un boost massif pour les utilisateurs en Occitanie, et un score quasi-nul à Lille. Pour les sites non-géolocalisés, ce pipeline est neutre — mais pour les médias régionaux, c'est le levier le plus sous-exploité.
Phase 5 — Re-ranking & rétrogradation
Dernier filtre avant la livraison. Cette phase est réactive : elle se réajuste en continu pendant les 48 premières heures de vie de l'article, à partir des signaux comportementaux remontés par les utilisateurs. C'est ici que beaucoup d'articles « partis fort » s'écrasent.
17. Clickbait demotion
Le pipeline clickbait_score compare votre titre au contenu de l'article (sémantique embeddings) et au CTR observé. Un titre qui sur-promet déclenche une rétrogradation immédiate dès que le CTR dépasse l'attendu de plus de 30 %. Google a publiquement annoncé en mars 2024 que ce démoteur a été renforcé d'un facteur ~3 sur Discover.
Signature de chute : pic d'impressions à H+2, effondrement à H+4 alors que les concurrents continuent de monter.
18. Pogo-stick demotion
Le module navigationalcounts mesure les retours rapides au feed (< 10 secondes après le clic). Au-dessus d'un certain seuil, l'article est démoté. Le seuil est dynamique selon la catégorie — plus tolérant en news (où l'utilisateur scanne), plus strict en lifestyle (où l'engagement est attendu).
Signature de chute : impressions et CTR corrects, mais l'article s'éteint en 6 heures alors que la news est encore chaude.
19. Topic saturation cap
Aucun feed utilisateur n'a plus de ~30 % de cartes sur un même sujet. Le pipeline topic_saturation impose ce plafond. Conséquence : pendant un événement majeur (élection, finale, lancement Apple), même un excellent article peut être recalé parce que le quota « politique » ou « tech » est plein pour la session de cet utilisateur.
20. AI Overviews co-presence (la couche 2025-2026)
Depuis 2025, Discover doit cohabiter avec AI Overviews et l'AI Mode. Le pipeline aim_coexist calcule si votre article est cité dans une AIO sur un sujet adjacent. Effet à double tranchant : être cité boost votre crédibilité globale (signal d'autorité), mais peut cannibaliser le clic Discover si l'AIO répond directement à la question. C'est la nouveauté qui chamboule le plus les éditeurs en 2026.
Il n'y a pas un algorithme Discover à charmer. Il y a 20+ filtres successifs à survivre — et chaque filtre vous tue d'une façon différente. La compétence éditoriale, en 2026, c'est savoir lequel vous a tué.
Comment diagnostiquer où votre article a chuté
Maintenant que la chaîne est claire, le diagnostic devient méthodique. À chaque symptôme observable dans Search Console correspond un pipeline (ou un petit groupe) très probable.
- 0 impression, jamais → Phase 1. Probable : crawler reach (pipeline 1) ou structured data (pipeline 4). Lancez un audit avec Eligibility Check.
- Impressions sur Search, 0 sur Discover → Phase 2 (pipelines 5-7). Topic trop vague ou autorité site/sujet insuffisante.
- Pic d'impressions à H+2 puis effondrement à H+4-6 → Phase 5 (pipelines 17-18). Clickbait ou pogo-stick.
- Impressions correctes mais CTR < 1,5 % → Phase 3 (pipeline 10) ou Phase 4 (pipeline 16). Image hero ou désalignement géo/langue.
- Article qui mourrait à H+24 quel que soit le sujet → Phase 4 (pipeline 14). Mauvais timing de publication par rapport à la courbe de fraîcheur catégorielle.
- Effondrement coordonné de Search ET Discover sur tout le site → Phase 3 (pipeline 12). Helpful Content Update vous a marqué.
- Article bon, écrasé par un concurrent → Phase 4 (pipeline 15). Topic dedup, vous avez perdu le cluster.
Cette grille est exactement celle qu'on appliquerait après un effondrement de trafic. Pour un panorama plus large des erreurs de stratégie, les 5 mythes à enterrer et les raisons pour lesquelles 95 % des éditeurs échouent couvrent les biais qui empêchent souvent même de poser le bon diagnostic. Et pour la version anglaise de cette analyse, voir Google Discover's 20+ pipelines: the real feed architecture.
Conclusion : optimiser pour la chaîne, pas pour « Discover »
L'erreur fondatrice de la majorité des éditeurs, c'est de traiter Discover comme une boîte noire à charmer avec « un bon titre et une belle image ». Cette stratégie échoue en moyenne 4 fois sur 5 parce qu'elle ne s'attaque qu'à 2 ou 3 pipelines sur 20. Vos 17 autres maillons restent défaillants — et un seul d'entre eux suffit à éteindre l'article.
L'approche qui marche est mécanique : auditer les 5 phases dans l'ordre, identifier les 2-3 pipelines où votre site est faible, et corriger ceux-là en priorité. La grande majorité du gain de trafic vient de 3 ou 4 pipelines critiques, pas d'une optimisation cosmétique partout. C'est aussi la grande différence entre les guides généralistes sur Discover et un audit pipeline-par-pipeline : le premier vous donne la théorie, le second vous donne le maillon précis qui vous coûte 60 % de votre trafic.
Commencez par la phase 1, parce qu'elle est binaire (crawl ou pas crawl, schéma valide ou pas) et que rien ne sert d'optimiser la phase 5 si la phase 1 est cassée. Ensuite, montez phase par phase. Chaque pipeline corrigé débloque les suivants. C'est moins glamour qu'une stratégie « Discover », mais c'est la seule qui produit des résultats reproductibles.
Passez à l'action en 1 minute
Trois outils gratuits que la rédaction utilise au quotidien — testés sur des médias français et internationaux.
📘 Pour aller plus loin : récupérez l'ebook gratuit Discover Essentials (33 pages, 25 min de lecture).
Questions fréquentes
Pourquoi parler de 20+ pipelines plutôt que d'un seul algorithme ?
Parce que c'est ainsi que Google le décrit dans ses papers et dans la fuite Content Warehouse 2024. Un "algorithme" est en fait une chaîne d'au moins 20 sous-systèmes indépendants, chacun avec sa propre métrique d'entrée et sa propre logique de sortie. Cette granularité change tout : optimiser "pour Discover" sans savoir quel pipeline freine, c'est tirer dans le brouillard.
Quel pipeline rétrograde le plus d'articles ?
Le quality-demotion model arrive en tête : sur les articles qui passent l'ingestion, environ 40 % sont sortis du feed avant même d'être présentés, principalement à cause de signaux d'engagement antérieurs faibles sur le domaine. Le second pipeline le plus filtrant est la déduplication thématique, qui évite de pousser deux articles très proches au même utilisateur dans la même session.
Le pipeline freshness expire-t-il vraiment au bout de 48 h ?
Pas exactement — le boost de fraîcheur décroît graduellement de 100 % à 0 % entre la 2e et la 96e heure selon la catégorie thématique (news politiques : 24-36 h, lifestyle : 72-96 h, sport en direct : 6-12 h). Passé ce délai, l'article reste éligible mais n'a plus le coup de pouce — seuls les évergreens à très forte autorité tirent encore leur épingle du jeu.
Peut-on diagnostiquer dans quel pipeline son article a chuté ?
Indirectement, oui. Search Console n'expose pas les pipelines, mais les patterns sont reconnaissables : un article qui n'a aucune impression est sorti à l'ingestion ou la qualité ; un article qui a des impressions mais 0 clic a été éliminé au pipeline image/vignette ; un article avec impressions + clics + mauvais dwell time est puni au pipeline engagement et perd ses futures expositions.
Cette architecture peut-elle changer demain ?
Les pipelines individuels évoluent en continu, mais l'architecture globale (ingestion → classification → personnalisation → ranking → re-ranking) est stable depuis 2022 selon les papers Google. Les ajouts récents en 2025-2026 sont des modèles AI Overviews qui s'insèrent après le ranking, pas avant — donc ils ne remplacent pas la chaîne mais la complètent.
Votre site a-t-il un Google Web Profile actif ?
Aucune technique Discover ne fonctionne si Google ne vous reconnaît pas comme entité. 1 seconde pour vérifier, gratuitement.
Lancer le Profiler →


