Comment extraire des données Facebook

Une Page d'entreprise Facebook publique est une source de signaux utile : une marque y publie des posts, les clients y réagissent, et les métadonnées au niveau de la page (nom, texte de présentation, posts publics récents, et les compteurs publics de réactions et de commentaires) sont le type de données qui alimentent la recherche concurrentielle, le benchmarking de contenu et la surveillance de marque. Le problème est que Facebook rend presque tout côté client avec JavaScript et AJAX, et il challenge le trafic automatisé de manière agressive, donc une simple requête HTTP renvoie une coquille de chargeur quasi vide au lieu du contenu visible dans un navigateur.

Ce guide vous montre comment extraire des données d'une Page Facebook publique en utilisant JavaScript et Node.js via la Crawling API. Vous allez construire un petit script exécutable qui récupère une Page d'entreprise publique rendue et en extrait les champs au niveau de la page : le nom de la page, le texte des posts publics, et les compteurs d'engagement publics. L'ensemble du tutoriel reste limité aux pages d'entreprise et de marque publiques uniquement. Il ne touche pas aux profils personnels, aux groupes privés, aux commentaires liés à des personnes identifiables, ni à quoi que ce soit derrière une connexion. La section légalité et confidentialité est near le haut de l'article pour une raison, donc lisez-la avant de pointer ceci sur quoi que ce soit.

Lisez ceci en premier

Les Conditions d'utilisation de Facebook restreignent fortement la collecte automatisée, et la majeure partie de la plateforme constitue des données personnelles. Traitez ceci comme un tutoriel éducatif portant uniquement sur les données publiques. Pour tout projet réel, la voie sanctionnée est l'API Graph Facebook officielle, pas le scraping. La section « Est-il légal de scraper Facebook ? » ci-dessous n'est pas du remplissage.

Ce que vous allez construire

Un script Node.js qui prend l'URL d'une Page d'entreprise Facebook publique, récupère le HTML rendu via la Crawling API, et retourne un enregistrement structuré de données publiques au niveau de la page. Nous utiliserons une Page de marque connue comme exemple courant et extrairons ces champs :

Nom de la page : le nom d'affichage public de la page d'entreprise ou de marque, par exemple « Alibaba.com ».
Texte du post : le corps de texte public des posts récents publiés par la Page elle-même.
Nombre de réactions : le total public des réactions affichées sur chaque post.
Nombre de commentaires : le nombre public de commentaires affichés sur chaque post, uniquement en tant que compteur agrégé.
Nombre de partages : le nombre public de partages affichés sur chaque post.

Notez ce qui est délibérément absent : pas de noms de commentateurs, pas de texte de commentaire individuel, pas de détails de profil, pas de listes d'abonnés. Ce sont des données personnelles et hors périmètre. Nous agrégeons au niveau de la page et du post et nous arrêtons là.

Pourquoi une requête simple échoue sur Facebook

Si vous demandez l'URL d'une Page Facebook avec un client HTTP nu, vous obtenez une réponse techniquement réussie mais pratiquement vide. Deux forces jouent contre vous.

Premièrement, Facebook construit la page dans le navigateur. Le nom de la page, la section à propos, et chaque post sont chargés dynamiquement via JavaScript et des appels AJAX après l'arrivée du document initial, et d'autres posts n'apparaissent qu'en faisant défiler. Récupérez l'URL brute et vous obtenez surtout le balisage pour les spinners de chargement, pas le contenu rendu autour d'eux. Capturer les vraies données signifie attendre que ces appels AJAX se résolvent et simuler le défilement qui déclenche du contenu supplémentaire.

Deuxièmement, Facebook se défend activement contre le trafic automatisé. Il surveille les adresses IP, signale les modèles de requêtes qui ne ressemblent pas à un vrai navigateur, et applique des limites de débit strictes pouvant mener à des blocages temporaires ou permanents. Une IP de datacenter envoyant des requêtes en boucle serrée est exactement le schéma qu'il est conçu pour arrêter.

Une approche fonctionnelle a donc besoin de deux choses en une seule requête : un vrai navigateur qui rend la page et attend son contenu asynchrone, et une IP que la plateforme lit comme un visiteur ordinaire. Vous pouvez assembler ça vous-même avec un navigateur headless plus un pool de proxies résidentiels rotatifs, mais maintenir cette stack en bonne santé représente l'essentiel du travail. La Crawling API combine les deux en un seul appel : vous envoyez l'URL avec un token JavaScript et les bonnes options d'attente, elle rend la page derrière une IP de confiance, et elle retourne du HTML terminé ou du JSON parsé. Pour comprendre les cibles à rendu intensif, consultez comment crawler des sites web JavaScript.

Prérequis

Vous avez besoin de quelques éléments en place avant d'écrire du code. Aucun ne prend longtemps.

JavaScript de base et Node.js. Vous devriez être à l'aise avec l'écriture et l'exécution d'un script Node et l'installation de packages avec npm. Si vous êtes plus novice, notre guide sur comment construire un scraper web avec Node.js couvre les bases que ce tutoriel suppose.

Node.js 16 ou ultérieur. Confirmez votre version avec node --version. Si vous ne l'avez pas, installez-le depuis le site Node.js ou via un gestionnaire de versions comme nvm.

Un compte Crawlbase et un token JS. Inscrivez-vous pour un compte gratuit, ouvrez votre dashboard, et copiez votre token JavaScript (JS). Crawlbase vous donne 1 000 requêtes gratuites pour commencer, et vous ne payez que pour les requêtes réussies. Facebook est rendu côté client, donc vous avez besoin du token JavaScript ici, pas du token normal. Traitez le token comme un mot de passe et gardez-le hors du contrôle de version.

Configurer le projet

Créez un dossier de projet, initialisez-le, et installez le client Node Crawlbase.

bash

node --version

mkdir facebook-page-scraper && cd facebook-page-scraper
npm init -y

npm install crawlbase

Le package crawlbase est le client Node officiel pour la Crawling API. Pour la démo au niveau de la page, nous nous appuyons sur le scraper Facebook Page intégré de Crawlbase, qui retourne du JSON structuré, donc nous n'avons pas besoin d'un parser HTML séparé pour l'exemple principal.

Étape 1 : Récupérer la Page publique rendue

Commencez par obtenir la page terminée. Importez la classe CrawlingAPI, initialisez-la avec votre token JS, et demandez l'URL d'une Page d'entreprise publique. Les options d'attente sont ce qui rend une récupération Facebook fonctionnelle, donc elles comptent plus ici que sur un site statique.

javascript

const { CrawlingAPI } = require('crawlbase');

const api = new CrawlingAPI({ token: 'YOUR_CRAWLBASE_TOKEN' });

// A PUBLIC business/brand Page only, never a personal profile or private group
const pageUrl = 'https://www.facebook.com/Alibaba.comGlobal/';

async function fetchPage(url) {
  const options = {
    format: 'json',
    ajax_wait: 'true',
    scroll: 'true',
    scroll_interval: 30,
  };
  const response = await api.get(url, options);
  if (response.statusCode === 200) {
    return JSON.parse(response.body);
  }
  console.error(`Request failed: ${response.statusCode}`);
  return null;
}

fetchPage(pageUrl).then((data) => {
  if (data) console.log(data.body.slice(0, 500));
});

Chaque option justifie sa place. format: 'json' demande une réponse structurée pour que le HTML rendu arrive dans le champ body plutôt que comme document brut. ajax_wait: 'true' dit à l'API d'attendre que les appels AJAX de la page se résolvent, ce qui est essentiel parce que Facebook charge son vrai contenu de cette façon ; ignorez-le et vous capturez le balisage du loader. scroll: 'true' simule un utilisateur qui fait défiler pour que des posts supplémentaires se chargent, et scroll_interval définit combien de secondes faire défiler (le maximum est 60). Exécutez le script avec node script.js et vous devriez voir le vrai balisage de la page dans l'extrait, pas une coquille dépouillée. Cela confirme que le rendu fonctionne avant de parser quoi que ce soit.

Crawlbase Facebook Scraper

Cet unique appel api.get a fait ce qu'un navigateur headless plus un pool de proxies auraient sinon fait pour vous. La Crawling API rend la Page dans un vrai navigateur, attend les appels AJAX avec ajax_wait, simule le défilement qui charge d'autres posts, et fait tourner des IPs résidentielles côté serveur, pour que vous évitez de monter et surveiller toute cette stack. Commencez sur le niveau gratuit et pointez-la sur une Page d'entreprise publique.

Start free

Étape 2 : Obtenir des données de page structurées avec le scraper intégré

Le HTML brut est exploitable, mais vous devriez écrire et maintenir des sélecteurs contre le balisage changeant fréquemment de Facebook. La Crawling API embarque un scraper facebook-page intégré qui retourne les données publiques de la page déjà parsées en JSON, ce qui est le bon outil pour l'extraction au niveau de la page. Vous l'activez avec le paramètre scraper.

javascript

const { CrawlingAPI } = require('crawlbase');

const api = new CrawlingAPI({ token: 'YOUR_CRAWLBASE_TOKEN' });
const pageUrl = 'https://www.facebook.com/Alibaba.comGlobal/';

async function scrapePage(url) {
  const options = {
    ajax_wait: 'true',
    scraper: 'facebook-page',
  };
  const response = await api.get(url, options);
  if (response.statusCode === 200) {
    return JSON.parse(response.body);
  }
  console.error(`Request failed: ${response.statusCode}`);
  return null;
}

scrapePage(pageUrl).then((data) => {
  if (data) console.log(JSON.stringify(data.body, null, 2));
});

La réponse du scraper contient des champs au niveau de la page tels que le nom de la page et le texte à propos, ainsi qu'un tableau des posts publics publiés par la Page, où chaque post inclut son texte et ses compteurs publics de réactions, commentaires et partages. Comme le scraper gère le parsing, vous ne chassez pas les sélecteurs CSS contre un balisage qui change chaque semaine. Plusieurs scrapers sont livrés avec la Crawling API ; le scraper facebook-page est conçu spécifiquement pour les mises en page des Pages publiques.

Étape 3 : Extraire uniquement les champs publics au niveau de la page

Réduisez maintenant la sortie du scraper exactement aux champs publics que nous voulons et abandonnez tout le reste. C'est là que nous appliquons le périmètre : nom de la page, texte du post, et les trois compteurs agrégés par post. Nous ne lisons ni ne stockons les identités des commentateurs ni les corps de commentaires individuels.

javascript

const { CrawlingAPI } = require('crawlbase');

const api = new CrawlingAPI({ token: 'YOUR_CRAWLBASE_TOKEN' });
const pageUrl = 'https://www.facebook.com/Alibaba.comGlobal/';

async function scrapePage(url) {
  const options = { ajax_wait: 'true', scraper: 'facebook-page' };
  const response = await api.get(url, options);
  if (response.statusCode !== 200) {
    console.error(`Request failed: ${response.statusCode}`);
    return null;
  }
  return JSON.parse(response.body).body;
}

function extractPublicData(page) {
  const posts = (page.posts || []).map((post) => ({
    text: post.text || null,
    reactionCount: post.reactionCounts || 0,
    commentCount: post.commentsCount || 0,
    shareCount: post.sharesCount || 0,
  }));

  return {
    pageName: page.pageName || page.title || null,
    postCount: posts.length,
    posts,
  };
}

async function main() {
  const page = await scrapePage(pageUrl);
  if (!page) return;
  const publicData = extractPublicData(page);
  console.log(JSON.stringify(publicData, null, 2));
}

main();

La fonction extractPublicData fait le travail de délimitation du périmètre. Elle garde le nom de la page, le texte du post, et les trois compteurs publics par post, et ne lit rien lié à une personne identifiable. Chaque champ revient à une valeur par défaut sûre quand le scraper l'omet, car tous les posts n'affichent pas les partages ou les commentaires. Les noms de champs correspondent aux clés de réponse du scraper (pageName, reactionCounts, commentsCount, sharesCount) ; si une clé revient vide, vérifiez la sortie live du scraper et ajustez, car les mises en page de Pages évoluent.

À quoi ressemble la sortie

Exécutez le script complet avec node script.js et vous obtenez un objet JSON compact : le nom de la page et une liste de posts publics avec leur texte et leurs compteurs agrégés, prêt à écrire dans un fichier ou une base de données.

json

{
  "pageName": "Alibaba.com",
  "postCount": 2,
  "posts": [
    {
      "text": "Source smarter this season with verified suppliers.",
      "reactionCount": 1280,
      "commentCount": 94,
      "shareCount": 37
    },
    {
      "text": "New buyer guide: how to vet a manufacturer in 5 steps.",
      "reactionCount": 863,
      "commentCount": 51,
      "shareCount": 22
    }
  ]
}

Chaque valeur ici est publique et au niveau de la page. Il n'y a pas de noms d'utilisateurs, pas de texte de commentaire individuel, et pas de données de profil, ce qui est exactement la ligne que ce tutoriel respecte.

Gérer le défilement et le contenu AJAX

Deux paramètres de l'Étape 1 sont ce qui rend Facebook tractable, et ils valent la peine d'être compris avant d'exécuter ça en volume.

ajax_wait. Facebook hydrate son contenu via AJAX après le chargement du document. Sans ajax_wait: 'true' vous capturez la page avant que ce contenu arrive et obtenez le balisage du loader. Avec lui, l'API retourne le HTML seulement une fois les appels asynchrones résolus.
scroll et scroll_interval. Les posts se chargent progressivement quand un utilisateur défile. scroll: 'true' simule ça, et scroll_interval contrôle combien de secondes défiler, jusqu'à un maximum de 60. Un intervalle plus long fait apparaître plus de posts au prix d'une requête plus lente, donc ajustez-le selon le nombre de posts récents dont vous avez réellement besoin.

Au-delà des données, la Crawling API peut aussi retourner une capture d'écran de la Page rendue avec le paramètre screenshot, en renvoyant une screenshot_url dans la réponse qui expire après environ une heure. C'est utile pour confirmer visuellement ce qui a été capturé, mais les champs structurés ci-dessus sont ce sur quoi vous construisez.

Rester dans les limites de débit

Même avec le rendu géré, Facebook applique des limites de débit strictes, et les dépasser risque des blocages temporaires ou permanents. Quelques habitudes gardent une exécution saine et respectueuse.

Réglez le rythme de vos requêtes. Ne martelez pas les Pages en boucle serrée. Espacez les requêtes et maintenez le volume total faible ; c'est à la fois une courtoisie et le moyen le plus rapide d'éviter d'être signalé.
Appuyez-vous sur la rotation. Les requêtes réparties sur un pool d'IPs résidentielles sont bien moins susceptibles de déclencher une limite qu'une seule adresse de datacenter. La Crawling API gère la rotation pour vous ; si vous construisez votre propre stack, c'est la partie sur laquelle investir. Consultez comment scraper des sites web sans se faire bloquer pour le guide complet.
Surveillez les codes de statut. Quand les réponses commencent à revenir sous forme de challenges ou d'erreurs, c'est un signal de reculer, pas du bruit à traverser.

Pour les jobs plus importants et planifiés sur de nombreuses Pages publiques, une file asynchrone convient mieux qu'une boucle synchrone. Notre guide sur comment extraire des données avec le Crawler Crawlbase couvre ce schéma, où les requêtes sont mises en file et livrées vers un webhook au lieu de bloquer votre script.

Est-il légal de scraper Facebook ?

Lisez cette section avant d'exécuter quoi que ce soit. Les Conditions d'utilisation de Facebook restreignent fortement la collecte automatisée. Ses conditions et ses politiques d'accès automatisé interdisent le scraping en termes larges, et cette restriction tient quelle que soit la qualité de vos outils. Rien dans le code de ce guide ne remplace les conditions de Facebook ; il ne fait que faire fonctionner la partie technique. Avant de collecter quoi que ce soit, lisez les Conditions d'utilisation de Facebook, son robots.txt, et ses politiques de développeur et de plateforme, et traitez les trois comme la frontière de ce que vous pouvez toucher.

Si vous procédez à des fins de recherche ou éducatives, restez strictement dans un couloir public étroit. Collectez uniquement des données publiques provenant de Pages d'entreprise ou de marque publiques : le nom de la page, le texte des posts publiés par la Page elle-même, et les compteurs d'engagement public agrégés. Ne collectez pas de données personnelles. Cela signifie pas de profils personnels, pas de groupes privés, pas de listes d'abonnés ou de membres, pas de messages privés, et pas de commentaires individuels liés à des personnes identifiables. Les noms d'utilisateurs, les pseudonymes, les détails de profil et les commentaires écrits par les utilisateurs sont des données personnelles, et construire un profil d'une personne identifiable à partir d'eux est exactement ce qu'il faut éviter. Agrégez au niveau de la page et du post, comme le fait le code ci-dessus, et arrêtez-vous là.

Là où des données personnelles sont impliquées, la loi sur la vie privée s'applique. Sous le RGPD et le CCPA, vous avez besoin d'une base légale pour traiter des données personnelles et vous devez honorer les demandes de suppression et d'opt-out, ce qui est une obligation lourde que les compteurs agrégés de pages publiques sont spécifiquement conçus pour contourner. Pour toute utilisation en production, la voie sanctionnée et bien plus sûre est l'API Graph Facebook officielle, qui fournit un accès autorisé et limité en débit aux données qu'un propriétaire de Page ou une app est autorisé à voir, avec des conditions claires. Préférez fortement l'API Graph. Utilisez l'approche données publiques de ce guide uniquement pour du travail éducatif, à petite échelle, sur des pages publiques, et jamais comme moyen de contourner une connexion, un paramètre de confidentialité, ou les conditions de la plateforme.

Récapitulatif

Points clés

Facebook rend côté client. Une requête simple retourne du balisage de loader, donc vous devez rendre la page, attendre AJAX, et simuler le défilement avant que tout contenu apparaisse.
Rendu et IP de confiance, en un seul appel. La Crawling API avec un token JS fait les deux ; ajax_wait, scroll et scroll_interval contrôlent comment la page est capturée.
Utilisez le scraper facebook-page intégré. Il retourne les données publiques de la page en JSON, vous évitez ainsi de maintenir des sélecteurs contre un balisage qui change constamment.
Limitez-vous aux données publiques au niveau de la page. Nom de la page, texte du post, et compteurs agrégés de réactions, commentaires et partages uniquement ; jamais les identités des commentateurs, les profils, les groupes privés, ni les commentaires individuels.
Préférez l'API officielle. Les CGU de Facebook restreignent fortement le scraping et le RGPD/CCPA s'appliquent aux données personnelles, donc l'API Graph Facebook est la voie sanctionnée pour tout ce qui dépasse un usage éducatif limité.

Foire aux questions

Pourquoi une requête simple ne retourne-t-elle pas de vrai contenu depuis une Page Facebook ?

Parce que Facebook charge son contenu côté client. Le nom de la page, la section à propos et les posts arrivent via JavaScript et AJAX après le document initial, et d'autres posts n'apparaissent qu'au défilement. Une requête HTTP nue capture la page avant que ça se produise, donc vous obtenez du balisage de loader au lieu de données. Rendre la page et attendre AJAX avec le token JS de la Crawling API est ce qui retourne le vrai contenu.

Ai-je besoin du token normal ou du token JS pour Facebook ?

Utilisez le token JavaScript (JS). Facebook construit ses pages avec un rendu côté client, donc le token normal, qui récupère du HTML statique, revient avec du balisage de loader et aucun contenu significatif. Le token JS rend la page dans un vrai navigateur en premier, ce qui est ce qui fait apparaître les données.

Quelles données publiques puis-je extraire en toute sécurité d'une Page d'entreprise Facebook ?

Restez sur les champs publics au niveau de la page : le nom de la page, le texte des posts publiés par la Page elle-même, et les compteurs d'engagement agrégés (réactions, commentaires, partages) en tant que nombres. Évitez tout ce qui est personnel, y compris les noms de commentateurs, le texte de commentaire individuel, les détails de profil, les listes d'abonnés, les groupes privés, et tout ce qui est derrière une connexion. Les compteurs agrégés au niveau de la page et du post sont le périmètre défendable.

Puis-je scraper des profils personnels ou des groupes privés ?

Non, et ce guide ne le couvre pas. Les profils personnels, les groupes privés, les listes de membres et les messages privés sont des données personnelles et non publiques, et les collecter va à l'encontre des conditions de Facebook et du droit à la vie privée. Ce tutoriel est délibérément limité aux Pages d'entreprise et de marque publiques. Pour un accès sanctionné à plus, utilisez l'API Graph Facebook avec une autorisation appropriée.

Dois-je utiliser l'API Graph Facebook à la place ?

Pour toute utilisation en production ou commerciale, oui. L'API Graph Facebook est la voie officielle et autorisée, avec des limites de débit et des conditions claires, et c'est le bon outil quand un propriétaire de Page ou une app a besoin d'un accès fiable. L'approche de scraping de données publiques ici convient uniquement au travail éducatif, à petite échelle, sur des pages publiques où aucun accès API n'est en place, et elle doit toujours respecter les conditions de Facebook.

Comment éviter d'être bloqué ou soumis à des limites de débit ?

Maintenez le volume de requêtes faible, réglez le rythme des requêtes plutôt que de boucler serré, et routez via des IPs résidentielles rotatives pour qu'aucune adresse ne déclenche les limites de Facebook. La Crawling API gère la rotation et un pool d'IPs de confiance pour vous. Surveillez les codes de statut et reculez dès que vous commencez à voir des challenges ou des erreurs plutôt que de les pousser.

Hassan Rehan

Ingénieur logiciel · Crawlbase

Ingénieur logiciel chez Crawlbase, il rédige des guides pratiques sur les proxys rotatifs, le scraping et les détails concrets de l'intégration de proxys dans du vrai code.

Commencer à construire

Crawlez n'importe quel site à grande échelle, sans combattre l'infrastructure.

Crawlbase gère les proxies, les empreintes et les CAPTCHA afin que votre équipe livre des pipelines de données au lieu de maintenir la plomberie de crawl. 1 000 requêtes gratuites, sans carte requise.

Obtenir une clé API gratuite →Lire la documentation

En libre-service · Sans appel commercial requis · Volumes de crawl entreprise disponibles

Ce que vous allez construire

Pourquoi une requête simple échoue sur Facebook

Prérequis

Configurer le projet

Étape 1 : Récupérer la Page publique rendue

Étape 2 : Obtenir des données de page structurées avec le scraper intégré

Étape 3 : Extraire uniquement les champs publics au niveau de la page

À quoi ressemble la sortie

Gérer le défilement et le contenu AJAX

Rester dans les limites de débit

Est-il légal de scraper Facebook ?

Points clés

Foire aux questions

Pourquoi une requête simple ne retourne-t-elle pas de vrai contenu depuis une Page Facebook ?

Ai-je besoin du token normal ou du token JS pour Facebook ?

Quelles données publiques puis-je extraire en toute sécurité d'une Page d'entreprise Facebook ?

Puis-je scraper des profils personnels ou des groupes privés ?

Dois-je utiliser l'API Graph Facebook à la place ?

Comment éviter d'être bloqué ou soumis à des limites de débit ?

Crawlez n'importe quel site à grande échelle, sans combattre l'infrastructure.

Poursuivre la lecture

Comment scraper "Les gens demandent aussi" sur Google: guide complet d''extraction PAA

Présentation du nouveau Dashboard Crawlbase: un centre de contrôle plus épuré

13 conseils pour maîtriser le crawling de données: des crawls qui ne se cassent pas

Le brief infrastructure, directement dans votre boîte de réception.