Conseil de Growth - Des méthodes concrètes et actionnables 🥔

#45 - Comment faire du scraping at scale ? 🕸


Listen Later

Bienvenue pour ce nouvel épisode !


Aujourd’hui, j’ai le plaisir d’accueillir Josselin Liebe, fondateur de l’entreprise Piloterr.


Josselin a créé Piloterr en 2020. C’est un SaaS par lequel les entreprises viennent s’interconnecter avec lui en API. Il fournira par la suite une grosse quantité de donnée "at scale" (milliers de requêtes par mois) que ces entreprises pourront exploiter. Les cas d'usages sont alors variés et multiples (bureautique, immobilier, automobile, …). Les clients ont souvent des petits soucis, que Josselin et son équipe vont décortiquer, pour proposer des solutions par la suite.


Dans cet épisode tu découvriras les conseils suivants :


Afin de scraper des données :

  • Demande-toi ou aux clients ce qu’ils veulent comme donnĂ©es et sur quel site. Ensuite navigue sur le site en question et regarde toutes les requĂŞtes (JavaScript, API, .).
  • Continue en utilisant des outils comme Charles et fais une analyse plus poussĂ©e sur ce qui se passe sur le site. Charles permettra de faire une passerelle, crĂ©er un proxi entre le navigateur et le site internet ; et pouvoir faire des pauses au niveau des requĂŞtes et faire des recherches en profondeur.
  • Regarde par la suite qui protège le site via l’extension Wappalyzer, et commence Ă  regarder comment fonctionne la pagination, les filtres, … et joue sur le site pendant une heure ou deux en notant les points importants.
  • Une fois que c’est bon, fais du scraping avec un outil tel qu’Octoparse, qui permettra d’émuler un navigateur chrome. Tu pourras alors faire des clics, des scrolls, rechercher les donnĂ©es et mettre le tout dans un CSV pour la partie accessible.
  • Une fois le site web analysĂ©, avant de le scraper, utilise Octoparse ou dĂ©veloppe ton script sur Python, et passe ensuite par des passerelles qui vont permettre de passer sur d’autres sites de manière plus anonymes, et commence Ă  scraper et Ă  mettre le tout dans une base de donnĂ©es.
  • Fais du Google dorking, cela permet de gagner du temps.
  • Il est important de faire attention sur les sites, et d’utiliser un VPN si besoin est.
  • Data broker ET open data :

    • Data broker : ce sont des entreprises qui vont vendre des donnĂ©es dĂ©jĂ  scraper. Par exemple : tu peux aller sur des marketplaces, chercher tout le catalogue d'IKEA, trouver ensuite les vendeurs des meubles chez IKEA... Tu peux après payer une certaine somme pour avoir le CSV. (pas très RGPD)
    • Open data : c’est une base de donnĂ©es ouverte. Il existe plein de petites pistes qui permettent de trouver des CSV sans payer.
    • Gap entre scraping et scraping at scale :

      On parle de scale lorsqu’il est question de millions de requêtes par mois sur certains sites.

      • Scraping at scale : on sait vers quoi on va et le problème est bien dĂ©terminĂ©.
      • Scraping tout court : prend du temps et coĂ»te de l’argent (bande passante, stockage, …).
      • Pour voir si on travaille dans la lĂ©galitĂ© ou non, il est important de faire des formations Ă  cet effet, ou de s’informer autant que possible.


        Afin de faire du bon scraping at scale, il faut être malicieux (dans le sens malin) et chercher sur Google la réponse à nos questions. Toujours s’autoformer et apprendre en passant du temps sur les réseaux ou les forums de Growth hacking.


        J’espère que cet épisode t’apportera de la valeur 💪


        Bonne écoute !


        Les liens utiles

        Les ressources/outils mentionnés :

        • Piloterr 
        • Charles
        • Wappalyzer
        • Notion
        • OctoparseOctoparse 
        • Python
        • Instant data scraper
        • Web scraper
        • Elasticsearch
        • Retrouve Josselin

          • Josselin Liebe
          • Abonne-toi :

            • Spotify
            • Apple podcast
            • Newsletter
            • LinkedIn 
            • ...more
              View all episodesView all episodes
              Download on the App Store

              Conseil de Growth - Des méthodes concrètes et actionnables 🥔By Conseil de Growth