Le Webscraping avec un tableur

Vous êtes en train de lire mes quelques phrases maladroites, mais en back end, ce que vous lisez, ce sont juste des données.

Des données qui peuvent être « scrapées », modifiées, simplifiées, avec quelques lignes de code.

Le webscraping est un ensemble de techniques qui consistent à recueillir des élèments venant de sites Web et d’applications afin de les analyser.

Pour un pro, quasiment tous les sites peuvent être scrapés.

Cependant, le webscraping nécessite généralement une compréhension complexe à la fois de la programmation et de l’architecture d’un site Web.

Bien sûr, il existe des langages de programmation qui facilitent un peu les choses, comme Python grâce aux packages Scrapy et BeautifulSoup.

Mais si on est là, c’est pour parler spreadsheet.

Excel et Google Sheets à la rescousse

Les deux tableurs utilisent une approche radicalement différente.

Le Webscraping avec Google Sheets

Pour son tableur, Google a décidé de baser ses outils de webscraping sur des formules :

La fonction IMPORTHTML()

Scraper Wikipédia

La fonction IMPORTFEED() qui permet d’importer un flux rss

Scraper le Monde, planète BD et WordPress

Le Webscraping avec Excel

De son côté, Microsoft a décidé de développer sa stratégie sur son outil de manipulation de données : Power Query.

Commencer le Web scraping avec Power Query (démontration avec Excel et Power BI)

Pour les plus avancés, il est possible d’aller un peu plus loin en manipulant le langage de programmation inclu dans Power Query, le langage M :

Importer les données d’un portefeuille d’actions via Yahoo Finance :

Importer les données de son portefeuille d’actions avec Power Query (démonstration avec Excel)

Importer les données de plusieurs pages d’un site de comics :

Webscrapper BD fugue (démonstration avec Power BI)

Débuter avec Power Query

Power Query est un outil de Microsoft pour manipuler des données.

Et il est incroyablement simple et efficace.

Pour vous donner une idée, j’ai monté une petite formation sur YouTube :

Formation Power Query

Mais pour les plus avancés, Power Query comporte un langage de programmation spécialement conçu pour la manipulation et la modélisation de données : le langage M.

Formation au langage M

Power Query, l’oublié

Je ne me souviens plus vraiment de la première fois que j’ai entendu parler de Power Query.

C’était probablement en 2013 ou 2014.

A vrai dire, à cette époque, je n’avais pas réellement compris le but de Power Query.

Pour la manipulation de données j’avais déjà VBA…

On était tous sur les trucs plus flashy, DAX, les nouveaux graphiques, les tableaux de bord, les cartes 3D…

Et on avait tous absolument tort.

Continuer à lire … « Débuter avec Power Query »

Business Intelligence avec Excel – Des données brutes à l’analyse stratégique

C’est avec une certaine fierté que je vous présente mon dernier ouvrage aux Editions Eni :

Business Intelligence avec Excel – Des données brutes à l’analyse stratégique

Ce livre aborde dans un premier temps la préparation des données avec Power Query.

Puis, l’ouvrage apporte des éléments théoriques et pratiques afin de réaliser un modèle de données avec Power Pivot.

Continuer à lire … « Business Intelligence avec Excel – Des données brutes à l’analyse stratégique »

Power Query : Colonne conditionnelle & Dépivoter les colonnes

Cet épisode est un cas que j’ai vraiment rencontré.

Je devais faire un rapport mensuel et à partir de données non structuré. Après l’avoir fait à la main deux ou trois fois, j’avais fini par écrire un programme VBA pour tenter d’automatiser cette tâche.

Power Query a rendu le tout tellement plus facile…

J’ai tenté d’en faire une vidéo :

A partir de données demi-structurées, le but est de créer une table de données qui va permettre de mettre en place un tableau croisé dynamique.

Pour y arriver, il va falloir pas mal manipuler Power Query, notamment les outils « colonnes conditionnelles » et « Dépivoter les colonnes ».

lien vers les données : données Power Query

Power Query : ajouter des requêtes

Power Query est un outil d’automatisation et de manipulation de données qui m’a vraiment fait gagné du temps et évité pas mal de prises de tête.

Lorsque Microsoft a commncé à incorporer des outils de business intelligence à Excel, j’étais excité par le langage DAX, mais je n’avais pas prêté attention à Power Query.

Aujourd’hui, pour moi, Power Query est une amélioration majeure d’Excel, comme l’a été à l’époque l’incorporation des tableaux croisés dynamiques.

Dans cet épisode, on va voir comment « ajouter des requêtes », c’est-à-dire combiner plusieurs tableaux en une table unique dans le but de pouvoir créer un tableau croisé dynamique.