Le Webscraping avec un tableur

Vous êtes en train de lire mes quelques phrases maladroites, mais en back end, ce que vous lisez, ce sont juste des données.

Des données qui peuvent être « scrapées », modifiées, simplifiées, avec quelques lignes de code.

Le webscraping est un ensemble de techniques qui consistent à recueillir des élèments venant de sites Web et d’applications afin de les analyser.

Pour un pro, quasiment tous les sites peuvent être scrapés.

Cependant, le webscraping nécessite généralement une compréhension complexe à la fois de la programmation et de l’architecture d’un site Web.

Bien sûr, il existe des langages de programmation qui facilitent un peu les choses, comme Python grâce aux packages Scrapy et BeautifulSoup.

Mais si on est là, c’est pour parler spreadsheet.

Excel et Google Sheets à la rescousse

Les deux tableurs utilisent une approche radicalement différente.

Le Webscraping avec Google Sheets

Pour son tableur, Google a décidé de baser ses outils de webscraping sur des formules :

La fonction IMPORTHTML()

Scraper Wikipédia

La fonction IMPORTFEED() qui permet d’importer un flux rss

Scraper le Monde, planète BD et WordPress

Le Webscraping avec Excel

De son côté, Microsoft a décidé de développer sa stratégie sur son outil de manipulation de données : Power Query.

Commencer le Web scraping avec Power Query (démontration avec Excel et Power BI)

Pour les plus avancés, il est possible d’aller un peu plus loin en manipulant le langage de programmation inclu dans Power Query, le langage M :

Importer les données d’un portefeuille d’actions via Yahoo Finance :

Importer les données de son portefeuille d’actions avec Power Query (démonstration avec Excel)

Importer les données de plusieurs pages d’un site de comics :

Webscrapper BD fugue (démonstration avec Power BI)

Google Sheets

(ou comment je suis devenu une girouette)

Il y a un peu plus d’un an, je suivais vaguement un cours en ligne sur Sheets avec un sourire en coin. 

un peu comme ça

Ok Google, les gars, vous êtes gentils, mais vous êtes loin d’Excel. 

Et bien depuis, je fais moins le malin

D’une part, google a ajouter de nombreuses fonctions qui rivalisent avec Excel, mais surtout, au-delà de l’aspect spreadsheet vs spreadsheet, c’est notre façon de travailler qui a changé

Pour beaucoup d’entre nous, en ce moment même, si nous ne sommes plus dans la même pièce, nous sommes sur le même écran. 

Google Sheets et la Google Suite a entièrement été créé dans cette optique :

Collaborer sur un même écran, en temps réel

Si vous connaissez déjà Excel, vous connaissez déjà pas mal de choses dans Sheets : formules, tableaux croisés, graphiques, restent à deux ou trois détails relativement similaire entre les deux applications. 

Pour avoir une idée, j’ai tenté de faire un comparatif entre Excel et Sheets :

Excel vs Sheets

Pareil, mais pas vraiment

Du fait de la priorité accordée à l’aspect collaboratif, Sheets possède des spécificités.

J’ai tenté de les retracer dans cette playlist :

Et vous ?

Vous êtes team Excel ou team Sheets ?

To the moon and back : les interêts composés

Pliez une feuille de papier 42 fois.  

Quelle est la hauteur obtenue ? 

384 403 km 

non ?

Si !

384 403 km, soit un peu plus que la distance terre – lune
Continuer à lire … « To the moon and back : les interêts composés »

Le théorème de Bayes, au calme

“Le théorème de Bayes nous donne un moyen de mettre à jour nos croyances en fonction de nouveaux éléments de preuve pertinents.”

Whaaa, ça a l’air perché ce truc ?

Ouai j’avoue, en fait le théorème de Bayes est tellement cool qu’il a sa propre chanson :

Bayes est partout

Vous venez de rechercher quelque chose sur Google ?

Le théorème de Bayes vient juste d’être utilisé pour afficher les résultats de votre recherche.

Il en va de même pour les recommandations que vous propose Netflix ou Youtube.

Anti-spams ? Voitures autonomes ?

Médecine ? Espionnage ?

Idem

Continuer à lire … « Le théorème de Bayes, au calme »

Power BI in Action

J’aime explorer les données, c’est mon truc, peu importe le thème.

Un café, mon chat sur le coin de la table et c’est parti.

Révéler les tendances, les différences, les évolutions, peindre un paysage dynamique.

Emettre une hypothèse, faire des erreurs, en discuter au calme, trouver des insights.

Ce n’est pas forcément l’outil qui compte, mais le processus d’analyse qui m’intéresse.

En se débrouillant un peu on arrive à faire plus ou moins la même chose avec Excel, Tableau, R ou Power BI.

Continuer à lire … « Power BI in Action »

Excel is outdated !

Ok, everyone knows Excel, you use Excel, I use Excel, Dad/Mom use Excel and maybe even Grandpa. 

We all do reports, graphs, project planning… 

In fact we use Excel for almost everything. 

When Redmond’s company released Microsoft Excel in 1985, it was already a success and today Excel is extremely popular. 

But you know what? 

We never learned to use it. 

Continuer à lire … « Excel is outdated ! »

Excel, c’est dépassé !

Ok, tout le monde connait Excel, vous utilisez Excel, j’utilise Excel, Papa / Maman utilisent Excel et peut-être même Papy.

On fait tous des rapports, des graphiques, de la planification de projets…

En fait on utilise Excel pour presque tout.

Lorsque la société de Redmond a sorti Microsoft Excel en 1985, c’était déjà un succès et aujourd’hui, Excel est extrêmement populaire.

Mais vous savez quoi ?

On n’a jamais appris à l’utiliser.

Continuer à lire … « Excel, c’est dépassé ! »

Il faut écrire

Sortir un livre, ce n’est pas facile. 

Crois-moi, je le sais. 

Je l’ai appris. 

Man in the Mirror

Même un livre sur Excel, c’est une véritable aventure.  

Une expérience qui te transforme.  

Qui te marque. 

en route !

Et pourtant je crois que tout le monde devrait écrire. 

Ecrire est un combat , ou plutôt une lutte dont le but est de démêler tant bien que mal ses pensées, afin de partager quelque chose de soi.  

Continuer à lire … « Il faut écrire »

Débuter avec Power BI

Vous ne le savez peut-être pas, mais je suis un ancien combattant.

Je me souviens d’épreuves d’informatique scolaires sur papier.

Du temps où une formule Excel donnait un super pouvoir (et pour trouver le moindre livre, c’était une galère).

Pas d’internet.

Pour une simple requête SQL, il fallait remplir un formulaire papier, le mettre dans une pochette carton, l’envoyer au service informatique

…. Puis prier pour une réponse, ou alors envoyer du chocolat à la bonne personne.

Continuer à lire … « Débuter avec Power BI »

Débuter avec Power Query

Power Query est un outil de Microsoft pour manipuler des données.

Et il est incroyablement simple et efficace.

Pour vous donner une idée, j’ai monté une petite formation sur YouTube :

Colonnes conditionnelles

L’outil Grouper par

Ajouter des requêtes

Dépivoter les colonnes

 Les jointures

Importer des données d’un PDF

Cas pratique

Mais pour les plus avancés, Power Query comporte un langage de programmation spécialement conçu pour la manipulation et la modélisation de données : le langage M. (ma formation sur ce langage arrive)

Power Query, l’oublié

Je ne me souviens plus vraiment de la première fois que j’ai entendu parler de Power Query.

C’était probablement en 2013 ou 2014.

A vrai dire, à cette époque, je n’avais pas réellement compris le but de Power Query.

Pour la manipulation de données j’avais déjà VBA…

On était tous sur les trucs plus flashy, DAX, les nouveaux graphiques, les tableaux de bord, les cartes 3D…

Et on avait tous absolument tort.

Continuer à lire … « Débuter avec Power Query »