Eco Conjoncture n°5 // juillet-août 2020
economic-research.bnpparibas.com
5
L’application de ce critère heuristique nous aurait conduits à ne retenir Dans le cas présent, les banques européennes de notre échantillon
que les deux composantes principales dont la variance (ou la valeur sont classifiées selon leur modèle d’activité en cinq classes différentes.
propre/eigenvalue) est supérieure à 1 (cf. tableau 2), comme cela est
Dendrogramme et représentation 3D
généralement le cas dans la littérature. Nous retenons finalement trois
composantes principales afin de conserver 79,21% de l’information Le résultat des divisions (ou agrégations) successives peut être
1
8
contenue dans les données initiales (il s’agit, plus précisément, de la représenté par un arbre de classification ou dendrogramme (cf.
variance multivariée).
graphique 2). La hauteur des branches (ou distance cophénétique)
indique la distance entre deux banques et/ou classes de banques. Plus
la branche est longue, plus les deux banques/classes de banques sont
différentes. Finalement, un coefficient de corrélation cophénétique
peut être calculé afin d’estimer la qualité de la classification. Plus
le coefficient s’approche de 1, meilleure est la classification. C’est
notamment ce critère qui nous incite à utiliser la méthode DIANA
plutôt que la méthode AGNES dont les coefficients s’établissent,
Méthode DIANA et méthode AGNES
Traditionnellement, la littérature utilise une méthode de classification
hiérarchique ascendante (Agglomerative nesting clustering – AGNES).
Cette méthode « bottom-up » se fonde sur un algorithme qui classifie
les banques par agrégations successives selon la proximité de leurs
caractéristiques. À chaque étape de ce processus itératif, les deux
banque(s) et/ou classe(s) de banques dont la distance, mesurée par
une combinaison des valeurs numériques prises par les variables les
caractérisant, est la plus courte, sont agrégées en une nouvelle classe.
Initialement, chaque banque est considérée comme constitutive de sa
propre classe, un singleton, puis, l’échantillon total est progressivement
reconstitué par agrégations successives (cf. graphique 1).
19
20
respectivement, à 0,72 contre 0,55 . En outre, Kassambara (2017 )
estime que la méthode DIANA est plus adaptée que la méthode AGNES
21
pour la classification des grands échantillons. Enfin, Roux (2018 )
démontre que les algorithmes descendants sont plus performants que
leurs équivalents ascendants.
Les résultats de la classification peuvent être également représentés en
trois dimensions, chacun des trois axes représentant une composante
principale (cf. graphiques 3 à 6). Cela permet de donner une autre
vision de la proximité entre les banques prisent individuellement, d’une
part, et entre les classes de banques, d’autre part. Il apparaît ainsi plus
clairement que les banques appartenant à la classe 2 présentent des
caractéristiques comparables, tandis les caractéristiques des banques
des modèles 4 et 5 sont plus hétérogènes.
La méthode de classification automatique que nous retenons, en
raison des meilleurs résultats qu’elle produit, est dite hiérarchique
descendante (top-down) ou divisive (Divisive analysis clustering,
DIANA). Cette méthode également itérative traite initialement
l’échantillon comme une classe unique qu’elle divise ensuite en deux.
À chaque (n-1) étapes, la classe la plus hétérogène (pour laquelle la
variance est la plus importante) est scindée en deux en maximisant la
1
4
distance entre les deux nouveaux groupes créés (« splinter group »
et « old party »). À l’issue du processus, chaque banque se retrouve De la banque de détail pure à la banque d’investisse-
affectée à une classe unique, un singleton, qui correspond à son modèle ment (et assimilée)
1
5
d’activité .
Nous désignons les cinq modèles d’activité bancaires identifiés en nous
appuyant sur la moyenne des variables observées pour chaque classe
La méthode DIANA classifie les banques euro- (cf. graphiques 7 à 9) ainsi qu’en reprenant les intitulés communément
admis dans la littérature :
péennes selon cinq modèles d’activité
•
le modèle de la banque de détail pure regroupe les 310 banques de
Notre classification produit des résultats statistiquement satisfaisants.
Ces derniers tendent à valider tant l’ajout des variables relatives au
produit net bancaire et aux actifs sous gestion que l’approche selon
trois composantes principales. Nous identifions un nombre optimal de
cinq modèles d’activité que nous désignons en nous inspirant de la
littérature.
22
la classe 1 dont, en moyenne , les prêts nets à la clientèle constituent
8
3% de l’actif total, les dépôts de la clientèle 74% du total de bilan et les
revenus nets d’intérêts 83% du produit net bancaire,
le modèle de la banque commerciale orientée détail englobe les 1 491
•
banques de la classe 2. Les prêts nets à la clientèle constituent, en
moyenne, 60% de l’actif total des banques appartenant à cette catégorie,
les titres financiers 22%, les revenus nets d’intérêts et les commissions
nettes, respectivement, 68% et 24% du produit net bancaire,
Le nombre optimal de modèles d’activité est de cinq
À l’issue du processus de classification hiérarchique (ascendant ou des-
cendant), l’identification objective du nombre optimal de classes, terme
qui n’implique aucune hiérarchie entre banques, est possible grâce à
•
le modèle de la banque commerciale est celui des 148 banques de
la classe 3. Les prêts nets à la clientèle constituent, en moyenne, 72%
de l’actif total, la dette émise 26% du total de bilan tandis que les ac-
1
6
un algorithme dédié qui teste plus de trente indices différents dont
1
7
23
le plus courant, l’indice de Calinski et Harabsz . Il s’agit d’un des prin-
cipaux avantages des méthodes de classifications hiérarchiques : elles
ne nécessitent pas de poser, a priori, d’hypothèse sur le bon nombre de
classes dans lesquelles classer les banques.
tifs sous gestion représentent 11% de l’actif total . La répartition des
revenus par source est comparable à celle des banques commerciales
orientées détail,
1
1
1
1
1
1
4 Plus précisément, la distance euclidienne
5 Pour une formalisation mathématique voir notamment Struyf, A., Hubert, M. & Rousseeuw, P., 1997, Clustering in an object-oriented environment, Journal of Statistical Software, 1(4), pp.1 – 30.
6 Charrad, M., Ghazzali, N., Boiteau, V. & Niknafs, A., 2014, NbClust: An R package for determining the relevant number of clusters in a data set, Journal of Statistical Software, 61(6), pp.1-36
7 Calinski, T. & Harabasz, J., 1974, A dendrite method for cluster analysis, Communications in Statistics, 3, pp.1-27
8 Etymologiquement : « dessin en forme d’arbre »
9 Dans le cadre d’une analyse avec seulement deux composantes principales et dans le respect du critère de Kaiser, le coefficient de corrélation cophénétique s’établit à 0,69 pour la méthode DIANA et 0,52
pour la méthode AGNES.
2
2
2
2
0 Kassambara, A., 2017, Practical guide to cluster analysis in R – Unsupervised machine learning, STHDA
1 Roux, M., 2018, A comparative study of divisive and agglomerative hierarchical clustering algorithms, Journal of Classification, 35(2), pp.345-366
2 Les valeurs en médiane sont naturellement du même ordre de grandeur.
3 Les actifs sous gestion, qui ne figurent évidemment pas au bilan, sont néanmoins rapportés à l’actif total des banques afin faciliter les comparaisons.
La banque
d’un monde
qui change