Identification des modèles opérationnels selon la méthode du regroupement statistique

Identification des modèles opérationnels selon la méthode du regroupement statistique

BIS Quarterly Review | December 2014 |

7 décembre 2014

(Encadré publié p 4 de la section «Modèles opérationnels du secteur bancaire», Rapport trimestriel BRI, décembre 2014)

Cet encadré décrit plus en détail les variables utilisées en entrée et examine les aspects les plus techniques de la procédure de regroupement statistique.

Les huit variables d'entrée à partir desquelles sont définies les caractéristiques principales des modèles opérationnels se répartissent également entre le côté de l'actif et celui du passif du bilan. Tous les ratios sont exprimés sous forme de proportion de l'actif total net des encours sur produits dérivés, pour éviter que les mesures ne soient faussées par les différences des normes comptables entre juridictions. Les ratios de l'actif du bilan portent sur les éléments suivants : i) total des prêts ; ii) titres détenus à des fins de négociation (mesurés par la somme des actifs et passifs de négociation nette des produits dérivés) ; iii) taille du portefeuille de négociation (mesurée par la somme des titres détenus à des fins de négociation et des actifs financiers comptabilisés à la juste valeur par le biais du compte de résultat) ; et iv) prêts interbancaires (mesurés par la somme des prêts et avances aux banques, des prises en pension et des sûretés en espèces). Les ratios du passif du bilan portent sur : i) les dépôts des clients ; ii) les emprunts sur les marchés des capitaux (mesurés par la somme des autres dépôts, des emprunts à court terme et des financements à long terme) ; iii) les financements stables (mesurés par la somme des dépôts des clients et des financements à long terme) ; et iv) les emprunts interbancaires (mesurés par la somme des dépôts des banques, des mises en pension et des sûretés en espèces).

Nous employons l'algorithme de regroupement statistique proposé par Ward (1963). Il s'agit d'une méthode de classification hiérarchique qui peut être appliquée à un univers d'observations individuelles (paires banque/année dans notre cas). Chaque observation est décrite à l'aide de différents scores (ici, les ratios de bilan). L'algorithme fonctionne par agglomération : à partir des observations individuelles, il constitue des groupes successifs en assemblant les observations qui présentent le plus de similitudes entre elles. Il partitionne ainsi l'univers d'observations de plus en plus grossièrement pour obtenir des groupes de plus en plus grands, en maximisant les similitudes entre deux observations au sein d'un groupe et en maximisant les différences entre les groupes. La distance entre deux observations est mesurée par la somme des différences carrées de leurs scores. Il est possible de représenter les résultats de cette classification hiérarchique sous la forme d'une pyramide. Les observations individuelles constituent automatiquement les groupes les plus homogènes et forment la base de la pyramide. L'algorithme commence par regrouper les observations individuelles en fonction de la proximité de leurs scores. Ces petits groupes sont ensuite fusionnés par étapes successives pour former des groupes de plus en plus grands et de moins en moins nombreux, jusqu'à ce qu'il n'y ait plus qu'un groupe rassemblant toutes les observations au sommet de la pyramide.

Quelle partition (ou quel étage de la pyramide) assure un compromis adéquat entre l'homogénéité au sein de chaque groupe et le nombre de groupes ? Il n'existe pas de règle fixe pour répondre à cette question. Pour guider notre choix, nous nous servons de la pseudo statistique F proposée par Calinśki et Harabasz (1974), qui met en balance la parcimonie (un petit nombre de groupes) et la capacité de discrimination (les caractéristiques d'un groupe sont suffisamment différentes de celles des autres groupes). La valeur de F croît lorsque les observations présentent un degré de similitude plus élevé au sein des groupes (avec des scores plus homogènes) et un degré de dissemblance plus élevé entre les groupes, et elle diminue à mesure que le nombre de groupes augmente. La proximité des observations est mesurée par le ratio de la distance moyenne entre les observations banque/année appartenant à des groupes différents et la distance moyenne entre les observations d'un même groupe. Nous pénalisons le nombre de groupes sur la base du ratio du nombre total d'observations sur le nombre de groupes dans la partition considérée. Ce paramètre est assez proche dans l'esprit des critères d'information d'Akaike et Schwarz, qui sont fréquemment utilisés pour identifier le nombre de retards adéquat dans les régressions sur séries temporelles.

L'algorithme de regroupement est exécuté pour toutes les combinaisons d'au moins trois variables de choix, sélectionnées parmi les huit existantes. Si nous avions retenu la totalité des combinaisons possibles, il nous aurait fallu faire tourner l'algorithme 325 fois. Nous avons réduit ce nombre en ignorant les combinaisons qui incluaient deux variables de choix étroitement corrélées entre elles, au motif que la présence simultanée de ces variables apporte peu d'informations supplémentaires. Nous avons fixé le seuil du coefficient de corrélation à 60 % (en valeur absolue), ce qui nous a conduits à rejeter les combinaisons de variables d'entrée qui comprenaient à la fois la variable de titres et la variable de taille de portefeuille de négociation, ou la variable des emprunts sur les marchés des capitaux et la variable des financements stables.

Related information

Full chapter: Modèles opérationnels du secteur bancaire