Verwendung von statistischen Clustern zur Identifikation von Geschäftsmodellen

BIS Quarterly Review  |  December 2014  | 
7. Dezember 2014

(Auszug S. 3 des Kapitels "Geschäftsmodelle von Banken" des  BIZ-Quartalsberichts vom Dezember 2014)

In diesem Kasten werden die als Input-Faktoren verwendeten Variablen sowie die technischeren Aspekte des statistischen Einordnungsverfahrens (Clustering) näher erläutert.

Die acht Input-Variablen, aus denen die wichtigsten Merkmale der Geschäftsmodelle ausgewählt wurden, verteilen sich gleichmässig auf die Aktiv- und die Passivseite der Bilanz. Alle Kennzahlen werden als Anteil an der Bilanzsumme, bereinigt um Derivatpositionen, ausgedrückt. Damit sollen Verzerrungen der Messgrössen infolge unterschiedlicher anwendbarer Rechnungslegungsvorschriften in den einzelnen Ländern vermieden werden. Die Kennzahlen auf der Aktivseite sind: i) Kredite insgesamt, ii) Wertpapiere (gemessen als Summe der Vermögenswerte und Verbindlichkeiten im Handelsbestand, bereinigt um Derivate), iii) Umfang des Handelsbuchs (gemessen als Summe der zu Handelszwecken gehaltenen Wertpapiere und des erfolgswirksam zum Zeitwert bewerteten Bestands), iv) Interbankkreditvergabe (gemessen als Summe der Darlehen und Vorschüsse an Banken, Reverse-Repo-Geschäfte und Barsicherheiten). Die Kennzahlen auf der Passivseite sind: i) Kundeneinlagen, ii) Grosskunden-Verbindlichkeiten (gemessen als Summe der sonstigen Einlagen, kurzfristigen Kreditaufnahme und langfristigen Refinanzierungen), iii) stabile Refinanzierung (gemessen als Summe der gesamten Kundeneinlagen und langfristigen Refinanzierungen), iv) Interbankkreditaufnahme (gemessen als Einlagen von Banken zuzüglich Repo-Geschäften und Barsicherheiten).

Verwendet wird der statistische Klassifizierungsalgorithmus nach Ward (1963). Der Algorithmus ist eine hierarchische Klassifizierungsmethode, die auf ein Universum von Einzelbeobachtungen (im vorliegenden Fall die Bank/Jahr-Paare) angewendet werden kann. Jede Beobachtung wird durch eine Reihe von Scorewerten (hier die Bilanzkennzahlen) beschrieben. Es handelt sich um einen agglomerativen Algorithmus, der von den Einzelbeobachtungen ausgeht und schrittweise Gruppen (Clusters) aufbaut, indem er die einander am nächsten liegenden Beobachtungen zusammenlegt. Danach werden schrittweise grössere Gruppen gebildet (d.h., das Universum der Beobachtungen wird gröber aufgeteilt), wobei die Ähnlichkeiten von jeglichen zwei Beobachtungen in jeder Gruppe sowie die Differenzen unter den Gruppen maximiert werden. Der Algorithmus misst den Abstand zwischen zwei Beobachtungen mit der Summe der quadratischen Differenzen ihrer Scorewerte. Die Ergebnisse der hierarchischen Klassifizierung könnten als das Wurzelwerk eines Baumes dargestellt werden. Die einzelnen Beobachtungen wären automatisch die homogensten Gruppen zuunterst in der Hierarchie. Der Algorithmus fasst zuerst die einzelnen Beobachtungen aufgrund der Nähe ihrer Scorewerte zusammen. Diese kleinen Gruppen werden schrittweise zusammengelegt, sodass sich weniger und grössere Gruppen auf höheren Hierarchieebenen bilden; das Universum bildet eine einzige Gruppe an der Spitze.

Welche Aufteilung (d.h. Hierarchiestufe) stellt einen guten Kompromiss zwischen der Homogenität innerhalb jeder Gruppe und der Anzahl Gruppen dar? Es gibt keine festen Regeln, um das zu bestimmen. Hier wird der Pseudo-F-Index nach Calinśki und Harabasz (1974) zur Entscheidungsfindung beigezogen. Der Index wägt Kompaktheit (d.h. eine kleine Anzahl Gruppen) gegen die Möglichkeit zur Differenzierung ab (d.h., die Gruppen weisen ausreichend unterschiedliche Merkmale auf). Er steigt, wenn die Beobachtungen innerhalb einer Gruppe einander ähnlicher (d.h., wenn ihre Scorewerte näher beieinander liegen), aber unter den Gruppen unterschiedlicher sind, und er sinkt, wenn die Anzahl Gruppen steigt. Die Nähe der Beobachtungen wird gemessen als Verhältnis zwischen dem durchschnittlichen Abstand von Bank/Jahr-Paaren, die zu unterschiedlichen Gruppen gehören, und dem entsprechenden Durchschnitt der Beobachtungen, die zur selben Gruppe gehören. Die Anzahl der Gruppen wird entsprechend dem Verhältnis der Gesamtzahl von Beobachtungen zur Anzahl der Gruppen in der jeweiligen Aufteilung belastet. Der F-Index weist eine gewisse Verwandtschaft zu den Informationskriterien von Akaike und Schwarz auf, die oft verwendet werden, um die angemessene Anzahl Lags in Zeitreihen-Regressionen zu bestimmen.

Der Cluster-Algorithmus wird für alle Kombinationen von mindestens drei entscheidungsbasierten Variablen aus der Reihe von acht Variablen durchgerechnet. Wären sämtliche Kombinationen berücksichtigt worden, hätte dies 325 Berechnungen ergeben. Diese Zahl wird reduziert, indem Kombinationen mit zwei entscheidungsbasierten Variablen, die eng korreliert sind, ignoriert werden, denn das gleichzeitige Vorhandensein dieser Variablen liefert kaum zusätzliche Informationen. Für den Korrelationskoeffizienten wird ein Schwellenwert von 60% (absoluter Wert) festgelegt. Dies bedeutet: Kombinationen von Input-Variablen, die gleichzeitig die Wertpapier- und die Handelsbuch-Variable oder die Variablen „Grosskunden-Verbindlichkeiten" und „stabile Refinanzierung" enthalten, werden ausgeklammert.