財務情報を分析した〜試しに財務情報のトレンドでグルーピング

ネット上で企業の決算情報を公開している面白いサイトを見つけたので、前からやりたかった財務情報の分析を三連休最後の日にしてみた。
なお、本記事は本記事やその誤りによって発生した問題や不利益について一切の責任は負いません。念のため。


入手できたデータで出来そうな分析を考えた結果、財務情報のトレンドで企業をグルーピングすることにした。


データ
当該ページより各企業の決算情報を大体2008年くらいから2014年までExcelでダウンロード出来る。


とりあえずなるべく色々な財務情報から企業のデータを分析できないかと考えたが、欠損値が多いので、欠損値の少ない売上高と経常利益を用いることにした。
このデータから「個別」の「日本基準」の情報の中で2008年期から2014年期の7年間分のデータが存在する企業のみを抽出、7年分の売上高と経常利益を取りだし、入力データとした。
これをさらに、各企業の売上高と経常利益それぞれにおいて標準化した。
つまり、企業規模によらない時間によるトレンドを分析の対象としており、似たようなトレンドの企業がグルーピングされる。


入力データのイメージは以下の図のようになっており、Xは標準化された売上高をYは経常利益を表わしている。




分析手法
上記のデータのうち、データクレンジングの結果、利用できる2855企業に関する7年×2種類(売上高・経常利益)の計14データを
単一の個体としてSOMに入力、SOMを用いた理由はあまり面倒なことを考えたくなかったからである。


SOMのセル数は4×5の20にした。RのSOMパッケージを用いて、特にパラメータチューニングは行ってない。


結果
結果のプロットは以下の通り、各セルは類似する特徴をもつ企業グループがnで示された数含まれている。
セルの企業グループの特徴を表わすのが折れ線グラフである。
折れ線の左から7つは2008年から2014年の売上高、残りの7つは同年度別の経常利益を表わしている。
また、隣り合うセル同士には類似した特徴をもつ企業が含まれやすい。



これより、例えばセル0は年度別の変動の少なかった企業があり、セル15には2008年以降から成長した企業が含まれていると推論できる。
セル4は2008年以降業績が悪くなっているので、リーマンショックの影響を受けた企業だろう。
セル19はリーマンショック以降、売上は大きく下がったが、徐々に経常利益を回復している企業である。


各セルに属する企業を見てみた結果、セル番号ごとに以下のような業種の企業が多かった。
(もちろん他の企業もたくさんあった。)


各セルに特徴的な業種

セル0=変動が少ない企業:電力会社
セル4=リーマンショック以降業績が悪くなった企業:鉄鋼、印刷、メガバンク
セル15=順調に成長している:Webサービス、製薬、ガス
セル19=売上高は横ばい、経常利益は伸びている企業:地方銀行、精密機器


一番興味深いのはセル19の企業だと思うんだけど、これって何なんだろうか。
今度、そのあたりに明るい人に聞いてみよう。
ちなみに自動車はこの4つを除く、真ん中のセルに多かった。


結論
たった、2種類のデータでも意外と面白かった。
より細やかな分析を行って、今回は公開を避けた個別の企業名を含めた分析をしてみたい。
色々な財務諸表を使いたいし、時系列データを時系列のデータとして反映した分析を行ってみたい。