今回から前回の単純な行列積プログラムを最適化していきます。今回適用する最適化はループの交換です。

プログラム

前回のプログラムでは、ループの順番がi-j-lの順番でしたが、今回はi-l-jの順番になっています。こうすることで、行列Cと行列Bへのメモリアクセスが連続になり高速になることが期待できます。

プログラム全体は以下のGitHub リポジトリにあります。今回利用するプログラムは、 main.cとmy_dgemm02.cです。

<a href="https://github.com/lambdataro/mydgemm">lambdataro/mydgemm</a>

コンパイル

$ clang -static -O3 main.c my_dgemm02.c -I/opt/OpenBLAS/include \
  -L/opt/OpenBLAS/lib -lopenblas -lpthread -lrt

プログラムを5回実行した結果を以下に示します。

OpenBLASを100%とした時の各ルーチンのスピードを以下の表にまとめます。

ループの順番をちょこっと入れ替えただけで、前回の約17倍高速なプログラムが得られました。まだまだ速くなる余地があるので頑張って行きたいとおもいます。