コグノスケ

未来から過去へ表示

過去から未来へ表示(*)

もっと前

2020年1月15日 >>> 2020年1月24日

もっと後

2020年1月19日

permalink

編集する

バイトをコピーするSIMD命令

目次: ベンチマーク

最近、見かけるSIMD命令セット（AVXもNEONも）には、レジスタ下位 [7:0] の1バイトを、レジスタ上位 ... [31:24] [23:16] [15:8] の各バイトに配る命令が用意されています。

AVX: vpbroadcastb
NEON: dup

この命令はどういう需要があるんだろうか……？memsetの実装では超役に立ちましたが、他の使い道が良くわかりません。

Facebookで上記の話をしていたところ、

8bit行列演算: 8bit行列演算ってそんな頻出かな、って思ったら、画像使えば8bitなので十分有り得そう。
バイト暗号: ブロック毎に空間変換する時とか雑に言えばスカラとベクトルの演算。

と教えてもらいました。なるほど、スカラベクトル積のスカラ側を配るときに便利ですね。

SIMD命令のない世界

ちなみにSIMDのない処理系はどうしているのか見てみると、


int a = (何かの数字);

としたときに、


a &= 0xff;
a *= 0x01010101;

のようにand, mov, mulを使っていました。もちろん、


a &= 0xff;
a |= a << 8;
a |= a << 16;

のようにand, shift, or, shift, orでもできますが、今日日のプロセッサだと整数乗算の方が速そうですね。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月20日

permalink

編集する

glibcのmemsetのクセ

目次: ベンチマーク

先日memsetを書いていたとき（2020年1月12日の日記参照）に気づいたのですが、glibcのフルアセンブラ版memsetの性能が2通り（遅い、速い）あることに気づきました。だいたい1割くらい性能が変わります。

遅いときと比較すると、自作のmemsetの方が速いですが、速いときと比較するとボロ負けします。割と性能が迫っているためか、影響が大きいです。

何が違うんでしょうね？コードは当然同じですから、違いはmemset関数のロードされるアドレスくらいです。まさかなと思って、スタティックリンクしたら安定して速くなりました。

ダイナミックリンクだと、アプリ側は0xaaaac4fba560で、glibcだけ0xffffbf2dce00のような遠いアドレスに飛ばされます。ベンチマーク中は、アプリのコード ←→ glibcのコードを頻繁に行き来することになるので、TLBミスヒットの影響が出ているんですかね……？？

真因はわかりませんが、アドレスが関係している可能性は高いです。今後、似たようなことをやるときは、スタティックリンクで測った方が良さそうです。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月21日

permalink

編集する

glibcのmemsetは強かった

目次: ベンチマーク

先日（2020年1月12日の日記参照）の続きです。

あまりにもglibcフルアセンブラ版memsetの実装が速くて勝てないので、観念して実装を見たのですが、序盤（1バイト〜32バイト）が弱い理由と、以降（33バイト〜）で勝てない理由がわかりました。

他の実装と違ってglibcはサイズの大きい方から条件を見ています。どうしても条件分岐命令を通る回数が増えるため、序盤に弱いです。

中盤は96バイトまではNEON store x 4と分岐で捌いていて、ループを使いません。分岐もcmpしてbranchではなく、ビットセットされていたら分岐する命令（tbz, tbnz）を使っています（※）。

つまり私が書いたmemsetはループで処理している時点で、ほぼ勝ち目がなかったということです。

グラフでは63バイトまでしか測っていなかったから気づかなかったのですが、ループの2週目に入る65バイトから、さらにボロ負けです。いやはや、これは勝てないですね……。

（※）cmp, branchの2命令をtbz 1命令にする辺り、AArch64アセンブラならではの実装に見えますが、実はCでもif (a & 0x10) とか書くとコンパイラがtbz命令を使います。コンパイラ侮りがたし。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

もっと前

2020年1月15日 >>> 2020年1月24日

もっと後

管理用メニュー

記事を新規作成

RSSを更新

<	2020					>
<<	<	01			>	>>
日	月	火	水	木	金	土
-	-	-	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31	-

本日の日記へ

最近のコメント5件

14年6月13日
2048playerさん (09/16 01:00)
「返信ありがとうございます。\nコメントが...」
14年6月13日
すずきさん (09/12 21:19)
「コメントありがとうございます。同じ結果に...」
14年6月13日
2048playerさん (09/08 17:30)
「私も2048の最高スコアを求めたのですが...」
14年6月13日
2048さん (09/08 17:16)
「私も2048の最高スコアを求めたのですが...」
14年6月13日
2048playerさん (09/08 16:10)
「私も2048の最高スコアを求めたのですが...」

もっとみる

こんてんつ

wiki

pukiwiki

Linux JM

Java API

Java 8

Java 7

Java 6

Java 2 SE 5.0
link

Java 2 SE 1.4.0
link

Java 2 SE 1.3
link

Java Media Framework 2.0

過去の日記

2002年

8月 9月
10月 11月 12月

2003年

コグノスケ

2020年1月19日

バイトをコピーするSIMD命令

SIMD命令のない世界

コメント一覧

2020年1月20日

glibcのmemsetのクセ

コメント一覧

2020年1月21日

glibcのmemsetは強かった

コメント一覧

管理用メニュー

最近のコメント5件

最近の記事3件

こんてんつ

過去の日記

その他の情報