コグノスケ

未来から過去へ表示

過去から未来へ表示(*)

もっと前

2020年1月8日 >>> 2020年1月21日

もっと後

2020年1月11日

permalink

編集する

memsetに一番効く最適化

目次: ベンチマーク

Cortex-A72でのmemsetはO2に-ftree-vectorizeと -fpeel-loopsを足すと、O3の性能とほぼイコールになることがわかりました。

gcc -O2 -ftree-vectorize -fpeel-loops -fno-builtinの測定結果（Cortex-A72）

元の処理が非常に単純なループ処理のためか、ループ系の最適化がメチャクチャ効くっぽいです。

何が効くのか？

GCCのGIMPLEを出力させ（-fdump-tree-all）眺めてみると、

オリジナル: 1バイトごとにデータ処理するループが生成される。
ベクタライズ（161t.vect）: 16バイトごとにデータ処理するループと、1バイトごとに残りデータを処理するループに分割される。
アンローリング（164t.cunroll, 169t.loopdone）: 残りデータを処理するループが展開される。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月12日

permalink

編集する

ぼくの考えた最強のmemset

目次: ベンチマーク

NEON intrinsicを使って自分でmemsetを実装してみました。ざっくりした設計方針としては、

NEON store (128bit) x 2で32バイトずつ書く
端数25〜バイトはNEON store x 2
端数16〜バイトはNEON store + uint64 store

相手は汎用実装ですし、Cortex-A72に特化した実装なら楽勝だろう、などと考えて始めましたが、甘かった。glibcのフルアセンブラ版はかなり手ごわいです。

自作memsetの測定結果（Cortex-A72）

グラフの赤い線が、自作したmemsetの性能です。

最適化レベルO3のsimple memsetにはほぼ全域で勝てますが、サイズが小さいときのmuslは強い（サイズが小さい場合から判定しているから？）です。glibcのフルアセンブラもかなり強いです。測定によって勝ったり負けたりな程度です。

全然最強じゃなかった……

設計が甘すぎたことがわかったので、下記のように見直しました。

少ないバイト数の条件から判定
NEON store (128bit) x 2で32バイトずつ書く
端数バイトはNEON store（分岐を減らした）

序盤でmusl memsetに負けていたのは、バイト数の条件判定の順序が良くなかった（大きいサイズから判定していた）ためなので、1番目で対策しています。2番目と3番目の方針は良いとも悪いとも一概に言えませんが、RK3399だとこれが一番性能が出ました。

自作memset改善後の測定結果（Cortex-A72）

設計意図通りにmuslの序盤（特に高速な1〜8バイト付近）と、glibcフルアセンブラの序盤（1〜32バイト）には勝てたものの、glibcフルアセンブラ版は中盤以降が強く、33バイト以降は全く勝てません。

私の作ったmemsetは32バイトまでは専用処理で、33バイトからループで処理するようになるので、33バイトから性能がかなり落ちます。

おそらくglibcフルアセンブラ版も同様に16バイトから性能が落ちるので、ループ処理していると思うんですが、それ以降の巻き返しが凄くて、33バイト以降はまったく勝てないですね……。どうやってんだろうね、これ？

コンパイラが変なandとかsubを出力しているのを見つけたので、アセンブラでも実装してみましたが、性能はほぼ変わりませんでした。設計の根底が違うんでしょうね。

Cortex-A53だと全く勝ち目無し

RK3328（Cortex-A53）で測ってみると、muslには勝てますが、glibcフルアセンブラ版には勝ち目無しで、ほぼ全域に渡ってボコボコにされます。

自作memset改善後の測定結果（Cortex-A53）

基本設計が「余計なwriteをしてでも、とにかく速く終われ」なので、writeを正直に実行してしまうようなヘボいプロセッサになればなるほど勝ち目が薄いです。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月19日

permalink

編集する

バイトをコピーするSIMD命令

目次: ベンチマーク

最近、見かけるSIMD命令セット（AVXもNEONも）には、レジスタ下位 [7:0] の1バイトを、レジスタ上位 ... [31:24] [23:16] [15:8] の各バイトに配る命令が用意されています。

AVX: vpbroadcastb
NEON: dup

この命令はどういう需要があるんだろうか……？memsetの実装では超役に立ちましたが、他の使い道が良くわかりません。

Facebookで上記の話をしていたところ、

8bit行列演算: 8bit行列演算ってそんな頻出かな、って思ったら、画像使えば8bitなので十分有り得そう。
バイト暗号: ブロック毎に空間変換する時とか雑に言えばスカラとベクトルの演算。

と教えてもらいました。なるほど、スカラベクトル積のスカラ側を配るときに便利ですね。

SIMD命令のない世界

ちなみにSIMDのない処理系はどうしているのか見てみると、


int a = (何かの数字);

としたときに、


a &= 0xff;
a *= 0x01010101;

のようにand, mov, mulを使っていました。もちろん、


a &= 0xff;
a |= a << 8;
a |= a << 16;

のようにand, shift, or, shift, orでもできますが、今日日のプロセッサだと整数乗算の方が速そうですね。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月20日

permalink

編集する

glibcのmemsetのクセ

目次: ベンチマーク

先日memsetを書いていたとき（2020年1月12日の日記参照）に気づいたのですが、glibcのフルアセンブラ版memsetの性能が2通り（遅い、速い）あることに気づきました。だいたい1割くらい性能が変わります。

遅いときと比較すると、自作のmemsetの方が速いですが、速いときと比較するとボロ負けします。割と性能が迫っているためか、影響が大きいです。

何が違うんでしょうね？コードは当然同じですから、違いはmemset関数のロードされるアドレスくらいです。まさかなと思って、スタティックリンクしたら安定して速くなりました。

ダイナミックリンクだと、アプリ側は0xaaaac4fba560で、glibcだけ0xffffbf2dce00のような遠いアドレスに飛ばされます。ベンチマーク中は、アプリのコード ←→ glibcのコードを頻繁に行き来することになるので、TLBミスヒットの影響が出ているんですかね……？？

真因はわかりませんが、アドレスが関係している可能性は高いです。今後、似たようなことをやるときは、スタティックリンクで測った方が良さそうです。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月21日

permalink

編集する

glibcのmemsetは強かった

目次: ベンチマーク

先日（2020年1月12日の日記参照）の続きです。

あまりにもglibcフルアセンブラ版memsetの実装が速くて勝てないので、観念して実装を見たのですが、序盤（1バイト〜32バイト）が弱い理由と、以降（33バイト〜）で勝てない理由がわかりました。

他の実装と違ってglibcはサイズの大きい方から条件を見ています。どうしても条件分岐命令を通る回数が増えるため、序盤に弱いです。

中盤は96バイトまではNEON store x 4と分岐で捌いていて、ループを使いません。分岐もcmpしてbranchではなく、ビットセットされていたら分岐する命令（tbz, tbnz）を使っています（※）。

つまり私が書いたmemsetはループで処理している時点で、ほぼ勝ち目がなかったということです。

グラフでは63バイトまでしか測っていなかったから気づかなかったのですが、ループの2週目に入る65バイトから、さらにボロ負けです。いやはや、これは勝てないですね……。

（※）cmp, branchの2命令をtbz 1命令にする辺り、AArch64アセンブラならではの実装に見えますが、実はCでもif (a & 0x10) とか書くとコンパイラがtbz命令を使います。コンパイラ侮りがたし。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

もっと前

2020年1月8日 >>> 2020年1月21日

もっと後

管理用メニュー

記事を新規作成

RSSを更新

<	2020					>
<<	<	01			>	>>
日	月	火	水	木	金	土
-	-	-	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31	-

本日の日記へ

最近のコメント5件

20年8月16日
すずきさん (07/01 01:11)
「そうですね。残念ながら私には向いてなかっ...」
20年8月16日
ざんねんさん (06/29 17:12)
「ゲーム内容を理解していない人の残念な雑記」
24年6月17日
すずきさん (06/05 23:32)
「Thnaks for your info...」
24年6月17日
Bobさん (06/04 09:25)
「BindIPv6Only=no does...」
18年8月12日
すずきさん (05/29 16:57)
「コメントありがとうございます。\n\nこ...」

もっとみる

こんてんつ

wiki

pukiwiki

Linux JM

Java API

Java 8

Java 7

Java 6

Java 2 SE 5.0
link

Java 2 SE 1.4.0
link

Java 2 SE 1.3
link

Java Media Framework 2.0

過去の日記

2002年

8月 9月
10月 11月 12月

2003年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2004年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2005年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2006年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2007年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2008年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2009年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2010年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2011年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2012年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2013年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2014年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2015年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2016年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2017年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2018年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2019年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2020年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2021年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2022年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2023年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2024年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2025年

1月 2月 3月
4月 5月 6月
7月

過去日記について

生成ログ

その他の情報

アクセス統計

エージェントごと

ホストごと

履歴

サーバ一覧

マスタ(SAKURA)
link

ミラー(自宅)

サイトの情報

HTML 4.01 Strict
check passed

CSS3

合計: counter total
本日: counter today

link About www.katsuster.net
RDFファイル RSS 1.0

最終更新: 07/01 02:15

管理者: Katsuhiro Suzuki(katsuhiro( a t )katsuster.net)

This is Simple Diary 1.0 Copyright(C) Katsuhiro Suzuki 2006-2023.
Powered by PHP 8.3.8. using GD bundled (2.1.0 compatible)(png support.)