ポッキーの日だそうですが、1(と0)といえば2進数、2進数といえばビット操作ですね(?)。以前 Bit Twiddling Hacks を最新のコンパイラ達に向けて試したときの悲しい結果をメモしておきたいと思います。
試したのはConditionally set or clear bits without branchingという項目で、fがtrueならwとmのビット論理和を、fがfalseならwからmのビットを消去した値を返す処理です。素朴な実装ではif文を使うでしょう。
int cond_set_or_clear1(bool f, int m, int w)
{
if (f)
return w | m;
else
return w & ~m;
}
さきほどのサイトでは最適化版として、条件分岐をなくす、データ依存性をなくす(スーパースカラプロセッサ用)、2つのバージョンを掲げています。まずは条件分岐をなくした版のコードを紹介します。
int cond_set_or_clear2(bool f, int m, int w)
{
return w ^ ((-f ^ w) & m);
}
分岐がなくなっています。なんでこれで同じ動作をするのか?は説明が必要でしょう。fがtrueなら -f = -1となり、-f ^ wはwのビット反転(notと同じ)と同じ結果 -1 ^ w = ~wになります。よって右側の括弧内 (-f ^ w) & m = ~w & mです。
あとは~w & mはw = 0, m = 1のビットだけ1になって残り、あとは全部0になります。w ^ (~w & m) はw | mと同じ結果ですが……そう言われてもわかりにくいので表にします。
w | ~w | m | ~w & m | w ^ (~w & m) |
---|---|---|---|---|
1 | 0 | 1 | 0 | 1 |
1 | 0 | 0 | 0 | 1 |
0 | 1 | 1 | 1 | 1 |
0 | 1 | 0 | 0 | 0 |
一方fがfalseの場合、0とみなされるので -f = 0となって、-f ^ w = 0 ^ w = wです。右側の括弧内 (-f ^ w) & m = w & mです。w ^ (w & m) は先ほどとは逆でw = 1, m = 1のビットだけ1になって残り、あとは全部0になります。
最後にwとこの結果をxorすることでwとmがともに1のビットだけ0になりますから、w ^ (w & m) はw & ~mと同じ結果です、が……これも表がわかりやすいでしょう。
w | m | w & m | w ^ (w & m) |
---|---|---|---|
1 | 1 | 1 | 0 |
1 | 0 | 0 | 1 |
0 | 1 | 0 | 0 |
0 | 0 | 0 | 0 |
次にスーパースカラ版のコードを紹介します。
int cond_set_or_clear3(bool f, int m, int w)
{
return (w & ~m) | (-f & m);
}
これは先ほどよりシンプルです。左側の括弧はfによらず常にw & ~mで一定で、右側の括弧の値だけが変化します。
まずfがtrueなら -f = -1となり、-f & m = mです。(w & ~m) | mですが、w & ~mはwからmの1となっているビット位置を0にする演算でした。そこにmをorすると消えたビットは再び1になります。すなわちw | mと同じ結果です。
w | m | w & ~m | (w & ~m) | m |
---|---|---|---|
1 | 1 | 0 | 1 |
1 | 0 | 1 | 1 |
0 | 1 | 0 | 1 |
0 | 0 | 0 | 0 |
次にfがfalseなら -f = 0となり、-f & m = 0です。よって (w & ~m) | 0 = w & ~mになります。
なぜスーパースカラ向けか書いていませんが、w & ~mと -f & mに依存性がなくて同時に演算できるからだと思われます。じゃあ全部これでいいじゃないか?と思われるかもしれませんが、演算回数を見ると、
2つ目の方式: w ^ ((-f ^ w) & m) neg, xor, and, xorの4回の演算が必要 3つ目の方式: (w & ~m) | (-f & m) not, and, neg, and, orの5回の演算が必要
このため同時に演算できないプロセッサの場合は2つ目の方式の方が良いと言えます。
ここまで長々と紹介しておいてこんなことを言うのは憚られますけど。この手のビット魔術は面白いのでつい手を出したくなりますが、最近のコンパイラに対しC言語レベルでの最適化はあまり意味がないです。
論より証拠でGCC 12.2.0の結果から見てみましょう。
あれだけグダグダ語った3つ目の方式でしたが、なんと2つ目の方式と全く同じバイナリになりました。
GCCだけでは証拠として不安でしょうか?では次にclang 15.0.0の結果も見ましょう。
なんと3つ目の方式は「これ分岐じゃね?」と解釈されて分岐に戻されてしまいました。これが分岐に見えるclangはスゴイですね。私はこのコードを見ても分岐には見えません……。
1つ目の方式と2つ目の方式が違うバイナリになるところを見る限り、全くの無意味ではないです。しかし見やすさでは大幅に劣ります。基本は素朴なコードにしておき、遅くて困る場合のみビット魔術に手を出すべきでしょう。
< | 2022 | > | ||||
<< | < | 11 | > | >> | ||
日 | 月 | 火 | 水 | 木 | 金 | 土 |
- | - | 1 | 2 | 3 | 4 | 5 |
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | - | - | - |
合計:
本日:
管理者: Katsuhiro Suzuki(katsuhiro( a t )katsuster.net)
This is Simple Diary 1.0
Copyright(C) Katsuhiro Suzuki 2006-2023.
Powered by PHP 8.2.15.
using GD bundled (2.1.0 compatible)(png support.)