コグノスケ

未来から過去へ表示(*) link

過去から未来へ表示

もっと前

2020年4月11日 >>> 2020年3月29日

もっと後

2020年4月11日

permalink

編集する

三角関数のfloat版

目次: C言語とlibc

標準Cライブラリにはdoubleを返す三角関数（sin(), cos(), tan()）とfloatを返す三角関数（sinf(), cosf(), tanf()）が定義されています。

標準Cライブラリの一つの実装であるmuslのコードを見ると、sinf, cosf, tanfの計算にdouble演算を内部で使っています。これは基になったFreeBSDのlibmと同じ実装です。PCはfloatでもdoubleでも関係なく速いんですが、doubleをハードで扱えない貧相なプロセッサには優しくない作りです。

もう一つの実装であるnewlibのコードを見ると、double版のsin, cosこそFreeBSDの実装と同じですが、float版のsinf, cosfはfloatを使ったコードが独自に追加されていて、貧相なプロセッサにも優しい作りになっています。組み込みにやたら使われる実績は伊達じゃないですね。

じゃあmuslにnewlibのfloat版のsinf, cosfを移植すれば、doubleが苦手なプロセッサでも速くなるのでは？と思いました。

テストを先に書こう

コードを触る前に、それぞれの実装の素性を調べておこうと思います。テスト方法は、

期待値: glibcのsin, cos, tan（double版）をfloatに変換した結果
判定方法: sinf, cosfは1の誤差を許す、tanfは3の誤差を許す
比較範囲: floatを32bitとして、全値域（＝約43億パターン）

どうしてtanfだけ判定が甘いかというと、正しい値がわからなかったからです。なぜかglibcの実装も誤差1に収まっていません。どういうことなの……。

テストのコードはGitHubに置き（リンク）ました。特に難しい点はありませんが、muslとnewlibから三角関数を拝借するところは、やや面倒かもしれません。

現在のプロセッサは超速いし、問題の性質上マルチスレッド化も簡単ですから、32並列くらいで頑張れば32bit全域を調査しても3分もかかりません。楽勝ですね〜。

最初にテストして良かった

テスト結果は、当然、全て一致かと思いきや、そんなことはなかった。最初にテストしておいて良かったですね。

良い方から言うとmuslは内部でdoubleで演算しているからか、結果もパーフェクトでした。

一方のnewlibはcosfだけ変な値を返します。32bit全域を試してわずか6パターンです。

誤差が許容範囲を超えるパターン

cos,cosf_newlib: NG : x:3fc90fe0 f:1.570797 d:1, exp:b52bbbd3 -0.000001, res:b52bbbd0 -0.000001
cos,cosf_newlib: NG : x:3fc90fe1 f:1.570797 d:1, exp:b54bbbd3 -0.000001, res:b54bbbd0 -0.000001
cos,cosf_newlib: NG : x:3fc90fe2 f:1.570797 d:1, exp:b56bbbd3 -0.000001, res:b56bbbd0 -0.000001

cos,cosf_newlib: NG : x:bfc90fe0 f:-1.570797 d:1, exp:b52bbbd3 -0.000001, res:b52bbbd0 -0.000001
cos,cosf_newlib: NG : x:bfc90fe1 f:-1.570797 d:1, exp:b54bbbd3 -0.000001, res:b54bbbd0 -0.000001
cos,cosf_newlib: NG : x:bfc90fe2 f:-1.570797 d:1, exp:b56bbbd3 -0.000001, res:b56bbbd0 -0.000001

正負を考慮（浮動小数点は最上位ビットが符号を示すビット）すると、実質3パターンで変な値が返ることがわかります。

正: 0x3fc90fe0, 0x3fc90fe1, 0x3fc90fe2
負: 0xbfc90fe0, 0xbfc90fe1, 0xbfc90fe2

誤差は3でした。ほぼ合ってます、おしい。誤差が出ることも不思議ですが、sinfは合っていてcosfだけ値がズレるのも不思議です。

編集者:すずき(2022/04/22 03:00)

コメント一覧

コメントはありません。

この記事にコメントする

2020年3月29日

permalink

編集する

GCCを調べる - その8-3 - レジスタconstraint判定

目次: GCC

インラインアセンブラで "v" constraintsを指定すると、何も実装していない場合はimpossible constraint in 'asm' と怒られました。レジスタのconstraintsだけ足すとinconsistent operand constraints in an asmと怒られるはずです。エラーをチェックしている箇所は、

inconsistentなんとかエラーを出している場所


static bool
curr_insn_transform (bool check_only_p)
{

...

  if (process_alt_operands (reused_alternative_num))  //★★これが成立してalt_p = trueが期待値だが
    alt_p = true;

...

  if (! alt_p && ! sec_mem_p)
    {
      /* No alternative works with reloads??  */
      if (INSN_CODE (curr_insn) >= 0)
	fatal_insn ("unable to generate reloads for:", curr_insn);
      error_for_asm (curr_insn,
		     "inconsistent operand constraints in an %<asm%>");  //★★ここに到達しエラーが出る
      lra_asm_error_p = true;
      /* Avoid further trouble with this insn.  Don't generate use
	 pattern here as we could use the insn SP offset.  */
      lra_set_insn_deleted (curr_insn);
      return true;
    }

...

このcurr_insn_transform() 関数はやたら長くて（700行）訳のわからない構造です。うまく行く場合（rなどを渡したとき）を観察すると、alt_pがtrueになるのが期待値と思われます。幸いなことにalt_pの設定は一箇所だけ、条件もprocess_alt_operands() 関数だけです。

そう思ってprocess_alt_operands() 関数を見ると、これがまたもの凄い実装で、目を覆いたくなります（1200行！！）。GCC見ていると、クソコードには事欠かないです。これはひどい。

コードの一部を抜粋しても全く意味不明で、そもそもこの関数自体がかなりゴチャゴチャで意味不明です。全て追うのは不可能です。なので"r" がどの辺りを通るかをもって、当たりを付けました。下記のところが分岐点になっているようです。

エラーを判定してそうな場所


static bool
process_alt_operands (int only_alternative)
{

...

	  do
	    {
              //★★pは "=&v" が入っていて、cに先頭から一文字ずつ取って解析している
	      switch ((c = *p, len = CONSTRAINT_LEN (c, p)), c)
		{
		case '\0':
		  len = 0;
		  break;

...

		default:
		  cn = lookup_constraint (p);  //★★ 'v' に対しては、CONSTRAINT_vが返る
		  switch (get_constraint_type (cn))
		    {
		    case CT_REGISTER:
		      cl = reg_class_for_constraint (cn);  //★★CONSTRAINT_vに対してはVP_REGSが返る
		      if (cl != NO_REGS)
			goto reg;    //★★このジャンプで飛ぶ
		      break;

...

		reg:
		  if (mode == BLKmode)
		    break;
		  this_alternative = reg_class_subunion[this_alternative][cl];
		  this_alternative_set |= reg_class_contents[cl];  //★★どこかでみたreg_class_contentsが登場
		  if (costly_p)
		    {
		      this_costly_alternative
			= reg_class_subunion[this_costly_alternative][cl];
		      this_costly_alternative_set |= reg_class_contents[cl];
		    }
		  winreg = true;
		  if (REG_P (op))
		    {
		      if (hard_regno[nop] >= 0
			  && in_hard_reg_set_p (this_alternative_set,
						mode, hard_regno[nop]))  //★★これが成立しない
			win = true;  //★★少なくともwin = trueにならないと関数が失敗を返す（条件は他にもあるが）
		      else if (hard_regno[nop] < 0
			       && in_class_p (op, this_alternative, NULL))
			win = true;
		    }
		  break;
		}

...

	    }
	  while ((p += len), c);  //★★基本は次の文字に行くが、スキップすることもある模様

どこかでみたアイツです。このエラーはreg_class_contentsを見に行った結末に起きているようです。

試してみたら、色々おかしい

REG_CLASS_CONTENTSを正しく設定すると、下記のコードがコンパイルできるはずです。雰囲気を出すためRISC-Vのベクトル命令を書いていますが、ぶっちゃけコンパイラは命令を全く見ないので、実はabcdでも何でも通ります。コンパイルのみ（*.sを出力）であればアセンブラすら要りません（※）。

"v" constraintのテスト


// a.c

void _start()
{
	int b[100];
	int v;

	__asm__ volatile ("vlw.v %0, %1\n"
		: "=&v"(v) : "A"(b[10]));
}

ビルドして、逆アセンブルしてみます。

"v" constraintのテストをビルド、逆アセンブル

$ riscv32-unknown-elf-gcc -Wall -g -march=rv32gcv -mabi=ilp32f -nostdlib -O2 a.c

$ riscv32-unknown-elf-objdump -drS a.out

a.out:     file format elf32-littleriscv

Disassembly of section .text:

00010054 <_start>:
void _start()
{
   10054:       7165                    addi    sp,sp,-400
        int b[100];
        int v;

        __asm__ volatile ("vlw.v %0, %1\n"
   10056:       103c                    addi    a5,sp,40
   10058:       1207e007                vlw.v   v0,(a5)
                : "=&v"(v) : "A"(b[10]));
}
   1005c:       6159                    addi    sp,sp,400
   1005e:       8082                    ret

それらしきベクトルレジスタ（v0）が出力されているようです。めでたし、めでたし。と言いたいところですが、実は全然ダメです。

変数がintなのでsizeof(v) が4になる、ベクトルを扱いたい
最適化オプションをO0にするとコンパイラがinternal errorを出す

まだまだ改善の余地があります。これも今後、調べていこうと思います。

（※）もしアセンブルまで実行したければ、RISC-VのGitHubにあるbinutilsを使ってください（GitHubへのリンク）。ビルド方法はUpstreamのコードとほぼ同じ（2019年4月19日の日記参照）です。唯一の違いはconfigure時に --with-system-readlineを付けないと、readlineがないと言われてエラーになる点です。

編集者:すずき(2023/09/24 11:48)

コメント一覧

コメントはありません。

この記事にコメントする

もっと前

2020年4月11日 >>> 2020年3月29日

もっと後

管理用メニュー

記事を新規作成

RSSを更新

<	2020					>
<<	<	04			>	>>
日	月	火	水	木	金	土
-	-	-	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	-	-

本日の日記へ

最近のコメント5件

26年1月23日
すずきさん (01/29 09:48)
「おおー、そんな昔からなんですね。歴史感じ...」
26年1月23日
hdkさん (01/27 19:53)
「#! はUNIX v8からだったってWi...」
24年12月9日
すずきさん (01/18 15:45)
「Thank you for your i...」
24年12月9日
Up2Uさん (01/15 12:57)
「Hi I also find the p...」
25年12月18日
すずきさん (12/23 23:51)
「良く見たらksys_read()でfil...」

もっとみる

最近の記事20件

26年3月10日
すずき (03/13 00:54)
「[誕生日] 43歳になりました。昨年の日記（2025年3月10日の日記参照）を見ると、転職して半年というのもあって通勤の話をし...」
22年4月13日
すずき (03/12 23:48)
「[C言語とlibc - まとめリンク] 目次: C言語とlibcC言語について。C++言語もたまに。プログラムの落とし穴、演算...」
07年11月1日
すずき (03/12 23:47)
「[netcatとsigned charとunsigned char] 目次: C言語とlibcGNU netcat 0.7.1...」
21年5月22日
すずき (03/12 23:34)
「[ベンチマーク - まとめリンク] 目次: ベンチマーク色々なベンチマーク、コードゴルフ。USB HDD RAIDのベンチマー...」
26年3月2日
すずき (03/12 23:33)
「[CRCの計算方法 - その1] 目次: ベンチマーク令和の時代に今更ですがCRCについて調べてました。CRCのベースになる数...」
20年10月23日
すずき (03/12 23:32)
「[ARM - まとめリンク] 目次: ARMROCK64のブート、オーディオ。ROCK64購入ROCK64とU-Bootのdi...」
18年7月21日
すずき (03/12 23:31)
「[Bluetooth UART変換] 目次: ARMUARTをBluetoothに変換してくれるHC-06（モジュールの販売サ...」
02年11月22日
すずき (03/12 23:28)
「[ハフマン符号化プログラム] 目次: ベンチマークハフマン符号化プログラムですが、メモリ節約バージョンが完成しました。技術が足...」
22年11月11日
すずき (03/12 23:26)
「[手動の最適化対コンパイラの最適化] 目次: ベンチマークポッキーの日だそうですが、1（と0）といえば2進数、2進数といえ...」
07年11月2日
すずき (03/12 23:25)
「[ビット演算の極み（ハッカーのたのしみ）] 目次: ベンチマーク今日はコードを2つ紹介（出典: ハッカーのたのしみ, Henr...」
23年4月10日
すずき (03/12 23:18)
「[Linux - まとめリンク] 目次: Linuxカーネル、ドライバ関連。Linux kernel 2.4 for ARMが...」
15年11月22日
すずき (03/12 23:17)
「[自作エミュレータに外の世界とのI/Oを付けたい] 目次: Linux自作エミュレータに外部とのアクセス手段を足そうと思い、A...」
23年9月11日
すずき (03/12 23:15)
「[Windows - まとめリンク] 目次: WindowsWindows XPのブリッジ機能colinuxとWindowsの...」
18年5月2日
すずき (03/12 23:15)
「[Windows 10クリーンインストール] 目次: Windows今までのノートPCは5分以上掛かっても起動できなかったのに...」
18年9月16日
すずき (03/12 23:15)
「[音が出なくなったよWindows 10] 目次: Windows昨日まで元気に動作していたのに、いつのまにかUSB接続のDA...」
24年9月20日
すずき (03/12 23:13)
「[Java - まとめリンク] 目次: JavaJavaのGUIライブラリSwingの本を買いましたSwingでウインドウ表示...」
14年1月26日
すずき (03/12 23:13)
「[Scalaの中間記法の優先度] 目次: JavaScalaとJavaでシフト演算子の優先度が違うのは、決して嫌がらせではなく...」
26年2月23日
すずき (02/27 03:32)
「[ドラクエ1リメイク、トロフィーコンプ] 目次: ゲームSteamでドラクエ1＆2 HDリメイクを購入したまま完全放置でドラク...」
21年12月28日
すずき (02/27 03:27)
「[ゲーム - まとめリンク] 目次: ゲームNintendo DSを買ったパネルでポンDS最近の朝はパネポンDS聖剣伝説DSチ...」
26年2月15日
すずき (02/27 01:50)
「[ドラクエ3リメイク、トロフィーコンプ] 目次: ゲームSteamでドラクエ1＆2 HDリメイクを購入したのですが、完全にほっ...」