コグノスケ


link 未来から過去へ表示(*)  link 過去から未来へ表示

link もっと前
2013年10月5日 >>> 2013年9月22日
link もっと後

2013年10月5日

Python初歩で既に挫折気味

目次: Python

Pythonの初歩と思われるバイト列処理で、既に挫折気味です…。

RubyやらLuaやらの、他の動的型言語はどうしているんだろう…。この手の問題が多発したら、私の弱い心は挫折してしまいそうです。

Pythonにおけるバイト列

Python 3は文字列とバイト列を明確に区別しています。バイト列の表現には2種類あり、bytes型は読み取り専用のバイト列を表し、bytearray型は読み書き可能なバイト列を表します。それぞれ、組み込み関数bytes() とbytearray() で生成します。

Python 3からバイト列リテラルが追加され、bytes型を生成する際にbytes('abc', 'ASCII') から、b'abc' のように書けるようになったそうです。ふーん…。

bytesオブジェクトの要素、bytesオブジェクトのスライスの型
Python 3.3.2(Windows), Python 3.2.3(Linux)
>>> type(b'abc'[0])
<class 'int'>
>>> type(b'abc'[0:1])
<class 'bytes'>
bytearrayオブジェクトの要素、bytearrayオブジェクトのスライスの型
Python 3.3.2(Windows), Python 3.2.3(Linux)
>>> type(bytearray(b'abc')[0])
<class 'int'>
>>> type(bytearray(b'abc')[0:1])
<class 'bytearray'>

なおバイト列(bytesとbytearrayオブジェクト)の要素は0から255までを取る整数型(int)となります。従ってb'abc'[0] + 1の結果が98となるなど、要素に対する計算が可能です。

アレイ

バイト列だけではなく、整数列や、浮動小数点列はないのか?という疑問にお答えするのが、array.array型です。この型により要素のバイト長が1以外の配列を扱えます。

オブジェクト生成の際array.array() の第一引数により、配列の要素の型が決定されます。指定可能な型の一覧は、Pythonのリファレンスをご参照ください。

array.arrayオブジェクトの生成
Python 3.3.2(Windows), Python 3.2.3(Linux)

#### 長整数型(singed long, 1要素4バイト)の配列を作成

>>> import array
>>> a = array.array('l')
>>> a.itemsize
4

#### 要素の追加

>>> a.append(1)
>>> a.append(12345678)
>>> a
array('l', [1, 12345678])

#### 要素とスライスの型

>>> a[0]
1
>>> type(a[0])
<class 'int'>

>>> a[0:1]
array('l', [1])
>>> type(a[0:1])
<class 'array.array'>

#### signed long型の値域から外れる値は追加できない

>>> a.append(11111111111111111111111111111111111)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
OverflowError: Python int too large to convert to C long

以上のbytes, bytearray, array.arrayの3つの型はいずれもバッファプロトコルという、内部のメモリをオブジェクトの外に見せる仕組みを持っています。

この仕組みにより、以下に述べるメモリビューを使ってオブジェクト内部のメモリをコピーすることなく読み書きすることができます。

バイト列のメモリビュー

オブジェクトの持つメモリをコピーすることなく読む(可能なら書く)ために使うのがmemoryview型です。

オブジェクトの持つメモリが何の配列に見えるか?は、見たいオブジェクトに依存します。signed longとして見せてくるオブジェクトもあるでしょうし、バイト列として見せてくるオブジェクトもあります。

オブジェクトが内部メモリをどう見せてくるにせよmemoryviewの仕様を見る限り、要素の型は配列の各要素の型になるはずです。しかし…、

bytearrayのメモリビューの要素、スライスの型
Python 3.3.2(Windows)
>>> type(memoryview(bytearray(b'abc'))[0])
<class 'int'>
>>> type(memoryview(bytearray(b'abc'))[0:1])
<class 'memoryview'>

Python 3.2.3(Linux)
>>> type(memoryview(bytearray(b'abc'))[0])
<class 'bytes'>
>>> type(memoryview(bytearray(b'abc'))[0:1])
<class 'memoryview'>

なぜかPython 3.2では要素の型が「bytes」になっています。おかげでmemoryview(...)[0] に対して加減乗除、ビット演算する個所が全滅です。

無理やりmemoryview(...)[0][0] として切り抜けることも不可能ではありませんが、今度はPython 3.3で動かなくなるので困りものです。

整数列のメモリビュー

ちなみにメモリビューによってlong型の要素を参照した場合は、さらに具合が悪いです。

array.array('l') のメモリビューの要素、スライスの型
Python 3.2.3(Linux)
>>> import array
>>> a = array.array('l')
>>> a.append(0x01234567)
>>> a.append(0x79abcdef)
>>> a
array('l', [19088743, 2041302511])

>>> type(memoryview(a)[0])
<class 'bytes'>
>>> type(memoryview(a)[0:1])
<class 'memoryview'>

>>> memoryview(a)[0]
b'gE#x01'

なんと4要素のbytesが返ってきます…。これを一々intに組みなおすのも大変だし、値をコピーせずに参照できる、という利点が完全に死んでる気がします。

せめて何か言ってくれよPythonさん

もしかしてPython 3.2と3.3でmemoryviewの仕様が変わったんでしょうか?

CやJavaならコンパイル時に「型が違うぜ!」って怒られて気づきますが、Pythonは実行時にクラッシュするまで何も言ってくれません。世の中のPython使いはこういう問題にどうやって対処しているのでしょう?

編集者:すずき(2025/01/13 16:10)

コメント一覧

  • コメントはありません。
open/close この記事にコメントする



2013年10月2日

Mercurial作業ディレクトリの容量節約

Mercurialで下記のような集中式リポジトリ「風」の運用をしているとします。その運用ならSubversionでも良いんじゃないの?ってツッコミはさておき…。

  • リポジトリサーバにマスターの役目を果たすリポジトリを置く
  • 各開発者はマスターリポジトリにhg pull/hg pushする

このときリポジトリサーバ上で開発するという運用はまずしないので、マスターリポジトリの作業ディレクトリ(Working directory)に存在するファイルは誰も使いません。残しておいても害はありませんが、ストレージ容量を無駄に消費します。

イメージ沸きにくいと思うので、下記のリポジトリを使って説明します。

マスターリポジトリの作成イメージ
#### 適当なリポジトリを作成 ####

$ hg init

$ echo a > file_a
$ echo b > file_b

$ hg add file_a file_b

$ hg status
A file_a
A file_b

$ hg commit -m 'add files.'

#### 以上のリポジトリをサーバ上に移し、マスターリポジトリとした ####

このように作成したマスターリポジトリの作業ディレクトリには、当たり前ですがfile_aとfile_bが含まれています。

これらのファイルをrmコマンドで強引に消しても構いませんが、Mercurialの作業ディレクトリのキャッシュ(.hg/dirstate)が残ったままになって、やはり容量が無駄です。

マスターリポジトリの作業ディレクトリ内のファイルを強引に削除
#### 作業ディレクトリ内のファイルを確認 ####

$ ls
file_a file_b

#### 作業ディレクトリの状態を確認 → 結果: 変更点なし ####

$ hg status

#### 作業ディレクトリ内のファイルを強引に削除 ####

$ rm file_a file_b

#### 作業ディレクトリの状態を確認 → 結果: ファイルが存在しない状態 ####

$ hg status
! file_a
! file_b

#### 作業ディレクトリのキャッシュも残ったまま ####

$ ls -la .hg/dirstate
-rw-r--r--  1 user       users  86 Oct  3 01:09 .hg/dirstate

#### ちなみにdirstateは1000ファイルくらいのリポジトリでも70KB程度で、
#### 大した容量ではないです。

何よりも邪魔なのはhg statusを実行すると、大量の「! filename」状態(リポジトリには存在するが、作業ディレクトリにはファイルが存在しない、という状態)が表示されることです。

そんなお悩みを解消するのが、hg update -C nullです。作業ディレクトリを綺麗さっぱり消してくれて、hg statusにも文句を言わせないのです。

マスターリポジトリの作業ディレクトリを削除
#### 作業ディレクトリを削除 ####

$ hg up -C null
0 files updated, 0 files merged, 0 files removed, 0 files unresolved

#### 作業ディレクトリにファイルはない ####

$ ls

#### 作業ディレクトリの状態 → 結果: 変更点なし ####

$ hg status

#### 作業ディレクトリのキャッシュサイズも縮小 ####

$ ls -la .hg/dirstate
-rw-r--r--  1 user       users  40 Oct  3 01:15 .hg/dirstate

「ゴミ」が残っているのが気になる、または、気になっていた方はぜひお試しあれ。

編集者:すずき(2013/10/03 01:28)

コメント一覧

  • hdkさん(2013/10/03 08:37)
    「以上のリポジトリをサーバ上に移し」の部分を、hg clone . ssh://サーバー/hoge みたいな方法で行うと最初から null になりますね。あるいはサーバー上で init した後そこに push するとか。Git だと clone で「リモートに複製」ができないので後者しかない。
  • すずきさん(2013/10/03 21:26)
    >hdk さん
    はい、ローカルに push でも OK だと思います。
    ローカルでリポジトリ複製する場合は、clone -U で作業ディレクトリを無視して clone してくれます。
    clone し忘れて cp や rsync でコピーしてしまったら update -C null の出番です。
open/close この記事にコメントする



2013年10月1日

JetBrains PyCharm 3.0リリース

目次: Python

PyCharmがメジャーアップデートされ PyCharm 3 がリリースされました。

特筆すべきはIntelliJ IDEAに続き、PyCharmにもCommunity Editionが追加されたことです。つまり基本的な機能は「タダ」で使えるということです。ただ個人的にはショックでした…。

なぜならこのあいだ(2013年8月7日の日記参照)一念発起してPersonal Editionのライセンスを購入したばかりだからです。まさかこのタイミングでCommunity Editionがリリースされるとは、なんと間の悪い…。

編集者:すずき(2024/11/15 23:21)

コメント一覧

  • コメントはありません。
open/close この記事にコメントする



link もっと前
2013年10月5日 >>> 2013年9月22日
link もっと後

管理用メニュー

link 記事を新規作成

<2013>
<<<10>>>
--12345
6789101112
13141516171819
20212223242526
2728293031--

最近のコメント5件

  • link 26年1月23日
    すずきさん (01/29 09:48)
    「おおー、そんな昔からなんですね。歴史感じ...」
  • link 26年1月23日
    hdkさん (01/27 19:53)
    「#! はUNIX v8からだったってWi...」
  • link 24年12月9日
    すずきさん (01/18 15:45)
    「Thank you for your i...」
  • link 24年12月9日
    Up2Uさん (01/15 12:57)
    「Hi I also find the p...」
  • link 25年12月18日
    すずきさん (12/23 23:51)
    「良く見たらksys_read()でfil...」

最近の記事20件

  • link 23年5月15日
    すずき (02/02 23:17)
    「[車 - まとめリンク] 目次: 車三菱 FTO GPX '95の話。群馬県へのドライブ1群馬県へのドライブ2将来車を買い替え...」
  • link 26年2月1日
    すずき (02/02 23:17)
    「[エンジン出力特性は三者三様] 目次: 車Automobile Catalogue(リンク)という素敵なサイトがありまして、各...」
  • link 21年5月7日
    すずき (02/02 19:31)
    「[LLVM - まとめリンク] 目次: LLVM一覧が欲しくなったので作りました。LLVMの本を買ったClangのmain関数...」
  • link 26年1月19日
    すずき (02/02 19:31)
    「[LLVMインストール] 目次: LLVMLLVMの公式サイト(リンク)にある手順そのものなんですけど、いつもググっていて面倒...」
  • link 23年4月10日
    すずき (02/02 19:23)
    「[Linux - まとめリンク] 目次: Linuxカーネル、ドライバ関連。Linux kernel 2.4 for ARMが...」
  • link 26年1月29日
    すずき (02/02 19:22)
    「[shebangの役割 - カーネル側] 目次: Linux前回(2026年1月23日の日記参照)はshebang(ファイル先...」
  • link 26年1月23日
    すずき (01/27 02:47)
    「[shebangの役割] 目次: Linuxスクリプトの先頭(例えばシェルスクリプトなど)に書く"#!〜"から始まるおまじない...」
  • link 26年1月21日
    すずき (01/22 02:55)
    「[日本のテレビメーカーの衰退] ソニーがテレビ事業を分離するニュース(ソニーはなぜ、テレビ事業を「分離」するのか - 中国TC...」
  • link 25年12月26日
    すずき (12/30 14:01)
    「[Linuxのjournal操作メモ] 目次: Linux最近のLinuxディストリビューションはsystemdを採用している...」
  • link 25年12月22日
    すずき (12/28 23:39)
    「[ゲームを買ったら遊びましょう3] 目次: ゲーム前回の振り返り(2024年10月20日の日記参照)から1年経ちました。所持し...」
  • link 21年12月28日
    すずき (12/25 00:40)
    「[ゲーム - まとめリンク] 目次: ゲームNintendo DSを買ったパネルでポンDS最近の朝はパネポンDS聖剣伝説DSチ...」
  • link 08年3月25日
    すずき (12/24 22:16)
    「[シムシティDS2クリア] 目次: ゲームシムシティDS2のチャレンジモード「現代 温暖化」編をクリアして、スタッフロールを拝...」
  • link 25年12月10日
    すずき (12/24 01:02)
    「[LinuxからBIOS/UEFIの設定を取得する] 目次: Linux設定によって何か動作を変えたい、PC再起動するのが嫌な...」
  • link 25年12月16日
    すずき (12/24 00:47)
    「[initramfsの更新方法] 目次: Linuxいつも忘れてググっている気がするのでメモしておきます。Linuxカーネルを...」
  • link 16年3月2日
    すずき (12/24 00:37)
    「[Device Treeの謎] 目次: LinuxDevice Treeを使ってARM Linuxを起動したとき、どうやってコ...」
  • link 25年12月19日
    すずき (12/21 00:11)
    「[preadとlseek + readは何が違う?] 目次: Linux前回(2025年12月18日の日記参照)はpreadと...」
  • link 25年12月8日
    すずき (12/20 21:48)
    「[LXPanelのボタン入れ替えが使えないときの直し方] 目次: LinuxLXDEにはLXPanelといってタスクバーやスタ...」
  • link 25年12月18日
    すずき (12/20 19:11)
    「[preadとlseek + readは違います] 目次: Linux知っている人には「なんだそんなことか」で終わりな話なんで...」
  • link 25年12月11日
    すずき (12/19 23:59)
    「[Ubuntuのカーネルパニック画面] 目次: LinuxUbuntu 24.04 LTSで起動中にカーネルパニックを起こすと...」
  • link 22年4月13日
    すずき (12/19 10:49)
    「[C言語とlibc - まとめリンク] 目次: C言語とlibcC言語について。C++言語もたまに。プログラムの落とし穴、演算...」
link もっとみる

こんてんつ

open/close wiki
open/close Linux JM
open/close Java API

過去の日記

open/close 2002年
open/close 2003年
open/close 2004年
open/close 2005年
open/close 2006年
open/close 2007年
open/close 2008年
open/close 2009年
open/close 2010年
open/close 2011年
open/close 2012年
open/close 2013年
open/close 2014年
open/close 2015年
open/close 2016年
open/close 2017年
open/close 2018年
open/close 2019年
open/close 2020年
open/close 2021年
open/close 2022年
open/close 2023年
open/close 2024年
open/close 2025年
open/close 2026年
open/close 過去日記について

その他の情報

open/close アクセス統計
open/close サーバ一覧
open/close サイトの情報

合計:  counter total
本日:  counter today

link About www.katsuster.net
RDFファイル RSS 1.0

最終更新: 02/02 23:17