[迷信] 'A'~'Z' の値は連続している

今回はソースコードから見ていくことにしましょう。

int ch = getchar();
if ('A' <= ch && ch <= 'Z')
{
  putchar(ch - 'A' + 'a');
}

やろうとしていることは簡単です。標準入力から 1 文字読み込み、アルファベットの大文字であれば小文字に変換して標準出力に書き込んでいます。

ここで、アルファベットの大文字かどうかの判別には isupper を使うべきだと主張する方がおられるかもしれませんが、その主張は必ずしも正しくありません。なぜなら、isupper の挙動はその時点で設定されているロケールに依存するからです。確実に、'A'~'Z' の範囲に収まっているかどうかを判定するには、やはり自前で処理を書かなければなりません。

というわけで、isupper ではなく、自前で判定を行っていること自体は間違いではないわけですが、問題はその判定方法にあります。ASCII や ASCII と(ほぼ)互換性のある文字コードの場合、多バイト文字さえ考慮しなければ上のコードでも問題ありません。しかし、このコードには少なくとも移植性がありません。標準 C/C++ の規格では、アルファベットの文字コードが連続していることが保証されていないからです。

アルファベットの文字コードが連続していない典型的な実例は EBCDIC です。メインフレーム等で使用される文字コードですが、文字コードの配置を見ると、'A'~'I', 'J'~'R', 'S'~'Z' の 3 つに分かれてしまっています。これでは、'A' <= ch && ch <= 'Z' の条件式ではアルファベットの大文字以外に対しても真になってしまいます。

なお、本来の EBCDIC ではアルファベットの小文字を扱うことができませんが、通常、小文字を扱えるように拡張が行われています。アルファベットの小文字は基本実行文字集合ですので、C/C++ の規格合致処理系では使えることを保証しなければなりません。幸いにして、EBCDIC の小文字を扱うための拡張では、大文字の文字コードから 0x40 を引けば小文字になります。しかし、大文字から一定の値を引けば対応する小文字になるかどうかも、C/C++ の規格上は保証されていないのです。

一方で、数字、すなわち '0'~'9' の文字コードが連続していることは、C/C++ の規格で保証されています。そのため、アルファベットに比べれば、数字はずっと扱いやすいのです。

現実の問題として、ASCII 系の文字コードを用いる処理系と、EBCDIC 等の非 ASCII 系の文字コードを用いる処理系の間で、移植性が要求されるケースは非常に稀です。ですから、アルファベットの連続性が必ずしも保証されないことを理解しておくことは重要ですが、実際のコーディングでは、対象とする処理系が ASCII 系の文字コードであると仮定できるのであれば、その旨を明記した上で、アルファベットの連続性を期待しても差し支えないでしょう。