利用者:MihailJP/ソート順に関するメモ

記事名のソート順に関するメモ

編集

注意:このページには私論が含まれています。

基本

編集

基本的にUnicode順なのだが、特殊なソート順が必要な言語もある。

  • 基本的には{{DEFAULTSORT:アクセントなし アクセントあり}}で全部小文字で入れることになっているらしい。
    • ドイツ語はウムラウトがあってもソート順には影響しないためこの方法で大丈夫。ßはssに直すといいだろう。
    • フランス語、イタリア語はアクサンがあってもなくてもソート順は変わらないのでこれで大丈夫。仏語の場合、œはoeに直すといいだろう。
    • アイルランド語もこの方法で大丈夫。

困るのは、通常文字と特殊文字を別の文字として、しかもその順番がUnicode順になっていないような場合。

ラテン文字

編集
  • エスペラントでは、現在一般的な並べ方ではĉĝĥĵŝŭはそれぞれcghjsuのあとに来ることになっているのだが、ガイドラインに従うとstelaŝtelisteloの順になる。ただ、これはUniversala Vortaro (Fundamento de Esperantoの中にある)で使われていた方法なので問題なかろう。
  • スペイン語の場合はñの扱いが困る。
  • チェコ語ではchがhのあとに来ることになっているのだが技術的に無理。
  • タガログ語のアバカダはどうしよう…(KがCの位置に来る)

キリル文字

編集
  • ガイドラインどおりやって特に問題なく並ぶのはロシア語とブルガリア語ぐらい。(Unicodeの)歴史的な事情でそれ以外の言語はうまくいかない。

アラビア文字

編集
  • ガイドラインどおりでうまくいくのはアラビア語のみ。ペルシア語ですらうまく並びません。
  • ペルシア語とアラビア語ではهوの順番が逆。
  • シンド語ではペルシア語やウルドゥー語と違ってپثのあとに来る(ペルシア語ではبのあとに来る)。

デーヴァナーガリー

編集
  • ガイドラインどおりで基本的に大丈夫ですが、サンスクリットだけ一部正しくソートされません(が、めったに使われない文字なので大した問題にはならないでしょう)。
  • 下に点の付いた文字は点のない文字に変えましょう。(たとえばड़と同一視することになっている)

アッサム文字

編集
  • ベンガル文字と同じコードですが、で問題が出ます。前者はベンガル語のもので置き換えればいいでしょうが、後者は割り当てのないコードを使うことになります。

グルムキー文字

編集
  • 正しい並び方では...なのですが、Unicode配列の元となったISCIIがデーヴァナーガリーに準拠していたため正しく並べ替えるのは無理です。

タミル文字

編集
  • 本来は...なのですが、グルムキー文字と同じ理由で正しく並べ替えられません。

タイ文字

編集
  • 文字列がほかのインド系文字と違って視覚順なのでなどで問題を生じます。

ラオ文字

編集
  • タイ文字と同様の問題があります。

チベット文字

編集
  • チベット語の辞書は基字を基準に並ぶので前置字や有冠字などで工夫が必要です。

ハングル

編集
  • 何もしなくても正しくソート・表示されるような仕様になっています(ただし大韓民国の辞書順)。

結論(には全然なっていない)

編集
  • MediaWikiにカテゴリページごとに並べ替えのロケールを設定できる機能が欲しいところです。