Show more

ASCIIはどんな場面でも、技術的制約がありそれしか使用できない場面を含めてもゴミと言ってるのと変わらない><

交換性のない規格、単なる内部実装の仕様に過ぎなそう

気持ちはわかるけど、それ誰も使わない規格とか組み込みでしか使われない (データ交換を想定しない) 規格になりそう

局所的にはそれでも実用可能だろうけど、交換性を失ったテキストデータなんて実質ゴミでは

たとえば人名に使われる漢字が表現できなくて外字領域でユーザ各々が互換性のないコードポイントを割り当てる、みたいなのが私は大嫌いなので

文字コード規格、固定すると間違いなく漏れが出るし、その漏れに該当するケースで悲しむことになるので、私は fixed であることよりも網羅性の方を重要視している (前提として、網羅するにしても正しいモデル化をしてほしいというのはあるけど)

オレンジが言ってる用途的には進化させる必要ないし、むしろ進化させたら互換性が壊れるというか存在意義のある「サブセット規格」じゃない><

大昔の日本のPCで言うと、技術的制限でJIS第一水準のみ対応とか普通にあったじゃん?><
「第二水準の字を使いたいのに」に対して「あ?>< メモリ足りないから無理っていってるじゃん?><# 日本語対応ごとやめるか?><# 」
の文脈のJIS第一水準みたいな、フルセットは技術的に無理っぽいのでサブセット規格って必要かもって><
(じゃないと『フルセット規格』を各々勝手にサブセットにしたやつだらけになって、バラバラで互換性がない=規格では無いになる><)

まあ現代の言語なら文字列をバイト列から自力で構築することなんてそうそうないでしょ

あ、あんまり関係ないけどUTF-8のデコードを自分で組むのは悪意のあるUTF-8シーケンスに対して脆弱になりうるのでやめようね!

本質的に「進化し続ける規格に固定長は無理」というのと「文字は人間の文化の表現でありしかも網羅が難しい」というのが相まって、文字符号化集合を固定長でなんとかしようという考え自体に無理があるとさえ思われる

可変長が辛いのはx86のデコードで学んだでしょ!

たとえば UTF-8 を外部表現に使って UTF-32 を内部表現に使うみたいなのは一例

どちらかというと、テキストのシリアライズのフォーマットとしての符号化形式とは別で「高速処理可能な内部表現/アルゴリズム」が普及してほしいという気持ちがある

可変長文字コードはいいんだけどCPUで高速に扱えてほしい

Show more

らりお・ザ・何らかの🈗然㊌ソムリエ's choices:

Mastodon

らりお (@lo48576) の個人インスタンス。 気紛れで master に追従する。 らりおの発言は、引用などを除き、明記なき限り CC-BY 4.0 ライセンスで提供される。