mastodon.cardina1.red は、数々の独立したMastodonサーバーのうちのひとつです。サーバーに登録してFediverseのコミュニティに加わってみませんか。

サーバーの情報

3
人のアクティブユーザー

らりお・ザ・何らかの🈗然㊌ソムリエ

Ryzen 7950X、発熱がすごいので電圧下げて節電すっか〜などといって Curve Optimizer を弄り始めたんですが、とりあえず二分探索の手始めに落ちるか見てみようと思って軽率に -30 とか -25 から下げて (上げて) いったら大変なことになってワロてました

具体的にどう大変なことになったかというと、まず起動完遂できない、緩めて起動してベンチマーク用に lapack とか openmpi をビルドしているとプロセスが illegal instruction とか general protection fault とかで死ぬ。で、やべえことに python が安定して死ぬようになってきたw

で、二分探索で何度もクラッシュとリセットを繰り返していると、今度は CO を緩めても python が安定して死ぬようになってきた。これが何を意味するかというと、念のため python や glibc をビルドし直そうと思っても portage (パッケージマネージャ) が死ぬということである。このときばかりは再インストールを覚悟した。

UEFI 設定をデフォルトに戻しても挙動が安定せず、結局どうしたかというと、電源抜いてコールドリセットかけて、 MAKEOPTS=-j1 で並列ビルドを無効にして負荷を最小限にしながら python, glibc, portage をリビルドして、やっとこさどうにかなったのでした。

ちなみに中間報告ですが、 all cores で -12 したら起動して1分もしないうちに kernel panic しました。堪え性のないコアがいるな……

all cores -9 が駄目で all cores -8 が大丈夫そう (gcc コンパイルできた) ということは、次は -9 や -10 で耐えられない貧弱なコアを炙り出す作業かね

32コアあるから、最初の1段階を絞り込むのに5回は再起動しないといけないな

ちがうわ、論理32コアなんだから物理16コアだよなw

結局 Curve Optimizer 弄り、心が折れて今 all cores の magnitude -6 でやってる。 GCC 12.2.0 のビルドが41回成功したのでまあ大丈夫でしょう

all cores -8 ベースで弄っていたんだけど、どうも all cores -7 にしても駄目だったっぽくて今までの苦労が全て無駄だったことが判明したのが今週のハイライト

magnitude -8 と -9 の混合で mprime を4時間と gcc ビルドが9回通った構成があったのでそれをベースにあれこれやっていたんだけど、 mprime の高負荷テストは失敗するところを見たことがないし、 gcc のビルド失敗もだいぶ再現性が低くて9回 (3時間) 程度では全然駄目だったらしい

41回は13時間強で、そのくらいしないと駄目だったようだ……
今は mprime -t を回していて12〜24時間動かしてみるつもりだけど、高負荷域ではそうそうクラッシュしなそうなんだよな。経験的には低〜中程度の負荷が一番不安定。

もちろん個体差は結構あるんだろうけど、-25 とか -15 でちゃんと動く個体があるというの、俄かには信じ難い。ゲームやってるくらいなら気にならないということなのかな……
ワイは恒常的にコンパイルしまくりなので狂ったバイナリでシステムが汚染されるのは割と致命傷になるし、その辺りは普通のユーザより神経質にならざるを得ない

mastodon.cardina1.red/@lo48576

python が狂ってパッケージマネージャが死ぬようになったときは流石にオワったかと思ったし

all cores -6 で26時間ほどテストを回しているが、エラーはなさそう