mastodon.cardina1.red は、数々の独立したMastodonサーバーのうちのひとつです。サーバーに登録してFediverseのコミュニティに加わってみませんか。

サーバーの情報

3
人のアクティブユーザー

kernel cmdline で radeon.modeset=0 したら普通に X 起動したんだが……えぇ……

なおマウスカーソルが表示されていない (なぜ???)

は? modeset=0 しても X 起動しなくなりやがった。じゃあ今までのは何だったんだよorz

カーネルの怪しさを疑って gcc のリビルドしたら gcc がクラッシュするわカーネルがクラッシュするわで大惨事。システムのバイナリ全部腐ってる可能性を考えて SystemRescue CD を使って chroot 環境で gcc ビルドしたら、これまたやっぱり kernel panic。
もう疑うべきところがひとつしかない……

電源とグラボを同時に交換したので、まずはグラボ抜いて様子見かな……

グラボ抜き。なるほどね (なるほどね)

状況:
Radeon RX 7900 XT を挿すとメモリテストが失敗するし当然システムも不安定になる。
7900XT を抜くと成功する。
GeForce GTX 1660 を使っていた頃も安定していたのでおそらく 7900XT の問題。

電源は私も気にしていたところなので、 1200W にしてある。
Ryzen 9 7950X が TDP 170W らしいので、多めに見積もって300W。 Radeon RX 7950 XT は TBP 315W らしいので、 OC モデルであることも考慮して 350W。合わせて650を倍にすると1100なので、 1200W 電源で十分なはず。

ま、まあ CPU が 250W に収まってくれればおkです (白目)

TDP 170W は socket power でいうと 250W くらいらしいので、ギリ 1200 で足りてほしい……

いや、だってクラッシュしたりメモリテスト失敗したときはグラボに負荷かけてないんですよ……

3回装着して3回ともとなると、少なくとも設置行為の問題ではなく配線そのものか電源か GPU のハードか UEFI かみたいな話になってくるな

750W 電源を試してみるか。 memtest 程度なら GPU 負荷かからないし大丈夫でしょ

memtest86+ 自体が固まってしまい、泣いています (エラー数ェ……)

グラボ挿したまま 750W 電源でもう1周回そうとしてみたら、なんだかいけてしまいそうな雰囲気あるな。
もしかして test2 だけの問題なのか?

通っちまった……
再現条件わからんなぁ

と思ったらやっぱり Test #2 特攻だったわ

そして Test #2 だけ繰り返したら140%で固まった……電源は関係なしかな。

memtest86+ が FAIL してないと思ったらフリーズしてるの、やめてくれ

らりお・ザ・何らかの🈗然㊌ソムリエ

しかし memtest86+ 自体が固まるってのは何だ? memtest86+ 本体がおいてあるメモリ領域でアカンことが起きてるってこと?

Re-Size BAR 無効化してもなおる様子はない

CPU Sequencing Mode を Parallel から Sequential にしてみたが、やはり Test #2 は通らない

Round Robin で実行すると何故かエラー出ない

dGPU 挿した状態で iGPU 使ってみたらどうかと思ったが、これも駄目

Precision Boost Overdrive を Auto から Disabled にして iGPU 出力で試してみた。やはり駄目。

GPU の電源ピンを2つとも抜いて M/B に挿してあるだけの状態にしたら、なんと Test #2 で fail しなくなった。
(PBO は disabled のまま)

電源ピンひとつだけ挿した状態だと駄目。

コネクタ全挿し、 PBO disabled、 Above 4G Decoding disabled, Re-Size BAR disabled

M/B も GPU も GIGABYTE だし CPU も GPU も AMD の現世代なので、相性問題とかではない気はするんだよなぁ。メモリが相性悪いか、電源が 1200W では足りてないか、GPU のハードウェア不良か。はてさて。

いや待ってくれ、じゃあ今まで動いていた環境は何だったんだ???
(PBO, Above 4G Decoding, Re-Size BAR すべて disabled で GTX 1660 を繋いだ状態のテスト)

GTX 1660 で CMOS クリアして再テスト。あれぇ?

これってつまり、UEFI の設定が腐っていて、しかも「Load Optimized Defaults」でそれが解消されてなかったってこと……こわ

CMOS クリアからの Load Optimized Defaults して設定変更なしの状態で RX 7900 XT。
エラーレートは格段に下がったが、やはり Test #2 を繰り返すと fail する。

これは……うーん。
物理今日の退勤後にメモリのタイミングか電圧あたりを弄ってみて、それで駄目そうなら GIGABYTE とかに連絡か? (M/B と Radeon 両方とも GIGABYTE なので)

メモリタイミングが Auto だと 40-40-40-77 (CAS Latency, tRCD, tRP, tRAS) だったところを 42-42-42-80 にしてみたが、駄目

44-44-44-84 でも駄目。電圧弄るか……

Load Optimized Defaults 後、
Power Down Enable: Auto→Disabled
System Memory Multiplier: Auto(48.00)→44.00

メモリ 3.14 GB しか認識されてなくて草
なんもわからん

CMOS クリアして Power Down Enable: Auto→Disabled 後、 RX7900XT の OC スイッチを Silent 側に切り替えた。やはり駄目。