[PC]DRAMは1GB・1年で1700回エラーが発生する？

Submitted byshin on土, 2009-11-21 22:07

たまたま読んだDRAM Errors in the Wild: A Large-Scale Field Studyというgoogleの論文によると、
consumer向けDIMMは、"25,000 to 70,000 errors per billion device hours
per MbitDRAM"の割合でエラーが発生するらしい。これ、1GB・1年で換算すると1750回の
エラーが発生するという意味

googleは検索エンジンで有名なんだけど、高性能なコンピュータでなくて、consumer向け(とは
言っても一般人が使うパソコンよりは上等なはず)パソコンの集合体をうまく使いこなすことで
安く高性能なデータベース処理が出来る、という逆転の発想で今の地位を築いたという所が好きで
検索エンジンもgoogleを使うとかちょっとだけgoogleファンだったりする(検索エンジンで自分の
サイトが上位に出てくるからっていう理由も大きいんだけど)。

で、この論文から派生していろいろ調べていたら、
最近ベルギー作ったデータセンターの話の中で、ランニングコストの大部分を占める冷却装置
の電気代を下げる(とうか空冷設備を導入しない)為に、

気温が低いベルギーを選んだ
複数データセンターを用意して、片方の温度が上がったら、別のデータセンターに切り替える
更に、気温が低くて安い夜間電力を利用するために、世界規模で夜だけ稼動するデータセンター構想がある

とのこと。さすがgoogleは発想が違う！と、よりファンになってしまったのだ。

ちなみに、たまたま読んだ論文(DRAMのエラー頻度は温度依存性が少ない)や、過去の論文(ハードディ
スクのエラー頻度は温度依存性が少ない)で、温度に対する綿密な調査をきちんと行っているのは
流石。

で、話を元にすと、①初期不良成分が大きい(論文データはしばらく不良が増えつづけている)んだけど、
普通メーカーは初期不良を下げた状態で出荷しているはずだし、
②そもそも不良率が高いんだけど、メモリ購入時にMEMTEST86で暫くバーンイン(時々ここで不良メモリ
が発覚する)すれば、その後、ほぼ永久に不具合が出ないという実体験と合わない(しかもこちらはECCなし)
論文をよく読むとエラーはDRAM単独ではなくて、DRAM～ボード～チップセット内のECC処理部の間
で発生した物全てをカウントしている雰囲気で、googleはメーカーが想定していない環境
(例えば、C/Pをあげる為にクロックアップして使っているとか)で使っているんじゃないかと
思ったりもするり(そう考えると合点が行く)。

コメントを追加

ぼちぼちいきましょ (カヤックとか車とか‥)

最近のコンテンツ

最近のコメント

Syndicate (sitemap)

[PC]DRAMは1GB・1年で1700回エラーが発生する？

検索フォーム

最近のコンテンツ

最近のコメント

Syndicate (sitemap)