[PC]DRAMは1GB・1年で1700回エラーが発生する?

Submitted byshin on土, 2009-11-21 22:07
たまたま読んだDRAM Errors in the Wild: A Large-Scale Field Studyというgoogleの論文によると、
consumer向けDIMMは、"25,000 to 70,000 errors per billion device hours
per MbitDRAM"の割合でエラーが発生するらしい。これ、1GB・1年で換算すると1750回の
エラーが発生するという意味

googleは検索エンジンで有名なんだけど、高性能なコンピュータでなくて、consumer向け(とは
言っても一般人が使うパソコンよりは上等なはず)パソコンの集合体をうまく使いこなすことで
安く高性能なデータベース処理が出来る、という逆転の発想で今の地位を築いたという所が好きで
検索エンジンもgoogleを使うとかちょっとだけgoogleファンだったりする(検索エンジンで自分の
サイトが上位に出てくるからっていう理由も大きいんだけど)。

で、この論文から派生していろいろ調べていたら、
最近 ベルギー作ったデータセンターの話の中で、ランニングコストの大部分を占める冷却装置
の電気代を下げる(とうか空冷設備を導入しない)為に、
  1. 気温が低いベルギーを選んだ
  2. 複数データセンターを用意して、片方の温度が上がったら、別のデータセンターに切り替える
  3. 更に、気温が低くて安い夜間電力を利用するために、世界規模で夜だけ稼動するデータセンター構想がある
とのこと。さすがgoogleは発想が違う!と、よりファンになってしまったのだ。

ちなみに、たまたま読んだ論文(DRAMのエラー頻度は温度依存性が少ない)や、 過去の論文(ハードディ
スクのエラー頻度は温度依存性が少ない)で、温度に対する綿密な調査をきちんと行っているのは
流石。

で、話を元にすと、①初期不良成分が大きい(論文データはしばらく不良が増えつづけている)んだけど、
普通メーカーは初期不良を下げた状態で出荷しているはずだし、
②そもそも不良率が高いんだけど、メモリ購入時にMEMTEST86で暫くバーンイン(時々ここで不良メモリ
が発覚する)すれば、その後、ほぼ永久に不具合が出ないという実体験と合わない(しかもこちらはECCなし)
論文をよく読むとエラーはDRAM単独ではなくて、DRAM~ボード~チップセット内のECC処理部の間
で発生した物全てをカウントしている雰囲気で、googleはメーカーが想定していない環境
(例えば、C/Pをあげる為にクロックアップして使っているとか)で使っているんじゃないかと
思ったりもするり(そう考えると合点が行く)。