たまたま読んだDRAM Errors in the Wild: A Large-Scale Field Studyというgoogleの論文によると、
consumer向けDIMMは、"25,000 to 70,000 errors per billion device hours
per MbitDRAM"の割合でエラーが発生するらしい。これ、1GB・1年で換算すると1750回の
エラーが発生するという意味
googleは検索エンジンで有名なんだけど、高性能なコンピュータでなくて、consumer向け(とは
言っても一般人が使うパソコンよりは上等なはず)パソコンの集合体をうまく使いこなすことで
安く高性能なデータベース処理が出来る、という逆転の発想で今の地位を築いたという所が好きで
検索エンジンもgoogleを使うとかちょっとだけgoogleファンだったりする(検索エンジンで自分の
サイトが上位に出てくるからっていう理由も大きいんだけど)。
で、この論文から派生していろいろ調べていたら、
最近 ベルギー作ったデータセンターの話の中で、ランニングコストの大部分を占める冷却装置
の電気代を下げる(とうか空冷設備を導入しない)為に、
ちなみに、たまたま読んだ論文(DRAMのエラー頻度は温度依存性が少ない)や、 過去の論文(ハードディ
スクのエラー頻度は温度依存性が少ない)で、温度に対する綿密な調査をきちんと行っているのは
流石。
で、話を元にすと、①初期不良成分が大きい(論文データはしばらく不良が増えつづけている)んだけど、
普通メーカーは初期不良を下げた状態で出荷しているはずだし、
②そもそも不良率が高いんだけど、メモリ購入時にMEMTEST86で暫くバーンイン(時々ここで不良メモリ
が発覚する)すれば、その後、ほぼ永久に不具合が出ないという実体験と合わない(しかもこちらはECCなし)
論文をよく読むとエラーはDRAM単独ではなくて、DRAM~ボード~チップセット内のECC処理部の間
で発生した物全てをカウントしている雰囲気で、googleはメーカーが想定していない環境
(例えば、C/Pをあげる為にクロックアップして使っているとか)で使っているんじゃないかと
思ったりもするり(そう考えると合点が行く)。
consumer向けDIMMは、"25,000 to 70,000 errors per billion device hours
per MbitDRAM"の割合でエラーが発生するらしい。これ、1GB・1年で換算すると1750回の
エラーが発生するという意味
googleは検索エンジンで有名なんだけど、高性能なコンピュータでなくて、consumer向け(とは
言っても一般人が使うパソコンよりは上等なはず)パソコンの集合体をうまく使いこなすことで
安く高性能なデータベース処理が出来る、という逆転の発想で今の地位を築いたという所が好きで
検索エンジンもgoogleを使うとかちょっとだけgoogleファンだったりする(検索エンジンで自分の
サイトが上位に出てくるからっていう理由も大きいんだけど)。
で、この論文から派生していろいろ調べていたら、
最近 ベルギー作ったデータセンターの話の中で、ランニングコストの大部分を占める冷却装置
の電気代を下げる(とうか空冷設備を導入しない)為に、
- 気温が低いベルギーを選んだ
- 複数データセンターを用意して、片方の温度が上がったら、別のデータセンターに切り替える
- 更に、気温が低くて安い夜間電力を利用するために、世界規模で夜だけ稼動するデータセンター構想がある
ちなみに、たまたま読んだ論文(DRAMのエラー頻度は温度依存性が少ない)や、 過去の論文(ハードディ
スクのエラー頻度は温度依存性が少ない)で、温度に対する綿密な調査をきちんと行っているのは
流石。
で、話を元にすと、①初期不良成分が大きい(論文データはしばらく不良が増えつづけている)んだけど、
普通メーカーは初期不良を下げた状態で出荷しているはずだし、
②そもそも不良率が高いんだけど、メモリ購入時にMEMTEST86で暫くバーンイン(時々ここで不良メモリ
が発覚する)すれば、その後、ほぼ永久に不具合が出ないという実体験と合わない(しかもこちらはECCなし)
論文をよく読むとエラーはDRAM単独ではなくて、DRAM~ボード~チップセット内のECC処理部の間
で発生した物全てをカウントしている雰囲気で、googleはメーカーが想定していない環境
(例えば、C/Pをあげる為にクロックアップして使っているとか)で使っているんじゃないかと
思ったりもするり(そう考えると合点が行く)。
最近のコメント
…