1月中旬のITC-LMS約38時間停止、クラウドサービス故障と情報消失の事態把握などが原因

東大情報基盤センターは、1月12日深夜〜14日午後1時に発生したITC-LMS(学習管理システム)のサービス停止の詳細について、東京大学新聞社の取材に答えた。約38時間の停止のうち、初めの約21時間はITC-LMSを運用するクラウドサービスの故障が原因だったが、残る約17時間はそれに起因する設定情報の消失などの事態の把握と問題解消に要したことを明かした。ITC-LMSに代わり4月から本格運用されるUTOLでは、障害の発生の可能性が抑えられる見込みであることも示した。

クラウドサービスの故障は12日の午後11時20分に発生(表)。東大の担当者は故障に伴うITC-LMSのサービス停止を翌朝に把握し、利用者へ連絡したり、ITC-LMSを構成するサーバーなどの状況を確認したりした。13日の午後8時過ぎにはクラウドサービスの故障が復旧した連絡があったが、故障に伴い再設定・手動での再起動などが必要な箇所が生じていたため、自動的にはITC-LMSのサービスが復旧しなかった。特にロードバランサー(サーバーの負担分担装置)の設定情報の消失を発見したのは14日の昼になった。これの再設定によりITC-LMSのサービスが13時ごろに再開した。情報基盤センターがクラウドサービス運営業者から連絡されている内容によると、クラウドサービスの故障の大元の原因は電源関係の機器の故障だという。

新たに用いられるUTOLでは、一つのデータセンター全体が機能停止になったとしても耐えられる設計に変わる。そのため、特定のデータセンター内に設置された機器の故障を原因とする障害の可能性は低下する予想だという。他にも、システム全体に占めるクラウドサービス運営業者が管理するサービスの割合の増加や、障害から復旧した際の自動起動の設計により、障害発生の確率低下や復旧に必要な時間の短縮を期待しているという。

ITC-LMSは、現状の管理体制下で可能な限りでのサービス提供を目指す「ベスト・エフォート型」で運用されている。今回の復旧に至るまでの東大側の対応について担当者は、休日中のサービス停止だったことを踏まえ「ユーザの満足度は低いであろうと考えていますが,現在の人員や予算の範囲でできることはやったと評価しています」とコメントした。

サービス停止は、大学の試験などがある学期末の期間に発生。東大教養学部学生自治会が行った調査(回答者425人)によると、回答があった1、2年生に関わる科目の約8割で「講義資料が閲覧できなかったため, 試験勉強に影響が出た」という。期限内にレポート等の課題が出せなかった人もいたと見られる。同自治会が学部に要望して得たという説明によれば、情報基盤センターから、教養学部教務課経由で、各教員に対し、レポートや期末試験に関する「配慮のお願い」の周知があったとみられる。

The post 1月中旬のITC-LMS約38時間停止、クラウドサービス故障と情報消失の事態把握などが原因 first appeared on 東大新聞オンライン.

© 公益財団法人東京大学新聞社