Square status - Japan

Squareデータへのログイン不具合について
Incident Report for Square Japan
Postmortem

概要

日本時間 2021年07月20日(火) 22:57 (同20日 13:57 UTC) より、Squareの認証サーバーでサービスの中断が起こり、Squareの提供するサービスへの影響が発生しました。この報告では、この障害の原因と障害の診断と解決に至った手順を記録し、今後このようなサービスの中断からお客さまを適切に守るための分析と対策を共有します。

タイムライン

22:57 パブリックAPIのエンドポイントの1つで平均よりも高いトラフィックを観測。このエンドポイントのレートリミッターは、このような影響を防ぐためのものだが、エンドポイントを経由するトラフィックの速度が期待通りに低下せず。この結果、認証サービスのパフォーマンスが低下。

22:59  2分後、エンジニアが認証サービスのパフォーマンス低下の警告を行い、トラブルシューティングを開始。

23:04 カスタマー対応チームが、ログインに失敗したり、アクティブなセッションが予期せず終了したりする現象の発生をエンジニアリングチームに報告。

23:28-23:40 パフォーマンスを向上させるため、複数のデータセンター間でトラフィックの手動での移動を行う。

23:42 エンジニアリングチームにより、認証サービスへの重要でないトラフィック源を無効にされる。

23:55 アクティブなセッションが予期せず終了しないようトラフィックの優先順位付けが行われる。

23:58 影響を受けたエンドポイントへのトラフィックが予想される平均レベルまで減少。

24:14 (21日 0:14) エンジニアにより認証サーバーの再起動が開始。

24:32 (21日 0:32) サーバー間のトラフィックのロードバランシングをデフォルトにリセットし、一時的なトラフィック制限をすべて解除。

24:33 (21日 0:33) 若干の遅延があるものの、認証サービスは通常のオペレーションに戻り、すべてのサービスが回復。

分析

この問題の根本的な原因は、レートリミッターの設定ミスにあると考えられます。問題発生時、Squareの認証サービスは、パブリックエンドポイントの1つに対して通常よりも著しく高いトラフィック要求を受けました。 このエンドポイントにはレートリミッターが存在していましたが、その設定が適切ではありませんでした。調査の結果、このトラフィックは悪意のあるものではなかったと判明しています。

この問題の解決後すぐに、エンジニアにより以下が行われました。

  1. サービス低下の原因となったトラフィックの急増の理由を特定・確認
  2. 影響を受けたエンドポイントと、不適切に設定されたレートリミッターを特定
  3. この種のトラフィックスパイクによるサービス低下を防ぐため、レートリミッターを適切に再設定する修正プログラムを実施

さらに、今回の問題を受けて、当社の認証サービスにも更なるレートリミッターによる保護を追加する予定です。 これにより、同様の障害の発生を防ぎます。また、Squareの成長に合わせてこれらのサービスを拡張し、将来的に高レベルのトラフィックが原因で障害が発生する可能性を低減するために、アーキテクチャの変更も行っています。

Posted Aug 06, 2021 - 13:08 JST

Resolved
本事象につきましては、問題の特定と安定化対策が完了し、解決いたしました。
現在、Squareのすべてのシステムは通常通りご利用いただけます。

加盟店の皆様には、ご迷惑をおかけし、誠に申し訳ございませんでした。
Posted Jul 21, 2021 - 04:20 JST
Investigating
現在、Squareデータへのログインに不具合が発生しております。
ご迷惑をおかけし、誠に申し訳ございません。

本事象については、現在原因調査中です。
調査が進み次第、情報を更新させていただきます。
重ねて、加盟店さまには大変ご迷惑をおかけし、心よりお詫び申し上げます。
Posted Jul 20, 2021 - 23:22 JST
This incident affected: POS レジアプリ (Point of Sale App), Square データ 管理画面 (Dashboard), and Square Webサイト.