【freee×プレイド】Tech Meetup 〜インフラ監視編〜に行ってきた #plaidtech

【freee×プレイド】Tech Meetup 〜インフラ監視編〜に行ってきました。昨日はSpeeeで今日はfreeeです。同日開催だった Kubernetes Meetup Tokyo #3 にも関心があったのだけど、今回はこっちにした。以下Twitterへの投稿の羅列です。

いろいろなサービスを使っていて、それぞれの守備範囲をカバーし合うように活用しているらしい。MONyogというMySQL監視が気になる #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

アラート、GitHubなどの障害情報、パフォーマンスサマリ、コストなど全て1箇所に集約する。大事 #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

障害を前提とする。意図的に障害を起こして、それに耐えられるように作る #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

マルチプラットフォーム。AWSとGCPを使っている。それぞれでインスタンスが動いているので、比較したい。プラットフォーム依存のコードを書かないようにしたい。Integrationが豊富なDataDogを使用。 #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

ダッシュボードの作成。問題発生時にドリルダウンして調査できるようにレイヤーを分ける。これは便利そうだ。いい視点を得ることができた！ #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

ハートランドいただきました。美味しいです? #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

そのアラートは本当に必要なのか、それは本当に障害なのかを考える #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

負荷低すぎ=障害と考える場合、適切な負荷ってどうやって算出するのかな #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

サービスによって特性違うのでは。手探りでいろいろやってみる。自分のクレジットカードで払うならどうか考える。なるほど〜 #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

インフラエンジニアだけどアプリのコード書いてPR出す。めちゃいいですね！！ #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

Grafana-Zabbixかっこよかった。 #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

「コレ何？って聞かれたらプロメテウスです」って答えてるんですけど #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

データは取れるだけとって、必要な時に可視化する。Prometheusは標準で600項目を15秒おきに取得する。普段から見るもの、障害時にのみ見るものを分けて前者をきっちりやる。 #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

グラフを書くときは必要な情報が取得できるようにする。そういうものだけグラフにする。 #plaidtech

— アルパカ (@r_takaishi) 2017年1月19日

ダッシュボードをもっと活用したいので、そちらの話が聞けたのが一番よかった。