Организатор
			Организую Складчины
			Команда форума
		- Сообщения
 - 620 919
 
- Реакции
 - 13 724
 
- Монеты
 - 325
 
- Оплачено
 - 1
 
- Ссылка на картинку
 
Этот воркшоп для вас, если:
День 1. Основы мониторинга
Поговорим о том, зачем нужен мониторинг, на какие метрики надо смотреть, чтобы быть уверенными, что приложение работает. Разберём, что такое «золотые сигналы». Заведём в рельсовое приложение мониторинг с помощью Прометеуса, Графаны и Ябеды.
Результат:
Посмотрим на систему, которую собрали на первом дне воркшопа. Сравним системы сбора метрик и дэшбодров между собой — беплатные, платные, облачные и т.д.
Разберёмся, почему дэшбордов недостаточно для полноценного мониторинга приложений. Алерты — по каким метрикам настраивать, какие пороги выбирать, как обрабатывать. Алерты предвосхищающие проблемы — z-index и Нострадамус.
Трассировка запросов — зачем нужна, какие инструменты использовать, хорошие практики для построения систем.
Результат:
Пройдемся от алертов к причинам их возникновения — инцидентам. Ответим на вопросы: что считать инцидентом? Что делать, чтобы их было меньше? Обсудим регламенты работы, подсказки для сложных ситуаций, дежурства, разборы причин и планирование улучшений.
Поговорим об SLI, SLO, SLA и подходах, которые помогут вам договориться с бизнесом о том, что значит «стабильное приложение» и сколько это будет стоить.
Затронем нагрузочное тестирование приложения. Что такое хаос тесты и когда они вам могут пригодится? Сделаем обзор практик по хаос-инжинирингу.
Результат:
						- дошли до уровня, когда уже задумываетесь о работе всего приложения, а не только делаете отдельные задачи
 - в проекте нет системного мониторинга и алертинга
 - порой приходится что-то чинить на проде и долго разбираться с причинами проблем
 - планируете рост нагрузки на приложение
 - хотите сделать мониторинг был действительно полезным и эффективным, а не набором красивых данных, в которые никто не смотрит
 - с приложением всё здорово, но хочется быть уверенным в том, что это будет продолжаться и дальше
 
День 1. Основы мониторинга
Поговорим о том, зачем нужен мониторинг, на какие метрики надо смотреть, чтобы быть уверенными, что приложение работает. Разберём, что такое «золотые сигналы». Заведём в рельсовое приложение мониторинг с помощью Прометеуса, Графаны и Ябеды.
Результат:
- Поймёте, зачем нужен мониторинг и как он помогает не только техническим специалистам, но и бизнесу.
 - Научитесь ориентироваться в метриках, на основе которых строится мониторинг — технические, инфраструктурные и бизнесовые метрики.
 - Соберёте связку Прометеус-Графана-приложение, чтобы добавить первые дэшборды в ваше приложение.
 
- Зачем нужно мониторить приложение?
 - Какие бывают мониторинги
 - На какие метрики смотреть?
 - Технические метрики (Latency, Traffic, Errors, Saturation)
 - Инфраструктурные метрики
 - Бизнесовые метрики
 
Посмотрим на систему, которую собрали на первом дне воркшопа. Сравним системы сбора метрик и дэшбодров между собой — беплатные, платные, облачные и т.д.
Разберёмся, почему дэшбордов недостаточно для полноценного мониторинга приложений. Алерты — по каким метрикам настраивать, какие пороги выбирать, как обрабатывать. Алерты предвосхищающие проблемы — z-index и Нострадамус.
Трассировка запросов — зачем нужна, какие инструменты использовать, хорошие практики для построения систем.
Результат:
- Разберётесь с множеством систем мониторинга и сможете выбрать наиболее подходящую
 - Научитесь настраивать алертинг - выставлять пороги срабатывания, поймёте, в каких случаях нужны ночные звонки, а в каких можно обойтись без них.
 - Поёмете, зачем нужна трассировка во взаимодействии между сервисами, как её организовать и как использовать при поиске проблем.
 
- Опенсорсные решения (Prometheus, Grafana, Grafana OnCall, Zabbix)
 - Коммерческие решения (Datadog, New Relic, Dynatrace, Okmeter)
 - Быстрый поиск проблем
 - Сквозная трассировка запросов (Jaeger, Zipkin)
 - Алертинг
 - Предсказание проблем
 
Пройдемся от алертов к причинам их возникновения — инцидентам. Ответим на вопросы: что считать инцидентом? Что делать, чтобы их было меньше? Обсудим регламенты работы, подсказки для сложных ситуаций, дежурства, разборы причин и планирование улучшений.
Поговорим об SLI, SLO, SLA и подходах, которые помогут вам договориться с бизнесом о том, что значит «стабильное приложение» и сколько это будет стоить.
Затронем нагрузочное тестирование приложения. Что такое хаос тесты и когда они вам могут пригодится? Сделаем обзор практик по хаос-инжинирингу.
Результат:
- Поймёте, как внедрить в компании процесс инцидент-менеджмента.
 - Узнаете, как договориться с бизнесом о приемлемых диапазонах простоя приложения.
 - Сможете убедить бизнес, что 100% работоспособности — это не то, чего он хочет.
 - Разберётесь, как подготовится к большим нагрузкам с помощью нагрузочного тестирования. И как протестировать систему на отказ с помощью хаос-тестов.
 
- Фазы работы над инцидентом
 - Роли участников процесса
 - Организация с точки зрения процесса и технической реализации
 - Метрики стабильности (SLI, SLO, SLA)
 - Нагрузочное тестирование
 - Хаос-тесты
 
- Систематизировать знания по мониторингу
Посмотреть на разные решения и практики по стабилизации приложений и подготовке к работе под нагрузкой - Поднять мониторинг на проекте с нуля
С чего начать и как рассказать бизнесу, что мониторинг — это обязательная часть работы системы - Сделать приложение более стабильным
Внедрить практики инцидент менеджмента — дежурства, регламенты, разборы. Быстро находить проблемы с помощью трассировки. - Получить набор инструментов под разные виды метрик
Разобраться какие бывают технические, инфраструктурные и бизнесовые метрики. Какие из метрик более приоритетные и с помощью каких технических решений их можно отслеживать. 
								Показать больше
					
			
			
						
							
								Зарегистрируйтесь
							
						, чтобы посмотреть авторский контент.