Логи компонентов Хранилища телеметрии

Логи компонентов

Для решения проблемы передайте поддержке BI.ZONE логи компонентов Хранилища телеметрии

Envoy

journalctl -xeu envoy -f

Включение уровня логирования debug:

curl ‘http://localhost:9901/logging’ -d ‘paths=&level=debug’

Примечание: В этом режиме будут отображаться получаемые промежуточные токены JWT, а также запросы к JWKs серверу.

Возврат к стандартному режиму логирования:

curl ‘http://localhost:9901/logging’ -d ‘paths=&level=info’

ClickHouse

journalctl -xeu clickhouse -f

PostgreSQL

journalctl -xeu postrges -f

Apache Kafka

journalctl -xeu kafka-broker -f journalctl -xeu kafka-controller -f

ETL

docker service logs etl_etl -f

StorageControl

docker service logs storagecontrolbackend_storagecontrolbackend

При использовании миграций:

docker service logs storagecontrolbackend_storagecontrolbackend_migrations -f

BI front

docker service logs bifront_bifront -f

MinIO

journalctl - xeu minio -f

Дополнительно

Предоставьте дополнительную информацию по проблеме:

  1. С каким компонентом возникает проблема:

    • Укажите конкретный компонент: приложение, сервис, роль или связанная зависимость.

    • Если компонентов несколько, укажите их взаимодействие.

      Пример: Ошибка возникает в модуле авторизации API при попытке входа через внешнюю систему SSO.

  2. Описание ожидаемого поведения:

    • Подробно опишите, как должна работать система в нормальных условиях, и что вы наблюдаете вместо ожидаемого поведения.

      Пример: После входа через форму аутентификации пользователь должен быть перенаправлен на страницу профиля, а сессия должна быть создана.

  3. Дополнительно к описание:

    • Приложите скриншоты, текстовые логи или видеозаписи, если возможно.

    • Укажите точное сообщение об ошибке или статус кода (например, HTTP 500).

  4. Критичность по шкале (0 –10). Оцените, насколько сильно проблема влияет на бизнес-процессы, пользователей или стабильность системы:

    • 0-3: Низкий приоритет (незначительные ошибки, не влияющие на функциональность).

    • 4-7: Средний приоритет (ошибки, влияющие на работу, но с обходными путями).

    • 8-10: Высокий приоритет (критические ошибки, вызывающие простой системы).

  5. Конфигурационные файлы

    • Приложите конфигурационные файлы компонентов (приложения, сервисов, ролей), удалив:

      • Пароли.

      • Секретные ключи.

      • Токены и чувствительные данные.

    • Укажите, что было изменено в конфигурациях перед возникновением проблемы.

  6. Версия программного обеспечения: приложения или сервиса, операционной системы, библиотек, фреймворков и серверов (например, Nginx, PostgreSQL).

    Пример: Nginx v1.21.4, Python 3.9.7, Ubuntu 20.04.3.

  7. Укажите пошаговый сценарий для воспроизведения проблемы.Если проблема связана с сетью, укажите команды для воспроизведения (curl, wget, ping и т.д.).

  8. Укажите дату и время возникновения проблемы для анализа логов. Если возможно, приложите временные метки из логов.

  9. Проблема постоянна или периодична? Как часто возникает, при каких обстоятельствах (определенных действиях).

  10. Были ли изменения в системе перед возникновением проблемы:

    • Обновления программного обеспечения.

    • Изменения конфигураций.

    • Развертывание новых функций или сервисов.

  11. Укажите метрики системы на момент возникновения проблемы: загрузка CPU/RAM/диска, свободное место на дисках, нагрузка на сеть. По возможности приложите снимки мониторинга (например, Grafana, Prometheus).

  12. Укажите данные подключения: IP-адреса и порты, настройки фаерволла. Приложите трассировку (traceroute) или сетевые логи (tcpdump, netstat).

  13. Укажите, с какими внешними сервисами, библиотеками или API взаимодействует проблемный компонент. Укажите версии и настройки этих зависимостей.

  14. Что уже было сделано для диагностики или устранения:

    • Перезапуск системы.

    • Проверка конфигураций.

    • Временные фиксы.

  15. Укажите любую другую информацию, которая может быть полезной:

    • Уникальные условия среды (например, тестовая, продакшн).

    • Внешние факторы (например, сбой в датацентре).

    • Особенности настройки (например, специфические параметры для высокой нагрузки).