MANUAL DO OPERADOR
/help
Guia operacional do CloudBot Dashboard para rotina, monitoramento e resposta segura.
Sem filtro ativo. Exibindo conteúdo completo.
Introdução
Escopo do console e princípios de operação segura.
- O CloudBot Dashboard é a camada visual de comando: monitora saúde, ingestão, providers e eventos críticos.
- Objetivo operacional: detectar desvio cedo, conter impacto e restaurar estabilidade com rastreabilidade.
- Padrão recomendado: observar tendência antes de agir; evitar mudanças simultâneas sem hipótese clara.
- Toda ação relevante deve gerar nota de operação (o que mudou, por quê, quando e resultado).
Operação diária
Ritual de abertura, acompanhamento contínuo e fechamento.
- Abertura de turno: validar versão exibida, disponibilidade do dashboard e atualização de dados dos últimos minutos.
- Monitoramento contínuo: acompanhar indicadores de erro, picos de latência e sinais de fallback/circuit breaker.
- Checklist por hora: confirmar heartbeat de entrada/saída no plano WhatsApp e freshness da ingestão.
- Fechamento: registrar incidentes, mitigação aplicada, pendências abertas e próximos riscos conhecidos.
Incidentes
Resposta estruturada para degradação parcial ou indisponibilidade.
- Classificar impacto rapidamente: visual apenas, dados stale, perda de automação ou falha total de controle.
- Se houver efeito em produção, ativar SAFE MODE para reduzir exposição antes de executar correções.
- Mitigar em passos pequenos: uma alteração por vez, com observação entre cada passo para evitar cascata.
- Escalonar quando: sem melhora após duas tentativas controladas, erro sistêmico recorrente, ou risco a atendimento.
- Encerrar incidente apenas com indicador estabilizado e ausência de regressão por janela mínima acordada.
FAQ rápido
Dúvidas operacionais recorrentes com resposta direta.
- Health Score caiu sem outage aparente: verificar penalidades recentes e eventos de fallback silencioso.
- Provider em warning com sucesso parcial: observar error rate e latência antes de trocar manualmente.
- Ingestão atrasada: confirmar worker ativo, fila de eventos e timestamp da última coleta válida.
- SAFE MODE ligado: registrar motivo, janela de uso e critério explícito para desativação segura.
Playbooks rápidos (accordion)
Expanda cada cenário para executar a sequência sugerida.
Health Score degradou: o que fazer primeiro?
- Verifique se a queda veio de penalidade real (erro, timeout, ingestão stale) ou de ruído pontual.
- Cruze com os cartões de OpenClaw Health e WhatsApp Plane para localizar o domínio da falha.
- Se houver impacto ao usuário, aplicar contenção inicial antes de ajustes profundos.
Provider com erro alto e fallback ativo
- Confirmar se o fallback está mantendo taxa de sucesso aceitável.
- Evitar troca manual imediata sem evidência; priorizar análise de tendência nos últimos minutos.
- Se houver degradação contínua, escalar com resumo objetivo: sintoma, janela e impacto observado.
Ingestão atrasada ou congelada
- Comparar timestamp da última coleta com janela esperada de atualização.
- Validar worker e fila de eventos antes de reinícios ou mudanças estruturais.
- Registrar horário de normalização para pós-incidente e prevenção.