Kevin M. Sparenberg, gerente de produtos da SolarWinds
Como profissionais de tecnologia, vivemos em um mundo controlado por interrupções. Responder a incidentes faz parte do trabalho. Todas as outras obrigações são jogadas para escanteio quando um novo problema aparece. Ter as informações certas e entender o papel delas na organização são fatores fundamentais para processar os incidentes com velocidade e precisão. É por isso que é essencial ter a capacidade de comparar itens de uma mesma categoria quando o assunto é o superimportante processo de solução de problemas.
Qual é nosso trabalho como profissionais de Tecnologia da Informação (TI)? Basicamente, nosso trabalho é fornecer serviços aos usuários finais. Não importa se os usuários finais são funcionários, clientes, locais, remotos ou uma combinação dos fatores. Isso pode englobar tarefas simples, como garantir que um link de rede esteja sendo executado sem erros, que um servidor esteja online e respondendo bem, que um site esteja lidando adequadamente com solicitações ou que um banco de dados esteja processando transações corretamente. Mas é claro que para a maioria de nós nunca é uma única tarefa, mas sempre uma combinação delas. E considerando-se que 95% das organizações brasileiras reportaram que migraram aplicativos e infraestruturas de TI críticos para a nuvem no último ano, de acordo com o Relatório de tendências em TI da SolarWinds para 2017, a visibilidade em nossa infraestrutura está ficando cada vez mais complicada.
Que importância tem isso? Não é responsabilidade de cada responsável por aplicativos garantir que a parte do ambiente que pertence a ele esteja funcionando bem?
Sim e não. Em última análise, todos são responsáveis por garantir que os serviços necessários para o sucesso da organização sejam realizados. Reduzir o tempo médio até a resolução (MTTR) exige cooperação, não hostilidade. Colocar a culpa em uma única pessoa ou equipe levará invariavelmente a uma sala cheia de pessoas acusando umas às outras. Isso é contraproducente e, portanto, deve ser evitado. Há uma maneira melhor: prevenção por meio do monitoramento abrangente de TI.
Há soluções de monitoramento para todos os gostos. Além disso, elas se destinam a todo tipo de público-alvo. Podemos usar soluções específicas para fornecedores ou para camadas de infraestrutura. É possível que o administrador de armazenamento use uma solução, o administrador de servidores e virtualização use outra solução e a equipe responsável pelo desempenho do site use uma terceira solução. E obviamente nenhuma dessas ferramentas se aplica aos administradores de banco de dados.
Na melhor das hipóteses, o monitoramento de infraestrutura com sistemas diferentes pode ser confuso e, na pior das hipóteses, pode ser absolutamente perigoso. Podemos citar um exemplo simples: para a solução de monitoramento de rede, o tráfego de saída para um servidor ocorre a 50 megs/segundo, mas para a solução de monitoramento do servidor, o tráfego de entrada ocorre a 400 megs/segundo. Qual delas está certa? Talvez ambas, se elas querem dizer 50 Mbps e 400 Mbps. Esse é só o começo da confusão. O que acontece se sua ferramenta de monitoramento de virtualização gera relatórios em Kb/s e sua solução de armazenamento gera relatórios em MB/s? Além disso, quando a medida quilo é usada, ela significa 1.000 ou 1.024?
Você pode ver como a complexidade da análise de métricas diferentes pode fugir ao controle rapidamente. Na era da TI híbrida, o assunto fica ainda mais complexo, pois o monitoramento da nuvem é inerentemente diferente do monitoramento de recursos situados no local.
Você não deveria precisar manipular os dados de monitoramento ao solucionar um problema, o que só serve para aumentar o MTTR.
Já trabalhei em ambientes onde várias soluções de monitoramento eram usadas. Durante sessões de soluções de problemas com várias equipes, precisávamos lidar com os cálculos ao longo do processo. Dava certo? Sim, nós conseguíamos corrigir o problema. Era tão rápido quanto deveria ser? Não, pois precisávamos inserir dados em planilhas, alinhar carimbos de data/hora e calcular diferenças em escala (MB, Mb, KB, Kb etc.). É isso que quero dizer com normalização de dados: garantir que todos concordem no que diz respeito ao tempo e às escalas.
Ter todos os elementos necessários em um único lugar com os carimbos de data/hora alinhados e todos os relatórios gerados com a mesma escala (um painel único no qual é possível ver todo o ambiente) é essencial para uma solução de problemas eficaz. Lembre-se: nosso trabalho é fornecer serviços aos usuários finais e resolver problemas o mais rapidamente possível. Se passarmos a primeira metade do tempo de solução de problemas tentando alinhar dados, estaremos realmente abordando o problema?