Na maior parte das indústrias os dados de alarme não são considerados um ativo de informação importante. Conforme relatório da ASM Consortium Managing Human Reliability: An Abnormal Situation Management Historical perspective, métricas de desempenho ruins e taxa de erros operacionais devido a erros humanos próximas a 40%, demonstram uma atitude de descaso ou desconhecimento do impacto negativo da falta de gestão destes alarmes. Este comportamento leva a indústria a desperdiçar oportunidades de melhoria operacionais que poderiam alavancar a eficiência, garantir segurança e elevar a inteligência de processo a patamares muito superiores. Neste artigo pretende-se descrever, com base em estudos de caso reais, quais são os principais motivos desta falta de clareza do potencial da gestão de alarmes e quais seriam os elementos fundamentais de uma uma boa solução.

Motivo 1 – Ausência de cultura analítica

A hierarquia de valor da informação (Registro–>Dado–>Informação–>Conhecimento–>Sabedoria), precisa ser incorporada nas práticas e processos industriais com a missão de transformar registros em sabedoria. Muitas decisões de processo e manutenção ainda são tomadas com suporte muito pobre de dados. E isso se torna mais grave quando presenciamos a exclusão sumária de dados de saúde de planta, como os alarmes, sem critério e política alguma. Muitos nem sequer tem histórico acima de 30 dias de dados de alarme, impossibilitando análises mais profundas.

Importante deixar claro que alarmes e eventos, assim como qualquer ativo de informação, contém registros valiosos e que, quando trabalhados numa abordagem de cultura analítica adequada, podem gerar insights poderosos para melhoria operacional e de confiabilidade. Só é possível realmente extrair valor destes dados caso haja emprego de uma tecnologia analítica que permita o cruzamento mais amplo de dados de contextos diferentes. Mais especificamente, dados de produção, dados de disponibilidade de equipamentos, dados de alarmes/eventos, e dados relacionados ao comportamento do operador, todos sendo avaliados de forma sistêmica.

Quando esta cultura analítica existe dentro da organização, a cadeia de valor dos dados fica completa, permitindo entender o que está acontecendo (Dados – Descritivo), o por que aconteceu (Informação – Diagnóstico), o que vai acontecer (Conhecimento – Preditivo) e qual é a ação a tomar (Sabedoria – Prescritivo).

Motivo 2 – Dificuldade em determinar ROI

Muitas vezes, o responsável técnico tem plena consciência dos benefícios, mas alega que não consegue argumentar a favor de uma iniciativa de gestão de alarmes por falta de comprovações de ganhos tangíveis. De fato, não é trivial encontrar esses ganhos. Eles são encontrados através da análise minuciosa sobre erros e falhas operacionais, e no cruzamento adequado com os dados de negócio. Para se fazer isso de forma adequada é necessária a combinação de conhecimento do processo, tecnologias analíticas adequadas, e dados de boa qualidade. O que se percebe, entretanto, na maioria dos casos, é que apesar de existirem oportunidades de ganho tangível no processo, os dados necessários para se realizar as estimativas financeiras estão em ilhas de dados de domínios diferentes (TI e TO, por exemplo), e são de qualidade questionável. A busca e tratamento de dados e sua respectiva integração ao contexto de processo e de negócio exige muito esforço, onerando o custo de análises recorrentes. Além disso, nem sempre pessoas que dominam tecnicamente o processo produtivo são envolvidas nessas análises, resultando em análises sem a profundidade necessária para descobrir oportunidades realmente expressivas.

Uma proposta para minimizar estes problemas recai sobre o emprego de técnicas de Data Science para extração, limpeza, classificação, mineração e visualização dos dados para apoiar a análise. A eliminação das ilhas de dados é fundamental para automatização de tais técnicas. Outro fator muito relevante é o envolvimento de um time com Domain Knowledge do processo para ajudar na identificação de problemas e interpretação dos insights. Um exemplo de abordagem para determinação de ROI em alarmes usando técnicas analíticas é apresentado no artigo “Identificando ganhos com Gestão de Alarmes”.

Motivo 3 – Design ruim do sistema SCADA

O alarme existe para chamar atenção do operador de uma situação indesejada do processo num dado instante de tempo onde ele (ser humano) ainda pode atuar para impedir que um problema aconteça. A definição é simples, mas é comum encontrar aplicações de sistemas de supervisão que não respeitam este princípio fundamental. Muitas vezes encontramos alarmes e outras informações chamando a atenção do operador todo o tempo , mesmo quando este não tem ação alguma a fazer. Exemplos para ilustrar essa má compreensão dos fundamentos básicos design de sistema SCADA não faltam, como a famigerada janela de alarmes críticos que, por ser do tipo popup e aparecer sempre em primeiro plano na tela do sistema, impede que o operador diferencie os níveis de priorização de cada alarme no caso de alarmes simultâneos. Há também telas de sistema com sobrecarga de informação, que se parecem árvores de natal de tantas cores e efeitos de animação, mas que apresentam pouca relevância para avaliação de informação e tomada de decisão. Há ainda casos de telas projetadas sem levar muito em conta a experiência do usuário, suas limitações e preferências cognitivas para tomada de decisão. A lista de maus exemplos é longa, e isso evidencia que falta domínio sobre esses princípios, amplamente cobertos em normas, na projeção e concepção de sistemas SCADA e de alarmes. Todos estes fatores, em seu conjunto, fazem com que os operadores deixem de confiar nos alarmes, uma vez que eles não os ajudam a tomar melhores decisões. Neste cenário, os operadores  trabalham de forma sobrecarregada ou reativa aos problemas do processo, gerando perdas por erro humano inevitáveis.

É importante reavaliar os sistema SCADA e, mais especificamente, o sistema de gestão de alarmes, sob uma perspectiva centrada no ser humano. Entender toda a jornada do operador, bem como os pontos chaves de seu processo decisório, resultará em insights para melhorar a experiência com estes sistemas, impactando positivamente na operação e na diminuição de erros. É fundamental que as pessoas escaladas para esta reavaliação tenham conhecimentos específicos e aprofundados de UCD – User Centered Design, UI – User Interface, User Experience, além de entendimento das limitações técnicas do ferramentas de supervisão e certo domínio do processo produtivo.

Motivo 4 – Nem tudo é ferramenta

No ciclo de gestão de alarmes proposto pela norma ISA 18.2, temos uma fase conhecida como monitoramento e avaliação.

É comum encontrarmos clientes obcecados apenas com esta fase do ciclo, com foco exclusivo nas métricas: quantidade de alarmes por hora, percentual de instabilidade do sistema, número de alarmes ruidosos, quantidade de avalanches no sistema e número de alarmes permanentes, dentre outras.

Apenas monitorar tais métricas (Figura 1), no entanto, não garante a evolução de cada fase do ciclo e muito menos a exploração do valor do ativo. O melhor sistema de monitoramento de métricas nada pode contra pessoas descomprometidas e desengajadas com o propósito de tornar o sistema de alarmes eficiente. Outro ponto é que a constante adaptação do sistema às necessidades da planta é um processo que depende bastante do ser humano. Há sempre certas oportunidades, riscos operacionais e trade-offs que devem ser considerados e que precisam da colaboração de pessoas experientes comprometidas com o processo.

A sugestão aqui é dar a devida importância à capacitação das pessoas, definir as ferramentas a serem utilizadas, e principalmente, dar foco no entendimento dos princípios e processos de gestão de alarmes. É fundamental que os envolvidos entendam o propósito de um documento de filosofia de alarmes, tenham clareza das definições de alarmes,dos critérios de classificação e priorização, do processo de racionalização e das opções avançadas de supressão de alarmes. Além disso, é preciso saber executar os ajustes e correções do sistema de forma ágil, disciplinada e processual, e estar apto a calcular ganhos e capturar oportunidades de melhoria do processo. As ferramentas quando bem empregadas reduzem consideravelmente o custo e aumentam a velocidade das análises, além de abrir oportunidades para combinação de informações. Dominar os fundamentos das ferramentas permite explorar melhor seu potencial, sem se preocupar com a dependência tecnológica da solução.

Abaixo vemos um sistema típico para monitorar métricas de alarme (Figura 1):

Motivo 5 – Pouca importância dada ao fluxo de trabalho

Toda planta industrial está sujeita a modificações contínuas. Existe sempre a necessidade de uma correção de qualidade de produto, entrada de novos instrumentos e equipamentos, e ainda outras adaptações do processo produtivo. O sistema de alarmes deve sempre acompanhar essas necessidades de mudança. O problema é que poucas empresas têm a clareza sobre como executar um fluxo de trabalho que garanta um mínimo de governança. O resultado disso é uma piora das métricas de alarme, impossibilitando descobrir os principais gargalos do fluxo de trabalho e avaliar ganhos operacionais com disciplina.

Manter um fluxo de trabalho de gestão de alarmes é um esforço contínuo, afinal a planta também está sempre mudando. Obviamente, este processo não pode ser pesado e nem burocrático. Monitorar, avaliar, auditar e implementar são fundamentais, conforme já sugerido pela norma ISA 18.2.

Mas por onde começar?

Muitos clientes se desencorajam com relação a realizar um trabalho de gestão de alarmes porque já imaginam o tamanho do problema. É comum encontrar sistemas com mais de 500 alarmes por hora, totalmente sobrecarregado e sem nenhuma extração de valor disso. A lista de alarmes configurados pode ultrapassar mais de 10.000 alarmes em sistema de porte médio (500 equipamentos, 1000 sinais analógicos e 2000 digitais). Realmente, se o processo de trabalho for racionalizar todos os 10.000 alarmes ao mesmo tempo em reuniões de comitês para este fim, sem nenhum critério de priorização, será uma tarefa de Hércules.

Em situações onde os sistemas estão comprometidos como descrito acima, é preferível adotar um processo de trabalho inspirado nas metodologias ágeis, o que permite fazer iterações mais rápidas e mais orientadas à recuperação de valor do ativo. O processo se inicia com atuação sobre os alarmes que mais oneram as métricas de desempenho, facilmente identificados num Pareto (Figura 2). O trabalho se repete em ciclos contínuos de análise de métricas, definição de plano e execução de ações. Essa abordagem iterativa e incremental permite a aceleração do aprendizado do time com os conceitos e princípios normativos, o retorno rápido da situação a níveis mais gerenciáveis e a captura imediata de oportunidades de melhoria no sistema SCADA ( automação e de alarmes).

O gráfico de Pareto abaixo ilustra os Top Alarmes para um dado período (Figura 2):

É importante definir critérios de sucesso

Pela nossa interpretação da norma ISA 18.2, uma boa gestão de alarmes é aquela que permite que o operador trabalhe e tome decisões de forma mais coerente com sua capacidade de resposta cognitiva, permitindo antecipar problemas, e não apenas reagir a eles. Além das recomendações da norma sobre as métricas de alarmes, vide tabela 1, quando estamos envolvidos em projetos de clientes, procuramos estender esses critérios de sucesso a fim de extrair o máximo de valor da abordagem, buscando os indicadores abaixo:

  • Nível de confiança dos operadores no sistema de alarme > 95% – medição indireta considerando taxa de reconhecimento de alarmes e de assertividade de ações esperadas de cada alarme
  • Valor financeiro recuperado pelas oportunidades de melhorias > Valor gasto com todo o processo de gestão de alarmes
  • Falha de operação por erro humano abaixo de 10 %
  • Nível de participação da operação e manutenção no processo de gestão > 90% – medição considerando, a cada 15 dias, a participação ativa em reuniões de planos de ação e melhorias de alarmes.

Abaixo as métricas ISA 18.2 (Tabela 1):

Extraindo mais valor…

É possível transformar um simples conjunto de registros operacionais (alarmes e eventos) em fontes de informação poderosas para melhorar a inteligência operacional de uma planta. É necessário entender que uma boa solução de gestão de alarmes envolve processos, ferramentas, cultura analítica e pessoas. Como esses elementos se influenciam mutuamente, é possível recuperar valor tratando-os de forma sistêmica.

Para extrair mais valor dos ativos de informação não precisamos de mais dados (ou alarmes). Precisamos qualificar, organizar e tornar visuais as informações para que uma área de conhecimento as conecte (de engenharia de confiabilidade ou de processo) e com isso permita tomar melhores decisões.

Eduardo Montenegro
Um hacker de cultura organizacional, facilitador de tecnologias sociais envolvendo as abordagens de Design Thinking, Agilidade e Autogestão. É apaixonado por novas formas criativas de colaboração, sempre buscando novos caminhos de impacto positivo nos negócios e na vida. Acredita seriamente no poder do protagonismo dos indivíduos e organizações para co-criar futuros desejados. Graduado em Engenharia de controle e Automação pela UFOP. Possui mais de 10 anos de experiência em desenvolvimento e gestão de soluções de informação para indústria.