Expectativas de nível de serviço (SLEs) com fio

A nuvem Juniper Mist™ coleta continuamente dados de telemetria de rede e usa o aprendizado de máquina para analisar a experiência do usuário final. Você pode acessar essas informações através dos painéis de expectativa de nível de serviço (SLE) com fio da Juniper Mist, que ajudam você a avaliar a experiência do usuário da rede e resolver quaisquer problemas proativamente. Os painéis de SLE com fio mostram a experiência do usuário dos clientes com fio em sua rede em um determinado momento. Você pode usar esses painéis interativos para medir e gerenciar sua rede de forma proativa, identificando quaisquer pontos de dor do usuário antes que eles se tornem um problema muito grande.

Para ter uma visão geral rápida dos SLEs com fio juniper Mist, assista ao vídeo a seguir:

Veja métricas do SLE

Os painéis SLE com fio exibem a porcentagem de tempo que as métricas de SLE atendem à meta de expectativa de nível de serviço especificada em um intervalo de tempo específico. Essas métricas são categorizadas em classificadores e sub-classificadores, que fornecem detalhes adicionais para identificar as causas específicas da falha. Com essas informações, você pode identificar e resolver facilmente os problemas que afetam a experiência do usuário final.

As SLEs com fio mist fornecem as seguintes métricas para ajudar você a avaliar a experiência do usuário final em suas redes:

Transferência
Saúde do switch
Conexões bem-sucedidas

Para ver as métricas de SLE no painel de SLE com fio, clique em Monitor > Níveis de serviço e selecione a guia Com fio .

Figura 1: Painel de SLE SLE Dashboard

Cada métrica tem classificadores e sub-classificadores que exibem informações para ajudar você a identificar falhas e reduzir a área específica do problema. Para ver os sub-classificadores associados, basta clicar em um classificador. Você verá uma visão de alto gosto que inclui:

Estatísticas — mostram a taxa de sucesso geral para a métrica de SLE.
Linha do tempo — mostra a linha do tempo das falhas. Por exemplo, o painel de controle pode mostrar os minutos ruins do usuário causados por problemas pertencentes a um determinado classificador durante um período de tempo.
Distribuição — mostra a porcentagem de impacto em diferentes atributos, como interfaces, switches, VLANs e clientes.
Itens afetados—Mostra os itens específicos que não atingiram a meta de nível de serviço. Exemplos: switches, interfaces e clientes.

Aqui está um exemplo de uma visão métrica de taxa de transferência :

A imagem acima indica que a rede cumpriu o requisito de taxa de transferência apenas para 38% do tempo. E que os usuários enfrentaram problemas de taxa de transferência para os 62% restantes do tempo. A visão do classificador mostra que 98% dos problemas que afetaram a taxa de transferência pertenciam à categoria Anomalias de Interface, enquanto 2% dos problemas eram problemas de rede.

Para acessar a visualização do classificador, clique em uma métrica (por exemplo, taxa de transferência) e selecione um classificador (por exemplo, anomalias de interface). Aqui está uma amostra da visualização das métricas de anomalias da interface:

Nota:

Os classificadores não mostram nenhum dados quando a métrica mostra uma taxa de sucesso de 100%.

Transferência
Saúde do switch
Conexão bem-sucedida

Transferência

A métrica de transferência mostra a porcentagem do tempo em que os usuários com fio podem passar tráfego sem qualquer interrupção. Esse classificador ajuda você a avaliar sua rede e determinar se ela requer maior largura de banda para uma operação perfeita. Vários fatores podem afetar a taxa de transferência da rede, como incompatibilidades de MTU, cabos defeituosos e dispositivos negociando na velocidade errada.

A SLE de taxa de transferência tem cinco classificadores:

Congestionamento — Este classificador mostra como o congestionamento contribuiu para a baixa taxa de transferência. Ela conta o número de quedas de saída resultantes do congestionamento. Quando os pacotes chegam em uma interface, eles são armazenados em um buffer. Se o buffer ficar cheio, o dispositivo começa a soltar pacotes (TxDrops). O classificador usa uma fórmula que considera as seguintes três proporções para determinar se um "minuto de usuário ruim" é causado por congestionamento:
- TxDrops para TxPackets (Bytes transmitidos totais caíram para total de pacotes transmitidos)
- Txbps à velocidade do enlace (Bytes totais transmitidos por segundo à velocidade do link)
- RxSpeed to Link Speed (Bytes totais recebidos por segundo à velocidade do link)
Uplink de congestionamento — o painel SLE mostra alto uplink de congestionamento quando:
- Um dos vizinhos é um switch ou um roteador (conhecido por LLDP).
- A porta é uma porta raiz STP.
- A porta de uplink tem um número maior de pacotes transmitidos e recebidos em comparação com as outras portas.
O congestionamento também pode ser causado por links Ethernet agregados e portas de módulo.
Anomalias de interface — este classificador mostra como as anomalias de interface contribuíram para a baixa taxa de transferência. O painel SLE reúne informações sobre anomalias de interface dos switches. O classificador de anomalias de interface é dividido entre os seguintes sub-classificadores:
- Incompatibilidade de MTU — como administrador, você pode definir um valor máximo de unidade de transmissão (MTU) para cada interface. O valor padrão para interfaces Gigabit Ethernet é de 1514. Para oferecer suporte a estruturas jumbo, você precisa configurar um valor MTU de 9216, que é o limite superior para quadros jumbo em uma interface VLAN roteada. É importante garantir que o valor do MTU seja consistente ao longo do caminho do pacote, pois qualquer incompatibilidade de MTU resultará em pacotes descartados ou fragmentados. Nos switches da Juniper, você pode verificar se há incompatibilidades de MTU nas seções de erros de entrada e erros de MTU da show interface extensive saída de comando. Cada erro de entrada ou MTU contribui para um "minuto de usuário ruim" sob a incompatibilidade da MTU.
- Problemas com cabos — este sub-classificador mostra os minutos do usuário afetados por cabos defeituosos na rede.
- Falha na negociação — A latência nas portas pode acontecer devido a falhas de negociação automática, conflitos duplex ou configuração incorreta de configurações de dispositivos pelo usuário. Além disso, os dispositivos mais antigos podem não ser capazes de alcançar a velocidade máxima e podem operar a uma velocidade de enlace mais lenta de 100 Mbps. Esse sub-classificador identifica e ajuda a mitigar casos de mau tempo de usuário causados por esses problemas.
Controle de tempestade — o controle de tempestade permite que o dispositivo monitore os níveis de tráfego e solucione a transmissão, unicast desconhecido e pacotes multicast quando excedem um limite definido ou níveis de tráfego. Esses limiares são conhecidos como níveis de controle de tempestade ou largura de banda de controle de tempestade. Por padrão, o nível de controle de tempestade é definido para 80% do tráfego unicast, multicast e de transmissão combinado em todas as interfaces de camada 2 dos switches Juniper. O controle de tempestade ajuda a evitar tempestades de tráfego, mas também pode potencialmente reduzir aplicativos ou dispositivos clientes. Esse classificador identifica essas condições e ajuda os usuários a mitigar proativamente os problemas de taxa de transferência.
Rede — Esse classificador permite que você monitore minutos do usuário quando a taxa de transferência é menor do que o esperado devido a limitações na capacidade do uplink. Ele identifica problemas com base no valor de tempo de viagem de ida e volta (RTT) de pacotes enviados do switch para a mist cloud. O classificador de rede tem dois sub-classificadores que ajudam a localizar esses problemas:
- Latência — exibe minutos do usuário afetados pela latência. O valor de latência é calculado com base no valor médio da RTT em um período de tempo.
- Jitter — exibe minutos do usuário afetados pelo jitter. O valor do jitter é calculado comparando o desvio padrão do RTT em um pequeno período (últimos 5 ou 10 minutos) com o desvio geral da RTT por um período mais longo (dia ou semana). Você pode visualizar essas informações para um switch ou site específico.

Saúde do switch

A integridade do switch é influenciado por vários fatores, incluindo temperatura de operação, consumo de energia, CPU e uso de memória. O monitoramento da integridade do switch é crucial porque problemas como o alto uso de CPU podem afetar diretamente os clientes conectados. Por exemplo, se a utilização da CPU aumentar para 100%, os APs conectados podem perder a conectividade, afetando a experiência dos clientes. A métrica de saúde do switch identifica minutos ruins de usuário resultantes das seguintes condições (listadas como classificadores):

Switch inalcançável — o switch não pode ser acessado.
Memória — A utilização da memória é superior a 80%.
CPU — O uso da CPU do switch está acima de 90%.
Temp — A temperatura de operação do switch excede a faixa de limite prescrita, seja ultrapassando o limite máximo ou abaixo do requisito mínimo. Para obter informações sobre a temperatura de operação suportada pelos switches da Juniper, consulte os guias de hardware do switch no portal de documentação da Juniper.
Potência — o consumo de energia do switch está acima de 90% da energia disponível.

Conexão bem-sucedida

A métrica De conexão bem-sucedida mostra se um cliente se conecta com sucesso à rede. Ele ajuda a avaliar o impacto das falhas de conexão e identificar os problemas que impedem a conexão dos dispositivos do cliente à rede.

A métrica De conexão bem-sucedida tem dois classificadores:

Autenticação — Cada vez que um cliente autentica, um evento cliente é gerado. Estes podem ser eventos bem-sucedidos ou eventos de fracasso. Esse classificador ajuda você a identificar problemas que causaram falhas de autenticação. Aqui está uma lista de possíveis motivos para uma falha de autenticação dot1x:
- Se uma única porta de switch não for autenticada, ela pode ser devido a um erro de usuário ou porta mal configurada.
- Se todas as portas do switch não forem autenticadas, pode ser porque:
  - O switch não é adicionado como um cliente NAS no servidor RADIUS.
  - Há um problema de roteamento entre o switch e o servidor RADIUS.
  - O servidor RADIUS está desativado.
- Se todas as portas de switch em todos os switches não forem autenticadas, ela pode indicar uma falha temporária com o servidor RADIUS naquele momento específico.
- Se um tipo específico de dispositivo, como dispositivos Windows, não autenticar, ele pode sugerir um problema relacionado às certificações.
DHCP — A espionagem DHCP permite que o switch examine os pacotes DHCP e mantenha o controle da ligação do endereço IP-MAC na mesa de espionagem. Esse classificador adiciona um evento de falha toda vez que um cliente se conecta a uma rede e não alcança o estado "vinculado" em um minuto.

Nota:
O painel SLE mostra falhas de DHCP apenas para aqueles switches que têm o DHCP Snooping configurado.