Überwachung von Red Hat Ansible Automation Platform mit Performance Co-Pilot

30. Januar 2025Nikhil Jain4 Minuten (Lesedauer)

In diesem Artikel erfahren Sie mehr über Performance Co-Pilot (PCP) und wie wir dieses Tool zur Implementierung der System- und Anwendungsüberwachung für Red Hat Ansible Automation Platform nutzen.

Was ist Performance Co-Pilot (PCP)?

PCP ist ein von Red Hat entwickeltes Open Source-Framework zum Überwachen und Analysieren der Performance. Es stellt eine Reihe von Tools, Libraries und Services bereit, mit denen Sie Performance-Metriken von verschiedenen Systemen, Services und Anwendungen überwachen, abrufen und analysieren können. PCP ist auf Skalierbarkeit ausgelegt und ermöglicht die Überwachung verschiedener Systeme, vom einzelnen Server bis hin zu einem großen, verteilten Netzwerk von Rechnern, in Echtzeit.

Wichtige Features von PCP:

Skalierbarkeit: PCP kann sowohl zur Überwachung einzelner Systeme als auch verteilter Umgebungen verwendet werden.
Datenerfassung aus mehreren Quellen: Es werden Daten aus mehreren Quellen erfasst, darunter das Betriebssystem, Datenbanken, Netzwerkschnittstellen und benutzerdefinierte Anwendungen.
Erweiterbarkeit: Neue Metriken können durch die Entwicklung benutzerdefinierter Agenten oder Erweiterungen hinzugefügt werden.
Speicherung und Abruf: PCP kann Performance-Daten für historische Analysen speichern und unterstützt den Datenabruf in Echtzeit.
Echtzeitüberwachung: Bietet Echtzeitmetriken und ermöglicht eine Live-Performance-Analyse.
Grafische und Befehlszeilenschnittstellen: PCP umfasst grafische (z. B. pmchart) und Befehlszeilentools (z. B. pminfo, pmval und pmlogsummary) für die Überwachung und die Analyse von Performance-Daten.

Typische Komponenten:

Performance Metrics Collector Daemon (PMCD): Der zentrale Daemon, der Metriken von Agenten erfasst.
Performance Metrics Name Space (PMNS): Ein hierarchischer Namespace, der die Performance-Metriken organisiert.
Performance Metrics Inference Engine (PMIE): Ein Tool zum Generieren von Alerts oder Aktionen basierend auf Metrikschwellenwerten in Echtzeit.
PMLogger: Für das Logging von Performance-Metriken zur späteren Analyse.
PMProxy: Fungiert als Proxy-Protokoll und ermöglicht PCPto das Überwachen von Clients, um über PMProxy eine Verbindung mit einer oder mehreren PMCD-Instanzen herzustellen.

Use Cases

Analyse der System-Performance: PCP kann CPU, Speicher, Disk-I/O, Netzwerknutzung und andere Systemmetriken überwachen.
Anwendungsüberwachung: PCP kann bestimmte Anwendungen oder Services überwachen, um deren Ressourcenverbrauch und Performance-Trends zu ermitteln.
Analyse historischer Daten: Das Tool kann Performance-Daten im Zeitverlauf für eine historische Trendanalyse oder forensische Analysen nach Systemausfällen speichern.

Warum Ansible Automation Platform mit PCP überwachen?

Die Überwachung von Ansible Automation Platform mit PCP ist aus mehreren Gründen wichtig:

Einblicke in die Performance: PCP bietet detaillierte Metriken und Insights zur Performance von Ansible Automation Platform. Dies hilft beim Ermitteln von Engpässen und beim Optimieren der Ressourcennutzung.
Proaktive Problemerkennung: Durch die kontinuierliche Überwachung der Performance-Metriken können Sie potenzielle Probleme erkennen, bevor sie sich zu signifikanten Problemen ausweiten, was eine proaktive Fehlerbehebung ermöglicht.
Ressourcenmanagement: Informationen über die Ressourcenauslastung (CPU, Speicher, Disk-I/O) helfen bei der effektiven Kapazitätsplanung und stellen sicher, dass Ihre Automatisierungsumgebung reibungslos und ohne Ressourcenkonflikte ausgeführt wird.
Skalierbarkeit: Wenn Ihr Automatisierungsbedarf wächst, können Sie anhand der Überwachung beurteilen, wann und wie Sie Ihre Ansible Automation Platform-Infrastruktur skalieren müssen, damit sie größere Workloads ohne Performance-Einbußen bewältigen können.
Compliance und Auditing: Überwachungstools helfen dabei, die Compliance mit internen und externen Vorschriften einzuhalten, indem sie einen übersichtlichen Audit-Trail für Automatisierungsaktivitäten und Ressourcennutzung bereitstellen.
Integration mit anderen Tools: PCP kann in andere Überwachungs- und Alarmsysteme integriert werden, bietet einen umfassenden Überblick über Ihre Infrastruktur und ermöglicht eine bessere Reaktion auf Vorfälle.
Benutzererlebnis: Die effiziente Ausführung Ihrer Automatisierungsaufgaben verbessert das allgemeine Benutzererlebnis für Teams, die Ansible Automation Platform für das Deployment- und Konfigurationsmanagement verwenden.
Analyse historischer Daten: PCP speichert historische Performance-Daten, sodass Sie Trends im Zeitverlauf analysieren können. Das ist wichtig, um fundierte Entscheidungen über zukünftige Infrastrukturänderungen oder -optimierungen zu treffen.

Zusammenfassend lässt sich sagen, dass die Verwendung von PCP zur Überwachung von Ansible Automation Platform die Performance, Zuverlässigkeit und Effizienz verbessert, sodass Automatisierungsbemühungen positiv zum Erreichen von Unternehmenszielen beitragen.

Einrichtung der Überwachung auf Ansible Automation Platform mit PCP

Derzeit wird die Einrichtung der Überwachung in Ansible Automation Platform sowohl für herkömmliche als auch für containerisierte Installationen auf virtuellen Maschinen (VMs) unterstützt. Um die Überwachung zu aktivieren, müssen Sie in der Setup-Inventory-Datei im Abschnitt [all:vars] den booleschen Wert setup_monitoring auf True setzen. Beispiel:

[all:vars]
setup_monitoring = True

Wenn Sie das Installationsprogramm ausführen, wird die Rolle „monitoring“ ausgeführt, um PCP auf dem Ansible Automation Platform-Cluster zu konfigurieren. Diese Rolle installiert und aktiviert die erforderlichen Services, einschließlich pcp, pmcd und pmproxy. Beim herkömmlichen RPM-basierten Deployment wird PCP über DNF installiert und über „systemd“ ausgeführt. Bei einer containerisierten Installation wird das Tool zusammen mit sämtlichen anderen Komponenten von Ansible Automation Platform in einem Container ausgeführt. Zusätzlich richtet das Installationsprogramm Performance Metric Domain Agents (PMDAs) ein. Dabei handelt es sich um Plugins, die als Daemons für pmcd laufen, um Schlüsselkomponenten wie nginx, redis, postgres und openmetrics auf den Hosts von Ansible Automation Platform zu überwachen.

Darüber hinaus legt bei der herkömmlichen Installation das Installationsprogramm den Gateway-Knoten als zentralen Hub für das Erfassen von PCP-Metriken von den Knoten im Ansible Automation Platform-Cluster fest, um die Metriken effektiv zu archivieren.

PCP verwendet Port 44322, um Metriken verfügbar zu machen. Stellen Sie sicher, dass Port 44322 in Ihren Sicherheitsgruppen offen ist, falls zutreffend. Andernfalls sind die Metriken weiterhin lokal auf dem Host für die lokale Analyse mit den PCP-Befehlszeilentools verfügbar, jedoch nicht für externe Tools zum Aggregieren.

Nach Abschluss der Einrichtung können Sie sich über ssh bei einem beliebigen Gateway-Knoten anmelden und den folgenden Befehl ausführen, um die von PCP erfassten Metriken zu überprüfen.

Abrufen archivierter Metriken

Sie können die PCP-CLI-Tools verwenden, um Metriken aus einer Archivdatei abzurufen. Bei der herkömmlichen Installation befinden sich die Archive unter /var/log/pcp/pmlogger/.

Beispiel:

/var/log/pcp/pmlogger/controller.example.com/20241004.00.10

Bei einer containerisierten Installation befinden sich die Archive unter /home/ansible/aap/pcp_archives.

Beispiel:

/home/ansible/aap/pcp_archives/controller.example.com/20241004.00.10

Beispiele

Geben Sie den folgenden Befehl ein, um sämtliche Metriken aufzuführen, die beim Erstellen der Archivdatei aktiviert wurden:
```
# pminfo --archive <ARCHIVE_FILE_LOCATION>
```
Geben Sie den folgenden Befehl ein, um den Host und den Zeitraum anzuzeigen, der von einer Archivdatei abgedeckt wird:
```
# pmdumplog -l <ARCHIVE_FILE_LOCATION>
```
So listen Sie die Festplattenschreibvorgänge für jede Partition in dem Zeitraum auf, der von der Archivdatei abgedeckt wird:
```
# pmval --archive <ARCHIVE_FILE_LOCATION> \
-f 1 disk.partitions.write
```
So listen Sie die Festplattenschreibvorgänge pro Partition in einem Intervall von 2 Sekunden für den Zeitraum zwischen 14:00 und 14:15 Uhr auf:
```
# pmval --archive <ARCHIVE_FILE_LOCATION> \
-d -t 2sec \
-f 3 disk.partitions.write \
-S @14:00 -T @14:15
```
So listen Sie die Durchschnittswerte sämtlicher Performance-Metriken, einschließlich der Zeit und des Werts für Minimum/Maximum, für den Zeitraum zwischen 14:00 und 14:30 Uhr auf und formatieren die Werte als Tabelle:
```
# pmlogsummary <ARCHIVE_FILE_LOCATION> \
-HlfiImM \
-S @14:00 \
-T @14:30 \
disk.partitions.write \
mem.freemem
```
So zeigen Sie die in einem Archiv gespeicherten Systemmetriken ab 14:00 Uhr auf interaktive Weise ähnlich dem top-Tool an:
```
# pcp --archive <ARCHIVE_FILE_LOCATION> \
-S @14:00 \
atop
```

Schlussfolgerungen

Die Überwachung von Ansible Automation Platform ist für die Zuverlässigkeit, Performance und Sicherheit der unterstützten Services unerlässlich. Dadurch können Probleme wie langsame Reaktionszeiten, Serverfehler und Sicherheitsschwachstellen in Echtzeit erkannt und behoben werden. Ausfallzeiten und potenzielle Beeinträchtigungen für die Nutzenden werden minimiert. Durch die kontinuierliche Verfolgung wichtiger Metriken wie Verkehr, Nutzung und Ressourcenverbrauch ermöglicht die Überwachung einen effizienten Betrieb der Plattform.

Nächste Schritte

Ausführliche Informationen finden Sie in der Dokumentation zu Ansible Automation Platform.
Anweisungen zum Herunterladen und Installieren der neuesten Version finden Sie im Installations-Guide für Ansible Automation Platform.
Interesse an den Versionshinweisen? Zeigen Sie die Versionshinweise zu Ansible Automation Platform an.
Weitere Informationen finden Sie in unseren E-Books.

Über den Autor

Nikhil Jain

Nikhil Jain is a Principal Software Engineer with Red Hat’s Performance and Scale Engineering team who focuses on the testing, analysis and improvement of Red Hat Ansible Automation Platform products and services.

Read full bio