Testen von KI: Qualitätsmerkmale im Fokus

Im vorherigen Kapitel habe ich meine ersten Schritte im Bereich des KI-Testens beschrieben – von der Bildklassifizierung bis hin zum eigenen KI-unterstützten Übersetzer. Nun tauchen wir tiefer in die Welt des Testens von KI-Systemen ein und werfen einen Blick auf die Eigenschaften der Systeme, um ihre Eignung als Übersetzer zu charakterisieren.

Auf den Spuren der ISTQB-Qualitätsmerkmale

Das ISTQB „Certified Tester Foundation Level“ hat sich als internationaler Standard etabliert und bietet eine solide Basis für das Testen von Software. Im Spezialmodul „Certified Tester AI Testing“ werden die Qualitätsmerkmale beleuchtet, die bei der Evaluierung von KI-Systemen besonders wichtig sind. Diese Merkmale helfen, die Leistungsfähigkeit, Zuverlässigkeit und Effizienz von KI-Systemen zu beurteilen.

Flexibilität und Anpassbarkeit: Das System sollte sich leicht an verschiedene Situationen und Umgebungen anpassen können, auch an neue und nicht vorhergesehene Umgebungen.
Autonomie in KI-Systemen: Hier geht es darum, dass ein System über einen längeren Zeitraum autonom arbeiten kann. Der Ersteller des Systems muss definieren, wie lang und unter welchen Bedingungen.
Evolution: Ein System sollte in der Lage sein, sich selbst zu verbessern, wenn sich seine Umgebung ändert. Dies ist besonders wichtig für selbstlernende KI-Systeme.
Verzerrung: Manchmal können die Ergebnisse von KI-Systemen von dem abweichen, was als fair angesehen wird. Es muss sichergestellt werden, dass solche Abweichungen kontrolliert werden, zum Beispiel in Bezug auf Geschlecht oder Einkommen.
Ethik in KI-Systemen: KI-Systeme sollten klaren Regeln folgen, die sicherstellen, dass sie dem Menschen dienen, demokratische Werte respektieren und transparent sind.
Nebenwirkungen und Belohnungs-Hacking: Wenn bei der Entwicklung Dinge übersehen werden, kann es zu unerwünschten Effekten kommen. Ein Beispiel dafür ist ein Übersetzer, der juristische Begriffe falsch übersetzt und es dadurch zu rechtlichen Missverständnissen kommt. Belohnungs-Hacking ist der Versuch eines Systems, Ziele auf intelligente Weise zu erreichen, was den ursprünglichen Absichten der Entwickler widersprechen kann.
Transparenz, Interpretierbarkeit und Erklärbarkeit: Dabei geht es darum, wie leicht Nutzende verstehen können, wie das System funktioniert und warum es zu bestimmten Ergebnissen kommt.
Funktionale Sicherheit und KI: Es muss sichergestellt werden, dass KI-Systeme ihre Aufgaben zuverlässig und ohne unerwartete Fehler erfüllen, insbesondere in sicherheitskritischen Anwendungen.

*Der ISTQB-Lehrplan für „AI Testing“ enthält ein ganzes Kapitel über die Qualitätsmerkmale.*

Qualitätsmerkmale im Vergleich: Ein Blick auf Libre Translate und DeepL

Nachdem ich mich mit den KI-spezifischen Merkmalen vertraut gemacht hatte, war es mein Ziel, sie auf die Übersetzer „Libre Translate“ und „DeepL“ anzuwenden und beide Systeme miteinander zu vergleichen. Beide KI-Übersetzer wurden bereits im vorherigen Kapitel inhaltlich vorgestellt.

Beim Vergleich von Libre Translate und DeepL sind Flexibilität und Anpassbarkeit entscheidende Faktoren. Libre Translate zeigt sich im Bereich der textbasierten Übersetzung und Spracherkennung flexibel. Es basiert auf einem OpenNMT-Modell, das mit Argos Translate trainiert wurde und ermöglicht das Training weiterer Sprachen mit Tools wie Locomotive. Im Gegensatz dazu bietet DeepL Flexibilität für verschiedene Arten von Texten und verfügt über erweiterte Funktionen für die eloquente Textüberarbeitung (DeepL Write). Die Anpassung des Systems an einen neuen Kontext kann ich nicht beurteilen, da DeepL eine Black-Box-Natur aufweist, also nicht klar ist, wie das System genau arbeitet.

Beide Systeme können Texte autonom verarbeiten und verstehen den Kontext, wobei DeepL ein besseres Kontextverständnis aufweist. Die Übersetzer bieten außerdem APIs für die Integration in verschiedene Systeme. Trotzdem besteht die Möglichkeit falscher Übersetzungen, insbesondere bei spezialisierten Begriffen.

Hinsichtlich der Evolution unterscheiden sich beide Systeme. Libre Translate ist kein selbstlernendes System und erfordert Training für neue Sprachen und Kontexte. Im Gegensatz dazu kann DeepL seine Übersetzungsfähigkeiten im Laufe der Zeit verbessern, ist jedoch ebenfalls auf Training angewiesen.

In Bezug auf Verzerrungen zeigen beide Systeme einen sogenannten Gender-Bias, wobei DeepL im Test besser abschneidet. Details dazu folgen im nächsten Beitrag. Gender-Bias in Übersetzungen zeigt sich häufig in der Verwendung geschlechtsspezifischer Begriffe und Formulierungen, die traditionelle Rollenklischees verstärken können. Bei der Übersetzung verschiedener Schimpfwörter aus dem Deutschen ins Englische und umgekehrt, konnte ich keine systematischen Einschränkungen bei der Übersetzung bestimmter Begriffe feststellen.

*DeepL bietet durch Anklicken einzelner Wörter alternative Wortvorschläge an, hier sogar geschlechtsspezifisch.*

Aus ethischer Sicht fördert Libre Translate die nachhaltige Entwicklung und hilft, Sprachbarrieren zu überwinden. Das System ist transparent und quelloffen. DeepL hat ähnliche ethische Grundsätze, obwohl es als Black-Box-System weniger transparent ist.

Beide Systeme zeigen Nebenwirkungen wie Gender-Bias, wobei DeepL alternative Übersetzungen und feine Anpassungen der ausgegebenen Texte ermöglicht. Beide Systeme sind immun gegen Belohnungs-Hacking. Eine mögliche Gefahr wäre hier dennoch, dass die Systeme inhaltlich nicht den vollen Umgang wiedergeben, sozusagen keine 1:1-Übersetzung liefern, aber dennoch die wesentlichen Fakten vermitteln.

In puncto Transparenz, Interpretierbarkeit und Erklärbarkeit bietet Libre Translate durch seine Quelloffenheit die Möglichkeit, das System genauer zu betrachten und zu verstehen. DeepL als ein Closed-Source-System bemüht sich jedoch um Transparenz durch API-Dokumentation und Blogartikel, die Einblicke in die Funktionsweise des Systems geben.

Die funktionale Sicherheit ist bei beiden Systemen gewährleistet. Sie sind robust und beachten Sicherheitsprotokolle bei der Datenübertragung (HTTPS-Verschlüsselung). Im Vergleich liefert Libre Translate nicht immer zuverlässige Übersetzungen, wie man schon im ersten Beitrag lesen konnte: “sommerreise in truthahn”. In sicherheitskritischen Anwendungen wäre Libre Translate deshalb keine geeignete Wahl.

Generell ist es wichtig, bei der Bewertung von KI-Systemen alle oben genannten Qualitätsmerkmale zu berücksichtigen. Jeder Nutzende hat andere Präferenzen und setzt bei diesen Merkmalen andere Schwerpunkte.

Während im Vergleich der KI-Übersetzer Libre Translate mit seiner transparenten, quelloffenen Struktur punktet, bietet DeepL fortschrittliche Funktionen und Selbstlernfähigkeiten, wenn auch mit weniger Transparenz. Auf den ersten Blick erfüllen beide Systeme die Kriterien der ISTQB-AI Qualitätsmerkmale gleichermaßen. Doch wie lässt sich genauer überprüfen, dass die Systeme keine fehlerhaften Übersetzungen liefern?

Wesentliche Aspekte in der Qualitätsprüfung

Beim Testen von Software ist es wichtig, klare Testziele zu definieren, um systematisch nach möglichen Fehlern in der Software zu suchen. Dies gilt auch für Systeme mit KI. Speziell für die KI-Übersetzer habe ich folgende Testziele für die weitere Evaluation festgelegt:

Vollständigkeitscheck: Sicherstellen, dass die Übersetzung den gesamten Inhalt des Originaltextes erfasst, ohne wichtige Informationen auszulassen.
Verständlichkeitscheck: Gewährleisten, dass die Übersetzung leicht verständlich ist, so dass die Benutzer den Inhalt in der Zielsprache problemlos erfassen können.
Genauigkeitsprüfung: Sicherstellen, dass die KI-Übersetzung präzise und akkurat ist, um Missverständnisse oder Fehlinterpretationen zu vermeiden.
Umgang mit Fachtermini: Gewährleisten, dass das System Fachtermini korrekt erkennt und in der Übersetzung angemessen verwendet.

Ausblick: Testfälle in ALM Octane

Die vorgestellten Testziele bieten einen soliden Rahmen für die weitere Evaluierung von KI-Übersetzern. Im nächsten Kapitel gebe ich einen detaillierten Einblick in den Entstehungsprozess konkreter Testfälle und wie ich diese in Open Text ALM Octane implementiert und ausgeführt habe. Dieser Ausblick gibt somit einen tieferen Einblick in die praktische Anwendung von „ISTQB AI“ im Kontext des KI-Testens.

Auf den Spuren der ISTQB-Qualitätsmerkmale

Qualitätsmerkmale im Vergleich: Ein Blick auf Libre Translate und DeepL

Wesentliche Aspekte in der Qualitätsprüfung

Ausblick: Testfälle in ALM Octane

weitere Beiträge aus dieser Reihe