1School of Computer Science, Fudan University
2Meituan, China
3Shanghai Key Laboratory of Intelligent Information Processing, Shanghai, China
AUITestAgentは、自然言語で記述されたテスト要件を入力として受け取り、UIインタラクションを生成および実行し、UI応答が要件に記載された期待に一致するかどうかを検証する、モバイルアプリのための最初の自動化された自然言語駆動のGUIテストツールです。
AUITestAgentは、UIテストの特定の領域におけるLLMベースのエージェントのパフォーマンスを向上させるために、GUIインタラクションと機能検証を2つの別々のモジュールに分離し、インタラクション後に検証を行います。
実装において、AUITestAgentはテスト要件からGUIインタラクションを抽出し、要件表現の多様性に対処するために動的に組織されたエージェントを使用します。次に、マルチディメンショナルデータ抽出戦略を使用して、インタラクショントレースからテスト要件に関連するデータを取得し、検証を行います。
demo1.mp4
demo2.mp4
私たちは、8つの広く使用されている商用アプリ(Meituan、Little Red Book、Douban、Facebook、Gmail、LinkedIn、Google Play、YouTube Music)を含む2つのカスタマイズされたベンチマーク、インタラクションベンチマークと検証ベンチマークを使用して、AUITestAgentのパフォーマンスを評価しました。包括的な評価を提供するために、インタラクションタスクの難易度を3つのレベルに分類しました:簡単(L1)、中程度(L2)、難しい(L3)。各レベルについて、10のインタラクションタスクを構築し、説明を英語と中国語で均等に分けました。
私たちの実験では、AUITestAgentはレベル1のタスクを100%正確に完了し、レベル2のタスクの80%、レベル3のタスクの50%を完了しました。さらに、AUITestAgentが生成したインタラクションの94%が手動インタラクションを通じて得られたグラウンドトゥルースと一致しています。これらの指標は、AUITestAgentが自然言語コマンドをGUIインタラクションに変換する際に既存の方法を大幅に上回っていることを示しています。さらに、AUITestAgentは注入されたGUI機能バグのリコール率が90%に達し、誤検知率はわずか4.5%にとどまります。さらに、Meituanで未検出のバグを検出することに成功したことは、複雑な商用アプリのGUIテストにAUITestAgentを使用する実際の利点を強調しています。
詳細については、私たちの論文と評価結果を参照してください。
詳細な結果については、インタラクションベンチマークを参照してください。
ベースライン:
詳細な結果については、検証ベンチマークを参照してください。
AUITestAgentは、自然言語駆動のGUI機能検証に焦点を当てた最初のツールであり、この分野には既存の研究がないため、GPT-4oをベースラインとして使用してマルチターンダイアログに基づく検証方法を構築しました。
この研究があなたの研究に役立つと感じた場合は、私たちの論文を引用することを検討してください。
@misc{hu2024auitestagent,
title={AUITestAgent: Automatic Requirements Oriented GUI Function Testing},
author={Yongxiang Hu and Xuan Wang and Yingchuan Wang and Yu Zhang and Shiyu Guo and Chaoyi Chen and Xin Wang and Yangfan Zhou},
year={2024},
eprint={2407.09018},
archivePrefix={arXiv},
primaryClass={cs.SE}
}
AUITestAgentは、復旦大学の周揚帆教授のチームと美団のインストアR&Dプラットフォームの共同作業です。私たちは、フルスタックフロントエンド技術のAI分野に長い間専念してきました。AUITestAgentに加えて、vision-ui、Appaction、AutoConsisなど、いくつかの他の技術革新を開発しました。