Please use this identifier to cite or link to this item:
http://dspace.centre-univ-mila.dz/jspui/handle/123456789/4490
Title: | Prompt Filtering: Developing a practical defense system against LLM jailbreaks |
Authors: | Asma , ZOUAGHI , BOUBRIM Fatine |
Keywords: | Large Language Models (LLMs), Natural Language Processing (NLP), Prompt Filtering, Adversarial Prompts, Machine Learning, Jailbreak Attacks Grands Modèles de Langage (LLMs), Traitement Automatique du Langage Naturel (TALN), Filtrage des prompts, Prompts Malveillants, Apprentissage Automatique, Attaques de type jailbreak. |
Issue Date: | Jun-2025 |
Publisher: | univercity centre of abdelhafid boussouf mila |
Citation: | Artificial Intelligence and its Applications |
Abstract: | Large Language Models (LLMs) have become central to modern artificial intelligence (AI) applications due to their remarkable ability to generate coherent, context-aware text. However, this capability introduces erabilities, particularly jailbreak attacks that manipulate the model into producing harmful or unethical outputs.This project addresses the growing challenge of detecting jailbreak prompts before reaching the model, through the development of a prompt-level filtering system. We gradually collected multiple available sources containing both benign and jailbreak examples. These datasets were progressively used in a series of experiments, with their merging employed as a key idea to increase the number and diversity of prompts. Various embedding techniques, including FastText, DistilBERT, RoBERTa, and Longformer, were employed to represent input prompts at different semantic levels. Classification was handled using XGBoost, chosen for several advantages such as its scalability and fast training time.The system was evaluated using standard metrics such as accuracy, Area under the precision-recall curve (AUPRC), and Attack Success Rate (ASR). Results showed that using diverse training data and high-quality embeddings significantly improves detection performance and robustness. The final implementation, deployed as a web-based application, demonstrates how the four embedding models handle jailbreak prompt detection. This research offers a scalable, practical framework for enhancing LLM safety through early threat identification. |
Description: | Les grands modèles de langage (LLMs) occupent aujourd’hui une place centrale dans les applications modernes de l’intelligence artificielle (IA), grâce à leur capacité remarquable à générer des textes cohérents et sensibles au contexte. Cependant, cette capacité les rend également vulnérables à certaines attaques, notamment les attaques de type jailbreak, qui visent à manipuler le modèle afin de produire des réponses nuisibles ou contraires à l’éthique.Ce projet s’attaque à ce défi croissant en développant un système de filtrage au niveau des prompts, visant à détecter les attaques avant qu’elles n’atteignent le modèle. Pour cela, nous avons progressivement collecté plusieurs sources de données disponibles contenant à la fois des exemples bénins et des jailbreaks. Ces jeux de données ont été utilisés dans une série d’expérimentations, avec une stratégie de fusion pour accroître la quantité et la diversité des prompts. Diverses techniques d’embedding, telles que FastText, DistilBERT, RoBERTa et Longformer, ont été mobilisées pour représenter les prompts à différents niveaux sémantiques. La classification a été effectuée à l’aide de XGBoost, choisi pour ses nombreux avantages, notamment sa scalabilité et sa rapidité d’entraînement.Le système a été évalué selon des métriques standard telles que la précision (accuracy), la surface sous la courbe précision-rappel (AUPRC) et le taux de succès des attaques (ASR). Les résultats ont montré que l’utilisation de données d’apprentissage diversifiées et d’embeddings de qualité améliore significativement la performance de détection et la robustesse du système. L’implémentation finale, déployée sous forme d’application web, illustre l’efficacité des quatre modèles d’embedding dans la détection des prompts malveillants. Cette recherche propose ainsi un cadre évolutif et concret pour renforcer la sécurité des LLMs par une détection précoce des menaces |
URI: | http://dspace.centre-univ-mila.dz/jspui/handle/123456789/4490 |
Appears in Collections: | Computer science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Prompt Filtering Developing a practical defense system against LLM jailbreaks.pdf | 2,3 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.