Please use this identifier to cite or link to this item:
http://dspace.centre-univ-mila.dz/jspui/handle/123456789/4481
Title: | Amélioration et Extraction d'Informations à partir de Documents Anciens Dégradés. |
Authors: | Yassamine , Zouaghi , Ferhat Dounya |
Keywords: | Documents anciens, OCR, IA, Restauration d’images, Extraction d’information Anciens documents, OCR, AI, Image restauration, Information extraction |
Issue Date: | Jun-2025 |
Publisher: | univercity centre of abdelhafid boussouf mila |
Citation: | Intelligence Artificiel et ces Applications (I2A) |
Abstract: | Les documents anciens constituent une source précieuse de mémoire historique et culturelle, et servent également de pièces officielles pour prouver les propriétés privées et publiques. Cependant, avec le temps, ils subissent des dégradations physiques (jaunissement du papier, encre effacée, moisissures) qui rendent leur lecture difficile. La restauration numérique et l’extraction d’informations fiables à partir de ces documents sont donc essentielles pour leur préservation et leur mise à disposition.L’intelligence artificielle (IA), notamment les techniques de vision par ordinateur et de traitement automatique du langage naturel (TALN), offre des solutions innovantes. Grâce aux réseaux de neurones et à la reconnaissance optique de caractères (OCR), il est possible de restaurer visuellement les documents et d’en extraire le texte avec précision.Cependant, les méthodes classiques d’OCR ne s’adaptent pas facilement aux écritures anciennes ou manuscrites. Pour pallier ces difficultés, nous proposons une approche hybride combinant restauration d’images, OCR multilingue et analyse linguistique assistée par machine learning.Cette recherche vise à concevoir un système intelligent permettant de restaurer des documents anciens, améliorer la reconnaissance des caractères et extraire des informations pertinentes (noms, dates, lieux). Le système développé est modulaire, flexible et prend en charge plusieurs formats (image, PDF). Il utilise des techniques avancées comme CLAHE pour le contraste, PaddleOCR et EasyOCR pour la reconnaissance de texte, ainsi que des outils de post-traitement linguistique. Les tests effectués sur divers documents anciens en arabe, français et anglais ont montré une amélioration notable de la qualité visuelle (jusqu’à 20 %) et une extraction textuelle précise (taux moyen supérieur à 75 %). |
Description: | Ancient documents represent a valuable source of historical and cultural memory, and also serve as official records for verifying private and public ownership. However, over time, they undergo physical degradation such as paper yellowing, faded ink, and mold, which makes reading them difficult. Digital restoration and reliable information extraction are therefore essential for their preservation and accessibility.Artificial Intelligence (AI), particularly through computer vision and natural language processing (NLP) techniques, offers innovative solutions. Thanks to neural networks and Optical Character Recognition (OCR), it is possible to visually restore documents and extract text with precision.However, traditional OCR methods do not easily adapt to ancient or handwritten scripts. To overcome these difficulties, we propose a hybrid approach combining image restoration, multilingual OCR, and linguistic analysis assisted by machine learning.This research aims to design an intelligent system capable of restoring old documents, improving character recognition, and extracting relevant information (names, dates, places). The developed system is modular, flexible, and supports multiple formats (image, PDF). It uses advanced techniques such as CLAHE for contrast enhancement, PaddleOCR and EasyOCR for text recognition, and linguistic post-processing tools.Tests conducted on various ancient documents in Arabic, French, and English have shown a significant improvement in visual quality (up to 20%) and precise text extraction (average rate exceeding 75%). |
URI: | http://dspace.centre-univ-mila.dz/jspui/handle/123456789/4481 |
Appears in Collections: | Computer science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Amélioration et Extraction d_Informations à partir de Documents Anciens Dégradés ..pdf | 2,7 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.