Analyse et reconnaissance automatique des documents numérisés

Moussaab, Khenfi

Please use this identifier to cite or link to this item: http://dspace.centre-univ-mila.dz/jspui/handle/123456789/331

Title:	Analyse et reconnaissance automatique des documents numérisés
Authors:	Moussaab, Khenfi
Keywords:	Prétraitement, Analyse et segmentation de document, Reconnaissance de caractère (OCR) Preprocessing, Document analysis and segmentation, Optical Character Recognition (OCR).
Issue Date:	Jun-2016
Publisher:	Abdelhafid Boussouf University centre- Mila
Abstract:	L'analyse et la reconnaissance automatique des documents numérisés est un domaine très vaste. Se caractérisent par divers problèmes pertinents tels que la présence des bruits, la variation des documents, la langue, etc. Actuellement, on utilise les documents numérisés pour accomplir plusieurs tâches d'information, cependant des grands problèmes entourent les documents mal scannés et la mauvaise écriture car cela engendre une perte d'information et une mauvaise expérience de lecture. La question qui se pose c'est comment régler ces problèmes et comment extraire une bonne information ? A l'aide des outils tel que Prima et Tesseract, nous avons suggéré dans ce mémoire une solution aux problèmes déjà cités. Cette méthode se base sur le prétraitement et la préparation des documents numériques, puis sur l'analyse et la segmentation de la structure des documents numériques, et en n une reconnaissance des caractères. Nous avons fait une étude bibliographique sur les di érents phénomènes rencontrés dans le processus d'analyse et de reconnaissance de documents numé- risés. On a utilisé une méthode caractérise par la préservation maximale du texte, une analyse et une segmentation des documents et en n une reconnaissance des documents avec moins de faute. Le résultat nal obtenu par cette méthode est un document utile, lisible et capable d'extraire de bonnes informations. Les résultats obtenus sont très satisfaisantes.
Description:	The analysis and automatic recognition of scanned documents is a very broad area. It is characterized by various relevant issues such as the presence of noise, the change of documents, language, ect. Currently, we use scanned documents to perform several tasks, however the big problems is the poorly scanned documents and bad writing, causing a loss of information and a bad reading experience. The question is how to address these issues and how to extract a good information ? Using tools like Prima and Tesseract, we suggested in this manuscript a solution to the problems already mentioned. This method is based on pre-processing and preparation of digital documents and the analysis and segmentation of the structure of digital documents, and nally the character recognition. We made a bibliographic study on the di erent phenomena encountered in the process of analysis and recognition of scanned documents. We used a method characterized by the maximum preservation of the text, analysis and segmentation of documents and nally a recognition of documents with less fault. The nal result obtained by this method is a useful document, readable and capable of extracting good information. The results are very satisfactory.
URI:	http://dspace.centre-univ-mila.dz/jspui/handle/123456789/331
Appears in Collections:	Computer science

Files in This Item:

File	Description	Size	Format
00426811.pdf		15,03 MB	Adobe PDF	View/Open

Show full item record