Application desktop locale pour rechercher dans des PDF avec IA et OCR : PDF Semantic Search

Salut, de retour pour un nouveau tutoriel dev. Cette fois, nous allons dévélopper ensemble une application de bureau avec Electron, React, Ts, Python et du CSS avec Tailwind. Nous allons l’appeler PDF Semantic Search, mais à vous de choisir le meilleur nom pour votre application.

PDF Semantic Search est une application desktop locale conçue pour indexer des documents PDF, retrouver rapidement les bons extraits et répondre à des questions avec des citations claires. Le projet repose sur Electron, React, SQLite, PDF.js, FastAPI et Sentence Transformers. Il s’adresse normalement, et dans version la plus optimale aux entreprises, indépendants, équipes RH, juridiques, administratives ou techniques qui veulent un moteur de recherche documentaire moderne sans envoyer leurs fichiers vers un service cloud. Dans notre cas, on va l’utiliser en local, il faudra par la suite améliorer quelques modules pour une mise en production à grande échelle.

Télécharger le code source du Projet

Ce que fait concrètement l’application:

L’application PDF Semantic Search permet notamment :

d’importer une bibliothèque de PDF
d’indexer les documents en tâche de fond
d’extraire le texte page par page
de lancer un OCR sur les pages difficiles à lire
de rechercher un terme, une phrase ou une question
d’obtenir des résultats classés avec citations
d’ouvrir directement le PDF à la bonne page
de poser une question à un assistant local
et d’organiser les documents avec des tags, collections et favoris

Le positionnement du projet est simple : garder les données locales, améliorer la vitesse de recherche et produire des réponses documentaires plus utiles qu’une recherche classique dans un lecteur PDF standard.

Une application comme celle-ci doit répondre à plusieurs contraintes en même temps :

lire correctement des PDF très différents
rester rapide quand la bibliothèque grandit
garder les documents en local
être simple à déployer pour un usage desktop
permettre une évolution progressive vers plus d’intelligence

Electron ici apporte le cadre desktop. React gère l’interface. SQLite assure la persistance locale. Python reste le meilleur choix pragmatique pour les embeddings locaux. Le résultat est une architecture robuste, claire et adaptée à une application documentaire moderne.

Télécharger le Code Source du Projet

Technologies utilisées dans ce projet :

Côté desktop et interface

Electron pour l’application desktop
React pour l’interface
TypeScript pour la sûreté du code
Vite et electron-vite pour le build et le développement
Tailwind CSS pour le style

Côté données et recherche

SQLite avec `better-sqlite3`
SQLite FTS5 pour la recherche par mots-clés
embeddings locaux pour la recherche sémantique

Côté PDF et OCR

PDF.js pour la lecture et l’extraction
react-pdf pour l’affichage dans l’interface
Tesseract.js pour l’OCR

Côté IA locale

FastAPI pour le micro-service Python
Sentence Transformers pour les embeddings
Ollama en option pour des réponses plus riches

Les Fonctionnalités développées dans l’app:

F1: Import et gestion de bibliothèque

L’utilisateur peut importer des PDF directement ou scanner un dossier complet. Chaque document est enregistré dans une base locale avec ses métadonnées principales : chemin, taille, statut d’indexation, qualité de texte, OCR utilisé, modèle d’embedding utilisé et autres informations utiles.

F2: Indexation en arrière-plan

L’indexation est orchestrée par une file persistante. L’application peut reprendre des tâches après un redémarrage. Cette approche est importante pour un vrai logiciel desktop, car elle évite de perdre le travail déjà commencé.

F3: Extraction de texte

Le moteur lit les pages, reconstruit plus proprement les lignes et paragraphes, puis normalise le texte. L’objectif n’est pas seulement de lire le PDF, mais de créer une base exploitable pour la recherche et les réponses.

F4: OCR ciblé

L’OCR n’est pas limité aux PDF totalement scannés. L’application peut aussi renforcer uniquement les pages pauvres en texte. C’est plus précis, plus rapide et plus réaliste pour des documents mixtes.

F5: Recherche hybride

La recherche combine deux approches :

le lexical, très fort sur les mots exacts, via FTS5
le sémantique, très utile pour les formulations proches, via embeddings

Les résultats sont fusionnés puis rerankés pour donner des extraits plus clairs, plus complets et plus proches de l’intention utilisateur.

F6: Assistant documentaire

L’assistant local peut répondre de deux façons :

par extraction intelligente de phrases pertinentes
via Ollama, si un modèle local est disponible

Dans les deux cas, le but est de produire des phrases complètes, précises et ancrées dans les sources.

F7: Viewer PDF enrichi

Le viewer permet :

ouverture du PDF à la bonne page
zoom
rotation
navigation
plan du document
surlignage de texte
copie de citation
diagnostic des erreurs d’ouverture

Structure du Projet et Rôle de chaque dossier:

Télécharger le Code Source du Projet

L’application suit une architecture desktop classique en trois couches côté Electron: le main process, le preload et le renderer. À cela s’ajoutent une couche partagée pour les contrats, un service Python local pour les embeddings, un système de migrations SQLite et quelques scripts d’outillage. Cette organisation permet de séparer clairement l’interface, la logique métier, l’accès natif au système et les traitements IA locaux.

pdf-semantic-search/
├─ src/
│  ├─ main/
│  ├─ preload/
│  ├─ renderer/
│  └─ shared/
├─ python/
├─ resources/
│  └─ migrations/
├─ scripts/
├─ docs/
├─ package.json
├─ electron.vite.config.ts
└─ README.md

Le dossier src/main

Contient le cœur applicatif Electron : base SQLite, protocole `pdfdoc://`, indexation, recherche, assistant, watchers et logique métier globale.

C’est dans ce dossier que se trouvent les points d’entrée techniques les plus sensibles du projet. On y gère le cycle de vie de l’application, la création de la fenêtre Electron, l’initialisation de la base, l’enregistrement des handlers IPC et l’orchestration des services.