ASP.NET - Convertire PDF in TXT (Plain-Text) o HTML in C# con iTextSharp Una pratica Classe in C# per convertire il contenuto testuale di un qualsiasi file PDF in formato TXT o HTML con la libreria PDF iTextSharp per ASP.NET

Classe ASP.NET C# per il controllo e il calcolo formale del Codice Fiscale

Oggi ho avuto bisogno di trovare un modo per estrarre il contenuto testuale (txt - plain-text) di alcuni file PDF all'interno del codice di un controller MVC di una applicazione Web ASP.NET. Sfortunatamente, non esistono molte librerie open-source che consentono di farlo in modo efficace.

Fortunatamente, dopo un pò di tempo passato a cercare su Google, mi sono imbattuto in una "vecchia amica" - la libreria iTextSharp, che avevo già avuto modo di utilizzare in passato per uno scenario di utilizzo piuttosto diverso ma sempre relativo a file PDF. Recuperando la pagina ufficiale del progetto su SourceForge ho potuto constatare come quella che una volta era una libreria open-source si è oggi evoluta in un vero e proprio prodotto commerciale, distribuito sotto il nome di iText.

La "nuova" versione della libreria, sviluppata per Java ma disponibile anche per .NET grazie a un porting che si chiama ancora iTextSharp, è fortunatamente ancora disponibile in modalità  Comunity Edition, una versione gratuita per sviluppatori distribuita su licenza AGPL.

Per farla breve, nel giro di pochi minuti ho installato iTextSharp 5.5.13 da NuGet all'interno del mio progetto e ho utilizzato questa libreria per realizzare questa semplice classe statica che consente di estrarre il contenuto testuale da qualsiasi file PDF:

Una volta estratto il plain-text abbiamo varie possibilità, tra cui quella di formattare quest'ultimo in HTML sfruttando i line-breaks - o altre caratteristiche del testo a noi note - in modo piuttosto semplice:

Niente male, vero?

Per il momento è tutto: mi auguro che questa semplice classe potrà essere di aiuto agli sviluppatori che si imbatteranno in questo articolo cercando un modo per convertire i loro PDF in formato testo o HTML!

 

About Ryan

IT Project Manager, Web Interface Architect e Lead Developer di numerosi siti e servizi web ad alto traffico in Italia e in Europa. Dal 2010 si occupa anche della progettazione di App e giochi per dispositivi Android, iOS e Mobile Phone per conto di numerose società italiane. Microsoft MVP for Development Technologies dal 2018.

View all posts by Ryan

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


The reCAPTCHA verification period has expired. Please reload the page.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.