Site icon Ryadel

ASP.NET - Convertire PDF in TXT (Plain-Text) o HTML in C# con iTextSharp

Classe ASP.NET C# per il controllo e il calcolo formale del Codice Fiscale

Oggi ho avuto bisogno di trovare un modo per estrarre il contenuto testuale (txt - plain-text) di alcuni file PDF all'interno del codice di un controller MVC di una applicazione Web ASP.NET. Sfortunatamente, non esistono molte librerie open-source che consentono di farlo in modo efficace.

Fortunatamente, dopo un pò di tempo passato a cercare su Google, mi sono imbattuto in una "vecchia amica" - la libreria iTextSharp, che avevo già avuto modo di utilizzare in passato per uno scenario di utilizzo piuttosto diverso ma sempre relativo a file PDF. Recuperando la pagina ufficiale del progetto su SourceForge ho potuto constatare come quella che una volta era una libreria open-source si è oggi evoluta in un vero e proprio prodotto commerciale, distribuito sotto il nome di iText.

La "nuova" versione della libreria, sviluppata per Java ma disponibile anche per .NET grazie a un porting che si chiama ancora iTextSharp, è fortunatamente ancora disponibile in modalità  Comunity Edition, una versione gratuita per sviluppatori distribuita su licenza AGPL.

Per farla breve, nel giro di pochi minuti ho installato iTextSharp 5.5.13 da NuGet all'interno del mio progetto e ho utilizzato questa libreria per realizzare questa semplice classe statica che consente di estrarre il contenuto testuale da qualsiasi file PDF:

Una volta estratto il plain-text abbiamo varie possibilità, tra cui quella di formattare quest'ultimo in HTML sfruttando i line-breaks - o altre caratteristiche del testo a noi note - in modo piuttosto semplice:

Niente male, vero?

Per il momento è tutto: mi auguro che questa semplice classe potrà essere di aiuto agli sviluppatori che si imbatteranno in questo articolo cercando un modo per convertire i loro PDF in formato testo o HTML!

 

Exit mobile version