[Progetto] Estrazione(e ricerca parole) del testo da un pdf.

Iniziative e progetti della comunità legati a Ubuntu.
Regole della sezione
Questa sezione ha lo scopo di raccogliere le iniziative/progetti della nostra Comunità legati ad Ubuntu. I progetti ospitati nascono da iniziative degli utenti o gruppi di utenti. In futuro i progetti potrebbero rimanere iniziative "personali" o essere integrate nella distribuzione, sponsorizzate da Ubuntu o da Canonical a discrezione dei responsabili. All'interno di essa sarà possibile inserire delle discussioni che hanno la funzione di pubblicizzare avvenimenti, iniziative e progetti software su Ubuntu e GNU/Linux in generale. Sarà inoltre possibile per gli utenti proporre lo sviluppo di nuovi software e in questo caso la discussione di richiesta avrà la funzione di generare un requisito funzionale del prodotto da sviluppare.

Sezione I - Iniziative
  • Fanno parte di iniziative, ad esempio, le seguenti categorie: corsi, progetti editoriali, libri.
  • La segnalazione di un'iniziativa avviene creando una discussione con l'annuncio.
  • Una volta effettuata la segnalazione, la discussione viene chiusa dal Gruppo Forum.
  • Se l'iniziativa esposta comporta un costo di adesione o fruizione, questo deve essere esplicitamente riportato all'interno della discussione.
  • È obbligatorio segnalare all'interno della discussione i riferimenti per poter contattare/partecipare all'iniziativa.

Sezione II - Progetti
  • La segnalazione di un progetto software, come per le iniziative, avviene e si sviluppa all'interno di una singola discussione.
  • Sarà consentito l'inserimento di software solo se rilasciati sotto licenza GPL (in tutte le sue versioni) o equivalente FOSS, tale da garantire agli utenti l'utilizzo del prodotto senza restrizioni e agli sviluppatori la proprietà intellettuale del codice prodotto.
  • Nell'oggetto della discussione dovrà essere riportata la categoria (es. [Iniziativa], [Progetto] o [Proposta]) e una semplice descrizione del progetto.
  • Se il progetto ha già un sito che lo ospita sarà a discrezione del Gruppo Forum chiuderla come segnalazione o lasciarla aperta.
  • Se il progetto non ha un sito che lo ospita si potranno aprire due discussioni, una per proporre modifiche/implementazioni (dove nel titolo occorre specificare [sviluppo]) ed una per segnalare problemi (e nel titolo dovrà comparire [supporto]).
  • Non è consentita l'apertura di nuove discussioni in riferimento a versioni superiori o modificate di un prodotto già riportato in precedenza.
  • Se il software oggetto del progetto ha una dimensione non superiore ai 128 kB, per prodotti che non hanno un sito che li ospita, sarà possibile allegarlo alla discussione.

Sezione III - Proposte
  • Una proposta deve essere eseguita e si svilupperà all'interno di una singola discussione.
  • Le proposte dovranno essere inserite direttamente nella sezione "Progetti della Comunità".
  • Dovranno essere specificate le funzionalità che devono essere sviluppate.
  • Non dovranno essere riportate diciture tipo "...deve fare come questo software...", ma indicare nel miglior modo possibile i requisiti.
  • Una volta segnalata la discussione resterà aperta per consentire uno scambio di idee su come sviluppare il codice o finché gli sviluppatori non forniranno una soluzione (da pubblicizzare poi, come visto prima, nella sezione Progetti) che ne soddisfi il requisito.

Per quanto non esposto sopra, si fa comunque riferimento al Regolamento del forum ed al Codice di Condotta della Comunità.

[Progetto] Estrazione(e ricerca parole) del testo da un pdf.

Messaggioda Vincenzo1968 » sabato 14 settembre 2019, 15:11

Ho sviluppato un programmino per l'estrazione del testo dalle pagine di un file pdf.

Potete scaricarlo e installarlo digitando i seguenti comandi nel terminale:
Codice: Seleziona tutto
cd $HOME
mkdir myprojs
cd myprojs
git clone https://github.com/Vincenzo1968/mypdfsearch
cd mypdfsearch
./configure
make
sudo make install


Occorre Git. se non l'avete già, potete installarlo così:
Codice: Seleziona tutto
sudo apt-get install git


I sorgenti sono in C. Il programma andrebbe migliorato sotto diversi punti di vista, come, per esempio, la sillabazione del testo.
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Zombie17 » sabato 14 settembre 2019, 15:56

Ma che figo!
:windows:
Avatar utente
Zombie17
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 438
Iscrizione: luglio 2019
Desktop: GNOME (in Ubuntu 3.34.0)
Distribuzione: Ubuntu 19.10, Kali 2019.3 amd64
Sesso: Maschile

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Vincenzo1968 » domenica 22 settembre 2019, 21:40

Ho modificato il programma in modo che l'opzione "--path" accetti e un nome di directory, e un nome di file.
Se si specifica un nome di directory, la ricerca viene effettuata anche nelle sue sottodirectory.

Output tipico:
Codice: Seleziona tutto
[vincenzo]:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch --path="../Files/gccFiles/Giornali/A2019/Q20190730/Corriere della Sera - 30 luglio 2019.pdf" --words="Virginia Orbán branco"

File: '../Files/gccFiles/Giornali/A2019/Q20190730/Corriere della Sera - 30 luglio 2019.pdf'
   Key 'orbán' found on page 22

[vincenzo]:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch --path="../Files/gccFiles/Giornali/A2019/Q20190728/Corriere della Sera - 28 luglio 2019.pdf" --words="Virginia Orbán branco"

File: '../Files/gccFiles/Giornali/A2019/Q20190728/Corriere della Sera - 28 luglio 2019.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 15
   Key 'virginia' found on page 39

[vincenzo]:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch --path="../Files/gccFiles/Giornali" --words="Virginia Orbán branco"

File: '../Files/gccFiles/Giornali/Manzoni/manzoni_i_promessi_sposi.pdf'
   Key 'branco' found on page 254
   Key 'branco' found on page 270
   Key 'branco' found on page 319
   Key 'branco' found on page 558
File: '../Files/gccFiles/Giornali/A2018/Q20180102/corriere_della_sera_-_02_gennaio_2018.pdf'
   Key 'virginia' found on page 23
   Key 'virginia' found on page 27
File: '../Files/gccFiles/Giornali/A2018/Q20180102/Libero - 2 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180102/la_repubblica_-_02_gennaio_2018.pdf'
   Key 'virginia' found on page 8
   Key 'orbán' found on page 30
File: '../Files/gccFiles/Giornali/A2018/Q20180102/il Fatto Quotidiano 02 Gennaio 2018.pdf'
   Key 'virginia' found on page 3
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Il Mattino Napoli 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 2
File: '../Files/gccFiles/Giornali/A2018/Q20180104/la Repubblica 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
   Key 'orbán' found on page 12
   Key 'virginia' found on page 32
   Key 'virginia' found on page 38
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Il Fatto Quotidiano 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 4
   Key 'virginia' found on page 5
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Il Messaggero Roma 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
   Key 'virginia' found on page 4
   Key 'virginia' found on page 36
   Key 'virginia' found on page 37
   Key 'virginia' found on page 41
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Giornale di Sicilia Palermo e Provincia 4 Gennaio 2018v avxhm.se.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Corriere della Sera 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 2
   Key 'virginia' found on page 10
File: '../Files/gccFiles/Giornali/A2018/Q20180104/La Verita 4 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Romanista 5 Gennaio 2018v avxhm.se.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Corriere della Sera 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 3
   Key 'virginia' found on page 8
   Key 'virginia' found on page 20
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Giornale di Sicilia Palermo e Provincia 5 Gennaio 2018v avxhm.se.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/la Repubblica 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 11
   Key 'virginia' found on page 15
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Messaggero Roma 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 8
   Key 'virginia' found on page 9
   Key 'virginia' found on page 12
   Key 'virginia' found on page 37
   Key 'virginia' found on page 39
File: '../Files/gccFiles/Giornali/A2018/Q20180105/La Verita 5 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Fatto Quotidiano 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Mattino Napoli 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 4
   Key 'virginia' found on page 27
File: '../Files/gccFiles/Giornali/A2018/Q20180106/Corriere della Sera 6 Gennaio 2018.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 23
File: '../Files/gccFiles/Giornali/A2018/Q20180106/Il Fatto Quotidiano 6 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 20
File: '../Files/gccFiles/Giornali/A2018/Q20180106/la Repubblica 6 Gennaio 2018.pdf'
   Key 'virginia' found on page 11
   Key 'virginia' found on page 29
File: '../Files/gccFiles/Giornali/A2018/Q20180103/Libero - 3 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180103/il Fatto Quotidiano 03 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 3
   Key 'virginia' found on page 4
   Key 'virginia' found on page 10
File: '../Files/gccFiles/Giornali/A2018/Q20180103/corriere_della_sera_-_03_gennaio_2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 12
   Key 'virginia' found on page 19
   Key 'virginia' found on page 33
   Key 'virginia' found on page 40
   Key 'virginia' found on page 47
File: '../Files/gccFiles/Giornali/A2019/Q20190727/Corriere della Sera - 27 luglio 2019.pdf'
   Key 'virginia' found on page 5
   Key 'virginia' found on page 7
File: '../Files/gccFiles/Giornali/A2019/Q20190727/Il Fatto Quotidiano 27 Luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190730/Il Fatto Quotidiano - 30 luglio 2019.pdf'
   Key 'virginia' found on page 10
   Key 'virginia' found on page 11
File: '../Files/gccFiles/Giornali/A2019/Q20190730/Corriere della Sera - 30 luglio 2019.pdf'
   Key 'orbán' found on page 22
File: '../Files/gccFiles/Giornali/A2019/Q20190724/La Stampa - 24 luglio 2019 .pdf'
   Key 'virginia' found on page 32
File: '../Files/gccFiles/Giornali/A2019/Q20190724/Il Manifesto - 24 luglio 2019 .pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190724/Il Sole 24 Ore Norm & Tributi Focus - Decreto crescita - Tutti gli incentivi - - 24 luglio 2019 .pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190724/Il Fatto Quotidiano - 24 luglio 2019.pdf'
   Key 'virginia' found on page 8
   Key 'virginia' found on page 9
File: '../Files/gccFiles/Giornali/A2019/Q20190725/Corriere della Sera - 25 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190725/Il Fatto Quotidiano - 25 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190728/Il Fatto Quotidiano - 28 luglio 2019.pdf'
   Key 'virginia' found on page 4
   Key 'virginia' found on page 5
   Key 'virginia' found on page 24
File: '../Files/gccFiles/Giornali/A2019/Q20190728/Corriere della Sera - 28 luglio 2019.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 15
   Key 'virginia' found on page 39
File: '../Files/gccFiles/Giornali/A2019/Q20190729/Il Fatto Quotidiano - 29 luglio 2019.pdf'
   Key 'orbán' found on page 12
   Key 'orbán' found on page 13
File: '../Files/gccFiles/Giornali/A2019/Q20190729/Corriere della Sera - 29 luglio 2019.pdf'
   Key 'virginia' found on page 8
File: '../Files/gccFiles/Giornali/A2019/Q20190723/Corriere della Sera - 23 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190723/Il Fatto Quotidiano - 23 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190726/Corriere della Sera - 26 luglio 2019.pdf'
   Key 'virginia' found on page 5
   Key 'virginia' found on page 6
File: '../Files/gccFiles/Giornali/A2019/Q20190726/Il Fatto Quotidiano - 26 luglio 2019.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 7
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Vincenzo1968 » lunedì 23 settembre 2019, 12:59

Ho aggiunto l'opzione --nosubdirs, in modo da poter effettuare le ricerche soltanto nel path specificato, escludendo le sottodirectory:

Codice: Seleziona tutto
[vincenzo]:~/MyJob/Progetti/Files/Prova$ pwd
/home/vincenzo/MyJob/Progetti/Files/Prova

[vincenzo]:~/MyJob/Progetti/Files/Prova$ ls -1
Giornali
JapaneseGrammarGuide.pdf

[vincenzo]:~/MyJob/Progetti/Files/Prova$ cd Giornali
[vincenzo]:~/MyJob/Progetti/Files/Prova/Giornali$ ls -1
'Corriere della Sera - 20 luglio 2019.pdf'
'Il Fatto Quotidiano - 9 aprile 2019.pdf'
'Il Giornale - 8 aprile 2019.pdf'
'Il Manifesto - 9 aprile 2019.pdf'
'Il Sole 24 Ore - 9 aprile 2019.pdf'


Codice: Seleziona tutto
[vincenzo]:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch --words="Virginia sound Orbán" --path="../Files/Prova"

File: '../Files/Prova/Giornali/Corriere della Sera - 20 luglio 2019.pdf'
   Key 'orbán' found on page 1
   Key 'orbán' found on page 9
   Key 'orbán' found on page 46
File: '../Files/Prova/Giornali/Il Sole 24 Ore - 9 aprile 2019.pdf'
File: '../Files/Prova/Giornali/Il Giornale - 8 aprile 2019.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 7
File: '../Files/Prova/Giornali/Il Fatto Quotidiano - 9 aprile 2019.pdf'
   Key 'orbán' found on page 2
   Key 'orbán' found on page 3
   Key 'virginia' found on page 18
   Key 'virginia' found on page 19
File: '../Files/Prova/Giornali/Il Manifesto - 9 aprile 2019.pdf'
File: '../Files/Prova/JapaneseGrammarGuide.pdf'
   Key 'sound' found on page 3
   Key 'sound' found on page 9
   Key 'sound' found on page 10
   Key 'sound' found on page 11
   Key 'sound' found on page 12
   Key 'sound' found on page 13
   Key 'sound' found on page 21
   Key 'sound' found on page 23
   Key 'sound' found on page 38
   Key 'sound' found on page 40
   Key 'sound' found on page 50
   Key 'sound' found on page 58
   Key 'sound' found on page 83
   Key 'sound' found on page 85
   Key 'sound' found on page 88
   Key 'sound' found on page 104
   Key 'sound' found on page 126
   Key 'sound' found on page 144
   Key 'sound' found on page 152
   Key 'sound' found on page 167
   Key 'sound' found on page 168
   Key 'sound' found on page 169
   Key 'sound' found on page 170
   Key 'sound' found on page 171
   Key 'sound' found on page 175
   Key 'sound' found on page 185
   Key 'sound' found on page 199
   Key 'sound' found on page 208
   Key 'sound' found on page 212
   Key 'sound' found on page 223
   Key 'sound' found on page 232
   Key 'sound' found on page 240
   Key 'sound' found on page 248
   Key 'sound' found on page 249
   Key 'sound' found on page 261
   Key 'sound' found on page 267
   Key 'sound' found on page 269
   Key 'sound' found on page 270
   Key 'sound' found on page 278
   Key 'sound' found on page 290
   Key 'sound' found on page 301
   Key 'sound' found on page 302
   Key 'sound' found on page 323
   Key 'sound' found on page 327
   Key 'sound' found on page 328



Codice: Seleziona tutto
[vincenzo]:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch --words="Virginia sound Orbán" --path="../Files/Prova" --nosubdirs

File: '../Files/Prova/JapaneseGrammarGuide.pdf'
   Key 'sound' found on page 3
   Key 'sound' found on page 9
   Key 'sound' found on page 10
   Key 'sound' found on page 11
   Key 'sound' found on page 12
   Key 'sound' found on page 13
   Key 'sound' found on page 21
   Key 'sound' found on page 23
   Key 'sound' found on page 38
   Key 'sound' found on page 40
   Key 'sound' found on page 50
   Key 'sound' found on page 58
   Key 'sound' found on page 83
   Key 'sound' found on page 85
   Key 'sound' found on page 88
   Key 'sound' found on page 104
   Key 'sound' found on page 126
   Key 'sound' found on page 144
   Key 'sound' found on page 152
   Key 'sound' found on page 167
   Key 'sound' found on page 168
   Key 'sound' found on page 169
   Key 'sound' found on page 170
   Key 'sound' found on page 171
   Key 'sound' found on page 175
   Key 'sound' found on page 185
   Key 'sound' found on page 199
   Key 'sound' found on page 208
   Key 'sound' found on page 212
   Key 'sound' found on page 223
   Key 'sound' found on page 232
   Key 'sound' found on page 240
   Key 'sound' found on page 248
   Key 'sound' found on page 249
   Key 'sound' found on page 261
   Key 'sound' found on page 267
   Key 'sound' found on page 269
   Key 'sound' found on page 270
   Key 'sound' found on page 278
   Key 'sound' found on page 290
   Key 'sound' found on page 301
   Key 'sound' found on page 302
   Key 'sound' found on page 323
   Key 'sound' found on page 327
   Key 'sound' found on page 328
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Vincenzo1968 » venerdì 4 ottobre 2019, 13:29

Codice: Seleziona tutto
vincenzo@:~/MyJob/Progetti/myPdfSearch$ time pdfgrep -i --with-filename -r -c 'Virginia|Orbán|branco' ../Files/gccFiles/Giornali
../Files/gccFiles/Giornali/A2019/Q20190726/Il Fatto Quotidiano - 26 luglio 2019.pdf:2
../Files/gccFiles/Giornali/A2019/Q20190726/Corriere della Sera - 26 luglio 2019.pdf:5
../Files/gccFiles/Giornali/A2019/Q20190723/Il Fatto Quotidiano - 23 luglio 2019.pdf:0
../Files/gccFiles/Giornali/A2019/Q20190723/Corriere della Sera - 23 luglio 2019.pdf:0
../Files/gccFiles/Giornali/A2019/Q20190729/Corriere della Sera - 29 luglio 2019.pdf:2
../Files/gccFiles/Giornali/A2019/Q20190729/Il Fatto Quotidiano - 29 luglio 2019.pdf:3
../Files/gccFiles/Giornali/A2019/Q20190728/Corriere della Sera - 28 luglio 2019.pdf:5
../Files/gccFiles/Giornali/A2019/Q20190728/Il Fatto Quotidiano - 28 luglio 2019.pdf:2
../Files/gccFiles/Giornali/A2019/Q20190725/Il Fatto Quotidiano - 25 luglio 2019.pdf:1
../Files/gccFiles/Giornali/A2019/Q20190725/Corriere della Sera - 25 luglio 2019.pdf:0
../Files/gccFiles/Giornali/A2019/Q20190724/Il Fatto Quotidiano - 24 luglio 2019.pdf:3
../Files/gccFiles/Giornali/A2019/Q20190724/Il Sole 24 Ore Norm & Tributi Focus - Decreto crescita - Tutti gli incentivi - - 24 luglio 2019 .pdf:0
../Files/gccFiles/Giornali/A2019/Q20190724/Il Manifesto - 24 luglio 2019 .pdf:0
../Files/gccFiles/Giornali/A2019/Q20190724/La Stampa - 24 luglio 2019 .pdf:2
../Files/gccFiles/Giornali/A2019/Q20190730/Corriere della Sera - 30 luglio 2019.pdf:6
../Files/gccFiles/Giornali/A2019/Q20190730/Il Fatto Quotidiano - 30 luglio 2019.pdf:1
../Files/gccFiles/Giornali/A2019/Q20190727/Il Fatto Quotidiano 27 Luglio 2019.pdf:2
../Files/gccFiles/Giornali/A2019/Q20190727/Corriere della Sera - 27 luglio 2019.pdf:5
../Files/gccFiles/Giornali/A2018/Q20180103/corriere_della_sera_-_03_gennaio_2018.pdf:15
../Files/gccFiles/Giornali/A2018/Q20180103/il Fatto Quotidiano 03 Gennaio 2018.pdf:4
../Files/gccFiles/Giornali/A2018/Q20180103/Libero - 3 Gennaio 2018.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180106/la Repubblica 6 Gennaio 2018.pdf:5
../Files/gccFiles/Giornali/A2018/Q20180106/Il Fatto Quotidiano 6 Gennaio 2018.pdf:4
../Files/gccFiles/Giornali/A2018/Q20180106/Corriere della Sera 6 Gennaio 2018.pdf:5
../Files/gccFiles/Giornali/A2018/Q20180105/Il Mattino Napoli 5 Gennaio 2018.pdf:6
../Files/gccFiles/Giornali/A2018/Q20180105/Il Fatto Quotidiano 5 Gennaio 2018.pdf:4
../Files/gccFiles/Giornali/A2018/Q20180105/La Verita 5 Gennaio 2018.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180105/Il Messaggero Roma 5 Gennaio 2018.pdf:16
../Files/gccFiles/Giornali/A2018/Q20180105/la Repubblica 5 Gennaio 2018.pdf:2
../Files/gccFiles/Giornali/A2018/Q20180105/Giornale di Sicilia Palermo e Provincia 5 Gennaio 2018v avxhm.se.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180105/Corriere della Sera 5 Gennaio 2018.pdf:8
../Files/gccFiles/Giornali/A2018/Q20180105/Il Romanista 5 Gennaio 2018v avxhm.se.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180104/La Verita 4 Gennaio 2018.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180104/Corriere della Sera 4 Gennaio 2018.pdf:7
../Files/gccFiles/Giornali/A2018/Q20180104/Giornale di Sicilia Palermo e Provincia 4 Gennaio 2018v avxhm.se.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180104/Il Messaggero Roma 4 Gennaio 2018.pdf:15
../Files/gccFiles/Giornali/A2018/Q20180104/Il Fatto Quotidiano 4 Gennaio 2018.pdf:5
../Files/gccFiles/Giornali/A2018/Q20180104/la Repubblica 4 Gennaio 2018.pdf:9
../Files/gccFiles/Giornali/A2018/Q20180104/Il Mattino Napoli 4 Gennaio 2018.pdf:8
../Files/gccFiles/Giornali/A2018/Q20180102/il Fatto Quotidiano 02 Gennaio 2018.pdf:1
../Files/gccFiles/Giornali/A2018/Q20180102/la_repubblica_-_02_gennaio_2018.pdf:3
../Files/gccFiles/Giornali/A2018/Q20180102/Libero - 2 Gennaio 2018.pdf:0
../Files/gccFiles/Giornali/A2018/Q20180102/corriere_della_sera_-_02_gennaio_2018.pdf:2
../Files/gccFiles/Giornali/Manzoni/manzoni_i_promessi_sposi.pdf:4

real   1m53,009s
user   1m50,873s
sys   0m2,136s


Codice: Seleziona tutto
vincenzo@:~/MyJob/Progetti/myPdfSearch$ time mypdfsearch --path="../Files/gccFiles/Giornali" --words="Virginia Orbán branco"

File: '../Files/gccFiles/Giornali/Manzoni/manzoni_i_promessi_sposi.pdf'
   Key 'branco' found on page 254
   Key 'branco' found on page 270
   Key 'branco' found on page 319
   Key 'branco' found on page 558
File: '../Files/gccFiles/Giornali/A2018/Q20180102/corriere_della_sera_-_02_gennaio_2018.pdf'
   Key 'virginia' found on page 23
   Key 'virginia' found on page 27
File: '../Files/gccFiles/Giornali/A2018/Q20180102/Libero - 2 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180102/la_repubblica_-_02_gennaio_2018.pdf'
   Key 'virginia' found on page 8
   Key 'orbán' found on page 30
File: '../Files/gccFiles/Giornali/A2018/Q20180102/il Fatto Quotidiano 02 Gennaio 2018.pdf'
   Key 'virginia' found on page 3
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Il Mattino Napoli 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 2
File: '../Files/gccFiles/Giornali/A2018/Q20180104/la Repubblica 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
   Key 'orbán' found on page 12
   Key 'virginia' found on page 32
   Key 'virginia' found on page 38
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Il Fatto Quotidiano 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 4
   Key 'virginia' found on page 5
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Il Messaggero Roma 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
   Key 'virginia' found on page 4
   Key 'virginia' found on page 36
   Key 'virginia' found on page 37
   Key 'virginia' found on page 41
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Giornale di Sicilia Palermo e Provincia 4 Gennaio 2018v avxhm.se.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180104/Corriere della Sera 4 Gennaio 2018.pdf'
   Key 'virginia' found on page 2
   Key 'virginia' found on page 10
File: '../Files/gccFiles/Giornali/A2018/Q20180104/La Verita 4 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Romanista 5 Gennaio 2018v avxhm.se.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Corriere della Sera 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 3
   Key 'virginia' found on page 8
   Key 'virginia' found on page 20
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Giornale di Sicilia Palermo e Provincia 5 Gennaio 2018v avxhm.se.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/la Repubblica 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 11
   Key 'virginia' found on page 15
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Messaggero Roma 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 8
   Key 'virginia' found on page 9
   Key 'virginia' found on page 12
   Key 'virginia' found on page 37
   Key 'virginia' found on page 39
File: '../Files/gccFiles/Giornali/A2018/Q20180105/La Verita 5 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Fatto Quotidiano 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
   Key 'virginia' found on page 14
   Key 'virginia' found on page 15
File: '../Files/gccFiles/Giornali/A2018/Q20180105/Il Mattino Napoli 5 Gennaio 2018.pdf'
   Key 'virginia' found on page 4
   Key 'virginia' found on page 27
File: '../Files/gccFiles/Giornali/A2018/Q20180106/Corriere della Sera 6 Gennaio 2018.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 23
File: '../Files/gccFiles/Giornali/A2018/Q20180106/Il Fatto Quotidiano 6 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 20
File: '../Files/gccFiles/Giornali/A2018/Q20180106/la Repubblica 6 Gennaio 2018.pdf'
   Key 'virginia' found on page 11
   Key 'virginia' found on page 29
File: '../Files/gccFiles/Giornali/A2018/Q20180103/Libero - 3 Gennaio 2018.pdf'
File: '../Files/gccFiles/Giornali/A2018/Q20180103/il Fatto Quotidiano 03 Gennaio 2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 3
   Key 'virginia' found on page 4
   Key 'virginia' found on page 10
File: '../Files/gccFiles/Giornali/A2018/Q20180103/corriere_della_sera_-_03_gennaio_2018.pdf'
   Key 'virginia' found on page 1
   Key 'virginia' found on page 12
   Key 'virginia' found on page 19
   Key 'virginia' found on page 33
   Key 'virginia' found on page 40
   Key 'virginia' found on page 47
File: '../Files/gccFiles/Giornali/A2019/Q20190727/Corriere della Sera - 27 luglio 2019.pdf'
   Key 'virginia' found on page 5
   Key 'virginia' found on page 7
File: '../Files/gccFiles/Giornali/A2019/Q20190727/Il Fatto Quotidiano 27 Luglio 2019.pdf'
   Key 'virginia' found on page 8
   Key 'branco' found on page 8
   Key 'virginia' found on page 9
   Key 'branco' found on page 9
File: '../Files/gccFiles/Giornali/A2019/Q20190730/Il Fatto Quotidiano - 30 luglio 2019.pdf'
   Key 'virginia' found on page 10
   Key 'virginia' found on page 11
File: '../Files/gccFiles/Giornali/A2019/Q20190730/Corriere della Sera - 30 luglio 2019.pdf'
   Key 'orbán' found on page 22
File: '../Files/gccFiles/Giornali/A2019/Q20190724/La Stampa - 24 luglio 2019 .pdf'
   Key 'virginia' found on page 32
File: '../Files/gccFiles/Giornali/A2019/Q20190724/Il Manifesto - 24 luglio 2019 .pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190724/Il Sole 24 Ore Norm & Tributi Focus - Decreto crescita - Tutti gli incentivi - - 24 luglio 2019 .pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190724/Il Fatto Quotidiano - 24 luglio 2019.pdf'
   Key 'virginia' found on page 8
   Key 'virginia' found on page 9
   Key 'virginia' found on page 16
   Key 'virginia' found on page 17
   Key 'virginia' found on page 20
   Key 'virginia' found on page 21
File: '../Files/gccFiles/Giornali/A2019/Q20190725/Corriere della Sera - 25 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190725/Il Fatto Quotidiano - 25 luglio 2019.pdf'
   Key 'branco' found on page 20
   Key 'branco' found on page 21
File: '../Files/gccFiles/Giornali/A2019/Q20190728/Il Fatto Quotidiano - 28 luglio 2019.pdf'
   Key 'virginia' found on page 4
   Key 'virginia' found on page 5
   Key 'virginia' found on page 24
File: '../Files/gccFiles/Giornali/A2019/Q20190728/Corriere della Sera - 28 luglio 2019.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 15
   Key 'virginia' found on page 39
File: '../Files/gccFiles/Giornali/A2019/Q20190729/Il Fatto Quotidiano - 29 luglio 2019.pdf'
   Key 'virginia' found on page 2
   Key 'virginia' found on page 3
   Key 'orbán' found on page 12
   Key 'orbán' found on page 13
   Key 'virginia' found on page 18
   Key 'virginia' found on page 19
File: '../Files/gccFiles/Giornali/A2019/Q20190729/Corriere della Sera - 29 luglio 2019.pdf'
   Key 'virginia' found on page 8
File: '../Files/gccFiles/Giornali/A2019/Q20190723/Corriere della Sera - 23 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190723/Il Fatto Quotidiano - 23 luglio 2019.pdf'
File: '../Files/gccFiles/Giornali/A2019/Q20190726/Corriere della Sera - 26 luglio 2019.pdf'
   Key 'virginia' found on page 5
   Key 'virginia' found on page 6
File: '../Files/gccFiles/Giornali/A2019/Q20190726/Il Fatto Quotidiano - 26 luglio 2019.pdf'
   Key 'virginia' found on page 6
   Key 'virginia' found on page 7

real   1m7,328s
user   1m6,049s
sys   0m1,276s


Bisognerebbe migliorare la formattazione del testo estratto. Quando, per esempio, all’interno del pdf, il testo è giustificato, la cosa si complica.

https://www.liberliber.it/mediateca/lib ... _sposi.pdf
Codice: Seleziona tutto
vincenzo@:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch  --extracttextfrom="../Files/gccFiles/Giornali/Manzoni/manzoni_i_promessi_sposi.pdf" --frompage=254 --topage=254

File: '../Files/gccFiles/Giornali/Manzoni/manzoni_i_promessi_sposi.pdf'
TEXT EXTRACTED FROM PAGE 254:

CAPITOLO XI
Come   un   branco   di   segugi,   dopo   aver   inseguita   inva
-
no   una   lepre,   tornano   mortificati   verso   il   padrone,   co'
 
musi   bassi,   e   con   le   code   ciondoloni,   così,   in   quella
 
scompigliata   notte,   tornavano   i   bravi   al   palazzotto   di
 
don   Rodrigo.   Egli   camminava   innanzi   e   indietro,   al
 
buio, per una stanzaccia disabitata dell'ultimo piano, che
 
rispondeva   sulla   spianata.   Ogni   tanto   si   fermava,   tende
-
va   l'orecchio,   guardava   dalle   fessure   dell'imposte   intar
-
late,   pieno   d'impazienza   e   non   privo   d'inquietudine,   non
 
solo   per   l'incertezza   della   riuscita,   ma   anche   per   le   con
-
seguenze possibili; perché era la più grossa e la più arri
-
schiata   a   cui   il   brav'uomo   avesse   ancor   messo   mano.
 
S'andava però rassicurando col pensiero delle precauzio
-
ni   prese   per   distrugger   gl'indizi,   se   non   i   sospetti.   "In
 
quanto   ai   sospetti",   pensava,   "me   ne   rido.   Vorrei   un   po'
 
sapere   chi   sarà   quel   voglioso   che   venga   quassù   a   veder
 
se   c'è   o   non   c'è   una   ragazza.   Venga,   venga   quel   tanghe
-
ro,   che   sarà   ben   ricevuto.   Venga   il   frate,   venga.   La   vec
-
chia?   Vada   a   Bergamo   la   vecchia.   La   giustizia?   Poh   la
 
giustizia!   Il   podestà   non   è   un   ragazzo,   né   un   matto.   E   a
 
Milano?   Chi   si   cura   di   costoro   a   Milano?   Chi   gli  dareb
-
be   retta?   Chi   sa   che   ci   siano?   Son   come   gente   perduta
 
sulla   terra;   non   hanno   né   anche   un   padrone:   gente   di
 
254


Codice: Seleziona tutto
vincenzo@:~/MyJob/Progetti/myPdfSearch$ ./mypdfsearch --extracttextfrom="../Files/JapaneseGrammarGuide.pdf" --frompage=21 --topage=21

File: '../Files/JapaneseGrammarGuide.pdf'
TEXT EXTRACTED FROM PAGE 21:

CHAPTER 2. THE WRITING SYSTEM
2.4. KATAKANA

けい」
,
「こ

こう」
,
「さ

さあ」
and so on. The reasoning for this is quite simple. Try
saying
「か」
and
「あ」
separately. Then say them in succession as fast as you can. You'll
notice that soon enough, it sounds like you're dragging out the / ka / for a longer duration than
just saying / ka / by itself. When pronouncing long vowel sounds, try to remember that they are
really two sounds merged together.
It's important to make sure you hold the vowel sound long enough because you can be saying
things like "here" (
こ こ
) instead of "high school" (
こ う こ う
) or "middle-aged lady" (
お ば さ ん
)
instead of "grandmother" (
おばあさん
) if you don't stretch it out correctly!
Examples
1.
がくせ

(ga-ku-s
e
) - student
2.
せんせ

(sen-s
e
) - teacher
3.
きょ

(ky
o
) - today
4.
おはよ

(o-ha-y
o
) - good morning
5.
おか

さん
(o-k
a
-san) - mother
There are rare exceptions where an / e / vowel sound is extended by adding
「え」
or an / o /
vowel sound is extended by
「お」
. Some examples of this include
「お ね え さ ん」 、 「お お
い」、
and
「おおきい」
. Pay careful attention to these exceptions but don't worry, there aren't
too many of them.
2.4 Katakana
As mentioned before,
Katakana
is mainly used for words imported from foreign languages. It can
also be used to emphasize certain words similar to the function of
italics
. For a more complete
list of usages, refer to the
Wikipedia entry on katakana
.
Katakana represents the same set of phonetic sounds as Hiragana except all the characters are
different. Since foreign words must fit into this limited set of [consonants+vowel] sounds, they
undergo many radical changes resulting in instances where English speakers can't understand
words that are supposed to be derived from English! As a result, the use of Katakana is ex-
tremely difficult for English speakers because they expect English words to sound like... well...
English. Instead, it is better to completely forget the original English word, and treat the word
as an entirely separate Japanese word, otherwise you can run into the habit of saying English
words with English pronunciations (whereupon a Japanese person may or may not understand
what you are saying).
21


Le specifiche le trovate qui:
https://www.adobe.com/content/dam/acom/ ... 0_2008.pdf
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Vincenzo1968 » domenica 6 ottobre 2019, 11:39

Ho ottimizzato un po' il codice e sono riuscito a scendere sotto il minuto:

version 1.9.4:
Codice: Seleziona tutto
time mypdfsearch --path="../Files/gccFiles/Giornali" --words="Virginia Orbán branco"

real   0m49,773s
user   0m48,472s
sys   0m1,300s

-------------------------------------------------------------------------------------------------------------------------------------

OLD (version 1.9.3):
real   1m13,360s
user   1m7,520s
sys   0m1,470s

*************************************************************************************************************************************

time pdfgrep -i --with-filename -r -c 'Virginia|Orbán|branco' ../Files/gccFiles/Giornali

real   1m53,009s
user   1m50,873s
sys   0m2,136s


Step successivo: implementare la ricerca tramite regexp, sfruttando il parser già realizzato qui con Flex e Bison:

viewtopic.php?f=70&t=568245
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Vincenzo1968 » sabato 16 novembre 2019, 18:02

Ho risolto il problema del testo giustificato. Adesso l'estrazione del testo è di buona qualità:

vincenzo@:~/MyJob/Progetti$ mypdfsearch --extracttextfrom="../Files/File09/La Stampa - 9 aprile 2019.pdf" --frompage=1 --topage=1
Output:
Codice: Seleziona tutto
LA STAMPA
MARTEDÌ 9 APRILE 2019
QUOTIDIANO FONDATO NEL 1867
1,50 € II ANNO 153 II N. 98 II IN ITALIA (PREZZI PROMOZIONALI ED ESTERO IN ULTIMA) II SPEDIZIONE ABB. POSTALE II D.L. 353/03 (CONV. IN L. 27/02/04) II ART. 1 COMMA 1, DCB - TO II www.lastampa.it
...
BUONGIORNO
Lo Stato è lei
MATTIA
FELTRI
«Pretendere che lo Stato inquisisca e giudichi sé stesso è
una delle cose più difficili a cui dedicarsi», disse Ilaria Cuc-
chi in una intervista di cinque anni fa. Lo fu da subito: suo
fratello Stefano era morto da poche ore e il ministro della
Difesa, Ignazio La Russa, aveva già scolpito nel marmo la
sentenza di assoluzione, ispirata dalla certezza cieca e sor-
da nella rettitudine dei carabinieri. Non è soltanto una
questione di coperture architettate dai protagonisti di que-
sta ignobile storia, dai loro superiori, da tutti quanti attor-
no sapevano e tacevano. E fino a La Russa e non soltanto
La Russa, anche tanti suoi colleghi - e colleghi nostri - che
rinunciarono a mettere alla prova del dubbio il loro pre-
giudizio. Ilaria ha combattuto una battaglia contro uno
Stato intero, ed è sbalorditivo, e l’ha combattuta per lo
Stato, e lo è ancora di più. «Lo Stato e l’Arma dei carabinie-
ri sono parte lesa quanto noi», ha detto ieri, l’ultima di mil-
le volte in cui ha ammesso di essersi sentita abbandonata,
ma tuttavia, ripeté per esempio nel giugno 2016, «io credo
ancora nello Stato, credo ancora nella giustizia». Ogni
qualvolta sentiamo dire lo Stato siamo noi è in un’accezio-
ne rivendicativa, nel tono lagnoso di chi si ritiene in credi-
to con lo Stato, se ne proclama ostaggio, vittima, mai sfio-
rato dal dubbio che lo Stato siamo noi significhi esserne
parte, e darci dentro con le forze di cui si dispone per mi-
gliorare le cose. Soprattutto quando vanno male, o malis-
simo, come nel caso di Stefano Cucchi. Alla fine lo Stato
ha inquisito sé stesso e sta per giudicarsi per l’evidente
ragione che lo Stato siamo noi, se siamo come Ilaria.

Champions Sorpresa Ronaldo, la Juve
...



Con pdftotext viene fuori questo(molti spazi assenti):
pdftotext -f 1 -l 1 -raw -enc UTF-8 '../Files/File09/La Stampa - 9 aprile 2019.pdf' AAA_OUTPUT.txt
Output:
Codice: Seleziona tutto
LA STAMPA
MARTEDÌ 9 APRILE 2019
QUOTIDIANO FONDATO NEL 1867
1,50 € II ANNO 153 II N. 98 II IN ITALIA (PREZZI PROMOZIONALI ED ESTERO IN ULTIMA) II SPEDIZIONE ABB. POSTALE II D.L. 353/03 (CONV. IN L. 27/02/04) II ART. 1 COMMA 1, DCB - TO II www.lastampa.it
...
BUONGIORNO Lo Stato è lei MATTIA
FELTRI
«PretenderecheloStatoinquisiscaegiudichiséstessoè
unadellecosepiùdifficiliacuidedicarsi»,disseIlariaCuc-
chiinunaintervistadicinqueannifa.Lofudasubito:suo
fratelloStefanoeramortodapocheoreeilministrodella
Difesa,IgnazioLaRussa,avevagiàscolpitonelmarmola
sentenzadiassoluzione,ispiratadallacertezzaciecaesor-
da nella rettitudine dei carabinieri. Non è soltanto una
questionedicoperturearchitettatedaiprotagonistidique-
staignobilestoria,dailorosuperiori,datuttiquantiattor-
nosapevanoetacevano.EfinoaLaRussaenonsoltanto
LaRussa,anchetantisuoicolleghi-ecolleghinostri-che
rinunciaronoamettereallaprovadeldubbioilloropre-
giudizio. Ilaria ha combattuto una battaglia contro uno
Stato intero, ed è sbalorditivo, e l’ha combattuta per lo
Stato,eloèancoradipiù.«LoStatoel’Armadeicarabinie-
risonopartelesaquantonoi»,hadettoieri,l’ultimadimil-
levolteincuihaammessodiessersisentitaabbandonata,
matuttavia,ripetéperesempionelgiugno2016,«iocredo
ancora nello Stato, credo ancora nella giustizia». Ogni
qualvoltasentiamodireloStatosiamonoièinun’accezio-
nerivendicativa,neltonolagnosodichisiritieneincredi-
toconloStato,seneproclamaostaggio,vittima,maisfio-
ratodaldubbiocheloStatosiamonoisignifichiesserne
parte,edarcidentroconleforzedicuisidisponepermi-
gliorarelecose.Soprattuttoquandovannomale,omalis-
simo, come nel caso di Stefano Cucchi. Alla fine lo Stato
ha inquisito sé stesso e sta per giudicarsi per l’evidente
ragione che lo Stato siamo noi, se siamo come Ilaria. —
Champions Sorpresa Ronaldo, la Juve
...


Codice: Seleziona tutto
$ pdftotext -v
pdftotext version 0.62.0
Copyright 2005-2017 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64

Re: [Progetto] Estrazione(e ricerca parole) del testo da un

Messaggioda Vincenzo1968 » martedì 10 dicembre 2019, 20:53

Ho aggiunto la gestione dei filtri LZWDecode, ASCII85Decode e ASCIIHexDecode.
È ormai difficile incontrare un cretino che non sia intelligente e un intelligente che non sia un cretino. [...] Oh i bei cretini di una volta! Genuini, integrali. Come il pane di casa. Come l'olio e il vino dei contadini. (da "Nero su nero" di Leonardo Sciascia)
Avatar utente
Vincenzo1968
Scoppiettante Seguace
Scoppiettante Seguace
 
Messaggi: 436
Iscrizione: gennaio 2013
Località: Villabate(PA)
Desktop: Unity
Distribuzione: Ubuntu 18.04.3 LTS x86_64


Torna a Progetti della Comunità

Chi c’è in linea

Visualizzano questa sezione: 0 utenti registrati e 2 ospiti