[RISOLTO] Convertire pagina o rivista web in pdf

Installazione, configurazione e uso di programmi e strumenti.
Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 3860
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu 14.04
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo » venerdì 14 febbraio 2020, 11:44

dxgiusti ha scritto:
venerdì 14 febbraio 2020, 9:52
UbuNuovo sei fantastico. il sapere risolve, però.... non tutti hanno le tue conoscenze/capacità. il post chiedeva e poneva un esempio. ora mi chiedo, puoi elencare in maniera semplice come hai predisposto lo script in modo da poterlo usare anche per altre situazioni? vedo che usi wget e convert e fino a qui tutto bene ma il criterio per definire le pagine da scaricare e poi convertire?
magari imparo anche io qualche cosa. apprendere da chi sa è sempre utile.
@Dxgiusti: In pratica ho solo automatizzato il tuo procedimento; purtroppo lo script può essere adattato a visualizzatori di immagini dello stesso tipo, altri visualizzatori usano modalità diverse (ma studiandoli un po' si trova il modo di scaricare di tutto).

Si deve vedere il funzionamento dell'applicazione web; si guarda se e come cambia l'URL (nella barra degli indirizzi) sfogliando le pagine.
In questo caso si può notare che c'è una parte fissa (URL vero e proprio e token=...) e un numero variabile (quello della/e pagine)

per la prima pagina è:

Codice: Seleziona tutto

https://reader.paperlit.com/read/prj_5c45a829a6736/pub_5cc70bf74bba0/5000-01-09?token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA&hasNewsstand=true&page=1
ha a fine query page=1

l'ultima pagina è:

Codice: Seleziona tutto

https://reader.paperlit.com/read/prj_5c45a829a6736/pub_5cc70bf74bba0/5000-01-09?token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA&hasNewsstand=true&page=12-13
dalla fine della query dell'URL dell'ultima pagina page=12-13 si vede che le pagine sono 13.

A questo punto, come da tuo procedimento:
click dx sulla pagina, visualizza info pagina. nella finestra che si apre scelgo media, seleziona la riga immagine relativa alla pagina ( nel riquadro sotto vedi l'anteprima )
si copia l'URL di un'immagine e si prova a scaricarla con wget, per esempio:

Codice: Seleziona tutto

wget 'https://api-ne.paperlit.com/v8/projects/prj_5c45a829a6736/issues/135015/variants/74673/pages/5/original?width=768&height=1024&accessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA'
si ottiene un file original?... per vedere che tipo di immagine è, si usa il comando:

Codice: Seleziona tutto

file 'original?...' 
così vediamo che è un file jpeg.
ora abbiamo tutto quello che serve.

Per praticità divido l'URL in due parti, con il taglio al numero della pagina .../pages/5/original?...
quindi ho due variabili per l'URL:
part1='https://api-ne.paperlit.com/v8/projects ... 673/pages/'
e
part2='/original?width=768&height=1024&accessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA'

tra queste due variabili devo inserire il numero dell'immagine/pagina da scaricare che, come abbiamo visto, va da 1 a 13, rappresentabile dalla sequenza {001..13} (utilizzo gli zero davanti per essere sicuro che convert converta e unisca le immagini nell'ordine corretto.
( 00 va bene fino a 99 file; se i file da scaricare sono di più, aumentare il numero zero).

A questo punto creo un ciclo for, per scaricare i file da 1 a 13 mediante wget

Codice: Seleziona tutto

for i in {001..13};do 
	wget -O "$i.jpg" "$part1$i$part2"
done
i viene incrementata ad ogni ciclo e varrà 001, 002... fino a 013.
l'opzione -O di wget serve per dare un nome al file salvato, quindi "$i.jpg"
"$part1$i$part2" rappresenta l'URL da scaricare ad ogni ciclo.

Finito il ciclo, uso convert (fa parte di imagemagick) per convertire tutte le jpeg (*.jpg) scaricate, in unico file pdf cioè file-output.pdf.

Il procedimento è lungo a spiegarsi ma a fare tutto ci vogliono cinque minuti.



@Ingen: É un problema di impostazioni di sicurezza di imagemagick, guarda:
https://askubuntu.com/questions/1081695 ... jpg-to-pdf

Per trovare il tuo file con quelle impostazioni, esegui

Codice: Seleziona tutto

locate -i '/etc/ImageMagick*policy.xml'
Se imagemagick non è usato su un server e non vuoi metterti a modificare o commentare tipo per tipo di file, puoi anche rinominare o cancellare il file policy.xml.
Nel caso in cui sia il primo a rispondere ad una richiesta di aiuto...chiunque abbia una soluzione migliore o anche solo diversa dalla mia è incoraggiato ad intervenire liberamente senza inviarmi alcun messaggio privato. In programmazione è basilare sapere che si può ottenere il medesimo risultato utilizzando metodi diversi.

Avatar utente
Ingen
Prode Principiante
Messaggi: 192
Iscrizione: lunedì 14 maggio 2012, 18:19
Desktop: gnome-classic
Distribuzione: 18.04.3 LTS (Bionic Beaver)

Re: Convertire pagina o rivista web in pdf

Messaggio da Ingen » venerdì 14 febbraio 2020, 12:10

grazie funziona :D
Il software è tutto ciò che puoi solo maledire, l’hardware è tutto ciò che puoi prendere a calci“.
cit da: LinuxDaZero

Avatar utente
wilecoyote
Gruppo Documentazione
Gruppo Documentazione
Messaggi: 10429
Iscrizione: giovedì 20 agosto 2009, 16:21
Desktop: Kubuntu Lubuntu
Distribuzione: 9.04 32bit 14/16/18/20.04 LTS 64bit
Sesso: Maschile
Località: Ceranesi - Ge

Re: Convertire pagina o rivista web in pdf

Messaggio da wilecoyote » venerdì 14 febbraio 2020, 14:52

) Salve, @Ingen il tuo problema è anche molto semplicemente risolto in questo paragrafo della wiki Grafica/ConvertireImmaginiInPdf#Configurazione.

:: Ciao
ACER Extensa 5230E 2,2 Ghz cpu Celeron 900 hdd 160 GB Ram 1GB scheda video Intel GM500
ACER Extensa 5635Z 2,2 Ghz cpu Celeron T3100 hdd 320 GB Ram 4 GB scheda video Intel Mobile 4
Quando una Finestra chiusa incontra un Pinguino la Finestra chiusa è una Finestra aperta.

Avatar utente
Ingen
Prode Principiante
Messaggi: 192
Iscrizione: lunedì 14 maggio 2012, 18:19
Desktop: gnome-classic
Distribuzione: 18.04.3 LTS (Bionic Beaver)

Re: Convertire pagina o rivista web in pdf

Messaggio da Ingen » venerdì 14 febbraio 2020, 17:45

si una soluzione diversa, fa commentare la riga relativa ai pdf
come avevo letto nel post indicato da UbuNuovo sembrerebbe un problema di sicurezza,
credo che l'ideale sarebbe fare lo script in modo che adegui il file con le policy commentando o modificando 'rights' poi si crea il pdf e si ripristina il file con le policy
o farlo a manina che forse è più semplice
Il software è tutto ciò che puoi solo maledire, l’hardware è tutto ciò che puoi prendere a calci“.
cit da: LinuxDaZero

Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 3860
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu 14.04
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo » venerdì 14 febbraio 2020, 18:45

L'elaborazione dei pdf è disabilitata, in ImageMagick, per colpa di un bug di Ghostscript che ha/aveva una vulnerabilità di privilege-escalation.
In pratica codice malevolo poteva essere eseguito da file PostScript (ps).
La vulnerabilità è stata risolta dalla versione 9.50.
Puoi vedere la versione installata di Ghostscript con il comando:

Codice: Seleziona tutto

gs --version
In ogni caso su pc desktop dovresti sapere che file immagini hai e da dove provengono.
Se ti capitano file sospetti puoi verificarne il vero tipo con:

Codice: Seleziona tutto

file nome_file_sospetto
Nel caso in cui sia il primo a rispondere ad una richiesta di aiuto...chiunque abbia una soluzione migliore o anche solo diversa dalla mia è incoraggiato ad intervenire liberamente senza inviarmi alcun messaggio privato. In programmazione è basilare sapere che si può ottenere il medesimo risultato utilizzando metodi diversi.

Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 250
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 19.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 » sabato 15 febbraio 2020, 21:02

UbuNuovo ha scritto:
mercoledì 12 febbraio 2020, 21:19
Purtroppo quella pagina usa un visualizzatore di immagini. Vanno scaricate le singole immagini.

@Dxgiusti: così scarichi i file jpg rinominandoli in pdf.

A questo punto basta guardare gli URL e fare uno script per scaricare i jpg e convertirli in un pdf.

Creare una directory dove si vogliono salvare i file, copiarci lo script (che segue) ed eseguirlo.
Una volta eseguito, troveremo nella directory sia i file jpg che il file file-output.pdf.

Codice: Seleziona tutto

#!/bin/bash
# Scritto da UbuNuovo il 12 feb 2020
# Descrizione: scarica immagini da sito e ne crea un pdf.

part1='https://api-ne.paperlit.com/v8/projects/prj_5c45a829a6736/issues/135015/variants/74673/pages/'
part2='/original?width=768&height=1024&accessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA'
for i in {001..13};do 
	wget -O "$i.jpg" "$part1$i$part2"
done

convert *.jpg file-output.pdf

exit
Ciao, grazie per la risposta gentilissimo, non riesco a svolgere il passaggio che mi hai descritto, anche perché non sono molto esperto.
Potresti spiegarlo in maniera "basic", per favore? Grazie

Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 3860
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu 14.04
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo » sabato 15 febbraio 2020, 21:07

A quale passaggio ti riferisci?
Nel caso in cui sia il primo a rispondere ad una richiesta di aiuto...chiunque abbia una soluzione migliore o anche solo diversa dalla mia è incoraggiato ad intervenire liberamente senza inviarmi alcun messaggio privato. In programmazione è basilare sapere che si può ottenere il medesimo risultato utilizzando metodi diversi.

Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 250
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 19.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 » sabato 15 febbraio 2020, 21:50

UbuNuovo ha scritto:
sabato 15 febbraio 2020, 21:07
A quale passaggio ti riferisci?
In pratica ho provato a eseguire i passaggi che mi hai scritto fin dall' inizio, ma mi dà errore. Poiché non sono esperto nella codifica e non so dove ho sbagliato, allora chiedo cortesemente, se è possibile, di elencare i passaggi in maniera sequenziale così da non confondermi.
In ogni caso ti ringrazio per le risposte che hai scritto nel topic.

Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 3860
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu 14.04
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo » domenica 16 febbraio 2020, 0:08

Qualche dettaglio in più, no?
In generale quando hai degli errori postali.

Intendi come creare ed eseguire lo script?
1) Crei una directory (clic destro->"Crea cartella")
2) Apri la nuova directory (doppio clic) e ci crei un file di testo semplice (clic destro->"Crea documento"->"File vuoto" (o "testo_semplice")
3) Apri il nuovo file (ci fai doppio clic), ci copi tutto il codice dello script, che ho postato, salvi e chiudi l'editor.
4) Rinomina il file di testo (f2) con un nome tipo "pdf_da_sito.sh"
5) Rendi il file eseguibile (clic destro->"Proprietà", apri il tab "Permessi" e selezioni "Consenti l'esecuzione del file come programma" poi clic su "Chiudi")
6) Esegui lo script facendoci doppio clic sopra e, nella finestra che si apre, scegli "Esegui nel terminale"

se hai problemi indica dove: punto 1, punto 2...


Altrimenti puoi fare da terminale

1t) Apri un terminale Ctrl+Alt+t
2t) Mettiamo che tu voglia creare la directory "test" sul desktop, esegui:

Codice: Seleziona tutto

mkdir Scrivania/test
3t) Per creare il file, se hai Mate, puoi usare direttamente l'editor di testo pluma, esegui:

Codice: Seleziona tutto

pluma "Scrivania/test/pdf_da_sito.sh"
4t) Ci incolli il codice, salvi e chiudi l'editor
5t) Per rendere eseguibile lo script esegui:

Codice: Seleziona tutto

chmod +x "Scrivania/test/pdf_da_sito.sh"
6t) Per lanciare lo script puoi eseguire:

Codice: Seleziona tutto

./Scrivania/test/pdf_da_sito.sh
oppure, ti porti nella directory "test" e lo esegui, con:

Codice: Seleziona tutto

cd Scrivania/test
./pdf_da_sito.sh
Nel caso in cui sia il primo a rispondere ad una richiesta di aiuto...chiunque abbia una soluzione migliore o anche solo diversa dalla mia è incoraggiato ad intervenire liberamente senza inviarmi alcun messaggio privato. In programmazione è basilare sapere che si può ottenere il medesimo risultato utilizzando metodi diversi.

Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 250
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 19.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 » domenica 16 febbraio 2020, 4:14

@UbuNuovo Non mi erano chiari alcuni passaggi, ma grazie al tuo ultimo intervento, ho capito come procedere. Scusa se non sono stato chiaro prima, ma avevo altre cose per la testa mentre rispondevo ai messaggi. Ora ci provo e ti aggiornerò in ogni caso. Ti ringrazio per la pazienza.

Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 250
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 19.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 » martedì 18 febbraio 2020, 22:13

Ho risolto, grazie a tutti per le risposte!

Avatar utente
trekfan1
Moderatore Globale
Moderatore Globale
Messaggi: 21366
Iscrizione: domenica 21 maggio 2006, 10:51
Desktop: Gnome
Distribuzione: Ubuntu 20.04 e 20.10 (dev) 64 bit
Sesso: Maschile
Località: Formigine (MO) | Accecante Asceta

Re: [RISOLTO] Convertire pagina o rivista web in pdf

Messaggio da trekfan1 » mercoledì 19 febbraio 2020, 7:33

1) Non fare post consecutivi ma se non ci sono risposte clicca sulla matita e aggiungi il nuovo testo eventualmente preceduto da EDIT
2) il [Risolto] vuole messo evitando di scriverlo tutto maiuscolo, correggi.

Grazie, :)

Scrivi risposta

Ritorna a “Applicazioni”

Chi c’è in linea

Visualizzano questa sezione: 0 utenti iscritti e 6 ospiti