[RISOLTO] Convertire pagina o rivista web in pdf

Installazione, configurazione e uso di programmi e strumenti.
Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4433
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu Mate 22.04.1 LTS
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo »

dxgiusti ha scritto:
venerdì 14 febbraio 2020, 9:52
UbuNuovo sei fantastico. il sapere risolve, però.... non tutti hanno le tue conoscenze/capacità. il post chiedeva e poneva un esempio. ora mi chiedo, puoi elencare in maniera semplice come hai predisposto lo script in modo da poterlo usare anche per altre situazioni? vedo che usi wget e convert e fino a qui tutto bene ma il criterio per definire le pagine da scaricare e poi convertire?
magari imparo anche io qualche cosa. apprendere da chi sa è sempre utile.
@Dxgiusti: In pratica ho solo automatizzato il tuo procedimento; purtroppo lo script può essere adattato a visualizzatori di immagini dello stesso tipo, altri visualizzatori usano modalità diverse (ma studiandoli un po' si trova il modo di scaricare di tutto).

Si deve vedere il funzionamento dell'applicazione web; si guarda se e come cambia l'URL (nella barra degli indirizzi) sfogliando le pagine.
In questo caso si può notare che c'è una parte fissa (URL vero e proprio e token=...) e un numero variabile (quello della/e pagine)

per la prima pagina è:

Codice: Seleziona tutto

https://reader.paperlit.com/read/prj_5c45a829a6736/pub_5cc70bf74bba0/5000-01-09?token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA&hasNewsstand=true&page=1
ha a fine query page=1

l'ultima pagina è:

Codice: Seleziona tutto

https://reader.paperlit.com/read/prj_5c45a829a6736/pub_5cc70bf74bba0/5000-01-09?token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA&hasNewsstand=true&page=12-13
dalla fine della query dell'URL dell'ultima pagina page=12-13 si vede che le pagine sono 13.

A questo punto, come da tuo procedimento:
click dx sulla pagina, visualizza info pagina. nella finestra che si apre scelgo media, seleziona la riga immagine relativa alla pagina ( nel riquadro sotto vedi l'anteprima )
si copia l'URL di un'immagine e si prova a scaricarla con wget, per esempio:

Codice: Seleziona tutto

wget 'https://api-ne.paperlit.com/v8/projects/prj_5c45a829a6736/issues/135015/variants/74673/pages/5/original?width=768&height=1024&accessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA'
si ottiene un file original?... per vedere che tipo di immagine è, si usa il comando:

Codice: Seleziona tutto

file 'original?...' 
così vediamo che è un file jpeg.
ora abbiamo tutto quello che serve.

Per praticità divido l'URL in due parti, con il taglio al numero della pagina .../pages/5/original?...
quindi ho due variabili per l'URL:
part1='https://api-ne.paperlit.com/v8/projects ... 673/pages/'
e
part2='/original?width=768&height=1024&accessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA'

tra queste due variabili devo inserire il numero dell'immagine/pagina da scaricare che, come abbiamo visto, va da 1 a 13, rappresentabile dalla sequenza {001..13} (utilizzo gli zero davanti per essere sicuro che convert converta e unisca le immagini nell'ordine corretto.
( 00 va bene fino a 99 file; se i file da scaricare sono di più, aumentare il numero zero).

A questo punto creo un ciclo for, per scaricare i file da 1 a 13 mediante wget

Codice: Seleziona tutto

for i in {001..13};do 
	wget -O "$i.jpg" "$part1$i$part2"
done
i viene incrementata ad ogni ciclo e varrà 001, 002... fino a 013.
l'opzione -O di wget serve per dare un nome al file salvato, quindi "$i.jpg"
"$part1$i$part2" rappresenta l'URL da scaricare ad ogni ciclo.

Finito il ciclo, uso convert (fa parte di imagemagick) per convertire tutte le jpeg (*.jpg) scaricate, in unico file pdf cioè file-output.pdf.

Il procedimento è lungo a spiegarsi ma a fare tutto ci vogliono cinque minuti.



@Ingen: É un problema di impostazioni di sicurezza di imagemagick, guarda:
https://askubuntu.com/questions/1081695 ... jpg-to-pdf

Per trovare il tuo file con quelle impostazioni, esegui

Codice: Seleziona tutto

locate -i '/etc/ImageMagick*policy.xml'
Se imagemagick non è usato su un server e non vuoi metterti a modificare o commentare tipo per tipo di file, puoi anche rinominare o cancellare il file policy.xml.
Salva l'Ucraina! 🇺🇦
Avatar utente
Ingen
Prode Principiante
Messaggi: 192
Iscrizione: lunedì 14 maggio 2012, 18:19
Desktop: gnome-classic
Distribuzione: 18.04.3 LTS (Bionic Beaver)

Re: Convertire pagina o rivista web in pdf

Messaggio da Ingen »

grazie funziona :D
Il software è tutto ciò che puoi solo maledire, l’hardware è tutto ciò che puoi prendere a calci“.
cit da: LinuxDaZero
Avatar utente
wilecoyote
Tenace Tecnocrate
Tenace Tecnocrate
Messaggi: 15349
Iscrizione: giovedì 20 agosto 2009, 16:21
Desktop: Kubuntu et alii
Distribuzione: 9.04 32bit 14/18/20/22.04 LTS 64bit
Sesso: Maschile
Località: Ceranesi - Ge

Re: Convertire pagina o rivista web in pdf

Messaggio da wilecoyote »

) Salve, @Ingen il tuo problema è anche molto semplicemente risolto in questo paragrafo della wiki Grafica/ConvertireImmaginiInPdf#Configurazione.

:: Ciao
ACER Extensa 5230E 2,2 Ghz cpu Celeron 900 hdd 160 GB Ram 1 GB scheda video Intel GM500
ACER Extensa 5635Z 2,2 Ghz cpu Celeron T3100 hdd 320 GB Ram 4 GB scheda video Intel Mobile 4
Quando una Finestra chiusa incontra un Pinguino la Finestra chiusa è una Finestra aperta.
Avatar utente
Ingen
Prode Principiante
Messaggi: 192
Iscrizione: lunedì 14 maggio 2012, 18:19
Desktop: gnome-classic
Distribuzione: 18.04.3 LTS (Bionic Beaver)

Re: Convertire pagina o rivista web in pdf

Messaggio da Ingen »

si una soluzione diversa, fa commentare la riga relativa ai pdf
come avevo letto nel post indicato da UbuNuovo sembrerebbe un problema di sicurezza,
credo che l'ideale sarebbe fare lo script in modo che adegui il file con le policy commentando o modificando 'rights' poi si crea il pdf e si ripristina il file con le policy
o farlo a manina che forse è più semplice
Il software è tutto ciò che puoi solo maledire, l’hardware è tutto ciò che puoi prendere a calci“.
cit da: LinuxDaZero
Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4433
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu Mate 22.04.1 LTS
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo »

L'elaborazione dei pdf è disabilitata, in ImageMagick, per colpa di un bug di Ghostscript che ha/aveva una vulnerabilità di privilege-escalation.
In pratica codice malevolo poteva essere eseguito da file PostScript (ps).
La vulnerabilità è stata risolta dalla versione 9.50.
Puoi vedere la versione installata di Ghostscript con il comando:

Codice: Seleziona tutto

gs --version
In ogni caso su pc desktop dovresti sapere che file immagini hai e da dove provengono.
Se ti capitano file sospetti puoi verificarne il vero tipo con:

Codice: Seleziona tutto

file nome_file_sospetto
Salva l'Ucraina! 🇺🇦
Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 268
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 22.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 »

UbuNuovo ha scritto:
mercoledì 12 febbraio 2020, 21:19
Purtroppo quella pagina usa un visualizzatore di immagini. Vanno scaricate le singole immagini.

@Dxgiusti: così scarichi i file jpg rinominandoli in pdf.

A questo punto basta guardare gli URL e fare uno script per scaricare i jpg e convertirli in un pdf.

Creare una directory dove si vogliono salvare i file, copiarci lo script (che segue) ed eseguirlo.
Una volta eseguito, troveremo nella directory sia i file jpg che il file file-output.pdf.

Codice: Seleziona tutto

#!/bin/bash
# Scritto da UbuNuovo il 12 feb 2020
# Descrizione: scarica immagini da sito e ne crea un pdf.

part1='https://api-ne.paperlit.com/v8/projects/prj_5c45a829a6736/issues/135015/variants/74673/pages/'
part2='/original?width=768&height=1024&accessToken=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJwcm9qZWN0SWQiOiJwcmpfNWM0NWE4MjlhNjczNiIsInByb2plY3RQZXJtaXNzaW9uc0JpdG1hc2siOjF9.2NMGuh4NJd95NG8dERjMgfIM2qtWikXSvsKQ8JUbfYA'
for i in {001..13};do 
	wget -O "$i.jpg" "$part1$i$part2"
done

convert *.jpg file-output.pdf

exit
Ciao, grazie per la risposta gentilissimo, non riesco a svolgere il passaggio che mi hai descritto, anche perché non sono molto esperto.
Potresti spiegarlo in maniera "basic", per favore? Grazie
Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4433
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu Mate 22.04.1 LTS
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo »

A quale passaggio ti riferisci?
Salva l'Ucraina! 🇺🇦
Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 268
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 22.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 »

UbuNuovo ha scritto:
sabato 15 febbraio 2020, 21:07
A quale passaggio ti riferisci?
In pratica ho provato a eseguire i passaggi che mi hai scritto fin dall' inizio, ma mi dà errore. Poiché non sono esperto nella codifica e non so dove ho sbagliato, allora chiedo cortesemente, se è possibile, di elencare i passaggi in maniera sequenziale così da non confondermi.
In ogni caso ti ringrazio per le risposte che hai scritto nel topic.
Avatar utente
UbuNuovo
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4433
Iscrizione: sabato 12 dicembre 2009, 20:58
Desktop: Mate
Distribuzione: Ubuntu Mate 22.04.1 LTS
Sesso: Maschile
Contatti:

Re: Convertire pagina o rivista web in pdf

Messaggio da UbuNuovo »

Qualche dettaglio in più, no?
In generale quando hai degli errori postali.

Intendi come creare ed eseguire lo script?
1) Crei una directory (clic destro->"Crea cartella")
2) Apri la nuova directory (doppio clic) e ci crei un file di testo semplice (clic destro->"Crea documento"->"File vuoto" (o "testo_semplice")
3) Apri il nuovo file (ci fai doppio clic), ci copi tutto il codice dello script, che ho postato, salvi e chiudi l'editor.
4) Rinomina il file di testo (f2) con un nome tipo "pdf_da_sito.sh"
5) Rendi il file eseguibile (clic destro->"Proprietà", apri il tab "Permessi" e selezioni "Consenti l'esecuzione del file come programma" poi clic su "Chiudi")
6) Esegui lo script facendoci doppio clic sopra e, nella finestra che si apre, scegli "Esegui nel terminale"

se hai problemi indica dove: punto 1, punto 2...


Altrimenti puoi fare da terminale

1t) Apri un terminale Ctrl+Alt+t
2t) Mettiamo che tu voglia creare la directory "test" sul desktop, esegui:

Codice: Seleziona tutto

mkdir Scrivania/test
3t) Per creare il file, se hai Mate, puoi usare direttamente l'editor di testo pluma, esegui:

Codice: Seleziona tutto

pluma "Scrivania/test/pdf_da_sito.sh"
4t) Ci incolli il codice, salvi e chiudi l'editor
5t) Per rendere eseguibile lo script esegui:

Codice: Seleziona tutto

chmod +x "Scrivania/test/pdf_da_sito.sh"
6t) Per lanciare lo script puoi eseguire:

Codice: Seleziona tutto

./Scrivania/test/pdf_da_sito.sh
oppure, ti porti nella directory "test" e lo esegui, con:

Codice: Seleziona tutto

cd Scrivania/test
./pdf_da_sito.sh
Salva l'Ucraina! 🇺🇦
Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 268
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 22.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 »

@UbuNuovo Non mi erano chiari alcuni passaggi, ma grazie al tuo ultimo intervento, ho capito come procedere. Scusa se non sono stato chiaro prima, ma avevo altre cose per la testa mentre rispondevo ai messaggi. Ora ci provo e ti aggiornerò in ogni caso. Ti ringrazio per la pazienza.
Renegade87
Scoppiettante Seguace
Scoppiettante Seguace
Messaggi: 268
Iscrizione: giovedì 10 luglio 2008, 12:53
Distribuzione: Xubuntu 22.10
Sesso: Maschile

Re: Convertire pagina o rivista web in pdf

Messaggio da Renegade87 »

Ho risolto, grazie a tutti per le risposte!
Avatar utente
trekfan1
Moderatore Globale
Moderatore Globale
Messaggi: 23382
Iscrizione: domenica 21 maggio 2006, 10:51
Desktop: Gnome
Distribuzione: Ubuntu 23.10 e 24.04 (dev)
Sesso: Maschile
Località: Formigine (MO) | Accecante Asceta

Re: [RISOLTO] Convertire pagina o rivista web in pdf

Messaggio da trekfan1 »

1) Non fare post consecutivi ma se non ci sono risposte clicca sulla matita e aggiungi il nuovo testo eventualmente preceduto da EDIT
2) il [Risolto] vuole messo evitando di scriverlo tutto maiuscolo, correggi.

Grazie, :)
Scrivi risposta

Ritorna a “Applicazioni”

Chi c’è in linea

Visualizzano questa sezione: 0 utenti iscritti e 5 ospiti