Pagina 1 di 2

Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 13:11
da DarkF12@
Ciao a tutti!

Ho un quesito da porvi,devo superare a breve il test delle conoscenze minime di matematica per entrare ad ignegneria e volevo stamparmi su carta(studiando con il pc mi perdo tra youtube,msn,facebook,l'email e altro) gli argomenti di mio interesse presenti su questo sito: http://www.ripmat.it/ da cui si vede che ogni pagine è in HTML ed è collegata alla pagina successiva con dei link..

Io il sito l'ho già scaricato e ce l'ho su pc ma vorrei stamparlo tutto, come posso fare senza aprire pagina per pagina e fare stampa da browser?

grazie

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:17
da DaNieL85
DarkF12@ ha scritto: Ciao a tutti!

Ho un quesito da porvi,devo superare a breve il test delle conoscenze minime di matematica per entrare ad ignegneria e volevo stamparmi su carta(studiando con il pc mi perdo tra youtube,msn,facebook,l'email e altro) gli argomenti di mio interesse presenti su questo sito: http://www.ripmat.it/ da cui si vede che ogni pagine è in HTML ed è collegata alla pagina successiva con dei link..

Io il sito l'ho già scaricato e ce l'ho su pc ma vorrei stamparlo tutto, come posso fare senza aprire pagina per pagina e fare stampa da browser?

grazie
Ti sei già scaricato tutti i file html sul pc, giusto?

altrimenti prova con wget:

Codice: Seleziona tutto

wget --mirror -w 2 -p --html-extension --convert-links -P  ~/tua/cartella http://example.com
Dopodichè, scaricati wkhtmltopdf, e con uno script bash li processi uno a uno (potresti anche usare sed, ma trovo più intuitivo un bel for):

Codice: Seleziona tutto

for file in `ls /path/dove/hai/i/tuoi/file/html`;
do
  /path/dove/hai/piazzato/wkhtmltopdf /path/dove/hai/i/tuoi/file/html/$file /path/dove/vuoi/avere/i/pdf/$file.pdf;
done;
A grandi linee il concetto è quello

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:19
da ryouza
io ho visto un programmino scemo scemo che si chiama htmldoc che dovrebbe essere nei repository ubuntu, che fa più o meno le cose che vuoi tu, ma magari lo script è più comodo...

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:19
da DarkF12@
si io ho tutti i file html sul mio computer..

Il problema è che volevo stampare tutto nel mio ufficio perchè la ho la stampante laser ma in ufficio si usa windows ..Per l'esattezza XP..

E' possibile fare una cosa del genere usando XP?

Altrimenti ancora più comodo, è possibile trasferire tutto il sito in PDF?

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:25
da DaNieL85
DarkF12@ ha scritto: si io ho tutti i file html sul mio computer..

Il problema è che volevo stampare tutto nel mio ufficio perchè la ho la stampante laser ma in ufficio si usa windows ..Per l'esattezza XP..

E' possibile fare una cosa del genere usando XP?



Ah, bho.. credo di si, ma non saprei come aiutarti, già sono niubbo con il terminale linux, del dos sò ancora meno.

Io ti ho consigliato wkhtmltopdf perchè è uno dei migliori come fedeltà html -> pdf, c'è anche la versione per windows, il problema dopo sarebbe processarli tutti.

Se puoi installare python su quel pc saprei come fare, ma mi pare un pò assurdo per una banalità come questa..

Altrimenti lo fai su linux, poi metti i pdf su una chiavetta/dvd e li stampi dall'ufficio..
Altrimenti ancora più comodo, è possibile trasferire tutto il sito in PDF?
Sicuramente si, non sò bene come, ma un modo ci sarà senz'altro, con wkhtmltopdf lo puoi fare mettendo l'url del sito al posto del file di 'ingresso'.. il problema poi sarebbe seguire tutti i link, wget ha l'opzione per farlo, wk non sò.

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:28
da DaNieL85
Fermo li, ci penso io, ho appena visto il sito di cui parli e potrebbe essere utile alla mia ragazza che ha da poco ripreso gli studi  ;D

Dammi mezz'ora e ti metto i PDF su una cartella pubblica su dropbox  ;)


p.s: già che ci sei conosci u sito simile per l'inglese?

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:28
da DarkF12@
già ma così facendo non mi troverei un unico file pdf ma tanti file pdf(ognuno per ogni file html) quindi sarei al punto di partenza e cioè dover aprire ogni pdf per volta e stamparlo..

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:29
da DarkF12@
penso sia il migliore per il ripassi di matematica ; )
E' veloce ,spiega le cose in modo chiaro e basilare e io sinceramente quando non capivo dall prof studiavo li su e capivo alla perfezione!


Ma riesci a fare un unico PDF?

Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF

Inviato: venerdì 1 ottobre 2010, 13:34
da DaNieL85
DarkF12@ ha scritto: penso sia il migliore per il ripassi di matematica ; )
E' veloce ,spiega le cose in modo chiaro e basilare e io sinceramente quando non capivo dall prof studiavo li su e capivo alla perfezione!


Ma riesci a fare un unico PDF?
Si, volendo si, ma perderei i link alle pagine....

Forse c'è il modo di generare una spece di indice, ma non saprei, non l'ho mai fatto.. cmq ci provo, ti faccio sapere.

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 13:36
da DarkF12@
io sto cercando su internet ma trovo solo programmi che fanno la conversione di una sola pagina..

Pensavo anch'io a fare un ciclo con il for o il while convertendo tutte le pagine ma comunque mi ritroverei al punto di partenza ovvero con la scocciatura di dover aprire ogni pdf e stamparlo manualmente uno alla volta..

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 13:39
da kiroken_
per unire i pdf c'è pdftk

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 13:40
da DaNieL85
DarkF12@ ha scritto: io sto cercando su internet ma trovo solo programmi che fanno la conversione di una sola pagina..

Pensavo anch'io a fare un ciclo con il for o il while convertendo tutte le pagine ma comunque mi ritroverei al punto di partenza ovvero con la scocciatura di dover aprire ogni pdf e stamparlo manualmente uno alla volta..


Nono con pdftk è uno scherzo unire più pdf in uno unico.. il problema è che non sono sicuro di poter creare l'indice per la navigazione; Cioè, se il sito ha 1000 pagine, io ti genero un pdf unico con 1000 pagine, ma perchè tale pdf abbia una vaga utilità ti serve un indice iniziale con i titoli delle pagine linkati alla pagina pdf, giusto?

Il problema è solo quello..

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 13:42
da DaNieL85
kiroken ha scritto: per unire i pdf c'è pdftk
Infatti.

Però, tempo fà ricordo che c'era un software che univa più pdf e creava automaticamente l'indice, non ricordo se è wkhtmltopdf, htmldoc o qualc'osaltro.
Solo che, anche se fosse, bisogna vedere in base a cosa crea i nomi nell'indice, i file che mi scarica dal sito si chiamano tipo 'ad5.html', sarebbe inutile avere nomi come questi nell'indice.


Quando ha finito di scaricare faccio qualche test.. intanto pausa caffe+sigaretta ;D

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 13:47
da DaNieL85
ragà, siamo a quota 3762 oggetti tra pagine html e immagini e deve ancora finire, qui ci salta fuori la Treccani completa :o

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 14:15
da DaNieL85
male, molto male.. wkhtmltopdf crea in automatico un unico file pdf, e ha anche la funzione per creare l'indice (Table of Contents), ma non sò bene come è impsotata ma non funziona con i file di quel sito.


Ora devo tornare al lavoro, stasera se riesco vi posto il PDF unico, poi vediamo se riusciamo in un qualche modo a creare quel maledetto indice  ;D

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 14:31
da DaNieL85
Ok non ho resistito, il pdf completo lo trovate qui: http://dl.dropbox.com/u/1080584/ripmat.pdf

come vedrete la table of contents non è venuta, inoltre l'ordine delle pagine credo sia alfabetico e non 'standard' (cioè prima l'index.html, poi le sotto, e così via).


Stasera o domani, quando ho un attimo, provo a vedere di migliorarlo.


p.s: sono 2992 pagine, e alcune non sono state inserite per qualche errore che devo ancora capire.

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 17:14
da DaNieL85
Buona notizia: è possibile creare un indice decente.

Cattiva notizia: c'è da modificare TUTTI i file html.

Pessima notizia: ho dato un'occhiata ai file html, il markup è veramente indecente, non conosco abbastanze bene le regexp per modificare i file in automatico.

Richiesta: qualcuno esperto in regexp multiline ha voglia di aiutarci?

Bisognerebbe mettere dentro un h2 il primo elemento di ogni file, esempio:

Codice: Seleziona tutto

<HTML>
<HEAD>
<TITLE>    titolo
</TITLE>
</HEAD>
<BODY Background="sfondo0013.jpg"> <P>
<center><br><br><br>
<table border=0 width=80% cellpadding=20>
 <tr bgcolor="ccffcc">

   <td>
    <FONT SIZE=5 COLOR="#ff2200">
	<center>PRODOTTO DI POTENZE CON LA STESSA BASE</CENTER></FONT> <HR> <P>
Se devo moltiplicare
[......]


//deve diventare
<HTML>
<HEAD>
<TITLE>    titolo
</TITLE>
</HEAD>
<BODY Background="sfondo0013.jpg"> <P>
<center><br><br><br>
<table border=0 width=80% cellpadding=20>
 <tr bgcolor="ccffcc">

   <td>
    <h2><FONT SIZE=5 COLOR="#ff2200">
	<center>PRODOTTO DI POTENZE CON LA STESSA BASE</CENTER></FONT><h2> <HR> <P>
Se devo moltiplicare
[......]
Tra l'inizio del tag e la fine ci possono essere tabulazioni, spazi, altri elementi e fine linea.. insomma, un google bot si suicidia piuttosto di parsare quella pagina  ;D

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: venerdì 1 ottobre 2010, 18:32
da DarkF12@
ma se me lo dicevi!

Senza scaricare il sito con wget bastava cliccare il link nella home con il file già zippato con tutti i file del sito, l'ha messo il prof a disposizione! ;)

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: martedì 5 ottobre 2010, 21:37
da DarkF12@
Ci sono novità?..

A me non interesserebbe avere un indice ma almeno avere le pagine e gli argomenti in sequenza..

Mi bastarebbe anche avere un PDF che comprende tutta algebra,uno che comprende tutta trigonometria ecc ecc..

Riusciamo a crearne uno?

grazie :(

Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF

Inviato: martedì 5 ottobre 2010, 23:15
da DaNieL85
DarkF12@ ha scritto: Ci sono novità?..

A me non interesserebbe avere un indice ma almeno avere le pagine e gli argomenti in sequenza..

Mi bastarebbe anche avere un PDF che comprende tutta algebra,uno che comprende tutta trigonometria ecc ecc..

Riusciamo a crearne uno?

grazie :(
Nì...

Ti spiego, wkhtmltopdf crea l'indice in base ai titoli, che nel linguaggio html sono denotati dal tag hX, dove X è un numero incrementale in base all'importanza.

Cioè, è il più importante, poi via via, h2, h3, etc...

Ora, io ho provato a usare la pagina "piano dell'opera" che c'è sul sito, che sarebbe poi l'indice del sito, ma non sembra funzionare; se ho capito bene, bisogna aprire ogni pagina una ad una e inserire il tag hX nel titolo.

come già detto, le pagine html del sito sono fatte veramente male a livello html, bisognerebbe andarci giù pesante con regexp.. la mia conoscenza di regexp non è sufficente a farlo, ma se trovi qualcuno che ne sà di più sarei felice di fare la conversione.

Domani ti posto l'ultimo test che ho fatto (ho il file in ufficio, sul pc di casa non riesco a far funzionare la versione statica di wkhtmltopdf), come vedrai sono riuscito a creare un indice (78 pagine di indice..) usando il piano dell'opera, ma praticamente si autolinka.

L'indice diventa fondamentale perchè, altrimenti, per dare un'ordine alle pagine bisognerebbe dalre in fila nel comando da terminale, sono più di 2000 pagine, io non ci provo nemmeno  ;D
Invece, col comando

Codice: Seleziona tutto

wkhtmltopdf <opzioni> /path/dove/ci/sono/i/file/html/*.hml /path/output/pdf/sito.pdf
prende tutti i file in ordine alfabetico.


Guarda, per provarle tutte domattina provo a modificare un paio di file aggiungendo il tag titolo a mano e guardo se così funzionerebbe; Se funziona ci serve un esperto di regexp.

p.s: non usate il file zip che trovate sul sito, li le pagine sono divise in sottocartelle ed è più complesso convertirle in un botto solo, scaricandole con wget invece si possono mettere nella stessa cartella e con un comando si fà.