Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Ciao a tutti!
Ho un quesito da porvi,devo superare a breve il test delle conoscenze minime di matematica per entrare ad ignegneria e volevo stamparmi su carta(studiando con il pc mi perdo tra youtube,msn,facebook,l'email e altro) gli argomenti di mio interesse presenti su questo sito: http://www.ripmat.it/ da cui si vede che ogni pagine è in HTML ed è collegata alla pagina successiva con dei link..
Io il sito l'ho già scaricato e ce l'ho su pc ma vorrei stamparlo tutto, come posso fare senza aprire pagina per pagina e fare stampa da browser?
grazie
Ho un quesito da porvi,devo superare a breve il test delle conoscenze minime di matematica per entrare ad ignegneria e volevo stamparmi su carta(studiando con il pc mi perdo tra youtube,msn,facebook,l'email e altro) gli argomenti di mio interesse presenti su questo sito: http://www.ripmat.it/ da cui si vede che ogni pagine è in HTML ed è collegata alla pagina successiva con dei link..
Io il sito l'ho già scaricato e ce l'ho su pc ma vorrei stamparlo tutto, come posso fare senza aprire pagina per pagina e fare stampa da browser?
grazie
Ultima modifica di DarkF12@ il venerdì 1 ottobre 2010, 13:35, modificato 1 volta in totale.
Volere è potere
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
Ti sei già scaricato tutti i file html sul pc, giusto?DarkF12@ ha scritto: Ciao a tutti!
Ho un quesito da porvi,devo superare a breve il test delle conoscenze minime di matematica per entrare ad ignegneria e volevo stamparmi su carta(studiando con il pc mi perdo tra youtube,msn,facebook,l'email e altro) gli argomenti di mio interesse presenti su questo sito: http://www.ripmat.it/ da cui si vede che ogni pagine è in HTML ed è collegata alla pagina successiva con dei link..
Io il sito l'ho già scaricato e ce l'ho su pc ma vorrei stamparlo tutto, come posso fare senza aprire pagina per pagina e fare stampa da browser?
grazie
altrimenti prova con wget:
Codice: Seleziona tutto
wget --mirror -w 2 -p --html-extension --convert-links -P ~/tua/cartella http://example.com
Codice: Seleziona tutto
for file in `ls /path/dove/hai/i/tuoi/file/html`;
do
/path/dove/hai/piazzato/wkhtmltopdf /path/dove/hai/i/tuoi/file/html/$file /path/dove/vuoi/avere/i/pdf/$file.pdf;
done;
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
io ho visto un programmino scemo scemo che si chiama htmldoc che dovrebbe essere nei repository ubuntu, che fa più o meno le cose che vuoi tu, ma magari lo script è più comodo...
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
si io ho tutti i file html sul mio computer..
Il problema è che volevo stampare tutto nel mio ufficio perchè la ho la stampante laser ma in ufficio si usa windows ..Per l'esattezza XP..
E' possibile fare una cosa del genere usando XP?
Altrimenti ancora più comodo, è possibile trasferire tutto il sito in PDF?
Il problema è che volevo stampare tutto nel mio ufficio perchè la ho la stampante laser ma in ufficio si usa windows ..Per l'esattezza XP..
E' possibile fare una cosa del genere usando XP?
Altrimenti ancora più comodo, è possibile trasferire tutto il sito in PDF?
Volere è potere
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
Sicuramente si, non sò bene come, ma un modo ci sarà senz'altro, con wkhtmltopdf lo puoi fare mettendo l'url del sito al posto del file di 'ingresso'.. il problema poi sarebbe seguire tutti i link, wget ha l'opzione per farlo, wk non sò.DarkF12@ ha scritto: si io ho tutti i file html sul mio computer..
Il problema è che volevo stampare tutto nel mio ufficio perchè la ho la stampante laser ma in ufficio si usa windows ..Per l'esattezza XP..
E' possibile fare una cosa del genere usando XP?
Ah, bho.. credo di si, ma non saprei come aiutarti, già sono niubbo con il terminale linux, del dos sò ancora meno.
Io ti ho consigliato wkhtmltopdf perchè è uno dei migliori come fedeltà html -> pdf, c'è anche la versione per windows, il problema dopo sarebbe processarli tutti.
Se puoi installare python su quel pc saprei come fare, ma mi pare un pò assurdo per una banalità come questa..
Altrimenti lo fai su linux, poi metti i pdf su una chiavetta/dvd e li stampi dall'ufficio..
Altrimenti ancora più comodo, è possibile trasferire tutto il sito in PDF?
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
Fermo li, ci penso io, ho appena visto il sito di cui parli e potrebbe essere utile alla mia ragazza che ha da poco ripreso gli studi ;D
Dammi mezz'ora e ti metto i PDF su una cartella pubblica su dropbox ;)
p.s: già che ci sei conosci u sito simile per l'inglese?
Dammi mezz'ora e ti metto i PDF su una cartella pubblica su dropbox ;)
p.s: già che ci sei conosci u sito simile per l'inglese?
Ultima modifica di DaNieL85 il venerdì 1 ottobre 2010, 13:32, modificato 1 volta in totale.
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
già ma così facendo non mi troverei un unico file pdf ma tanti file pdf(ognuno per ogni file html) quindi sarei al punto di partenza e cioè dover aprire ogni pdf per volta e stamparlo..
Volere è potere
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
penso sia il migliore per il ripassi di matematica ; )
E' veloce ,spiega le cose in modo chiaro e basilare e io sinceramente quando non capivo dall prof studiavo li su e capivo alla perfezione!
Ma riesci a fare un unico PDF?
E' veloce ,spiega le cose in modo chiaro e basilare e io sinceramente quando non capivo dall prof studiavo li su e capivo alla perfezione!
Ma riesci a fare un unico PDF?
Volere è potere
Re: Stampare un sito intero , oppure copiarlo tutto quanto in automatico in PDF
Si, volendo si, ma perderei i link alle pagine....DarkF12@ ha scritto: penso sia il migliore per il ripassi di matematica ; )
E' veloce ,spiega le cose in modo chiaro e basilare e io sinceramente quando non capivo dall prof studiavo li su e capivo alla perfezione!
Ma riesci a fare un unico PDF?
Forse c'è il modo di generare una spece di indice, ma non saprei, non l'ho mai fatto.. cmq ci provo, ti faccio sapere.
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
io sto cercando su internet ma trovo solo programmi che fanno la conversione di una sola pagina..
Pensavo anch'io a fare un ciclo con il for o il while convertendo tutte le pagine ma comunque mi ritroverei al punto di partenza ovvero con la scocciatura di dover aprire ogni pdf e stamparlo manualmente uno alla volta..
Pensavo anch'io a fare un ciclo con il for o il while convertendo tutte le pagine ma comunque mi ritroverei al punto di partenza ovvero con la scocciatura di dover aprire ogni pdf e stamparlo manualmente uno alla volta..
Volere è potere
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
per unire i pdf c'è pdftk
http://petition.stopsoftwarepatents.eu/
d95555c36aeeee715c0a34ce1e4dd713
d95555c36aeeee715c0a34ce1e4dd713
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
DarkF12@ ha scritto: io sto cercando su internet ma trovo solo programmi che fanno la conversione di una sola pagina..
Pensavo anch'io a fare un ciclo con il for o il while convertendo tutte le pagine ma comunque mi ritroverei al punto di partenza ovvero con la scocciatura di dover aprire ogni pdf e stamparlo manualmente uno alla volta..
Nono con pdftk è uno scherzo unire più pdf in uno unico.. il problema è che non sono sicuro di poter creare l'indice per la navigazione; Cioè, se il sito ha 1000 pagine, io ti genero un pdf unico con 1000 pagine, ma perchè tale pdf abbia una vaga utilità ti serve un indice iniziale con i titoli delle pagine linkati alla pagina pdf, giusto?
Il problema è solo quello..
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Infatti.kiroken ha scritto: per unire i pdf c'è pdftk
Però, tempo fà ricordo che c'era un software che univa più pdf e creava automaticamente l'indice, non ricordo se è wkhtmltopdf, htmldoc o qualc'osaltro.
Solo che, anche se fosse, bisogna vedere in base a cosa crea i nomi nell'indice, i file che mi scarica dal sito si chiamano tipo 'ad5.html', sarebbe inutile avere nomi come questi nell'indice.
Quando ha finito di scaricare faccio qualche test.. intanto pausa caffe+sigaretta
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
ragà, siamo a quota 3762 oggetti tra pagine html e immagini e deve ancora finire, qui ci salta fuori la Treccani completa 
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
male, molto male.. wkhtmltopdf crea in automatico un unico file pdf, e ha anche la funzione per creare l'indice (Table of Contents), ma non sò bene come è impsotata ma non funziona con i file di quel sito.
Ora devo tornare al lavoro, stasera se riesco vi posto il PDF unico, poi vediamo se riusciamo in un qualche modo a creare quel maledetto indice
Ora devo tornare al lavoro, stasera se riesco vi posto il PDF unico, poi vediamo se riusciamo in un qualche modo a creare quel maledetto indice
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Ok non ho resistito, il pdf completo lo trovate qui: http://dl.dropbox.com/u/1080584/ripmat.pdf
come vedrete la table of contents non è venuta, inoltre l'ordine delle pagine credo sia alfabetico e non 'standard' (cioè prima l'index.html, poi le sotto, e così via).
Stasera o domani, quando ho un attimo, provo a vedere di migliorarlo.
p.s: sono 2992 pagine, e alcune non sono state inserite per qualche errore che devo ancora capire.
come vedrete la table of contents non è venuta, inoltre l'ordine delle pagine credo sia alfabetico e non 'standard' (cioè prima l'index.html, poi le sotto, e così via).
Stasera o domani, quando ho un attimo, provo a vedere di migliorarlo.
p.s: sono 2992 pagine, e alcune non sono state inserite per qualche errore che devo ancora capire.
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Buona notizia: è possibile creare un indice decente.
Cattiva notizia: c'è da modificare TUTTI i file html.
Pessima notizia: ho dato un'occhiata ai file html, il markup è veramente indecente, non conosco abbastanze bene le regexp per modificare i file in automatico.
Richiesta: qualcuno esperto in regexp multiline ha voglia di aiutarci?
Bisognerebbe mettere dentro un h2 il primo elemento di ogni file, esempio:
Tra l'inizio del tag e la fine ci possono essere tabulazioni, spazi, altri elementi e fine linea.. insomma, un google bot si suicidia piuttosto di parsare quella pagina 
Cattiva notizia: c'è da modificare TUTTI i file html.
Pessima notizia: ho dato un'occhiata ai file html, il markup è veramente indecente, non conosco abbastanze bene le regexp per modificare i file in automatico.
Richiesta: qualcuno esperto in regexp multiline ha voglia di aiutarci?
Bisognerebbe mettere dentro un h2 il primo elemento di ogni file, esempio:
Codice: Seleziona tutto
<HTML>
<HEAD>
<TITLE> titolo
</TITLE>
</HEAD>
<BODY Background="sfondo0013.jpg"> <P>
<center><br><br><br>
<table border=0 width=80% cellpadding=20>
<tr bgcolor="ccffcc">
<td>
<FONT SIZE=5 COLOR="#ff2200">
<center>PRODOTTO DI POTENZE CON LA STESSA BASE</CENTER></FONT> <HR> <P>
Se devo moltiplicare
[......]
//deve diventare
<HTML>
<HEAD>
<TITLE> titolo
</TITLE>
</HEAD>
<BODY Background="sfondo0013.jpg"> <P>
<center><br><br><br>
<table border=0 width=80% cellpadding=20>
<tr bgcolor="ccffcc">
<td>
<h2><FONT SIZE=5 COLOR="#ff2200">
<center>PRODOTTO DI POTENZE CON LA STESSA BASE</CENTER></FONT><h2> <HR> <P>
Se devo moltiplicare
[......]
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
ma se me lo dicevi!
Senza scaricare il sito con wget bastava cliccare il link nella home con il file già zippato con tutti i file del sito, l'ha messo il prof a disposizione!
Senza scaricare il sito con wget bastava cliccare il link nella home con il file già zippato con tutti i file del sito, l'ha messo il prof a disposizione!
Volere è potere
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Ci sono novità?..
A me non interesserebbe avere un indice ma almeno avere le pagine e gli argomenti in sequenza..
Mi bastarebbe anche avere un PDF che comprende tutta algebra,uno che comprende tutta trigonometria ecc ecc..
Riusciamo a crearne uno?
grazie
A me non interesserebbe avere un indice ma almeno avere le pagine e gli argomenti in sequenza..
Mi bastarebbe anche avere un PDF che comprende tutta algebra,uno che comprende tutta trigonometria ecc ecc..
Riusciamo a crearne uno?
grazie
Volere è potere
Re: Convertire in AUTOMATICO un intero Sito(in sequenza) in un UNICO PDF
Nì...DarkF12@ ha scritto: Ci sono novità?..
A me non interesserebbe avere un indice ma almeno avere le pagine e gli argomenti in sequenza..
Mi bastarebbe anche avere un PDF che comprende tutta algebra,uno che comprende tutta trigonometria ecc ecc..
Riusciamo a crearne uno?
grazie![]()
Ti spiego, wkhtmltopdf crea l'indice in base ai titoli, che nel linguaggio html sono denotati dal tag hX, dove X è un numero incrementale in base all'importanza.
Cioè, è il più importante, poi via via, h2, h3, etc...
Ora, io ho provato a usare la pagina "piano dell'opera" che c'è sul sito, che sarebbe poi l'indice del sito, ma non sembra funzionare; se ho capito bene, bisogna aprire ogni pagina una ad una e inserire il tag hX nel titolo.
come già detto, le pagine html del sito sono fatte veramente male a livello html, bisognerebbe andarci giù pesante con regexp.. la mia conoscenza di regexp non è sufficente a farlo, ma se trovi qualcuno che ne sà di più sarei felice di fare la conversione.
Domani ti posto l'ultimo test che ho fatto (ho il file in ufficio, sul pc di casa non riesco a far funzionare la versione statica di wkhtmltopdf), come vedrai sono riuscito a creare un indice (78 pagine di indice..) usando il piano dell'opera, ma praticamente si autolinka.
L'indice diventa fondamentale perchè, altrimenti, per dare un'ordine alle pagine bisognerebbe dalre in fila nel comando da terminale, sono più di 2000 pagine, io non ci provo nemmeno
Invece, col comando
Codice: Seleziona tutto
wkhtmltopdf <opzioni> /path/dove/ci/sono/i/file/html/*.hml /path/output/pdf/sito.pdfGuarda, per provarle tutte domattina provo a modificare un paio di file aggiungendo il tag titolo a mano e guardo se così funzionerebbe; Se funziona ci serve un esperto di regexp.
p.s: non usate il file zip che trovate sul sito, li le pagine sono divise in sottocartelle ed è più complesso convertirle in un botto solo, scaricandole con wget invece si possono mettere nella stessa cartella e con un comando si fà.
You HAVE to assume your visitor is a maniac serial killer, out to destroy your application. And you have to prevent it.
Chi c’è in linea
Visualizzano questa sezione: 0 utenti iscritti e 10 ospiti

