Pagina 1 di 1

[Risolto] wget -nc non sempre funziona

Inviato: venerdì 10 dicembre 2010, 10:00
da rik_rs
wget -k -r -p -E -np -nc -l0
mi funziona praticamente ovunque. Con -nc evito di scaricare pagine gia` esistenti indipendentemente se ce ne sono di piu` nuove (in alternativa a -N che verifica aggiornamenti).

Su alcuni url pero` non funziona. Ad esempio su tutti i forum forumcommunity.net, riscarica comunque tutto, nonostante nel farlo si nota chiaramente che non sta aggiungendo nessun nuovo file, sta solo sovrascrivendo i vecchi.

Qualche idea? Perche` cosi` per scaricare quelli piu` grandi serve lasciare acceso il computer per una vita intera (a cui si aggiunge il fatto che la conversione dei links per uso locale la fa solo a fine lavoro, quindi finche' non termina tutto e` inutile).

Re: wget -nc non sempre funziona

Inviato: domenica 12 dicembre 2010, 9:16
da rik_rs
:-[

Re: wget -nc non sempre funziona

Inviato: domenica 12 dicembre 2010, 21:17
da rik_rs
:-\

Re: wget -nc non sempre funziona

Inviato: lunedì 13 dicembre 2010, 9:09
da rik_rs
(z)

Re: wget -nc non sempre funziona

Inviato: lunedì 13 dicembre 2010, 14:22
da rik_rs
???

[Risolto] Re: wget -nc non sempre funziona

Inviato: lunedì 13 dicembre 2010, 15:09
da rik_rs
Trovato: l'uso di -E (aggiunge .html in coda ai nomi dei files che non hanno estensione) impedisce a wget di capire se il file esiste gia` in quanto la comparazione la fa senza riapplicare prima suddetta regola. In altre parole, se scarica
abc.php?a=1
  lo trasforma in
abc.php?a=1.html
e quando si va a rifare il download non e` ingrado di capire che il file e` lo stesso.

Basterebbe che la comparazione gliela facessero fare DOPO aver applicato la stessa regola.... purtroppo invece non e` cosi` e quindi con -E riscaricara sempre tutto.

Tra l'altro, ovviamente solo dopo aver capito il problema, mi sono accorto che c'e` pure scritto in man wget.

Re: wget -nc non sempre funziona

Inviato: lunedì 13 dicembre 2010, 17:25
da rik_rs
Per i passanti con stesso problema faccio un aggiunta.
C'e` anche un altro problema che rende impossibile usare -nc in alcuni casi: quando capitano url del tipo
www.foo.it/?f=1
wget li trasforma in locale con
index.html?f=1

Questo impedisce di fermare il download e riprenderlo successivamente perche` se ci provate dopo una breve scansione che ritorna "file gia` esistente" si ferma tutto anche se ci sono da scaricare ancora un miliardo di links.

Per cui oltre al problema che ho citato prima c'e` anche questo, e non so quanto sia esteso (forse si verifica addirittura con qualsiasi pagina con parametri).

MORALE FINALE:
Lasciate perdere wget per mirroring ed usate httrack a linea di comando (o con interfaccia web). Basta un semplice httrack e tutto fila liscio con possibilita` di interruzione e resume con tanto di aggiornamento che non e` un semplice -nc bensi` usa il timestamp che su wget con -N funziona quando gli pare.
Quindi wget si` per file, ma meglio lasciarlo perdere per i siti a meno che non siano MOLTO ordinari, senza tante stranezze.

Re: wget -nc non sempre funziona

Inviato: lunedì 13 dicembre 2010, 17:38
da mapreri
della serie chi fa per se fa per tre!!!!

Bravo!!!
;D;D;D
Ora metti risolto all'inizio :D ;D ;D

Re: wget -nc non sempre funziona

Inviato: lunedì 13 dicembre 2010, 18:28
da rik_rs
;D
Risolto l'avevo gia` messo ma ho sbagliato e l'ho messo al post finale.