[Risolto] Wget per url da pagina web

UbuNuovo · Messaggio da **UbuNuovo** » martedì 14 luglio 2015, 23:28

dopo il ciclo si potrebbe fare un controllo sulla variabile "tampone" e se non è vuota scriverne il contenuto.
Se capita Crap un consiglio te lo da.
Altrimenti invece della variabile si usa direttamente il file che viene scritto in append mode (>>) ad ogni ciclo così siamo sicuri di non perdere dati.

crap0101

Non ho capito bene la faccenda di split, in particolare:

gennysa [url=http://forum.ubuntu-it.org/viewtopic.php?p=4780589#p4780589][img]http://forum.ubuntu-it.org/images/icons/icona-cita.gif[/img][/url] ha scritto:Il comando che mi hai gentilmente postato mi crea il file resul.txt con i link filtrati alla fine del processo, e riesco a splittarlo senza problemi.
Ma anzichè attendere la fine volevo mi creasse un file ogni 10 link trovati..

con -l N crea appunto un file ogni N linee... tu vuoi anche che crei un file generale result.txt con tutti i link? E in questo caso, solo quelli filtrati o anche quelli non filtrati? e che intendi per "attendere la fine"?

UbuNuovo

No, lui vorrebbe che i file fossero creati appena passati i primi 10 link il primo file, dopo altri 10 link il secondo file e così via.
Split invece crea i file tutti insieme quando il passaggio di dati è terminato.

gennysa · Messaggio da **gennysa** » mercoledì 15 luglio 2015, 0:56

Attendere alla fine perché adesso con il codice che sto usando mi crea il file txt quando ha finito di leggere tutta la pagina.
Se mi crea i file man mano che legge quello generale alla fine non serve più.
Solo quelli filtrati vanno più che bene.

UbuNuovo

Vado a letto, comunque ora so cosa si deve fare. Domani provo a fare lo script.

gennysa · Messaggio da **gennysa** » mercoledì 15 luglio 2015, 1:21

Io a modo mio ci provo. . Grazie. . Notte..

UbuNuovo

mi è venuto un dubbio!
Avevi fatto così:

Codice: Seleziona tutto

URL='http://www.sito.it'
PAROLA='/link_'
wget -nd -nv -rl1 --spider "$URL" 2>&1 | tee non_filtrato.txt | grep -Po "URL:\s?\K(.*$PAROLA.*?)\s+" | split -l 10 -d - file_rid-
 e non ti andava bene? Giusto?

gennysa · Messaggio da **gennysa** » mercoledì 15 luglio 2015, 2:20

Non ricordo. . Domani mattina ci guardo...

crap0101

UbuNuovo [url=http://forum.ubuntu-it.org/viewtopic.php?p=4780668#p4780668][img]http://forum.ubuntu-it.org/images/icons/icona-cita.gif[/img][/url] ha scritto:No, lui vorrebbe che i file fossero creati appena passati i primi 10 link il primo file, dopo altri 10 link il secondo file e così via.
Split invece crea i file tutti insieme quando il passaggio di dati è terminato.

ah ok... avevo pensato a stdbuf, ma il problema è proprio di come split gestisce la scrittura dei file (non la lettura dell'input) e non mi pare ci si possa fare nulla; ha l'opzione -u che però funziona solo con -n che in ogni caso non va bene.

Per cui la soluzione sarebbe appunto come dici crearsi uno split "su misura", tipo questo:

Codice: Seleziona tutto

crap0101@orange:/tmp/foo$ cat s.sh
function _split () {
    local nfile=0
    local nline=0
    while read line; do
        if ((nline % 10 == 0)); then
            let nfile+=1 nline=0
        fi
        echo "$line" >> ${nfile}.txt
        let nline+=1
    done
}

(seq 12;sleep 1;seq 12;sleep 1;seq 5) | _split
crap0101@orange:/tmp/foo$ bash s.sh 
crap0101@orange:/tmp/foo$ l
1.txt  2.txt  3.txt  s.sh
crap0101@orange:/tmp/foo$ stat -c %Y *txt
1436920307
1436920308
1436920309

(gli sleep tra i seq servono per allungare i tempi, altrimenti fa troppo in fretta)

gennysa · Messaggio da **gennysa** » mercoledì 15 luglio 2015, 4:50

Non è per me... non so neanche da dove cominciare..
ho provato a costruire ma mi da o comand not found oppure invalid syntax..
Non riesco nemmeno a provare...
poi c'è il codice di wget che non so dove metterlo..

ora provo se riesco ad inserirli in una tabella sql..

UbuNuovo

ieri avevo postato, pensavo di aver postato anche questo

Codice: Seleziona tutto

#!/bin/bash

URL='http://www.sito.it'
PAROLA='/link_'
n_ris=10
n_link=1
n_file=1
wget -nd -nv -rl1 --spider "$URL" 2>&1 | tee non_filtrato.txt | grep -Po "URL:\s?\K(.*$PAROLA.*?)\s+" | while read link
do
	echo "$link" >> rid_$n_file.txt
(( n_link++ ))
if [ $n_link -gt $n_ris ]; then 
	(( n_file++ ))
	n_link=1;
fi
done

Ma probabilmente non l'ho inviato e mi sono accorto ora che non c'èra.
Comunque mi pare che stampi ugualmente in ritardo.

edit:
Ora provo ad usare la funzione di Crap su wget (che è quasi uguale a come ho fatto io solo che usa modulo, cosa che era stato il mio primo pensiero)
riedit:
nisba! Scrive i file a scaricamento terminato!
Infatti stanotte avevo fatto una prova con il solo echo sul ciclo while e ugualmente la stampa veniva fatta a fine scaricamento... avevo provato a levare 'tee' ma stesso risultato quindi pare che sia grep che vuole aspettare la fine dello stream.

UbuNuovo

Trovato il baco!!!
Si deve usare '--line-buffered' come opzione di grep!

Codice: Seleziona tutto

#!/bin/bash

URL='http://www.sito.it'
PAROLA='/link_'
n_ris=10
n_link=1
n_file=1
wget -nd -nv -rl1 --spider "$URL" 2>&1 | tee non_filtrato.txt | grep -Po --line-buffered "URL:\s?\K(.*$PAROLA.*?)\s+" | while read link
do
	echo "$link" >> rid_$n_file.txt
(( n_link++ ))

if [ $n_link -gt $n_ris ]; then 
	(( n_file++ ))
	n_link=1
fi
done

Questo crea i file volta per volta... altrimenti si può usare la funzione di crap...
split normale non funge ugualmente come previsto da Crap, nemmeno usando -u.
Quindi o si usa l'ultimo script o la funzione di Crap al posto del ciclo while.

gennysa

Così mi crea sempre un solo file alla fine...

edit:
e tutti i risultati sempre in un solo file.

UbuNuovo

Prova rifare la copia dal mio post precedente, l'ho ripostato forse c'era qualche errorre di copia-incolla

gennysa

per ogni riga che legge
n_link++: not found
ed alla fine crea il file unico

UbuNuovo

Dopo il copia incolla guarda che non rimangano spazi prima di '#!/bin/bash'
é il forum che aggiunge un tab
Seleziona tutto (Ctrl+a) e premi Shift+Tab.

gennysa

Allora,
con la $parola link_ (quindi parola che trova nei link)
11: prova2.sh: n_link++: not found
se come $parola metto eiuefb (qundi non trova)
non mi da l'errore

UbuNuovo

hai provato a levare gli spazi aggiunti dal forum?
Quel tipo di incremento è specifico di bash, se non viene riconosciuto l'interprete, non funge.
Altrimenti prova a cambiare gli incrementi con let

gennysa

let: not found
gli spazi li ho tolti..

UbuNuovo

hai sostituito

Codice: Seleziona tutto

(( n_link++ ))

con

Codice: Seleziona tutto

let n_link+=1

e

Codice: Seleziona tutto

(( n_file++ ))

con

Codice: Seleziona tutto

let n_file+=1

?

Forum Ubuntu-it

[Risolto] Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Re: Wget per url da pagina web

Chi c’è in linea

Accedi • Iscriviti