Pagina 1 di 1
Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 11:13
da Fthinker
Buongionro a tutti!
La cosa è abbastanza urgente perchè mi servirebbe per la mia tesi, e spero di non dover frustrarmi a far tutto da windows, anche perchè piu dimostro che tutto si puo fare anche con linux e piu sono contento.
Ora, ho una hp photosmart 3310 series gia connessa al pc in wireless, stampa e scannerizza tutto perfettamente.
Ho bisogno però di poter usare un software OCR come spiegato in oggetto, cosi mi ritrovo ad usare XSANE, che parfe abbastanza immediato, ma quando vado a vedere la scannerizzazione mi restituisce un testo "geroglifico", non riesce pare a distinguere il testo.
C'è qualche possibilità? o è risaputamente difettoso?
Grazie
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 12:20
da sensoK37
Ciao, conosci tesseract?
Per me da i risultati migliori...
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 12:23
da patel
gscan2pdf
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 12:25
da Fthinker
sensoK37 ha scritto:
Ciao, conosci tesseract?
Per me da i risultati migliori...
Ciao, ne conosco il nome dal almeno...10 minuti

.
Stavo appunto leggendo, xche' prima dalla ricerca del forum non ho trovato nulla con ocr(mi sa nn funge proprio bene) poi cn google ho trovato un post che 'parla di quello e OCRfeeder, ma per ora non ho avuto buoni risultati.
Esponi pure se ti va, mi servirebbero soluzioni che nn implichino ore ed ore di terminale e configurazioni da cambiare di continuo
@ora vedo pure gscan2pdf
EDIT: ah però io non ho bisogno di fare odf, ma di poter portare il testo da pagine di libri, sul pc in formato testo per openoffice ecc
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 12:35
da sensoK37
installa questi pacchetti:
sudo apt-get install tesseract-ocr tesseract-ocr-ita imagemagick xsane
Chiaramente tesseract-ocr-ita è specifico per l'italiano, se hai altre lingue devi installare altro...
Poi ci sono due metodi, uno più lento ma più efficace, l'altro più veloce e meno accurato.
Metodo 1
a)Apri Xsane è fai una normale scansione salvando il risultato come tipo jpg a 300 dpi a colori “rgb”, oppure volendo fare un po' prima, se il testo dell'immagine non è colorato, nella modalità di scansione si può usare “Grigio”.
b) Apri il jpg con Gimp, vai in Immagine -> Modalità -> Indicizzata e abilita la scelta “usa tavolozza bianco e nero” , salva e chiudi.
c) Da terminale scrivi: convert nomeimmagine.jpg nomeimmagine.tif
d) Da terminale scrivi:tesseract nomeimmagine.tif nomechevogliodarealtesto -l ita
Così otterrai “nomechevogliodarealtesto.txt”, tesseract aggiungerà automaticamente l’estensione “txt” al file di uscita.
Se scansioni direttamente in bianco e nero e se salvi direttamente in tif il risultato non è lo stesso, garantito!!
Il tutto sembra complicato, ma se ti crei un file di testo in cui copi e incolli il tutto diventa semplicissimo, e soprattutto hai risultati paurosi, praticamente il testo risulta perfetto, molto meglio di tanti ocr a pagamento per windows.
Metodo 2
a) Installare xsane2tess che è un file script che permette di utilizzare il software tesseract attraverso l'interfaccia grafica Xsane.
b) Renderlo eseguibile così: chmod a+rx xsane2tess
c) Copiare il file xsane2tess in /usr/bin
d) Creare una cartella “tmp” in /home/nomeutente in cui verrà creato dal sistema il file log “xsane2tess.log” a cui si potrà accedere per visualizzare gli errori.
e) Apri XSane e vai in Preferenze -> impostazioni -> OCR
In questa scheda, setti il campo Comando OCR cancellando gocr e scrivendo xsane2tess -l ita
nel campo Opzione file di ingresso lasci -i
nel campo Opzione file di uscita -o
anche il campo Opzione della GUI non viene interessato, quindi rimarrà come da default: -x
confermi con OK.
f) Scansiona con xsane con queste impostazioni:
tipo: text
risoluzione: 300
modalità di scansione:“Grigio”
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 13:15
da Fthinker
sensoK37 ha scritto:
installa questi pacchetti:
sudo apt-get install tesseract-ocr tesseract-ocr-ita imagemagick xsane
Chiaramente tesseract-ocr-ita è specifico per l'italiano, se hai altre lingue devi installare altro...
Poi ci sono due metodi, uno più lento ma più efficace, l'altro più veloce e meno accurato.
Metodo 1
a)Apri Xsane è fai una normale scansione salvando il risultato come tipo jpg a 300 dpi a colori “rgb”, oppure volendo fare un po' prima, se il testo dell'immagine non è colorato, nella modalità di scansione si può usare “Grigio”.
b) Apri il jpg con Gimp, vai in Immagine -> Modalità -> Indicizzata e abilita la scelta “usa tavolozza bianco e nero” , salva e chiudi.
c) Da terminale scrivi: convert nomeimmagine.jpg nomeimmagine.tif
d) Da terminale scrivi:tesseract nomeimmagine.tif nomechevogliodarealtesto -l ita
Così otterrai “nomechevogliodarealtesto.txt”, tesseract aggiungerà automaticamente l’estensione “txt” al file di uscita.
Se scansioni direttamente in bianco e nero e se salvi direttamente in tif il risultato non è lo stesso, garantito!!
Il tutto sembra complicato, ma se ti crei un file di testo in cui copi e incolli il tutto diventa semplicissimo, e soprattutto hai risultati paurosi, praticamente il testo risulta perfetto, molto meglio di tanti ocr a pagamento per windows.
Metodo 2
a) Installare xsane2tess che è un file script che permette di utilizzare il software tesseract attraverso l'interfaccia grafica Xsane.
b) Renderlo eseguibile così: chmod a+rx xsane2tess
c) Copiare il file xsane2tess in /usr/bin
d) Creare una cartella “tmp” in /home/nomeutente in cui verrà creato dal sistema il file log “xsane2tess.log” a cui si potrà accedere per visualizzare gli errori.
e) Apri XSane e vai in Preferenze -> impostazioni -> OCR
In questa scheda, setti il campo Comando OCR cancellando gocr e scrivendo xsane2tess -l ita
nel campo Opzione file di ingresso lasci -i
nel campo Opzione file di uscita -o
anche il campo Opzione della GUI non viene interessato, quindi rimarrà come da default: -x
confermi con OK.
f) Scansiona con xsane con queste impostazioni:
tipo: text
risoluzione: 300
modalità di scansione:“Grigio”
ti allego cio che mi fa con il primo metodo, unico provato per ora...
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 14:24
da patel
gscan2pdf fa le stesse cose tutto automaticamente
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 15:13
da LordMax
Mi spiace deludere tutti ma tesseract, gscan2pdf, OCRfeeder, GoOcr e banda varia non hanno neppure la metà della qualità di riconoscimento di omnipage e/o FineReader.
Purtroppo questi ultimi sono per windows e a pagamento e sono pesanti, ergo non si possono usare bene in una macchina virtuale.
Però se quello che serve è un riconoscimento ben fatto (oltre il 95%) allora sono gli unici due che possono farlo.
Se serve un riconoscimento parziale o non è fondamentale il tempo di correzione allora vanno bene anche i vari opensource (ed in questo caso tesseract è probabilmente il migliore).
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 16:03
da Fthinker
Se a voi hanno ben funzionato, sto pensando che forse ho qualche problema io, perche' proprio fa fatica, e di solito alla meglio vienen fuori un geroglifico, anche aumentando risoluzione ecc.
È non è escluso qualche casino perche' ho installato tutto l installabile per ocr, non so se puo far danno, in ogni caso nei prog ora avevo a disposizione librerie GOCR tesseract e cuneiform, ma pare che non diano risultati ottimi.
Beh fin poco tempo fa manco c'erano ste opzioni, sicuro ci vuole un po per perfezionarle, qualsiasi cosa vogliate aggiungere è ben accetta.
@LordMax, non so quale sia, ma sul pc fisso di mio babbo ho win7, ho scaricato il software per l'hp e c'e' gia l'ocr,che sapevo gia ben funzionante visto che è in sviluppo da anni, lo ricordo gia nel primo win xp se non erro.
Intanto grazie a tutti per il vostro tempo

Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 16:17
da mauccta
Io una prova con OCRFeeder la farei....
leggi qui
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 16:21
da Fthinker
mauccta ha scritto:
Io una prova con OCRFeeder la farei....
leggi qui
Dimenticavo di dire che ho provato tutto anche OCRfeeder

...potrei anche aver fatto un po di confusione che sono un po incasinato, cmq li ho provati.
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 17:10
da patel
LordMax ha scritto:
Mi spiace deludere tutti ma tesseract, gscan2pdf, OCRfeeder, GoOcr e banda varia non hanno neppure la metà della qualità di riconoscimento di omnipage e/o FineReader.
nessuno lo ha mai messo in dubbio, anche Microsoft imaging non è male.
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 18:05
da LordMax
@Fthinker
Oggettivamente tesseract è fra i migliori ocr opensource.
Se funziona così male ho hai dei sorgenti pessimi o hai qualche casino.
Da cosa fai l'acquisizione? foglio, libri, vecchi libri?
In ogni caso ti consiglierei di eliminare tutto quello che hai installato e provare a fare una installazione pulita del programma.
Magari addirittura prova (giusto per fare una prova) con una macchina virtuale dove metti proprio solo l'OCR cosi sei in grado di capire dove si trova esattamente il problema.
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 22 novembre 2010, 18:11
da Fthinker
LordMax ha scritto:
@Fthinker
Oggettivamente tesseract è fra i migliori ocr opensource.
Se funziona così male ho hai dei sorgenti pessimi o hai qualche casino.
Da cosa fai l'acquisizione? foglio, libri, vecchi libri?
In ogni caso ti consiglierei di eliminare tutto quello che hai installato e provare a fare una installazione pulita del programma.
Magari addirittura prova (giusto per fare una prova) con una macchina virtuale dove metti proprio solo l'OCR cosi sei in grado di capire dove si trova esattamente il problema.
Acquisisco da libro nuovo, ma essendo un po "mattone" è possibile che non sia nella migliore condizione di essere scannerizzato in quanto non perfettamente aderente alla pagina(cmq in win ce la fa).
Comunque pensavo anche io di fare cosi, perche'0 ho messo tutto, e tutto a caso uno dietro l'altro man mano che leggevo...penso che toglierò tutto cio che riguarda OCR e poi provo a rifare installazione pulita.
Mai usate macchine virtuali ::), e pensare che spatacco in ubuntu da quando ancora non riconosceva le periferiche

Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: martedì 23 novembre 2010, 11:13
da sensoK37
Ft, tesseract per darti quel risultato vuol dire che sbagli qualche passaggio. Hai trasformato il file jpg da colore in bianco e nero come ti ho descritto? Là non c'è un problema di riconoscimento di caratteri o meno, ma proprio di elaborazione sbagliata del file.
Riprova a fare la scansione a 300dpi poi converti il jpeg in bianco e nero con gimp come descritto. Poi il file jpeg ottenuto lo trasformi in tiff (fondamentale perchè col jpeg non ottieni la stessa cosa...), poi il tiff lo trasformi in txt con tesseract.
Se le immagini sono chiare prima di scansionarle aumenta il contrasto o scuriscile. Una volta presa la mano diventa tutto semplice, e credimi che otterrai qualità molto più alta che con molti ocr a pagamento anche blasonati. Ne ho provati a decine in questi anni.
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: venerdì 3 dicembre 2010, 10:08
da untubux
Perché non usare l'ottima funzione on-line offerta da Google documenti?
Quando si vuole importare un file su Google doc, viene offerta l'opzione di importare con conversione da file ocr o pdf a formato testo. E' comodo (ho letto un articolo di giornale su 6 colonne!), gratis e soprattutto velocissimo. Si possono importare con un solo comando file multipli. I file convertiti possono poi essere scaricati sul proprio computer con il formato che si desidera.
D'accordo, non è open source, ma forse usare un programma Windows sotto Wine è più serio?
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: venerdì 3 dicembre 2010, 15:11
da paciugOne
lo trasformi in tiff (fondamentale perchè col jpeg non ottieni la stessa cosa...), poi il tiff lo trasformi in txt con tesseract
non in .tiff, ma in .tif (come giustamente detto nel post n. 5)
col .tiff tesseract non funziona,
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Inviato: lunedì 6 dicembre 2010, 13:14
da sensoK37
Ok ok, grazie per la precisazione paciugOne...