Software OCR per portare testo su file da una scannerizzazione di una pagina
Software OCR per portare testo su file da una scannerizzazione di una pagina
Buongionro a tutti!
La cosa è abbastanza urgente perchè mi servirebbe per la mia tesi, e spero di non dover frustrarmi a far tutto da windows, anche perchè piu dimostro che tutto si puo fare anche con linux e piu sono contento.
Ora, ho una hp photosmart 3310 series gia connessa al pc in wireless, stampa e scannerizza tutto perfettamente.
Ho bisogno però di poter usare un software OCR come spiegato in oggetto, cosi mi ritrovo ad usare XSANE, che parfe abbastanza immediato, ma quando vado a vedere la scannerizzazione mi restituisce un testo "geroglifico", non riesce pare a distinguere il testo.
C'è qualche possibilità? o è risaputamente difettoso?
Grazie
La cosa è abbastanza urgente perchè mi servirebbe per la mia tesi, e spero di non dover frustrarmi a far tutto da windows, anche perchè piu dimostro che tutto si puo fare anche con linux e piu sono contento.
Ora, ho una hp photosmart 3310 series gia connessa al pc in wireless, stampa e scannerizza tutto perfettamente.
Ho bisogno però di poter usare un software OCR come spiegato in oggetto, cosi mi ritrovo ad usare XSANE, che parfe abbastanza immediato, ma quando vado a vedere la scannerizzazione mi restituisce un testo "geroglifico", non riesce pare a distinguere il testo.
C'è qualche possibilità? o è risaputamente difettoso?
Grazie
"se vi sono termini/elementi combinati, che dipendono gli uni dagli altri, allora il complesso è diverso dalla somma delle parti e compaiono effetti nuovi."
- sensoK37
- Entusiasta Emergente

- Messaggi: 1587
- Iscrizione: martedì 20 marzo 2007, 12:33
- Località: Roma
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Ciao, conosci tesseract?
Per me da i risultati migliori...
Per me da i risultati migliori...
CPU AMD PhenomII x6 1090t Black Edition | MOTHERBOARD Asus Crossair IV Formula | RAM CORSAIR 8 GB DDR3-1600 | GPU Asus Radeon hd 6850 1gb | ALIMENTATORE Advance 650W | CASE AEROCOOL PGS Serie VX-9 Pro | MONITOR Hannspree HF237
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
gscan2pdf
Un titolo ben azzeccato attira l'attenzione degli esperti in quel campo, fa risparmiare tempo a voi, aumenta la probabilità di successo.
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Ciao, ne conosco il nome dal almeno...10 minutisensoK37 ha scritto: Ciao, conosci tesseract?
Per me da i risultati migliori...
Stavo appunto leggendo, xche' prima dalla ricerca del forum non ho trovato nulla con ocr(mi sa nn funge proprio bene) poi cn google ho trovato un post che 'parla di quello e OCRfeeder, ma per ora non ho avuto buoni risultati.
Esponi pure se ti va, mi servirebbero soluzioni che nn implichino ore ed ore di terminale e configurazioni da cambiare di continuo
@ora vedo pure gscan2pdf
EDIT: ah però io non ho bisogno di fare odf, ma di poter portare il testo da pagine di libri, sul pc in formato testo per openoffice ecc
Ultima modifica di Fthinker il lunedì 22 novembre 2010, 12:27, modificato 1 volta in totale.
"se vi sono termini/elementi combinati, che dipendono gli uni dagli altri, allora il complesso è diverso dalla somma delle parti e compaiono effetti nuovi."
- sensoK37
- Entusiasta Emergente

- Messaggi: 1587
- Iscrizione: martedì 20 marzo 2007, 12:33
- Località: Roma
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
installa questi pacchetti:
sudo apt-get install tesseract-ocr tesseract-ocr-ita imagemagick xsane
Chiaramente tesseract-ocr-ita è specifico per l'italiano, se hai altre lingue devi installare altro...
Poi ci sono due metodi, uno più lento ma più efficace, l'altro più veloce e meno accurato.
Metodo 1
a)Apri Xsane è fai una normale scansione salvando il risultato come tipo jpg a 300 dpi a colori “rgb”, oppure volendo fare un po' prima, se il testo dell'immagine non è colorato, nella modalità di scansione si può usare “Grigio”.
b) Apri il jpg con Gimp, vai in Immagine -> Modalità -> Indicizzata e abilita la scelta “usa tavolozza bianco e nero” , salva e chiudi.
c) Da terminale scrivi: convert nomeimmagine.jpg nomeimmagine.tif
d) Da terminale scrivi:tesseract nomeimmagine.tif nomechevogliodarealtesto -l ita
Così otterrai “nomechevogliodarealtesto.txt”, tesseract aggiungerà automaticamente l’estensione “txt” al file di uscita.
Se scansioni direttamente in bianco e nero e se salvi direttamente in tif il risultato non è lo stesso, garantito!!
Il tutto sembra complicato, ma se ti crei un file di testo in cui copi e incolli il tutto diventa semplicissimo, e soprattutto hai risultati paurosi, praticamente il testo risulta perfetto, molto meglio di tanti ocr a pagamento per windows.
Metodo 2
a) Installare xsane2tess che è un file script che permette di utilizzare il software tesseract attraverso l'interfaccia grafica Xsane.
b) Renderlo eseguibile così: chmod a+rx xsane2tess
c) Copiare il file xsane2tess in /usr/bin
d) Creare una cartella “tmp” in /home/nomeutente in cui verrà creato dal sistema il file log “xsane2tess.log” a cui si potrà accedere per visualizzare gli errori.
e) Apri XSane e vai in Preferenze -> impostazioni -> OCR
In questa scheda, setti il campo Comando OCR cancellando gocr e scrivendo xsane2tess -l ita
nel campo Opzione file di ingresso lasci -i
nel campo Opzione file di uscita -o
anche il campo Opzione della GUI non viene interessato, quindi rimarrà come da default: -x
confermi con OK.
f) Scansiona con xsane con queste impostazioni:
tipo: text
risoluzione: 300
modalità di scansione:“Grigio”
sudo apt-get install tesseract-ocr tesseract-ocr-ita imagemagick xsane
Chiaramente tesseract-ocr-ita è specifico per l'italiano, se hai altre lingue devi installare altro...
Poi ci sono due metodi, uno più lento ma più efficace, l'altro più veloce e meno accurato.
Metodo 1
a)Apri Xsane è fai una normale scansione salvando il risultato come tipo jpg a 300 dpi a colori “rgb”, oppure volendo fare un po' prima, se il testo dell'immagine non è colorato, nella modalità di scansione si può usare “Grigio”.
b) Apri il jpg con Gimp, vai in Immagine -> Modalità -> Indicizzata e abilita la scelta “usa tavolozza bianco e nero” , salva e chiudi.
c) Da terminale scrivi: convert nomeimmagine.jpg nomeimmagine.tif
d) Da terminale scrivi:tesseract nomeimmagine.tif nomechevogliodarealtesto -l ita
Così otterrai “nomechevogliodarealtesto.txt”, tesseract aggiungerà automaticamente l’estensione “txt” al file di uscita.
Se scansioni direttamente in bianco e nero e se salvi direttamente in tif il risultato non è lo stesso, garantito!!
Il tutto sembra complicato, ma se ti crei un file di testo in cui copi e incolli il tutto diventa semplicissimo, e soprattutto hai risultati paurosi, praticamente il testo risulta perfetto, molto meglio di tanti ocr a pagamento per windows.
Metodo 2
a) Installare xsane2tess che è un file script che permette di utilizzare il software tesseract attraverso l'interfaccia grafica Xsane.
b) Renderlo eseguibile così: chmod a+rx xsane2tess
c) Copiare il file xsane2tess in /usr/bin
d) Creare una cartella “tmp” in /home/nomeutente in cui verrà creato dal sistema il file log “xsane2tess.log” a cui si potrà accedere per visualizzare gli errori.
e) Apri XSane e vai in Preferenze -> impostazioni -> OCR
In questa scheda, setti il campo Comando OCR cancellando gocr e scrivendo xsane2tess -l ita
nel campo Opzione file di ingresso lasci -i
nel campo Opzione file di uscita -o
anche il campo Opzione della GUI non viene interessato, quindi rimarrà come da default: -x
confermi con OK.
f) Scansiona con xsane con queste impostazioni:
tipo: text
risoluzione: 300
modalità di scansione:“Grigio”
Ultima modifica di Anonymous il lunedì 22 novembre 2010, 12:55, modificato 1 volta in totale.
CPU AMD PhenomII x6 1090t Black Edition | MOTHERBOARD Asus Crossair IV Formula | RAM CORSAIR 8 GB DDR3-1600 | GPU Asus Radeon hd 6850 1gb | ALIMENTATORE Advance 650W | CASE AEROCOOL PGS Serie VX-9 Pro | MONITOR Hannspree HF237
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
ti allego cio che mi fa con il primo metodo, unico provato per ora...sensoK37 ha scritto: installa questi pacchetti:
sudo apt-get install tesseract-ocr tesseract-ocr-ita imagemagick xsane
Chiaramente tesseract-ocr-ita è specifico per l'italiano, se hai altre lingue devi installare altro...
Poi ci sono due metodi, uno più lento ma più efficace, l'altro più veloce e meno accurato.
Metodo 1
a)Apri Xsane è fai una normale scansione salvando il risultato come tipo jpg a 300 dpi a colori “rgb”, oppure volendo fare un po' prima, se il testo dell'immagine non è colorato, nella modalità di scansione si può usare “Grigio”.
b) Apri il jpg con Gimp, vai in Immagine -> Modalità -> Indicizzata e abilita la scelta “usa tavolozza bianco e nero” , salva e chiudi.
c) Da terminale scrivi: convert nomeimmagine.jpg nomeimmagine.tif
d) Da terminale scrivi:tesseract nomeimmagine.tif nomechevogliodarealtesto -l ita
Così otterrai “nomechevogliodarealtesto.txt”, tesseract aggiungerà automaticamente l’estensione “txt” al file di uscita.
Se scansioni direttamente in bianco e nero e se salvi direttamente in tif il risultato non è lo stesso, garantito!!
Il tutto sembra complicato, ma se ti crei un file di testo in cui copi e incolli il tutto diventa semplicissimo, e soprattutto hai risultati paurosi, praticamente il testo risulta perfetto, molto meglio di tanti ocr a pagamento per windows.
Metodo 2
a) Installare xsane2tess che è un file script che permette di utilizzare il software tesseract attraverso l'interfaccia grafica Xsane.
b) Renderlo eseguibile così: chmod a+rx xsane2tess
c) Copiare il file xsane2tess in /usr/bin
d) Creare una cartella “tmp” in /home/nomeutente in cui verrà creato dal sistema il file log “xsane2tess.log” a cui si potrà accedere per visualizzare gli errori.
e) Apri XSane e vai in Preferenze -> impostazioni -> OCR
In questa scheda, setti il campo Comando OCR cancellando gocr e scrivendo xsane2tess -l ita
nel campo Opzione file di ingresso lasci -i
nel campo Opzione file di uscita -o
anche il campo Opzione della GUI non viene interessato, quindi rimarrà come da default: -x
confermi con OK.
f) Scansiona con xsane con queste impostazioni:
tipo: text
risoluzione: 300
modalità di scansione:“Grigio”
- Allegati
-
nomechevogliodarealtesto.txt- (769 Byte) Scaricato 77 volte
"se vi sono termini/elementi combinati, che dipendono gli uni dagli altri, allora il complesso è diverso dalla somma delle parti e compaiono effetti nuovi."
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
gscan2pdf fa le stesse cose tutto automaticamente
Un titolo ben azzeccato attira l'attenzione degli esperti in quel campo, fa risparmiare tempo a voi, aumenta la probabilità di successo.
-
LordMax
- Scoppiettante Seguace

- Messaggi: 712
- Iscrizione: giovedì 13 luglio 2006, 17:36
- Desktop: lxde
- Distribuzione: xubuntu 12.10 64 bit
- Località: Torino
- Contatti:
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Mi spiace deludere tutti ma tesseract, gscan2pdf, OCRfeeder, GoOcr e banda varia non hanno neppure la metà della qualità di riconoscimento di omnipage e/o FineReader.
Purtroppo questi ultimi sono per windows e a pagamento e sono pesanti, ergo non si possono usare bene in una macchina virtuale.
Però se quello che serve è un riconoscimento ben fatto (oltre il 95%) allora sono gli unici due che possono farlo.
Se serve un riconoscimento parziale o non è fondamentale il tempo di correzione allora vanno bene anche i vari opensource (ed in questo caso tesseract è probabilmente il migliore).
Purtroppo questi ultimi sono per windows e a pagamento e sono pesanti, ergo non si possono usare bene in una macchina virtuale.
Però se quello che serve è un riconoscimento ben fatto (oltre il 95%) allora sono gli unici due che possono farlo.
Se serve un riconoscimento parziale o non è fondamentale il tempo di correzione allora vanno bene anche i vari opensource (ed in questo caso tesseract è probabilmente il migliore).
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Se a voi hanno ben funzionato, sto pensando che forse ho qualche problema io, perche' proprio fa fatica, e di solito alla meglio vienen fuori un geroglifico, anche aumentando risoluzione ecc.
È non è escluso qualche casino perche' ho installato tutto l installabile per ocr, non so se puo far danno, in ogni caso nei prog ora avevo a disposizione librerie GOCR tesseract e cuneiform, ma pare che non diano risultati ottimi.
Beh fin poco tempo fa manco c'erano ste opzioni, sicuro ci vuole un po per perfezionarle, qualsiasi cosa vogliate aggiungere è ben accetta.
@LordMax, non so quale sia, ma sul pc fisso di mio babbo ho win7, ho scaricato il software per l'hp e c'e' gia l'ocr,che sapevo gia ben funzionante visto che è in sviluppo da anni, lo ricordo gia nel primo win xp se non erro.
Intanto grazie a tutti per il vostro tempo
È non è escluso qualche casino perche' ho installato tutto l installabile per ocr, non so se puo far danno, in ogni caso nei prog ora avevo a disposizione librerie GOCR tesseract e cuneiform, ma pare che non diano risultati ottimi.
Beh fin poco tempo fa manco c'erano ste opzioni, sicuro ci vuole un po per perfezionarle, qualsiasi cosa vogliate aggiungere è ben accetta.
@LordMax, non so quale sia, ma sul pc fisso di mio babbo ho win7, ho scaricato il software per l'hp e c'e' gia l'ocr,che sapevo gia ben funzionante visto che è in sviluppo da anni, lo ricordo gia nel primo win xp se non erro.
Intanto grazie a tutti per il vostro tempo
"se vi sono termini/elementi combinati, che dipendono gli uni dagli altri, allora il complesso è diverso dalla somma delle parti e compaiono effetti nuovi."
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Dimenticavo di dire che ho provato tutto anche OCRfeeder
"se vi sono termini/elementi combinati, che dipendono gli uni dagli altri, allora il complesso è diverso dalla somma delle parti e compaiono effetti nuovi."
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
nessuno lo ha mai messo in dubbio, anche Microsoft imaging non è male.LordMax ha scritto: Mi spiace deludere tutti ma tesseract, gscan2pdf, OCRfeeder, GoOcr e banda varia non hanno neppure la metà della qualità di riconoscimento di omnipage e/o FineReader.
Un titolo ben azzeccato attira l'attenzione degli esperti in quel campo, fa risparmiare tempo a voi, aumenta la probabilità di successo.
-
LordMax
- Scoppiettante Seguace

- Messaggi: 712
- Iscrizione: giovedì 13 luglio 2006, 17:36
- Desktop: lxde
- Distribuzione: xubuntu 12.10 64 bit
- Località: Torino
- Contatti:
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
@Fthinker
Oggettivamente tesseract è fra i migliori ocr opensource.
Se funziona così male ho hai dei sorgenti pessimi o hai qualche casino.
Da cosa fai l'acquisizione? foglio, libri, vecchi libri?
In ogni caso ti consiglierei di eliminare tutto quello che hai installato e provare a fare una installazione pulita del programma.
Magari addirittura prova (giusto per fare una prova) con una macchina virtuale dove metti proprio solo l'OCR cosi sei in grado di capire dove si trova esattamente il problema.
Oggettivamente tesseract è fra i migliori ocr opensource.
Se funziona così male ho hai dei sorgenti pessimi o hai qualche casino.
Da cosa fai l'acquisizione? foglio, libri, vecchi libri?
In ogni caso ti consiglierei di eliminare tutto quello che hai installato e provare a fare una installazione pulita del programma.
Magari addirittura prova (giusto per fare una prova) con una macchina virtuale dove metti proprio solo l'OCR cosi sei in grado di capire dove si trova esattamente il problema.
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Acquisisco da libro nuovo, ma essendo un po "mattone" è possibile che non sia nella migliore condizione di essere scannerizzato in quanto non perfettamente aderente alla pagina(cmq in win ce la fa).LordMax ha scritto: @Fthinker
Oggettivamente tesseract è fra i migliori ocr opensource.
Se funziona così male ho hai dei sorgenti pessimi o hai qualche casino.
Da cosa fai l'acquisizione? foglio, libri, vecchi libri?
In ogni caso ti consiglierei di eliminare tutto quello che hai installato e provare a fare una installazione pulita del programma.
Magari addirittura prova (giusto per fare una prova) con una macchina virtuale dove metti proprio solo l'OCR cosi sei in grado di capire dove si trova esattamente il problema.
Comunque pensavo anche io di fare cosi, perche'0 ho messo tutto, e tutto a caso uno dietro l'altro man mano che leggevo...penso che toglierò tutto cio che riguarda OCR e poi provo a rifare installazione pulita.
Mai usate macchine virtuali ::), e pensare che spatacco in ubuntu da quando ancora non riconosceva le periferiche
"se vi sono termini/elementi combinati, che dipendono gli uni dagli altri, allora il complesso è diverso dalla somma delle parti e compaiono effetti nuovi."
- sensoK37
- Entusiasta Emergente

- Messaggi: 1587
- Iscrizione: martedì 20 marzo 2007, 12:33
- Località: Roma
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Ft, tesseract per darti quel risultato vuol dire che sbagli qualche passaggio. Hai trasformato il file jpg da colore in bianco e nero come ti ho descritto? Là non c'è un problema di riconoscimento di caratteri o meno, ma proprio di elaborazione sbagliata del file.
Riprova a fare la scansione a 300dpi poi converti il jpeg in bianco e nero con gimp come descritto. Poi il file jpeg ottenuto lo trasformi in tiff (fondamentale perchè col jpeg non ottieni la stessa cosa...), poi il tiff lo trasformi in txt con tesseract.
Se le immagini sono chiare prima di scansionarle aumenta il contrasto o scuriscile. Una volta presa la mano diventa tutto semplice, e credimi che otterrai qualità molto più alta che con molti ocr a pagamento anche blasonati. Ne ho provati a decine in questi anni.
Riprova a fare la scansione a 300dpi poi converti il jpeg in bianco e nero con gimp come descritto. Poi il file jpeg ottenuto lo trasformi in tiff (fondamentale perchè col jpeg non ottieni la stessa cosa...), poi il tiff lo trasformi in txt con tesseract.
Se le immagini sono chiare prima di scansionarle aumenta il contrasto o scuriscile. Una volta presa la mano diventa tutto semplice, e credimi che otterrai qualità molto più alta che con molti ocr a pagamento anche blasonati. Ne ho provati a decine in questi anni.
CPU AMD PhenomII x6 1090t Black Edition | MOTHERBOARD Asus Crossair IV Formula | RAM CORSAIR 8 GB DDR3-1600 | GPU Asus Radeon hd 6850 1gb | ALIMENTATORE Advance 650W | CASE AEROCOOL PGS Serie VX-9 Pro | MONITOR Hannspree HF237
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Perché non usare l'ottima funzione on-line offerta da Google documenti?
Quando si vuole importare un file su Google doc, viene offerta l'opzione di importare con conversione da file ocr o pdf a formato testo. E' comodo (ho letto un articolo di giornale su 6 colonne!), gratis e soprattutto velocissimo. Si possono importare con un solo comando file multipli. I file convertiti possono poi essere scaricati sul proprio computer con il formato che si desidera.
D'accordo, non è open source, ma forse usare un programma Windows sotto Wine è più serio?
Quando si vuole importare un file su Google doc, viene offerta l'opzione di importare con conversione da file ocr o pdf a formato testo. E' comodo (ho letto un articolo di giornale su 6 colonne!), gratis e soprattutto velocissimo. Si possono importare con un solo comando file multipli. I file convertiti possono poi essere scaricati sul proprio computer con il formato che si desidera.
D'accordo, non è open source, ma forse usare un programma Windows sotto Wine è più serio?
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
non in .tiff, ma in .tif (come giustamente detto nel post n. 5)lo trasformi in tiff (fondamentale perchè col jpeg non ottieni la stessa cosa...), poi il tiff lo trasformi in txt con tesseract
col .tiff tesseract non funziona,
Ubuntu User # 32762
Chiavetta Infocert per Polisweb su Ubuntu http://forum.ubuntu-it.org/viewtopic.ph ... 3#p3024123
Openoffice writer; Impaginare a libro http://forum.ubuntu-it.org/viewtopic.ph ... 9#p2952849
Chiavetta Infocert per Polisweb su Ubuntu http://forum.ubuntu-it.org/viewtopic.ph ... 3#p3024123
Openoffice writer; Impaginare a libro http://forum.ubuntu-it.org/viewtopic.ph ... 9#p2952849
- sensoK37
- Entusiasta Emergente

- Messaggi: 1587
- Iscrizione: martedì 20 marzo 2007, 12:33
- Località: Roma
Re: Software OCR per portare testo su file da una scannerizzazione di una pagina
Ok ok, grazie per la precisazione paciugOne...
CPU AMD PhenomII x6 1090t Black Edition | MOTHERBOARD Asus Crossair IV Formula | RAM CORSAIR 8 GB DDR3-1600 | GPU Asus Radeon hd 6850 1gb | ALIMENTATORE Advance 650W | CASE AEROCOOL PGS Serie VX-9 Pro | MONITOR Hannspree HF237
Chi c’è in linea
Visualizzano questa sezione: caturen, Google [Bot] e 5 ospiti
