Soluzione
Lo converti facilmente con il comando
Il comando è:
Codice: Seleziona tutto
$ iconv -f iso8859-1 -t ascii//TRANSLIT Regione-Lazio---Cassa-integrazione-domande-lavoratori-anno-2013.csv -o outputConvertito.txt
non penso ci sia da spiegare nulla, è abbastanza intuitivo. In caso contrario, chiedi pure.
Considerazioni
Ti chiedevo da dove scaricare il file originale, perché quello che hai allegato ha un formato diverso:
Codice: Seleziona tutto
vaevictis@vaevictis-N56VV:~/Scaricati$ file Extracted.txt
Extracted.txt: UTF-8 Unicode text, with CRLF line terminators
vaevictis@vaevictis-N56VV:~/Scaricati$ file Regione-Lazio---Cassa-integrazione-domande-lavoratori-anno-2013.csv
Regione-Lazio---Cassa-integrazione-domande-lavoratori-anno-2013.csv: ISO-8859 text, with CRLF line terminators
quindi in qualche modo già lo avevi manipolato.
Qualsiasi editor testuale ti visualizza il file in formato ISO-8859 in modo corretto.
Non te lo visualizzano in modo corretto "generalmente" i comandi di bash, come cat less more e via dicendo, perché lo leggono e provano a decodificarlo in UTF-8.
Infatti, di default avrai molto probabilmente, come me, l'impostazione:
Quindi immagino che tu abbia messo l'output di uno di questi comandi (presumibilmente cat, visto che ci sono i punti interrogativi) nel file Extracted.txt e poi abbia allegato quest'ultimo.
L'unico modo in cui sono riuscito a far visualizzare correttamente al comando cat il contenuto del file scaricato dal sito di Open Data è stato andare nella voce "Terminale" dei menù a cascata del terminale, selezionare "Imposta codifica dei caratteri" e poi selezionare "Occidentale-ISO-8859-1". Però altri comandi come less continuano a sfarfallare.
En passant, il comando sed accetta direttamente un file testuale, non c'è bisogno di metterlo in pipe al comando cat come nel tuo messaggio di apertura:
Non puoi comunque manipolare quel file con sed, perché appunto è in formato iso-8859. Devi prima convertirlo in UTF-8 con iconv.
Se usi questa seconda strada, poi devi dare un comando sed del tipo:
Codice: Seleziona tutto
sed -e 'y/āáǎàēéěèīíǐìïōóǒòöūúǔùǖǘǚǜüĀÁǍÀĒÉĚÈĪÍǏÌŌÓǑÒŪÚǓÙǕǗǙǛÜÇçÑñ/aaaaeeeeiiiiiooooouuuuuuuuuAAAAEEEEIIIIOOOOUUUUUUUUUCcNn/' path_del_file
Questo comando rimuove qualsiasi segno diacritico dalle lettere contenute nel file... anche da quelle maiuscole accentate, se quelli di Open Data sapessero scriverle
A me personalmente non piace questo comando sed qui sopra, anche perché la stessa operazione la puoi fare con iconv in modo più sintetico:
Codice: Seleziona tutto
$ echo "āáǎàēéěèīíǐìïōóǒòöūúǔùǖǘǚǜüĀÁǍÀĒÉĚÈĪÍǏÌŌÓǑÒŪÚǓÙǕǗǙǛÜÇçÑñ" | iconv -t ascii//TRANSLIT
aaaaeeeeiiiiiooooouuuuuuuuuAAAAEEEEIIIIOOOOUUUUUUUUUCcNn
L'unico problema, in entrambi i casi, è se tu devi mantenere la codifica iniziale del file della Regione. Non mi pare sia possibile, né con iconv, né con sed, visto che il risultato del file UTF-8 a cui si applica il comando per rimuovere i segni diacritici è un file in formato ASCII.