[RISOLTO] Correlazione pearson in bash o python
Inviato: sabato 7 maggio 2016, 14:29
Ciao ragazzi vi scrivo per un problema da risolvere, allora ho circa 700 file ognuno di essi strutturato in tal modo:
I valori sono spaziati con TAB e:
-La prima colonna è la molteplicità K (che serve solo come indice per capire la lunghezza del gene)
-La seconda colonna è il alore minimo calcolato da una elaborazione fatta prima
-Il terzo è il valor medio calcolato come il minimo (se da fastidio il .x posso eliminarlo)
-La quarta è il massimo calcollato come i due precedenti.
Quindi 700 file strutturati in tal modo, ogni file è un organismo, ciò che devo fare è calcolare la correlazione di Pearson
.
Dovrei ciclare sui 700 files e fare un "vs" di ognuno di essi:
-1 vs 2
-1 vs 3
.....
-1 vs 700
-2 vs 3 etc...
Inserendo il risultato in un nuovo MEGA .csv come risultato strutturato come il file che vi ho fatto vedere.
Praticamente dovrei usare tutti i valori di MIN di organismo_1 e i MIN di organismo_2 e trarne la correlazione, poi il AVG e infine il max iterando per ogni organismo.
Qualsuno di voi conosce se AWK lo si può usare come un cercatore di valori nel CSV, ovvero trattando il CSV come un array n-dimensionale dove [5,2] = riga 5 colonna 2?
Posso usare anche python per questo, riuscireste ad aiutarmi?
Codice: Seleziona tutto
6 6 248.667 643
7 30 412 794
8 11 421 831
9 6 423 840
10 3 424 845
11 1 424.5 848
12 849 849 849
13 848 848 848
14 847 847 847
15 846 846 846
16 845 845 845
17 844 844 844
18 843 843 843
19 842 842 842
20 841 841 841
21 840 840 840
22 839 839 839
23 838 838 838
24 837 837 837
-La prima colonna è la molteplicità K (che serve solo come indice per capire la lunghezza del gene)
-La seconda colonna è il alore minimo calcolato da una elaborazione fatta prima
-Il terzo è il valor medio calcolato come il minimo (se da fastidio il .x posso eliminarlo)
-La quarta è il massimo calcollato come i due precedenti.
Quindi 700 file strutturati in tal modo, ogni file è un organismo, ciò che devo fare è calcolare la correlazione di Pearson
.Dovrei ciclare sui 700 files e fare un "vs" di ognuno di essi:
-1 vs 2
-1 vs 3
.....
-1 vs 700
-2 vs 3 etc...
Inserendo il risultato in un nuovo MEGA .csv come risultato strutturato come il file che vi ho fatto vedere.
Praticamente dovrei usare tutti i valori di MIN di organismo_1 e i MIN di organismo_2 e trarne la correlazione, poi il AVG e infine il max iterando per ogni organismo.
Qualsuno di voi conosce se AWK lo si può usare come un cercatore di valori nel CSV, ovvero trattando il CSV come un array n-dimensionale dove [5,2] = riga 5 colonna 2?
Posso usare anche python per questo, riuscireste ad aiutarmi?