[Python] libreria per stream di dati in tempo reale con Pandas

Linguaggi di programmazione: php, perl, python, C, bash e tutti gli altri.
Scrivi risposta
Avatar utente
vaeVictis
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4703
Iscrizione: venerdì 27 luglio 2012, 17:58
Desktop: Gnome
Distribuzione: Ubuntu 20.04 64bit

[Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da vaeVictis »

Ciao a tutti.

Sto implementando una applicazione in C++ e Pandas
Ora, senza entrare troppo nei dettagli, la parte in C++ "spedisce" dei dati (stringhe in formato csv) in tempo reale al server scritto in Python.

Per quanto riguarda il server, al momento ho implementato le varie analisi dei dati ricevuti usando Pandas.
Però l'ho fatto in modo "statico". Nel senso che acquisisco i dati staticamente da un file di testo già scritto.

Secondo la vostra esperienza, quale è una buona libreria per gestire questo flusso di dati in modo dinamico?
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Avatar utente
crap0101
Rampante Reduce
Rampante Reduce
Messaggi: 8242
Iscrizione: martedì 30 ottobre 2007, 6:33
Desktop: LXDE
Distribuzione: Ubuntu 18.04.1 LTS
Sesso: Maschile
Località: TO
Contatti:

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da crap0101 »

ti direi più per sentito dire che per aver verificato in pratica e in modo esaustivo! Comunque ti preoccupano più le prestazioni o la praticità di utilizzo?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
Avatar utente
vaeVictis
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4703
Iscrizione: venerdì 27 luglio 2012, 17:58
Desktop: Gnome
Distribuzione: Ubuntu 20.04 64bit

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da vaeVictis »

Credo che le prestazioni (se intendi come velocità) non siano proprio una priorità.
Però mi interessano (relativamente).

Sarebbe buono se fossero prestanti e pratici da usare :)

Comunque, il problema è il seguente. Ricevo uno stream di dati (data ora, più altri valori in formato csv) da un sensore.
Devo aggiungerli a un dataframe pandas ma ho letto da qualche parte che è sconsigliato perché non è ottimizzato per questo ma per la lettura di dataset da file anche di grosse dimensioni.

Il problema è che poi questi dati devono comunque finire in un dataframe che si popola man mano e su cui devo fare continue analisi dati, man mano che i dati arrivano.

Non saprei come procedere senza aggiungere questi dati al dataframe direttamente.
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Avatar utente
crap0101
Rampante Reduce
Rampante Reduce
Messaggi: 8242
Iscrizione: martedì 30 ottobre 2007, 6:33
Desktop: LXDE
Distribuzione: Ubuntu 18.04.1 LTS
Sesso: Maschile
Località: TO
Contatti:

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da crap0101 »

hai già fatto qualche simulazione e profilazione con le quantità di dati che ti aspetti di dover elaborare?
Sempre per sentito dire, Dask e Vaex sembrano gestire meglio rispetto a pandas quantità ingenti, e mi pare che almeno uno dei due abbia anche una certa compatibilità con quest'ultimo, per cui probabilmente si può eventualmente rimpiazzare senza troppi sforzi (o magari anche usarli entrambi contemporaneamente, a seconda dei compiti e delle necessità).
Comunque stai parlando sempre di dati elaborati in locale, escludendo quindi soluzioni tipo hadoop e simili?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
Avatar utente
vaeVictis
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4703
Iscrizione: venerdì 27 luglio 2012, 17:58
Desktop: Gnome
Distribuzione: Ubuntu 20.04 64bit

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da vaeVictis »

Dask e Vaex non li conoscevo, ora mi informo.
Pandas non posso comunque rimuoverlo perché per l'analisi dei dati mi baso su una libreria che a sua volta ha bisogno di pandas.

Si sì, parlo sempre di dati elaborati in locale.
Hadoop, ne ho sentito parlare ma non ho ben capito di cosa si tratti.
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Avatar utente
vaeVictis
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4703
Iscrizione: venerdì 27 luglio 2012, 17:58
Desktop: Gnome
Distribuzione: Ubuntu 20.04 64bit

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da vaeVictis »

@crap0101

Ah, in tutto ciò ho dimenticato di dire che i dati vengono acquisiti sono di tipo diverso.
Nel senso che ho dei dati che arrivano ogni secondo, altri che arrivano ogni minuto, altri ogni cinque minuti, altri ogni quindici minuti, altri ogni trenta minuti, e infine altri ogni ora.
Nel senso che ogni secondo arriva un dato di un certo tipo, ogni cinque minuti un dato di un altro tipo e così via.
Ovviamente i dati possono accavallarsi, nel senso che ogni cinque minuti arriveranno anche i corrispondenti dati che arrivano ogni secondo e i corrispondenti dati che arrivano ogni minuto.
Ogni tipo di dato è analizzato separatamente, quindi avrò un dataframe per i dati che arrivano ogni secondo, un dataframe per quelli ogni minuto e così via.

Credo sia una specifica importante e me ne ero proprio dimenticato
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Avatar utente
crap0101
Rampante Reduce
Rampante Reduce
Messaggi: 8242
Iscrizione: martedì 30 ottobre 2007, 6:33
Desktop: LXDE
Distribuzione: Ubuntu 18.04.1 LTS
Sesso: Maschile
Località: TO
Contatti:

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da crap0101 »

ok, e quindi vengono raccolti in dataset diversi, sì?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
Avatar utente
vaeVictis
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4703
Iscrizione: venerdì 27 luglio 2012, 17:58
Desktop: Gnome
Distribuzione: Ubuntu 20.04 64bit

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da vaeVictis »

crap0101 ha scritto:
sabato 19 giugno 2021, 21:53
ok, e quindi vengono raccolti in dataset diversi, sì?
Sì, l'idea è questa.
Ognuno il suo dataset.
E al massimo ricevo dati ogni secondo.
Analizzo tutto in locale.
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Avatar utente
crap0101
Rampante Reduce
Rampante Reduce
Messaggi: 8242
Iscrizione: martedì 30 ottobre 2007, 6:33
Desktop: LXDE
Distribuzione: Ubuntu 18.04.1 LTS
Sesso: Maschile
Località: TO
Contatti:

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da crap0101 »

Hai già provato quei due moduli? Qualche risultato soddisfacente?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
Avatar utente
vaeVictis
Imperturbabile Insigne
Imperturbabile Insigne
Messaggi: 4703
Iscrizione: venerdì 27 luglio 2012, 17:58
Desktop: Gnome
Distribuzione: Ubuntu 20.04 64bit

Re: [Python] libreria per stream di dati in tempo reale con Pandas

Messaggio da vaeVictis »

No, purtroppo non ho ancora avuto tempo :)
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Scrivi risposta

Ritorna a “Programmazione”

Chi c’è in linea

Visualizzano questa sezione: 0 utenti iscritti e 6 ospiti