[Python] libreria per stream di dati in tempo reale con Pandas
- vaeVictis
- Imperturbabile Insigne
- Messaggi: 4703
- Iscrizione: venerdì 27 luglio 2012, 17:58
- Desktop: Gnome
- Distribuzione: Ubuntu 20.04 64bit
[Python] libreria per stream di dati in tempo reale con Pandas
Ciao a tutti.
Sto implementando una applicazione in C++ e Pandas
Ora, senza entrare troppo nei dettagli, la parte in C++ "spedisce" dei dati (stringhe in formato csv) in tempo reale al server scritto in Python.
Per quanto riguarda il server, al momento ho implementato le varie analisi dei dati ricevuti usando Pandas.
Però l'ho fatto in modo "statico". Nel senso che acquisisco i dati staticamente da un file di testo già scritto.
Secondo la vostra esperienza, quale è una buona libreria per gestire questo flusso di dati in modo dinamico?
Sto implementando una applicazione in C++ e Pandas
Ora, senza entrare troppo nei dettagli, la parte in C++ "spedisce" dei dati (stringhe in formato csv) in tempo reale al server scritto in Python.
Per quanto riguarda il server, al momento ho implementato le varie analisi dei dati ricevuti usando Pandas.
Però l'ho fatto in modo "statico". Nel senso che acquisisco i dati staticamente da un file di testo già scritto.
Secondo la vostra esperienza, quale è una buona libreria per gestire questo flusso di dati in modo dinamico?
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
- crap0101
- Rampante Reduce
- Messaggi: 8242
- Iscrizione: martedì 30 ottobre 2007, 6:33
- Desktop: LXDE
- Distribuzione: Ubuntu 18.04.1 LTS
- Sesso: Maschile
- Località: TO
- Contatti:
Re: [Python] libreria per stream di dati in tempo reale con Pandas
ti direi più per sentito dire che per aver verificato in pratica e in modo esaustivo! Comunque ti preoccupano più le prestazioni o la praticità di utilizzo?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- vaeVictis
- Imperturbabile Insigne
- Messaggi: 4703
- Iscrizione: venerdì 27 luglio 2012, 17:58
- Desktop: Gnome
- Distribuzione: Ubuntu 20.04 64bit
Re: [Python] libreria per stream di dati in tempo reale con Pandas
Credo che le prestazioni (se intendi come velocità) non siano proprio una priorità.
Però mi interessano (relativamente).
Sarebbe buono se fossero prestanti e pratici da usare
Comunque, il problema è il seguente. Ricevo uno stream di dati (data ora, più altri valori in formato csv) da un sensore.
Devo aggiungerli a un dataframe pandas ma ho letto da qualche parte che è sconsigliato perché non è ottimizzato per questo ma per la lettura di dataset da file anche di grosse dimensioni.
Il problema è che poi questi dati devono comunque finire in un dataframe che si popola man mano e su cui devo fare continue analisi dati, man mano che i dati arrivano.
Non saprei come procedere senza aggiungere questi dati al dataframe direttamente.
Però mi interessano (relativamente).
Sarebbe buono se fossero prestanti e pratici da usare
Comunque, il problema è il seguente. Ricevo uno stream di dati (data ora, più altri valori in formato csv) da un sensore.
Devo aggiungerli a un dataframe pandas ma ho letto da qualche parte che è sconsigliato perché non è ottimizzato per questo ma per la lettura di dataset da file anche di grosse dimensioni.
Il problema è che poi questi dati devono comunque finire in un dataframe che si popola man mano e su cui devo fare continue analisi dati, man mano che i dati arrivano.
Non saprei come procedere senza aggiungere questi dati al dataframe direttamente.
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
- crap0101
- Rampante Reduce
- Messaggi: 8242
- Iscrizione: martedì 30 ottobre 2007, 6:33
- Desktop: LXDE
- Distribuzione: Ubuntu 18.04.1 LTS
- Sesso: Maschile
- Località: TO
- Contatti:
Re: [Python] libreria per stream di dati in tempo reale con Pandas
hai già fatto qualche simulazione e profilazione con le quantità di dati che ti aspetti di dover elaborare?
Sempre per sentito dire, Dask e Vaex sembrano gestire meglio rispetto a pandas quantità ingenti, e mi pare che almeno uno dei due abbia anche una certa compatibilità con quest'ultimo, per cui probabilmente si può eventualmente rimpiazzare senza troppi sforzi (o magari anche usarli entrambi contemporaneamente, a seconda dei compiti e delle necessità).
Comunque stai parlando sempre di dati elaborati in locale, escludendo quindi soluzioni tipo hadoop e simili?
Sempre per sentito dire, Dask e Vaex sembrano gestire meglio rispetto a pandas quantità ingenti, e mi pare che almeno uno dei due abbia anche una certa compatibilità con quest'ultimo, per cui probabilmente si può eventualmente rimpiazzare senza troppi sforzi (o magari anche usarli entrambi contemporaneamente, a seconda dei compiti e delle necessità).
Comunque stai parlando sempre di dati elaborati in locale, escludendo quindi soluzioni tipo hadoop e simili?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- vaeVictis
- Imperturbabile Insigne
- Messaggi: 4703
- Iscrizione: venerdì 27 luglio 2012, 17:58
- Desktop: Gnome
- Distribuzione: Ubuntu 20.04 64bit
Re: [Python] libreria per stream di dati in tempo reale con Pandas
Dask e Vaex non li conoscevo, ora mi informo.
Pandas non posso comunque rimuoverlo perché per l'analisi dei dati mi baso su una libreria che a sua volta ha bisogno di pandas.
Si sì, parlo sempre di dati elaborati in locale.
Hadoop, ne ho sentito parlare ma non ho ben capito di cosa si tratti.
Pandas non posso comunque rimuoverlo perché per l'analisi dei dati mi baso su una libreria che a sua volta ha bisogno di pandas.
Si sì, parlo sempre di dati elaborati in locale.
Hadoop, ne ho sentito parlare ma non ho ben capito di cosa si tratti.
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
- vaeVictis
- Imperturbabile Insigne
- Messaggi: 4703
- Iscrizione: venerdì 27 luglio 2012, 17:58
- Desktop: Gnome
- Distribuzione: Ubuntu 20.04 64bit
Re: [Python] libreria per stream di dati in tempo reale con Pandas
@crap0101
Ah, in tutto ciò ho dimenticato di dire che i dati vengono acquisiti sono di tipo diverso.
Nel senso che ho dei dati che arrivano ogni secondo, altri che arrivano ogni minuto, altri ogni cinque minuti, altri ogni quindici minuti, altri ogni trenta minuti, e infine altri ogni ora.
Nel senso che ogni secondo arriva un dato di un certo tipo, ogni cinque minuti un dato di un altro tipo e così via.
Ovviamente i dati possono accavallarsi, nel senso che ogni cinque minuti arriveranno anche i corrispondenti dati che arrivano ogni secondo e i corrispondenti dati che arrivano ogni minuto.
Ogni tipo di dato è analizzato separatamente, quindi avrò un dataframe per i dati che arrivano ogni secondo, un dataframe per quelli ogni minuto e così via.
Credo sia una specifica importante e me ne ero proprio dimenticato
Ah, in tutto ciò ho dimenticato di dire che i dati vengono acquisiti sono di tipo diverso.
Nel senso che ho dei dati che arrivano ogni secondo, altri che arrivano ogni minuto, altri ogni cinque minuti, altri ogni quindici minuti, altri ogni trenta minuti, e infine altri ogni ora.
Nel senso che ogni secondo arriva un dato di un certo tipo, ogni cinque minuti un dato di un altro tipo e così via.
Ovviamente i dati possono accavallarsi, nel senso che ogni cinque minuti arriveranno anche i corrispondenti dati che arrivano ogni secondo e i corrispondenti dati che arrivano ogni minuto.
Ogni tipo di dato è analizzato separatamente, quindi avrò un dataframe per i dati che arrivano ogni secondo, un dataframe per quelli ogni minuto e così via.
Credo sia una specifica importante e me ne ero proprio dimenticato
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
- crap0101
- Rampante Reduce
- Messaggi: 8242
- Iscrizione: martedì 30 ottobre 2007, 6:33
- Desktop: LXDE
- Distribuzione: Ubuntu 18.04.1 LTS
- Sesso: Maschile
- Località: TO
- Contatti:
Re: [Python] libreria per stream di dati in tempo reale con Pandas
ok, e quindi vengono raccolti in dataset diversi, sì?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- vaeVictis
- Imperturbabile Insigne
- Messaggi: 4703
- Iscrizione: venerdì 27 luglio 2012, 17:58
- Desktop: Gnome
- Distribuzione: Ubuntu 20.04 64bit
Re: [Python] libreria per stream di dati in tempo reale con Pandas
Sì, l'idea è questa.
Ognuno il suo dataset.
E al massimo ricevo dati ogni secondo.
Analizzo tutto in locale.
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
- crap0101
- Rampante Reduce
- Messaggi: 8242
- Iscrizione: martedì 30 ottobre 2007, 6:33
- Desktop: LXDE
- Distribuzione: Ubuntu 18.04.1 LTS
- Sesso: Maschile
- Località: TO
- Contatti:
Re: [Python] libreria per stream di dati in tempo reale con Pandas
Hai già provato quei due moduli? Qualche risultato soddisfacente?
http://www.gnu.org/ http://boinc.berkeley.edu/ http://www.python-it.org/
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- Ricorda le ultime parole di suo padre: «Sta' alla larga dalle chiese, figlio. La sola cosa per cui hanno la chiave è il merdaio. E giurami che non porterai mai un distintivo della legge» - W.S. Burroughs
- vaeVictis
- Imperturbabile Insigne
- Messaggi: 4703
- Iscrizione: venerdì 27 luglio 2012, 17:58
- Desktop: Gnome
- Distribuzione: Ubuntu 20.04 64bit
Re: [Python] libreria per stream di dati in tempo reale con Pandas
No, purtroppo non ho ancora avuto tempo
Pirates arrrrrrrrrrr awesome!!!
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
«I fear not the man who has practiced 10000 kicks once,
but I fear the man who has practiced one kick 10000 times.»
Chi c’è in linea
Visualizzano questa sezione: 0 utenti iscritti e 6 ospiti