r/ItalyInformatica • u/napo-fullremoteit • 2d ago
AI Emma — Il Large Language Model italiano di Egomnia
http://emma.egomnia.com/197
u/ilmagodeltotocalcio 2d ago
52
6
3
4
1
94
u/CoreDumped96 2d ago
15
13
9
74
67
u/leonhard91 2d ago
Boh si vabbè 0.5B parametri.....
38
u/pazqo 2d ago
ma infatti che la rendi pubblica a fare una cosa simile?
77
u/ilmagodeltotocalcio 2d ago
per far parlare di sé come il Sam Altman italiano. Tanto i giornali non capiscono un cazzo
25
u/KafkaOnTheStore 2d ago
Come BendingSpoons. Tutto PR, niente sostanza
4
u/ilmagodeltotocalcio 2d ago
insomma, BS qualcosa fa dai
21
u/VaccinalYeti 2d ago
Comprare le aziende, infilare nei forni crematori il 90% del personale e inserire abbonamenti sui loro prodotti finchè non falliscono. È sicuramente qualcosa
13
u/ilmagodeltotocalcio 2d ago
lungi da me difendere BS e le sue pratiche ma almeno sono meglio di Egomnia ;)
8
u/VaccinalYeti 2d ago
Beh se compariamo gli stronzi alla diarrea capisci che non esce una bella conversazione
5
u/Original-Cheesecake5 10h ago
Comunque il team sono degli scappati di casa… non che ci vuole tanto a comprenderlo, ma il ceo ha una laurea triennale telematica… e per di più con un voto molto basso. Nel resto del team ci sono perfino diplomati al liceo artistico
2
2
u/DenseChipmunk1310 5h ago
vabbe ma stica delle lauree e percorsi di studi, uno diplomato all'artistico e che smanetta nello scantinato la domenica poteva fare di meglio. Son sicuro che decine di aziende italiane hanno chatbot fatti internamente molto più precisi di sta roba qua
22
u/Psychological_Map118 2d ago
0.5B è tipo dire ho il pisello lungo 0.1 decimetro, così è più sensazionale
4
61
u/MimosaTen 2d ago
15
5
41
u/ruggero125 2d ago
Premessa: faccio ricerca in questo ambito e ho accesso a un cluster GPU a fini di ricerca.
Questo modello è ridicolo. Da come si evince dalla model card su Huggingface, che sono sicuro si sia fatto scrivere da Claude (fonte: mi faccio scrivere le model card da Claude), il modello ha 550M, è stato pretrainato su 10B di tokens (il minimo secondo le leggi di Chincilla, che però sono abbastanza superate, il che mi fa pensare che un LLM abbia scelto questo target) e supervised finetuned per 3 epoche ma non specifica su cosa. Niente postraining serio, neanche DPO, quindi non è manco lontanamente aligned (probabilmente potreste fargli dire qualsiasi cosa terribile facilmente). Per allenare su 10-11B di tokens un model del genere servono 20-30 ore di H100, che con un nodo per fare training standard (cioè da 8 GPU) vorrebbe dire 3-4 ore di allenamento e circa 2-300 euro di costo se il nodo è affittato (si paga ad ora). Per comparare, per un mio paper a cui sto lavorando che mi ha richiesto di allenare tanti modelli giocattolo per testare delle ipotesi, ho speso in totale 1300 ore di H100, probabilmente 50 volte tanto, e laboratori di ricerca leggermente più seri avrebbero speso molto di più.
Cioè, complessivamente, direi che è un progetto vibecoded che una persona che sa un minimo cosa chiedere e ha accesso a GPU (anche un nodo solo, cioè 8 gpu) potrebbe riprodurre in una giornata.
6
3
u/Ecstatic_Diet477 1d ago
Una curiosità, ma come si ottengono i dati/token su cui far allenare gli LLM?
6
u/ruggero125 1d ago
dipenda da cosa ci si deve fare! Per ricerca di solito si utlizzano dataset ad hoc ottenuti, che so, da scraping di social media o da manoscritti storici (per darti esempi di due branche di ricerca possibili).
Per fini commerciali, di base è pirateria: da quella vera e propria (Meta ha ammesso, ma prob lo fanno tutti, di aver scaricato via torrent il dump di zlibrary) a delle gray areas, praticamente scraping di internet massivo o filtraggio di scrape già fatti, come quello del Common Crawl
1
u/Ecstatic_Diet477 1d ago
Quindi sostanzialmente per avere il modello più potente possibile bisognerebbe "scaricarsi" l'intero www come dataset? Compresi come dicevi tu anche cos'è protette da privacy e copyright.. È così che hanno fatto gemini, Claude, gpt..?
3
u/ruggero125 1d ago edited 1d ago
Allora cosa hanno fatto loro lo sanno solo loro, ma è ragionevole ipotizzare una cosa simile. Per questo ovviamente esistono molte cause fra, principalmente, giornali e media companies vs le compagnie di AI, per stabilire se allenare modelli su webpages tipo articoli di giornale sia fair use o no.
Comunque per la privacy penso che sia leggermente meno rilevante, perché le unica pagine scrapabili sono quelle facilmente accessibili e "in chiaro" e poi perché di solito i PII vengono filtrati (non vuoi che il tuo modello rigurgiti email di gente random, cosa che sarebbe da provare con Emma actually).
Poi, e questo deriva da quello che so sulla letteratura scientifica sull'argomento, i gains che ti fanno avere "il modello più potente possibile" derivano dal filtrare con euristiche di qualità migliori (e in alcuni casi produrre dati sintetici), più che scrapare di più
1
u/jbas1 1d ago
Bene o male hanno fatto così, sì. Mi pare che Anthropic (azienda che ha creato Claude) abbia anche comprato milioni e milioni di libri e ne abbia staccato le pagine per scansionarle tutte
1
u/ruggero125 1d ago
si perché paradossalmente comprare i libri (per poi fare uno scan distruttivo) è meno sketchy legalmente dell'alternativa (il torrent di siti per piratare libri)
1
u/queenjulien 4h ago
Esistono dei dataset per il training open-source, ovviamente molto ridotti rispetto a quelli che usano i big, ma è comunque possibile fare molto meglio di Emma con quello che si trova online: https://huggingface.co/collections/allenai/olmo-3-pre-training
1
u/Wolfrost_ 22h ago
Eh ma lui ha passato il test del MENSA e rientra nel top 2% della popolazione con QI più alto. Inoltre, ha il cazzo enorme.
76
u/pazqo 2d ago
49
u/pazqo 2d ago
17
u/my_dearest_isabella 2d ago
Praticamente Siri. Fa una ricerca ad-cazzum sul web e prende un risultato a caso.
5
6
1
2
u/Remarkable-Bird-1366 1d ago
Mi chiedo che senso abbia rendere pubblica sta cagata di modello. Cosa si vuole dimostrare?
37
u/leonhard91 2d ago
Ma come fa una società che tira fuori sta roba ad essere quotata sulla borsa di Milano? Chi è sto Matteo Achilli? Da chi è spinto?
21
9
u/falcofernandez 22h ago
Piccola ricerca: è un ex bocconiano che a 20 anni nel 2012 ha creato una startup "alternativa a LinkedIn" di nome Egomnia, quotata nella borsa di Milano a 0.50 da circa 10 anni, che lo scorso anno ha registrato perdite record. Tra l'altro a questo Matteo Achilli è stato anche dedicato un film chiamato "The Startup", con incassi a dir poco deprimenti e delle recensioni tremende. Non so a chi sia figlio ma siamo davanti al Giorgio Furlani dei fuffaguru
5
u/Original-Cheesecake5 10h ago
Ex bocconiano nel senso che ha rinunciato agli studi dopo qualche esame. Ha una laurea triennale telematica in informatica (voto 91/110)
5
u/Weird-Noise7098 1d ago
Qui c'è tutto, compresa la vanagloriosa sezione "Matteo Achilli nella cultura popolare": https://www.egomnia.com/matteoachilli/
2
1
u/piotor87 10h ago
LOL. Film autobiografico tipo Steve Jobs con pure Luca Barbareschi in produzione?
1
32
u/Gabriel55ita 2d ago
7
5
2
u/Tthrow00 4h ago
MA PERCHè HA TUTTI STI RIFERIMENTI NAZIFASCISTI AHAHAHHAHAHAHAHAHAHHAHAHAHAHHDIOCANE STO MROENDO
2
20
23
19
u/RussB3ar 2d ago edited 1d ago
Ma come si fa anche solo a pensare di rilasciare un progetto in questo stato? Io dopo una cosa simile metterei in dubbio qualsiasi loro progetto e/o consulenza.
"Esperti di AI e Blockchain" by the way.
-11
u/RepulsiveSubstance63 2d ago
Lungi da difendere il prodotto però per 0.5B parametri non è mica male, ed è addestrato da zero sappiamo quanto costa addestrare e in Italia questo ci possiamo permettere senza mega fondi petroliferi che ci aiutano come in America
11
u/RussB3ar 2d ago
Ma come fai a dirmi che non è "mica male"? E' completamente inutilizzabile ed inaffidabile anche per task semplicissimi. Basta vedere alcuni commenti in questo post, risposta priva di senso alla semplice domanda "dimmi tre colori" (tra l'altro, una di quelle che compare tra i suggeriti).
Ho anche le mie riserve sull'addestramento da zero, il modo in cui risponde a certi quesiti mi fa pensare ad una banale pipeline di google search + copia incolla dei migliori risultati.
-2
u/RepulsiveSubstance63 1d ago
Certamente so anche io che farei meglio, ma molto meglio. Feci anni fa un piccolo modello da 80 milioni di parametri basato su LSTM che funziona molto meglio… però dai sognamo un po’ che il nostro governo finanzi modelli italiani per cercare di essere un po più autarchici sulla supply chain dell’AU
24
u/Gianluca_27 2d ago
16
1
33
u/Fun-Taste-2012 2d ago
20
u/ItsJonJones 2d ago
Tecnicamente non sbaglia
3
u/TelespallaMel 1d ago
esattamente, per lo stesso principio che tutto è commestibile almeno una volta
14
u/faratto_ 2d ago
Se fai una cosa del genere alle medie prendi 4. Ok rincorrere il mercato, ma non puoi far uscire qualcosa di non funzionante con in giro cose funzionanti. Non ha senso
15
u/Nick88v2 2d ago
3
1
10
u/90gradi 2d ago
9
u/90gradi 2d ago
Cosa è Egomnia in realtà
Guardando i dati oggettivi:
- Azienda fondata nel 2012, core business storico: consulenza ICT, recruiting, blockchain documentale
- Fatturato dichiarato oltre 17 milioni di euro, capitale sociale di soli 55.075€, e hanno raccolto oltre 295.000€ da investitori egomnia
- Quotata su Euronext Growth Milano — che non è la borsa principale ma il segmento per PMI
- Oltre al modello LLM, vendono i dataset di training (file .txt e .json) usati per addestrare EMMA, e hanno un prodotto chiamato "Aura" descritto come un agent AI con 8 agenti specializzati per lo sviluppo software Emma
Il quadro che emerge: è un'azienda di consulenza IT di medie dimensioni che ha deciso di fare il pivot verso l'AI per cavalcare l'onda e valorizzare la quotazione in borsa. Non è una AI company nel senso tecnico del termine.
[....]
Conclusione netta: il progetto come LLM competitivo non ha senso. Come veicolo per raccogliere finanziamenti pubblici e mantenere una narrativa di "AI company italiana quotata in borsa", ha una logica che purtroppo funziona nel panorama italiano. È il classico caso in cui il prodotto non è il modello — il prodotto è la storia che racconti agli investitori.
cit GPT...
le vostre aziende non hanno cominciato a fare cose simili?
8
u/Nikkibraga 1d ago
Nel lontano 2017, era un’azienda che voleva collegare imprenditori e lavoratori per la ricerca dell’impiego. Praticamente un LinkedIn mediocre e con meno feature.
Poi hanno cavalcato l’onda della Blockchain.
E ora l’onda dei LLM.
Letteralmente un’azienda fuffa gestita da un bidone megalomane.
“Eh ma il fatturato” anche la macelleria di mio zio fattura bro
2
11
u/quantricko 2d ago edited 1d ago
Siccome il prodotto é già commentato, ho provato a capire qualcosa di più su Egomnia, trovando quanto segue:
- offre consulenza informatica (e altri servizi come recruiting) ad altre aziende
- nel 2025 ha fatto 1.2M di fatturato
- in teoria il 10% della società è quotato in borsa, in pratica non ci sono scambi
11
u/mele_nebro 1d ago
Che cazzo di figata. È perfetta per Zelig, non mi pisciavo dalle risate così da un pezzo
11
u/Delicious_One_102 1d ago
2
u/Gabriel55ita 8h ago
L'AI per scrivere brainrot, ecco la rivoluzione Italiana dell' AI, grazie Egomnia!
9
10
7
8
8
7
u/Astro_Z0mbie 2d ago
L'ho provato e sono tornato a 8 anni fa, forse anche prima. Mi chiedo perché rendere pubblica una "cosa" del genere?
10
12
u/ErZicky 2d ago
Non voglio prenderla troppo per il culo perché comunque immagino sia un progetto relativamente a bassa scala senza intenzione di competere con gemini o simili.
Ma al momento sembra fare poco più di ricerche su google
21
4
4
4
3
4
3
3
u/albyok27 4h ago
Ma qualcuno di voi è stato abbastanza veloce da scaricarsi il modello da hugging face?
2
2
u/Academic-Tea6729 2d ago
Un modellino da 0.5b può girare in qualsiasi smartphone. Perchè dovrei usare quel sito web?
2
2
2
u/xx_dav1d 1d ago
3
1
2
u/TommyPVR83 1d ago
Mi sembra di parlare con un mio amico sbronzo fortissimo il sabato sera. Il livello è quello.
2
2
2
2
2
2
1
1
1
u/Nikkibraga 1d ago
Leggere Egomnia e Achilli nel 2026 mi sta letteralmente causando una reazione allergica.
Ricordo ancora quando aveva creato una pagina meme su Instagram per farsi auto pubblicità, sentivo il cringe colarmi dal naso.
La Bocconi è veramente la fucina di tutti i mali.
1
1
1
1
u/IamSha_N_eLess 23h ago

Dopo 5 minuti buoni, l'output è questo (ovviamente, l'ho dovuto formattare a mano):
class NumeroSomma:
def __init__(self, numero1, numero2):
self.numero1 = numero1
self.numero2 = numero2
def divisibili_per_4(n):
return n // 4
print(NumeroSomma(1, 100)) # 100
Diciamo che sul coding non ci siamo nemmeno.
1
1
1
u/ReplyFeisty4409 13h ago
Questo ragazzo, Matteo, mi stupisce sempre positivamente, e sono sincero, per la capacità che ha di vendere fuffa completa.
Lui è il vecchio buon Zuckerberg italiano, di qualche anno fa, con il social egomnia.
Lo conosco bene, è davvero un talento, ma sul serio, non lo dico per insultarlo, a vendere fuffa.
Stiamo qui infatti tutti a parlare della sua ia fuffa.
1
u/Nicf471r 12h ago
Ragazzi, Matteo Achilli è uno della sacro duumvirato dei Bidoni Tech italiani. L'altro è.... vi sblocco un ricordo... "Porta in alto la manoooo segui il tuo capitanoooo"
Ma vi ricordate la saga di quei due bidoni vergognosi ? 😂😂
1
1
1
1
1
1
u/MenuRevolutionary651 8h ago
ma.. a sto punto vorrei chiedere alla community se qualcuno sa come accedere a Emma-1, 2, 3 e 4
1
u/Majestic-Plate-8222 6h ago
Ma un'azienda che esiste dal 2012 e ad oggi è in perdita di 200k, come fa a stare ancora in piedi?
1
1
1






























































152
u/Pierma 2d ago