Machine Learning con Alex Raccuglia
In questa puntata Roberto e Filippo con l'ospite d'eccezione, Alex Raccuglia, – dopo aver parlato di IA con Lucio Bragagnolo – chiacchierano di Machine Learning in salsa Apple: delle sue possibilità attuali e delle speranze future dal punto di uno sviluppatore e dell'utente finale.
Guarda la diretta
In questa puntata Roberto e Filippo con l’ospite d’eccezione, Alex Raccuglia, – dopo aver parlato di IA con Lucio Bragagnolo – chiacchierano di Machine Learning in salsa Apple: delle sue possibilità attuali e delle speranze future dal punto di uno sviluppatore e dell’utente finale.
Note dell’episodio
- A2 episodio 57 con Lucio Bragagnolo: puntata precedente sull’intelligenza artificiale, richiamata come contesto.
- Create ML: strumento Apple per creare e addestrare modelli.
- I modelli di Apple: raccolta di modelli e risorse Apple per sviluppatori.
- Natural Language: framework Apple per analisi del linguaggio naturale.
- Come lemmatizzare il testo usando NLTagger: esempio Swift collegato all’analisi linguistica.
- Riconoscere nomi di entità in un testo: approfondimento sul named entity recognition.
- Introduzione al Linguaggio Naturale in Swift: guida introduttiva a Natural Language.
- Le ricerche Apple sul machine learning: pagina Apple sulle ricerche sponsorizzate o pubblicate.
- Il chip M1 di Apple e il machine learning: articolo citato per il ruolo di Apple Silicon.
- Come Apple usa il machine learning: approfondimento sul machine learning integrato nei sistemi Apple.
- ChatGPT: richiamato nel confronto tra IA generativa e machine learning applicativo.
- OpenAI: azienda citata per modelli generativi e Whisper.
Sinossi1
1. Da intelligenza artificiale a machine learning
Dopo la puntata con Lucio, Filippo e Roberto invitano Alex Raccuglia per scendere dal dibattito generale sull’IA al machine learning usato dagli sviluppatori. Alex chiarisce subito il perimetro: non parla da teorico dell’intelligenza artificiale, ma da sviluppatore che usa strumenti concreti.
“Il machine learning è un insieme di metodi”
La distinzione è utile: il machine learning non è magia, ma una famiglia di tecniche che permette a un sistema di riconoscere pattern dopo aver visto esempi. L’immagine ricorrente è semplice: se si mostrano moltissime foto di una scimmia, il sistema impara a riconoscere caratteristiche ricorrenti e a classificarne una nuova.
2. L’approccio Apple: on-device e invisibile
Alex e i conduttori spiegano che Apple usa machine learning da anni, spesso senza chiamarlo così nel marketing. Live Text, riconoscimento delle foto, sfocatura, suggerimenti e funzioni di sistema lavorano con modelli ottimizzati per girare sui dispositivi.
“Apple fa questa cosa interessante”
Il punto chiave è l’esecuzione locale. Apple Silicon e Neural Engine permettono di usare modelli con consumi più bassi e maggiore privacy rispetto a servizi che mandano tutto a server remoti. Questo approccio è coerente con l’ecosistema Apple, ma crea anche limiti: non tutti i modelli disponibili sul mercato sono pronti, documentati o abbastanza buoni per gli sviluppatori.
3. Core ML, Create ML e transfer learning
La parte tecnica entra in Core ML e Create ML. Apple mette a disposizione modelli già istruiti e strumenti per rifinirli con dati propri. Alex spiega il concetto di transfer learning: partire da un modello generale e addestrarlo ulteriormente per un compito specifico, senza dover costruire tutto da zero.
“viene chiamato da Apple Transfer Learning”
Questo è importante per sviluppatori indipendenti: creare un dataset enorme è costoso, ma rifinire un modello esistente può rendere possibile un’app utile. La difficoltà resta nella qualità dei dati: pochi esempi buoni possono essere più utili di molti esempi confusi, ma costruire e validare il dataset è spesso la parte più faticosa.
4. Linguaggio naturale, testo e API
Alex racconta esperienze con Natural Language, trascrizione, tag, entità e analisi del testo. Il linguaggio naturale è un campo in cui le API Apple possono aiutare, ma non sempre reggono il confronto con modelli più recenti o servizi esterni. La puntata cita anche Whisper, DeepL, Microsoft Azure e ChatGPT come strumenti che, messi insieme, possono creare flussi di lavoro molto potenti.
La filosofia di Alex non è “premi un bottone e lascia fare tutto”. Le sue applicazioni cercano di dare controllo all’utente: suggerire, trasformare, assistere, ma mantenere una revisione critica umana. Questo torna più volte come criterio di progettazione.
5. Foto, classificazione e futuro su Apple Silicon
Roberto porta un esempio quotidiano: Foto su iPhone riconosce piante, animali e oggetti. Alex lo collega ai modelli di classificazione e alla soglia di confidenza: un sistema può dire che una foto contiene un albero con una certa probabilità, ma Apple sceglie quando mostrare l’informazione all’utente per non creare risultati troppo incerti.
“dataset fatti bene per il machine learning”
La chiusura guarda al futuro: Apple ha investito nei propri SoC e in acceleratori dedicati proprio perché modelli locali, foto, testo, trascrizione e perfino ricostruzioni 3D richiedono molta energia. Il vantaggio competitivo sta nel far girare questi strumenti vicino all’utente, con hardware e software progettati insieme.
Questa sinossi è generata con l’intelligenza artificiale a partire dalla trascrizione della puntata. ↩︎
Leggi la trascrizione completa
Benvenuti all'episodio 58 di Adue, in cui scoprire come ottenere il massimo
dalla vostra tecnologia Apple.
Io sono Filippo Strozzi e sono il vostro ospite assieme all'amico Roberto
Marin.
Di che cosa parliamo in questo episodio, Roberto Caro?
Parliamo della mia santa pazienza a stare con te, Filippo, qui col
podcast davanti al microfono.
Ma ovviamente un altro bel po' di pazienza mi serve perché devo
introdurre un carissimo ospite non solo perché costa un sacco, ma anche
perché è un nostro amico di lunghissima data, ha introdotto entrambi al
mondo del podcasting, e quindi per questo verrà perseguitato dalle leggi apposta.
Ma nonostante questo, ha avuto anche il tempo di trovare il modo
di fare un figlio alla sua venerante età, che praticamente è il
papà di tutti noi, ma adesso è papà davvero.
Introduciamo il nostro mitico Alex Raccuglia.
Ciao ciao, buonasera a tutti quelli che ci ascoltano.
Anzi, buongiorno, perché se ci ascoltano il podcast.
Ciao!
Benvenuto tra di noi!
Oh, finalmente una voce che da tanto tempo mancava all'interno del mondo
del podcast, perché giustamente fare un figlio è tanto facile all'inizio, ma
poi alla fine, quando si prende il giro con il bambino per
casa, è sempre un po' più difficile, un po' più lungo.
Bisogna trovare gli spazi, il tempo, riequilibrare tutto quanto.
Sappiamo benissimo che c'è una folta schiera di persone che aspetta Alex
che ritorni con una puntata vera e sottolineo vera 3-4 volte di
MDB Summer Radio.
E intanto, per fargli riscaldare, far riprendere un po' il giro di
invece di stare sempre in macchina a parlare con Siri una volta,
con il microfono l'altra volta e soprattutto a prendersela per il traffico
milanese.
Questa volta abbiamo iniziato a fargli scaldare un po' la situazione perché,
insomma, il nostro Alex deve introdurre un bellissimo argomento che è il
machine learning all'interno del mondo dell'informatica, ma non solo questo, lo stiamo
riscaldando perché, come sapete, a breve c'è il WWDC 2023.
Qua c'è buona parte dei keynote, perché siamo tre su cinque.
Uno è online che ci sta seguendo, ringraziamo Daniele che è sempre
con noi.
L'altro invece è super impegnatissimo perché è un canale che ormai ha
preso il largo, è diventato un VIP e quindi non ci guarda
più, ovviamente, ma giustamente ha i suoi tempi e tantissime cose da
fare.
Ma in ogni caso un'altra cosa che volevo fare è ringraziare tutte
le persone che sono adesso qui online e che ci fanno compagnia
nella diretta.
Se non lo sapete siamo anche in diretta YouTube.
E soprattutto, come dicevo, volevo ringraziare in particolar modo Nicola e il
nostro mitico Magnetar Tech che ha cambiato il nome a NASO, in
ogni caso lo conosciamo bene o male tutti quanti.
Ringrazio di cuore ovviamente perché la vostra vicinanza ci aiuta, come sempre,
a portare avanti il podcast.
Ma prima di iniziare, una cosa che a me non piace fare
è dire sigla
, A2 Podcast.
Scopri come ottenere il massimo dalla tua tecnologia apple.
Due professionisti, Filippo e Roberto, te lo spiegano con argomenti monotematici ed
ospiti che raccontano il loro flusso di lavoro
,
e direi che dobbiamo anche ringraziare Alex di questa meravigliosa sigla.
È arrivato in tempo praticamente appena me l'avete commissionata, il ricorsivo.
Alex che presenta Alex, ma ce la siamo dovuta guadagnare.
Te le faccio io le prime domande.
Parto così subito.
Raccontaci un piccolo spaccato della tua vita.
Allora, com'è adesso vivere da papà a programmatore?
Ma interessante.
Vivere da papà è fighissimo, è abbastanza sfiancante dal punto di vista
dell'energia.
E mi rendo conto che magari a 30 anni uno lo gestisce
meglio che ha quasi 50.
Però sono veramente molto contento.
Devo dire che ogni volta che lo vedo mi rilassa quel bambino,
per cui sono molto contento.
Essere programmatore, devo dire che credo di aver dimezzato il tempo che
dedico alla mia azienda, soprattutto a delle cose collaterali, tipo il supporto
clienti, che adesso mi è molto più difficile rispetto a prima, questo,
infatti, inficcia sul karma.
Però, per il resto, il fatto di lavorare molto di testa prima,
anche l'idea stupida di registrare i podcast in auto prima che di
andare in ufficio, mi aiuta a razionalizzare per formalizzare le cose.
E arrivo, diciamo, in ufficio, riesco a ritagliarmi a questo punto qualche
decina di minuti di qua e là per poter sviluppare cose.
I weekend invece sono diventati off limits, anzi, tutta la vita in
casa è diventata off limits, potrei lasciare il computer direttamente in ufficio
non cambierebbe più niente ormai.
Tuttavia, si va avanti, ci si diverte.
Io sto attendendo un responso che potrebbe cambiare la vita della mia
azienda, perché sono in contatto con uno store americano che vende app
su me che hanno una visibilità 100 volte maggiore di quella che
posso avere io.
Per cui, anche se le loro commissioni sono relativamente alte, entrare nel
loro store, secondo me, sarebbe una figata cosmica e mi darebbe una
certa ventata d'aria fresca, mah incrocio le dita e speriamo.
Incrociamo anche noi a questo punto perché te lo meriti come si
suol dire: assolutamente sì.
Non lo so, il te lo meriti, è una cosa che mi
sembrava molto relegata alle pubblicità degli anni Ottanta o degli anni 90,
sì, ti meriti di avere un'automobile migliore.
Non lo so, spero di sì.
Lo spero
non tanto per l'economia familiare, ma per capire che ho fatto qualcosa,
mettiamola così, qualcosa di vero e non qualcosa di campato per aria.
Che poi, se usate le mie applicazioni, voi due le usate, sapete
che sono pieni di casini, perché ogni tanto è meglio che me
ne stia zitto.
No, ma no, ma no.
Il quanto beta tester e anche il nostro lavoro.
Ma invece, tornando a bomba sulla questione per cui ti abbiamo chiamato
in puntata qui su A2 Podcast, è per riprendere un po' dove
ci eravamo fermati.
Ci eravamo fermati alla puntata 57 con un amico comune so che
lo conosci anche tu, Alex, è il mitico Lucio Bragagnolo, dove abbiamo
parlato essenzialmente di intelligenza artificiale.
Il prossimo step, dopo l'intelligenza artificiale, tutti i casini che si stanno
portando dietro, tra cui facendo una piccola parentesi, uno su tutti è
quello che potrebbe essere la gestione dei dati personali e l'immenso grab
totale dei dati che ci sono in tutto il mondo per riuscire
a tirare su qualche sold, che sono tutti dati nostri.
O per esempio, se immagino che non faccia piacere a nessuno il
fatto che gli articoli, probabilmente anche il podcasting o tutto quello che
viene immesso all'interno della rete di tutte le persone che ci sono
all'interno dell'umanità, chiamiamolo così, nel mondo, viene grabbato per addestrare questo simpatico
motore di intelligenza artificiale.
Che ribadisco, e ribadiamo tutti quanti assieme perché siamo molto allineati anche
su questo punto di vista, non si tratta di un'intelligenza artificiale.
Io personalmente, dal mio punto di vista di tecnico architetto, ho pensato
a rinominare questa intelligenza artificiale perché non se ne può più chiamarla
intelligenza artificiale.
Secondo me è meglio chiamarlo acceleratore, perché in effetti, sotto un certo
punto di vista, molte attività che riguardano altre attività, come ad esempio
la mia, quella di Filippo e anche quella di Alex, l'utilizzo dell'intelligenza
artificiale o questi modelli semantici, o via discorrendo, ci sono varie possibilità
di utilizzo di questi acceleratori, permettono in effetti di migliorare e velocizzare
molte azioni ripetitive, che in effetti è il fulcro di quello che
dovrebbe fare in realtà un computer.
Cioè il computer non è solo lì per farci vedere delle cose,
nel senso come qualcosa che ci permette di fruire di quello che
c'è nella rete, vedere dei video o via discorrendo, ma soprattutto ci
permette di lavorare e una cosa che ci aveva sempre ispirato e
che ci aveva promesso l'informatica è appunto quello che avremmo smesso di
fare lavori ripetitivi.
E quindi questo qui potrebbe essere, secondo me, la parte ottimistica di
quello che ci sta succedendo attorno e una parte di questa invasione
informatica che in pratica ha invaso tutti gli aspetti della nostra vita,
perché parlavo anche su Snap, ma anche in altri settori, se ne
parla, praticamente in tutti i settori, di come riuscire a implementare questi
acceleratori, questi strumenti che possono diventare davvero molto interessanti, ma che dall'altra
parte, come il buon Walter Varini ci ha spiegato più di una
volta, ha anche un lato oscuro di cui dobbiamo cercare di tenerci
alla lontana, ma soprattutto conoscerlo per riuscire a combatterlo.
E proprio appunto perché siamo qua all'interno di questo podcast che cerchiamo
di farvi conoscere anche qual è l'idea che c'è dietro a questi
acceleratori.
Uno di questi acceleratori è il machine learning.
Cosa ci vuoi raccontare, caro il nostro Alex del Machine Learning?
Allora, permetto che io sono uno sviluppatore che utilizza degli strumenti piuttosto
che un teorico.
Il machine learning è un insieme di metodi che consentono di fare
training a modelli di intelligenza artificiale, passiamola così.
La filosofia alla base è molto semplificata questa, veramente passatemela tanto, anche
perché, ripeto, non sono un accademico.
È io faccio vedere a una macchina mille volte qualcosa, dopo un
po' di volte questa macchina inizia a riconoscere questo qualcosa.
Il riconoscimento, diciamo che è un po' alla base di tutto quanto,
anche delle intelligenze artificiali generative.
Passatemi il termine intelligenza artificiale, lo so che sono algoritmi, lo so
che sono strutture dati, però cerchiamo di semplificare.
La machine learning è un insieme di tecniche che consentono di andare
a costruire queste cose che si chiamano modelli, che sono una cosa
che sta a metà strada tra un programma e una struttura dati,
cioè messi insieme, diciamo, che consentono poi di fare delle cose.
Il primo principio di base è quello delle reti neurali, che sono
un'astrazione matematica che è stata inventata a metà del secolo scorso.
E fino fino a poco tempo fa non era praticamente utilizzabile perché
non c'era abbastanza potenza di calcolo, oppure era utilizzabile ma con tantissime
limitazioni.
Una rete neurale essenzialmente è un sistema che calcola polinomi molto semplici,
tipo X più Y più Y, più Z, eccetera, eccetera, eccetera, solo
che invece di avere tre variabili ne ha decine, centinaia di migliaia
o anche milioni.
Per cui se c'è una potenza di calcolo sufficiente, si possono calcolare
tutti questi bei polinomi che poi servono a fare delle cose.
Il machine learning è un insieme di tecniche che consentono di andare
a costruire questi polinomi, perché applicare una rete neurale a qualcosa per
risolvere dei problemi per trovare delle soluzioni è un conto.
Insegnare questa rete neurale a
fare training, come fare è un po' più complicato.
Il machine learning serve essenzialmente per fare questa cosa qui e ci
sono anche un sacco di tecniche più o meno algoritmiche che consentono
di velocizzare il training, perché uno può dire se io ti do
davanti un milione di fotografie di una scimmia, magari dopo un po'
capisci che un milione e unesima di fotografia è quella è una
scimmia.
L'insieme di modalità con cui si fa training, cioè si prendono questo
milione di fotografie che corrispondono, che ne so, a mille miliardi di
pixel, farle diventare dei vettori dei numeri e conseguenza andare a fare
classificazione, faccio un esempio.
È tutta la branca della teoria dell'informazione su cui si sta studiando
negli ultimi 20-30 anni e che è esplosa ultimamente perché la potenza
di calcolo adesso sono tali per cui questi modelli, che sono appunto
una fusione tra strutture dati e programmi, possono diventare talmente complessi che
iniziano a fare delle cose che possono iniziare a diventare interessanti.
Dal punto di vista dell'etica, lasciatemi aggiungere questo, come dire, se una
macchina fa il lavoro al posto mio.
Io continuo a dire che questi strumenti sono de strumenti che vanno
considerati come degli strumenti e non come degli oggetti finiti.
Se tu sei un professionista e a un certo punto ti prende
un garzone, uno stagista per fare qualcosa, tu gli insegni a fare
le cose e lo stagista inizialmente farà dei lavori molto molto semplici,
che magari sono dei lavori ripetitivi, noiosi, basilari, però dico sempre: la
firma ce la devi mettere tu.
Per cui alla fine allo stagista lo devi controllare quello che ha
fatto.
È lo stesso di quasi di
queste tecnologie.
Sono tecnologie che, secondo me, in mano a chi ne conosce modalità
di uso, limiti etici, legali e tecnici possono
fornire un grosso risultato.
Fare diventare un prodotto chiuso e finito mi sembra assolutamente una cosa
folle e senza controllo, e che probabilmente prima o poi qualcuno si
farà tanto male, ma veramente tanto male, e a quel punto, in
qualche modo, l'opinione pubblica dirà: Sì, vabbè, cerchiamo di capire cosa si
può fare, cioè non tanto cosa si può fare, cosa non si
può fare, ma come gestire più o meno legalmente, e dal punto
di vista della responsabilità, la cosa.
E forse lì si farà un pochettino un passo indietro.
La Silicon Valley ce lo spiega il nostro caro amico Vanini, ma
lo vediamo sempre: è un insieme di gente che dobbiamo fare le
cose in fretta, dicono: ora che è arrivato chat GPT, e magicamente
sono apparse Brad di
ard di Google.
Ieri è stata annunciata quella di Amazon, eccetera, eccetera, eccetera, come mai
arrivano tutti adesso, perché sono arrivati quelli lì e allora tutti devono
buttare fuori il prodotto, indipendentemente dal fatto che sia finito, testato e
certificato.
E in quest'ottica qui io devo essere sincero, per qualche tempo, per
qualche mese, ho pensato che Apple dicesse, ma perché stanno lì fermi
al palo che tutti stanno correndo come dei pazzi?
Loro, che sono una delle aziende più ricche al mondo, hanno un
sacco di risorse.
Sembra quasi che vogliono non dicono rimare contro, ma starsene un po'
fermi.
E la realtà è che se poi si guarda un pochettino sotto
la superficie, si chiede alla chat GPT di turno di fare qualcosa,
allo stable diffusion di turno di generare qualcosa, al whisper di turno
di trascrivere qualcosa, scopre che le basi di dati che vengono utilizzate
sono talmente piene di fuffa, perché internet è pieno di fuffa, che
il valore di questi progetti è ok, sì, visto che non siamo
capaci di discernere delle pagine decenti, di distillare tra quello che c'è
in internet, qualcosa che noi possiamo legalmente utilizzare e che comunque sia
di qualità e certificato, prendiamo cento volte tanto.
Vabbè, così in tutto questo marasma, la cacca, diciamo che un pochettino
si diluisce, però la cacca è sempre lì.
Quando c'è il machine learning, la cacca è sempre lì, vuol dire
che prima o poi, in qualche modo salta fuori, va a passatemi
il termine, sputtanare, la confidenza che puoi dare nel risultato di una
risposta.
Non è tanto se fai la ricerca che ha Alessandro Manzoni, magari
ti dice che è un esponente del Partito Democratico Americano, non è
proprio quello: è che magari su delle cose in cui è un
pochettino più sottile, ti ritrovi delle micro informazioni sbagliate che potrebbero causare
una serie di catene di decisioni sbagliate che potrebbero portare a dei
risultati se non catastrofici, molto grossonalamente errati.
Ho cercato di essere più politically correct possibile, sei stato bravissimo.
Io una segnalazione, una precisazione forse.
Perché ovviamente tu tratti della materia perché la conosci, poi non l'abbiamo
detto, ma adesso ti stai occupando, e dopo lo approfondiremo meglio, anche
di sviluppare varie applicazioni che si basano su machine learning e su
tecnologie simili.
Due osservazioni che volevo fare, diciamo per chi è meno addentro alla
vicenda.
In parte, appunto, il cosiddetto training, cioè insegnare a fare le cose,
tra virgolette, a queste intelligenze artificiali, è molto basato anche sulla statistica,
quindi sul riconoscimento, sostanzialmente in una grossa mole di dati, di modelli
che siano appunto rappresentativi di un'immagine, di un oggetto, o anche del
testo, sostanzialmente.
L'altra cosa su cui poi ti chiedevo, appunto, di fare il famoso
approfondimento, un po' anche il motivo per cui ti abbiamo chiamato qui
la volta scorsa con Lucio si discuteva del fatto che, appunto, ricollegandomi
anche quello che hai detto tu poco fa, Apple, da una parte
sembrerebbe ferma, nel senso che non sta facendo annunci mega galattici di
intelligenza artificiale o altre cose.
Ma dietro dietro, effettivamente ci sono degli strumenti sviluppati, ormai anche da
tempo, perché Apple non è stata qui a guardare
, Apple ha approcciato l'idea del machine learning e della gestione, diciamo, delle
varie branche sia da una parte creando hardware apposta.
Quindi ormai tutti i dispositivi Apple moderni, chiamiamoli così, hanno comunque una
parte di processori che è dedicata esclusivamente a quello.
Dall'altra ha creato una base per gli sviluppatori, e su questo poi
voglio le tue opinioni, i tuoi approfondimenti.
E dall'altro sta iniziando a sviluppare dei prodotti che, chiamiamoli così, non
sono pubblicizzati, diciamo troppo come machine learning, ma per esempio live text,
il riconoscimento della musica quando l'ascolti, oppure l'iPhone che ti permette di
attivare dei comandi rapidi se senti un particolare suono, sono tutte, anche
se forse meno eclatanti come chat GPT, ma sono tutte applicazioni basate
sul machine learning.
Allora, Apple fa questa cosa interessante.
Ci sono le tecnologie e poi ci sono i prodotti.
La stessa tecnologia, una tecnologia relativamente semplice, se ben stradata, può andare
a creare un prodotto molto interessante.
Pensiamo a live text.
Come funziona live text?
Live text utilizza modelli di machine learning per il riconoscimento dei caratteri.
Come sono fatti questi modelli?
Sono fatti in vari modi.
Io ho la sensazione.
Apple non fa mistero del fatto che su molte delle proprie tecnologie
fa uso di cose che sono open source, cioè sviluppate anche da
altri e che li mette a disposizione in maniera più o meno
semplificata.
Questo significa due cose: che traducono tutti i vari modelli in modo
tale che possono essere macinati attraverso le loro tecnologie, per cui attraverso
i loro processori.
Apple dice: il 25% dei transistor che sono in questo processore sono
dedicati esclusivamente al machine learning.
Ma non solo, se utilizzate le nostre librerie, ha bisogno vengono utilizzate
tutte le CPU e tutte le GPU.
Vuol dire che praticamente il 90% del processore può essere utilizzato per
fare robe di intelligenza artificiale.
Fighissimo.
La cosa bella di live text è che c'è questa tecnologia alla
base che ti dice dove stanno i caratteri.
E poi c'è tutta comunque una componente algoritmica che va a cercare
di capire come sono raggruppati, che senso hanno, se possono essere una
sorta di testo, se ci sono alcuni caratteri che sono o è
questo o quest'altro.
Allora facciamo un'indagine statistica su quale potrebbe essere la parola più più
sensata che stia lì in mezzo.
E infine raggruppati in una struttura che ti consente di evidenziare questo
come se fosse un campo di testo, e di conseguenza con una
componente di interfaccia utente interattiva.
Ecco, la tecnologia sottostante è quella del riconoscimento del testo nelle immagini,
che magari non è neanche sviluppata da loro, ma loro l'hanno tradotta
in modo tale che sia efficace.
Che sia efficace vuol dire che magari alla stessa velocità, ma consuma
un decimo della batteria, perché provate a lanciare un modello di machine
learning non compilato per CoreML, gli M1 vanno quasi in terminal trottling,
li sentite che proprio scaldano.
Se invece utilizzate la loro tecnologia, non scalda un cavolo.
Cioè, quel processore è pensato effettivamente per essere efficiente dal punto di
vista energetico.
Per cui c'è tutta questa cosa qui, le cose che mette a
disposizione Apple sono molto poche, rare fatte.
C'è stato un grande rallentamento nelle app, nelle API, negli ultimi tre
anni.
Che io davo per, inizialmente pensavo che fosse colpa della pandemia, poi
effettivamente, visto come stanno correndo gli altri, mi sono chiesto: non è
che c'è qualche sorta di cambio di direzione, un timone differente, però
sono rimasto lì a guardare da sviluppatore.
Però confezionato con un bellissimo sistema.
Stesso ditosi per riconoscimento dei suoni.
C'è tantissima accademia libera per essere utilizzata per l'identificazione dei suoni.
Spoiler alert: l'identificazione dei suoni e la classificazione delle immagini sono la
stessa identica cosa, solo che i suoni vengono prima tradotti in immagini
per poi essere classificati.
È più complicato di così, ma la filosofia di fondo è questa.
Chiusa parentesi, Apple cosa ci fa?
Ci costruisce un sistema molto molto pratico e pragmatico che consente di
fare il triggering, appunto, di ascoltare e facendo uso di sistemi che
vengono tradotti per i loro processori, fare delle cose che lavorano in
continuazione senza comunque essere gravanti dal punto di vista del consumo energetico.
Consumo energetico non è soltanto mi ciucia via la batteria, ma anche
mi impedisce di fondere il cellulare se sono se sono fuori a
20 gradi e non sotto zero, è questa è la cosa su
cui stanno lavorando.
Questo dal punto di vista di quello che mettono a disposizione dell'utente.
Per lo sviluppatore, il discorso è un po' più complicato e anche
un pochettino più nebuloso per quanto mi riguarda.
Ma se vuoi ne parliamo dopo.
Sì, sì, molto volentieri, anche perché qui lo dico, qui lo negoci
con le mie invece decisamente scarse capacità di programmazione, sono abbastanza interessato
dal linguaggio naturale di Apple e da cosa si può potenzialmente fare
sul dispositivo.
Ecco, una cosa che non l'abbiamo detto, e che forse è da
considerare anche come approccio diverso rispetto, casomai, ai notici a GPT e
compagnia Bella.
Tutti questi sistemi di chiamiamo così intelligenze artificiali lavorano su computer che
sono lontani, sui server, presumibilmente in America e in altri posti, e
dove tutto quello che noi digitiamo diciamo davanti al computer o che
gli chiediamo di fare viene fatta da sistemi enormi e così via.
L'approccio interessante di Apple è che spesso e volentieri tutto quello che
vediamo fare di machine lear da Apple è direttamente sul dispositivo, quindi
anche una filosofia per certi versi opposta a quanto le chiamiamole così
tecnologie più blasonate o comunque più chiacchierate del periodo, stanno facendo.
Quindi sicuramente un approccio antitetico, chiamiamolo in questi termini, a quello che
ad oggi è il maggioritario, sì, in alcuni casi questa è una
cosa, questa
cosa è una cosa
bella.
Il fatto che il processo rimanga sul device, rende tutto eticamente e
legalmente più sicuro e più confinato, ma è anche più controllabile dallo
sviluppatore e meno controllabile da chi offre il servizio.
Perché è ovvio che se tu ti do un'automobile e te la
guidi, non guadagno più.
Se invece io ogni volta che tu ti metti in auto mi
devi pagare il biglietto come se fosse un tram, allora io guadagno
continuamente, per cui è ovvio che l'industria si stia spostando lì.
Poi siamo tutti incazzati, ma è difficile riuscire a fare qualcosa in
questo momento.
Ci sono alcuni ambiti in cui questa cosa è molto difficile da
fare, perché i modelli sono talmente grandi che non possono stare su
un device.
Il large language model di ChatGPT è una roba che ha 167
miliardi di parametri.
È enorme, è infinito.
Ci sono delle cose simili.
Sì, ne ha parlato appunto Lucio l'altra volta parlando di Alpaca, che
è figlio di Lama, che è una cosa sviluppata da Facebook, che
poi è stata fatta trapelare in qualche modo, oppure oppure è stata
trapelata, di conseguenza l'ha resa open source.
Ecco, l'ama ha un modello che è grande suo 4 o 5
GB, capisci che su un device da 64 GB comincia ad essere
un lavoro importante ed è un modello molto piccolo.
La cosa buona degli alpaca del caso è che possono essere allenati
con delle basi di dati molto più raffinate, per cui magari non
c'è bisogno di un modello tanto complicato se il dataset è più
corretto, cioè, se invece dai impasto alla merda, cioè gli si dà
in pasto qualcosa di buono, allora non c'è bisogno di un modello
altrettanto complesso.
Altro esempio: Whisper, che è il modello open source di OpenAI per
la trascrizione del testo, su cui si sta lavorando tantissimo, che è,
secondo me, una delle cose più avanzate che ci sia in giro.
Ben più avanzata della roba che fa Google quando mette i sottotitoli
in automatico a YouTube.
Ecco, questo modello è grosso 3 GB
.
E sono 3 GB erotti, cioè, che sono tanti sul modello per
fare l'elaborazione in locale.
Ovvio che poi può essere ottimizzato.
Ovvio che poi un modello del genere ha dentro tanta fuffa e
lì la fuffa la vedi, cioè fisicamente se tu fai esplodere un
bicchiere, cosa c'è?
È una.
La trascrizione di questo.
La maggior parte dei modelli ti dice: è un effetto sonoro, è
musica o non è niente.
Whisper ti dice sottotitoli generati da tot, il che significa essenzialmente che
questi qui di Open AI, ma proprio candidamente, hanno preso tonnellate di
telefilm scaricati più o meno legalmente, ci hanno messo dentro i sottotitoli
che erano stati generati dalla gente per vedere i film sottotitolati quando
c'è ancora, si scaricavano dal torrent e gli hanno buttati in pasto.
E di conseguenza, quando c'erano gli effetti sonori finali, tipo la musica
finale, sottotitoli creati da X e allora trovate piene di queste stringhe
spurie dentro.
Vuol dire che se c'è questa roba, c'è in un modello da
3 GB open source, non so pensare cosa ci sia dentro le
cose che noi non possiamo vedere.
Per cui il bilanciamento è quello sul device è fighissimo.
A oggi alcune cose non si possono fare.
Se ti scarichi stable diffusion per fare la generazione di immagini che
non sono allo stato dell'arte, come potrebbe essere Midjourney, ti scarichi decine
di GB di modelli.
E a questo punto è praticamente impossibile fare una roba del genere
su un device.
Almeno su questa classe di device in cui il taglio minore è
64 GB per dire.
Avesti bisogno di un sistema operativo di 50 GB, allora non ti
rimane più niente attaccato.
Per cui ci sono alcune applicazioni per cui a oggi questa cosa
non si può fare.
Però, per il resto, sì, il fatto di avere tutto un device
è comodo e bisogna essere sinceri, Apple, quando fa le cose per
i propri device, per i propri sistemi, le ottimizza molto molto molto
bene.
Per cui sono delle cose facilmente innestabili in un sistema del genere,
senza pesare troppo sull'utente.
Ti faccio una domanda solo per capire se ho capito correttamente.
Con CoreML e Create ML, che sono, diciamo, le due librerie che
ha sviluppato Apple per gli sviluppatori, diciamo che c'è la possibilità di
creare micro modelli che a questo punto sono molto meno pesanti.
Cioè, sul modello, chiamiamolo così, generale che è stato già istruito da
Apple.
Quindi, comunque ha già una base, non so, del riconoscimento delle foto
piuttosto che del riconoscimento del testo e così via.
Tu puoi andare, tu, sviluppatore, chiamiamolo in questi termini, puoi andare a
fargli l'allenamento fine, che, almeno dal mio punto di vista, è la
cosa più interessante di queste tecnologie, perché è ovvio che se da
un certo punto di vista, chat GPT piuttosto che tutti gli altri
vari modelli, sono generalisti e comunque io non li potrei utilizzare per
mille motivi.
Un modello, diciamo, che io posso andare a raffinare con le mie
cose specifiche della mia attività, per esempio.
Potenzialmente mi rimane in mano, nel senso che, avendo le capacità, ho
dato io in pasto i dati che ritengo opportuni e giusti a
questo modello ulteriore di raffinato.
Lì, secondo me, c'è anche quell'aspetto di Apple che è da una
parte innovativo, e dall'altro
crea anche delle soluzioni che sono, almeno dal mio punto di vista,
interessanti.
Nel senso che se io dassi in pasto, non so, 100.000 contratti
a chat GPT o chi per esso voglio dire: sì, è vero,
casomai diventa uno strumento dove dico: creami il contratto d'affitto con Tizio
Caio, piuttosto che creami lo sfratto tizio contro Caio.
Ma di fatto, io ho dato in mano a ChatGPT o meglio
Open High, tutti questi dati e loro a loro volta potrebbero creare
la stessa cosa con i dati che gli ho dato io, e
quindi ovviamente diventarmi un concorrente sleale, mettiamoli in questi termini.
Sì, anche perché credo che sia la cosa meno GDPR compliant nel
mondo.
Vabbè, a prescina da tutto il resto, che ovviamente non sarebbe minimamente
fattibile, mettiamoli in questi termini.
Allora, sì, quello di cui parli viene chiamato da Apple Transfer Learning,
mette a disposizione degli sviluppatori attraverso Create ML, che è un programma
molto semplice, facilissimo da usare, che ti consente di specificare set di
dati per fare il training per alcune classi di applicazioni.
Nella fattispecie classificazione delle immagini.
Il riconoscimento di oggetti all'interno delle immagini, la classificazione dei suoni e
altre cose del genere.
Però devo dirti la verità: la parte più interessante, quella dei testi,
è quella su cui non ho ancora lavorato perché ho il terrore
che sia molto byassato.
Passatemi il termine, sull'inglese.
Però devo essere sincero, che è una cosa che a me interessa.
Non ci ho ancora sbattuto la testa.
Allora, io ho giocato pochissimo e con le mie scarse capacità, tendo
a precisare, quindi non voglio sembrare.
Devo dirti la verità: io l'ho provato ovviamente con l'italiano.
Ho fatto qualche test perché apro e chiudo una piccolissima parentesi.
Sostanzialmente, lo sviluppatore che ha creato Toolbox Pro, che non c'è più,
tra l'altro, perché ci ha lasciato recentemente.
Però, tra le varie cose, Toolbox Pro è un'applicazione sostanzialmente che dà
azioni a comandi rapidi, è per questo che ovviamente ci ho giocato
e ho approfondito la vicenda.
E la cosa interessante è che tra le varie azioni che donava
a comandi rapidi, c'era quello appunto di riconoscere sostanzialmente i nomi delle
persone, i nomi dei luoghi, i nomi delle società e quindi estrapolare
in un testo i dati.
Dal mio punto di vista era interessante perché, appunto, io gli davo
in pasto il contratto di locazione, mi estrapolava i dati delle parti,
e a questo punto io potevo potenzialmente utilizzare questi dati delle parti,
per esempio, per fare lo sfratto, cioè quindi riciclando i dati senza
dover metterli io a manina bella nell'atto di sfratto, e devo dirti
la verità, ovviamente senza nessun tipo di personalizzazione, non so come spiegarlo,
ma il risultato non era perfetto, ovviamente, perché ogni tanto prendeva fischi
per fiaschi.
Non so se mi spiego.
Tuttavia, per essere un modello che amavamo grezzo, presumibilmente istruito più che
altro sul testo inglese che sul testo in italiano.
I risultati non erano affatto male, e tant'è vero che poi questo
mi ha dato il la, diciamo, per fare gli approfondimenti e i
ragionamenti.
Ti ho anche chiesto qualcosa proprio perché ho qualche test basilare, l'ho
fatto, ma ovviamente allo stato attuale non ho le capacità per fare
cose clamorose, committamole in questi termini.
Mi ricordo perfettamente, ed era anche, però, fuori dalla mia ambita di
competenza, non che non sia interessato, anzi, mi interessa tantissimo, perché quello
su cui sto lavorando in questi giorni è proprio l'analisi del testo
per fare riassunti dei contenuti.
Però su questo esempio in particolare non ci ho lavorato.
Tornando alla domanda di prima, il transfer learning praticamente prevede che ci
siano dei modelli.
Allora, anche lì la questione dei modelli, nel senso, fare l'analisi di
un'immagine per capire che cosa c'è dentro un'immagine, è una cosa molto
complicata.
E la struttura che si viene a creare, cioè, nel senso, non
è una cosa molto semplice che dice prendiamo i pixel e vediamo
cosa c'è dentro.
L'idea è quella di prendere un'immagine, scomporla, trasformarla in vari modi, in
tante immagini, sotto una quarantina, ognuno ha fatto con un filtro diverso,
come se usassimo dei filtri di Instagram per dire, ma molto più
potenti.
E ognuno di questi è passarla attraverso una serie di tantissimi filtri
che poi vanno più o meno a dare una sorta di classificazione.
Ecco, la costruzione di questo modello molto complicato.
Se vedete i diagrammi sono delle cose con decine, se non centinaia
di step intermedi, che uno ti fa dire: tutta sta roba qua
avviene in tempo reale su un processore di oggi.
Sì, dici, mamma mia, quanto sono forti!
La generazione del modello è la cosa più complicata.
Una volta fatto questo, che questa struttura con questi blocchi è definita,
aggiungerci delle informazioni molto semplice.
Infatti, fare la classificazione di immagini ulteriore è una cosa che prende
poche immagini.
Apple dice potete usarne anche 10 per ogni singola classe, se non
60 50 è meglio.
E i modelli che vengono creati occupano qualche K, qualche decina di
K e non tantissimo, perché appunto il grosso del noccio lo sta
nel modello originale.
Questa è una cosa molto comoda per le applicazioni, anche proprio per
sviluppare delle applicazioni molto leggere che possono essere utilizzate.
Non soltanto utilizzate velocemente e scaricate velocemente, ma anche perché pesino relativamente
poco sul peso della computazione.
Per quanto concerner il linguaggio, devo essere sincero, mi vuole essere non
costruttivo, non assertivo, ma è una di quelle cose su cui studierò
da qui in avanti.
Mi sono concentrato fino adesso sull'audiovideo perché era quello che mi interessava
di più.
In questo periodo devo essere sincero, sono tornato a essere interessato più
al testo perché ho visto che ci sono un sacco di cose
interessanti da fare.
Però sto rivolgendo a servizi che sono terzi e non proprio nativi
ad Apple, perché o la qualità di quelli di Apple non regge
il confronto con altre aziende, oppure Apple proprio non mette a disposizione
delle API fattibili o utilizzabili.
Se posso chiedere, perché noi abbiamo visto ovviamente in anteprima alcune cose,
ma se ovviamente hai voglia di raccontarci cosa stai facendo, e anche
perché spesso e volentieri secondo me, a parte appunto il fatto che
chat GPT o le immagini quasi realistiche realizzate dai vari software per
dipingere digitando del testo, quali sono poi anche potenzialmente le applicazioni pratiche
o comunque quelle su cui tu stai
sperimentando, giocando e così via.
Proprio per avere un'idea anche concreta di dove questi strumenti possono fare
anche la differenza.
Perché secondo me, alla fine continua a ripetere, sì, bello bello chatGPT
e tutti i suoi emoli.
Non so, io ho visto VTC che adesso ha creato questo sistema
per fare partire una shortcut che poi dialoga con ChatGPT e che
ti risponde con la voce di Siri: bellissimo, in parte utile, però
alla fine è il solito discorso come della domotica comodissimo.
Che io dico una frase e mi si spegne alla luce in
ufficio, ma non è essenziale.
Non so se mi spiego come cosa.
Cioè, non è che mi ha cambiato la vita dal giorno alla
notte, non so, è più uno spizio per un nerd tecnologico.
Sì, sì, capisci.
Allora, ti dico quello su cui lo sto lavorando in questi giorni.
Spinto da un paio di richieste che ho ricevuto direttamente su Twitter,
mi sono messo a studiare appunto la questione della trascrizione.
Io ho lavorato tantissimo con le API di Apple per la trascrizione
del testo, che sono state le prime a nascere.
Nel senso, Siri è stato il primo grande oggetto del genere ed
è stata una figata.
Solo che da allora, nel senso che Siri è rimasto molto seduto
su se stesso.
Io ho sviluppato un'applicazione che si chiama Video Tag, che consentiva di
creare le tag di un testo.
Nel senso di idea: ti do questo testo, ho parlato.
Una puntata di un podcast, una conferenza in audio.
Il mio programma faceva la trascrizione usando l'API di Siri, diciamo, che
si perdono una parola ogni 10.
Per cui la trascrizione non era utilizzabile, però diciamo che poteva andare
a servire per generare delle keyword, vedere quali erano i nomi più
ripetuti, le cose più ripetute.
E ho fatto questo tipo di applicazione tre anni fa.
Ultimamente è venuto fuori Whisper.
Inizialmente non l'ho cagato perché era una cosa che per poter essere
utilizzato doveva di installare Python e tutte le 200.000 cose che sono
necessarie.
Poi, in open source, qualcuno ha sviluppato una libreria Swift compatibile, con
un modello open source rilasciato da Open AI.
Mi sono detto: beh, utilizziamolo.
Iniziato a scrivere un'applicazione che si chiama Transcribe per la trascrizione del
testo, dei video, e con l'idea di avere il testo in sync
per fare i sottotitoli.
Dovrebbe uscire nel senso che se gli americani mi rispondono a breve.
Ma non mi sono fermato lì perché mi sono reso conto che
mi sarebbe piaciuto fare dei tutorial solo che quando li faccio in
inglese faccio una grandissima fatica.
Devo mettermi qui, registrare in un momento di silenzio.
E adesso a casa mia, il silenzio è una cosa che non
c'è quasi più.
Avere, che ne so, un'ora e mezza di tempo da dedicare e
un'ora e mezza di tempo di seguito non ce l'ho più.
Mi sono detto sarebbe bello poter fare un tutorial in italiano al
volo e poi tradurlo in inglese.
E allora mi sono detto: ma si può fare qualcosa del genere?
E allora ho utilizzando l'API di Deep, The Apple, che è il
servizio di traduzione online, secondo me è il più raffinato al mondo.
Ho scritto un'applicazione che adesso non esiste ancora, nel senso che io
la uso ma non è in vendita.
Che non solo fa la trascrizione del testo, ma fa anche la
traduzione in altre lingue, che è una cosa molto comoda.
E infine mi sono detto: sarebbe bello trovare il modo di far
spickerare questa roba uno speaker digitale.
E nel frattempo ho scoperto che Amazon ha le migliori speaker digitali
al mondo, secondo me, con l'API di Azure.
E con un'altra applicazione che lavora in timem con questa, ho fatto
sì di avere una sorta di applicazione che consente di fare lo
speakeraggio digitale nell'ottica di non tanto di prendere un testo e speaker,
perché questo lo fanno tutti, sono servizi gratuiti su internet.
La mia idea è come faccio a far sì che possa lavorare
con uno speaker digitale come se io lavorassi con una persona davvero,
con tutte le idiosincrasie.
Allora mi sono detto: facciamo un'applicazione per quelli come me che magari
fanno a volte fanno anche direzione del doppiaggio o aiutano, assistono ai
doppiaggi, in modo tale da far sì che non ci sia solo
uno speakeraggio automatico, nel senso ti spickerò quello che c'è scritto, ma
ti posso intervenire in maniera costruttiva e anche agile dal punto di
vista dell'interfaccia per lo spicheraggio.
Per cui, alla fine, queste due classi di applicazione utilizzano tre servizi:
Whisper per la trascrizione del testo, Deep per la traduzione, Microsoft Azure
per lo speaker.
Così che posso fare dei tutorial in italiano e farli direttamente in
inglese.
Poi lo utilizzo anche per fare i video di presentazione dei prodotti.
Insomma, lo sto utilizzando tantissimo, l'ho utilizzato per un trailer di un
videogioco, per un video di presentazione interna, cioè, diciamo che sta diventando
una cosa che a me mi sta esplodendo in mano questa roba
qui.
Solo che appunto sono tutti servizi che, essendo di terze parti, vanno
pagati.
Relativamente poco, ma in qualche modo vanno pagati, sia quelli di traduzione
che quelli di speakeraggio.
La mia filosofia delle applicazioni non è: metti il testo, metti il
video in italiano, ti viene tradotto in inglese in automatico, perché questa
roba qua produce soltanto della fuffa.
La mia idea: i miei servizi ti sono ti danno un grande
sostegno, ma la revisione è fondamentale.
Per cui tutte le cose che uno fa, dalla trascrizione alla traduzione,
allo spickeraggio, comunque consentono sempre e in maniera molto forte all'utente di
intervenire in modo tale da dire, ok, se stai dicendo una casata,
sei tradotto un modo di dire in un modo sbagliato, e io
me ne accorgo, cambio questa cosa in modo tale che sia comunque
la supervisione umana, ma questa roba qua sia una sorta di sostegno.
Allora, mi chiedono se transcribe lo vendi solo sullo storo americano.
Sì, l'idea è quella di venderlo sullo storicano, se i modelli di
business riusciamo a farli combaciare.
Tra l'altro, ecco una cosa che ho notato, diciamo, che stai approcciando,
è un approccio che ho visto fare anche ad altri.
La cosa interessante è alla fine che, diciamo, il programmatore, cioè tu,
si mette come collante per creare servizi, diciamo, che collaterali, unendo però
strumenti differenti.
Quindi anche l'interoperatività, diciamo, le capacità, i limiti di uno strumento messi
assieme però ad altri strumenti, ti permettono di ottenere un risultato che
singolarmente i vari prodotti non offrivano.
Sto vedendo che, per esempio, adesso si sta ragionando molto sul fatto
di dire: è vero, casomai ChatGPT non è forte su una certa
cosa, però mettendo assieme la capacità di creare del testo verosimile, la
capacità di riconoscere oggetti di un'altra applicazione e una serie di chiamiamole
così routine di passaggio tra un'applicazione e l'altra, ti permette di creare
sistemi, chiamiamolo così, più evoluti, non sicuramente intelligenze artificiali generali, ma sicuramente
qualcosa di più avanzato, di un semplice sistema di creazione di parole
verosimili.
Sì, continuo a ripetere, ho fatto questo esempio perché quello su cui
sto lavorando in questi mesi ho preso tre servizi che singolarmente hanno
dei grossi limiti.
Però, nel senso,
è un po' come dire: abbiamo questi ingredienti, non sono gli ingredienti
perfetti per fare una torta, ma c'è qualcosa di leggermente modificato.
A uno diciamo che cerca di muoversi, di spostarsi, di cambiare un
pochettino atteggiamento in modo tale da poter costruire attraverso questi ingredienti, questi
servizi, una sorta di prodotto.
Che poi sia un prodotto vincente o non vincente, lo dirà il
mercato, il culo, il marketing, eccetera, eccetera, eccetera.
In tutto questo devo essere sincero, quello che mi sembrava il prodotto
più forte che è Chat GPT, più lo utilizzo, e io ultimamente
lo utilizzo direttamente con le api di OpenAI, più lo utilizzo più
mi rendo conto di quanto sia in realtà debole, cioè, è un
ovvio che poi sull'italiano abbiamo un dataset ancora più ridotto.
Però è un veramente a volte dico: vabbè, è un bel giocattolo,
ci puoi divertire, ma non ci costruirei un prodotto e soprattutto non
potrei pensare di farlo diventare una cosa che sostituisca l'intervento umano.
C'è una mia conoscente che fa la copywriter, se è abbonata al
Servizio Plus come supporto.
E io mi auguro sono abbastanza sicuro, ma mi auguro che lei
questi testi che vengano generati in qualche modo, poi comunque li supervisioni
in qualche modo.
Io per primo ho mandato una newsletter di un'associazione che conosco.
Mi hanno dato i dati e allora, visto che i copy non
tardava a mandarmelo, l'ho scritto io in questo modo qui.
E poi mi ho dato l'email di prova e mi hanno detto
guarda che manca questo dato qui.
Io te l'ho detto come dato, poi tu non l'hai messo dentro
perché?
Per tutti i vari motivi statistici, probabilistici e stocastici, non è entrato.
La supervisione umana è fondamentale.
E in Chat GPT, questi modelli di Chat GPT è ancora troppo
forte.
Lo vedi anche con da lì.
Da lì è bellissimo quando ti fanno vedere le demo.
Guarda che belle immagini che sono state create, però, non ti fanno
vedere le mille volte tante immagini che sono delle cose inutilizzabili, completamente
scrause.
Le cose miglioreranno, migliorano sicuramente, però di strada fare ce n'è ancora.
Nel senso, chiedi a chat GPT di iscriverti una routine di Swift
che non sia una cosa molto semplice, ti tira fuori delle cose
assolutamente astruse, che sono delle cose quasi inutilizzabili per dirti.
E Swift è uno dei linguaggi più usati, ovviamente non è JavaScript,
però non è neanche il modulo a 2 per dire.
Stiamo parlando di cose che sì, nella testa di chi fa marketing,
sono adesso non c'è più bisogno di
programmatori.
La realtà è che probabilmente ce n'è più bisogno adesso, perché tutto
quello che viene fatto in questo modo va in qualche modo formalizzato
e validato e in qualche modo certificato.
Io poi lavorando per aziende americane che necessitano di certificazioni allucinanti, nel
senso, mi è arrivata una circolare da parte di uno dei nostri
clienti più grandi, una farmaceutica americana, e questa circolare è serveramente vietato
anche solo di aprire il sito ente del chat GPT a tutti
i dipendenti.
Il sottointeso è: se lo fate, le risorse umane vientano come un
trattore, chiudi parentesi, è chiaro che, oltre alla questione dei dati, c'è
anche una questione di sostenibilità non tanto ecologica, ma sostenibilità della vericità
dei fatti.
E siccome non si può chiedere a questi strumenti se una roba
è veramente vera oppure no, diventano assolutamente effimeri per certi versi.
Scusami, sto dilagando.
No, no, no, no, ma sei stato molto chiaro e poi ti
dico appunto: oggi, ovviamente, la puntata era più verticale, chiamiamoli in questi
termini, proprio perché l'idea era di toccare con mano e far toccare
poi i nostri ascoltatori con mano, anche le complessità che stanno dietro
lo specchietto per l'allodole da un certo punto di vista, che è
Chat GPT e tutto il movimento di marketing che ci sta davanti
probabilmente, e i milioni o i miliardi che si stanno spendendo e
investendo, e quindi anche la necessità di avere un ritorno economico di
tutte queste cose.
E quindi sicuramente hai dato una bella idea anche perché, appunto, la
cosa interessante è che tu poi ci stai lavorando sopra nel bene
e nel male.
Voglio dire adesso, è ovvio che tu sei uno dei tanti sviluppatori
e così via, ma il vantaggio nostro è che avevamo la possibilità
di poter avere informazioni da dentro e senza filtri, quando casomai, appunto
altri più remissivi anche nel dare informazioni, anzi, ti ringrazio perché comunque
sei stato molto aperto anche su cose che stai facendo, che hai
in pentolo, come si suol dire, quindi è molto interessante da questo
punto di vista, proprio perché secondo me nella concretezza si capiscono i
limiti, le potenzialità anche future, perché poi oggettivamente ogni giorno ne esce
una, adesso che è la storia di Alpaca e così via, effettivamente
a prescindere da come questi dati sono stati gestiti e generati, poi,
se non ricordo male, Alpaca, in pratica, hanno fatto training utilizzando chat
di GPT.
Quindi, con
l'ulteriore problema di già una base dati, diciamo sporca, chiamiamoli in questi
termini, che insegna a una nuova base dati che a questo punto
è più sporca, presumibilmente per forza di cose, per cui anche tutte
queste problematiche che possono sembrare poco interessanti, ma se noi basiamo il
nostro lavoro su cosa fa uno di questi modelli, vuol dire anche
affidarsi a questi modelli.
Se i modelli non sono sicuri o comunque se non sono stati
controllati perfettamente, è ovvio che c'è un problema.
A tal proposito, in parte per svicolare: vedevo che, per esempio, Adobe
invece offre ovviamente agli abbonati e così via, credo che si chiami
Firefly, che è sostanzialmente un motore di generazione di immagini, ma il
vantaggio chiamiamolo così di Adobe è che almeno sostiene Adobe e ci
credo anche, visto che Adobe ha comunque le risorse, le capacità e
così via, è invece stato modellato su materiale comunque a disposizione di
Adobe, perché avevano acquisito le licenze per le immagini, per esempio, o
avevano già, perché poi Adobe ha una caterva di materiale audio-video, chiamiamolo
in questi termini.
Secondo te questo potrebbe essere, chiamiamolo così il futuro.
Cioè, adesso, chat GPT ovviamente ha fatto scraping di mezza internet, nel
bene e nel male.
Però grandi compagnie possono invece permettersi di fare investimenti di grosse dimensioni
e recuperare non dati grezi, ma dati, raffinati e quindi anche migliori
e soprattutto evitare tutta una serie a livello di business, chiamiamolo così,
di problematiche giuridiche, di violazioni di copyright e quant'altro, che ovviamente sono
una delle cose recenti, che è stata fatta causa, non mi ricordo
più se a Midjourney o un altro, per avere appunto rubato o
illegittimamente utilizzato immagini prese da internet di autori famosi, la cosa di
Adobe.
Nonostante io sia un loro abbonato, subscriber, non è ancora.
Mi sono iscritto la waiting list, ma siamo ancora in waiting list
in ufficio.
Mi sono fatto quell'account c'è persino Davide Gatti, abbiamo anche Davide, che
onorissimo!
Onore, ragazzi!
Tra Mauro e Davide siamo benvenuti di vips.
Allora, dicevo: la cosa che mi è piaciuta di più di Adobe
non è tanto quella della generazione delle immagini a partire dal testo,
quanto tutta la parte che viene dopo, nel senso, la generazione di
effetti sul testo, di immagini vettoriali, questo tipo di applicazioni che sono
molto più interessanti, è un po' quello che fa Figma in vettoriale,
trovo essere molto più stimolante rispetto alla generazione delle immagini fotografiche.
Ma non perché sei già visto, ma perché è devo essere sincero:
se tu sei come me abbonato a library di immagini, è difficile
che tu non trovi qualcosa che ti serve e che tu possa
utilizzare tranquillamente con tutti i diritti del caso.
Invece, la questione degli effetti, la questione del vettoriale inizia a diventare
molto interessante.
Ho letto che Firefly ha i suoi problemi anche lui, nel senso
che su alcune cose è eccezionale, se però gli chiede delle cose
che sono un pochettino diverse dalla quantità di roba di stock che
adobe, lo mandi abbastanza in ginocchio.
Però non ho ancora avuto, o non conto un cavolo, probabilmente non
mi invitano al GPT 4, non mi invitano per Firefly.
Sì, perché noi siamo stati invitati, sicuramente.
Ma in ogni caso, a parte queste cose, la cosa che secondo
me è da sottolineare per questo tipo di acceleratori, come li chiamo,
è che è difficile riuscire a correggerli, diciamo così.
È difficile riuscire a capire perché viene fornito un tipo di risposta,
ma soprattutto dalla parte, diciamo del back-end, chiamiamolo in questo modo, non
si riesce poi a correggere in modo puntuale.
Tant'è che avevo letto da qualche parte che c'era forse una persona
che aveva diciamo interrogato Chat GPT riguardo proprio a se stesso e
aveva ottenuto delle nozioni fuorvianti che non c'entravano niente con la sua
vita e ha intentato causa appunto a Chat GPT.
Al di là della questione è che anche il garante da parte
sua, non dico che si è messo contro, ma ha sollevato un
problema non di poco conto, che è quello appunto di riuscire a
rettificare in modo puntuale le informazioni che vengono fornite.
Perché ci stiamo tutti che un'informazione da parte di
questi programmi, di questi acceleratori ti diano delle informazioni magari sbagliate, non
corrette, non perfette.
Come diceva giustamente Alex, ci vuole sempre il punto di vista critico.
Ma d'altra parte è altrettanto vero che il punto di vista critico
non tutti ce l'hanno ed è anche difficile riuscire ad avere un
punto di vista critico su qualcosa che stai chiedendo e molto probabilmente
non ne hai la conoscenza perfetta.
C'è chi lo usa appunto per lavoro, per magari riuscire a sgrossare,
a tirare giù, uno script per un video, riuscire a tirare fuori
la traccia per un articolo e tante altre cose, ma ci sono
altre tante altre persone che magari pensano di avere di fronte quasi
un motore di ricerca un po' più evoluto, e quindi di riuscire
a tirare fuori un'informazione corretta.
Quindi non è detto che questo passaggio che sembra basilare ma in
realtà è di grande spessore culturale, ed è giusto che venga sottolineato
in questa fase iniziale dell'utilizzo di questi acceleratori.
D'altra parte, ritornando invece, per quanto riguarda Apple, volevo chiedere appunto ad
Alex una cosa che proprio oggi mi è capitato mentre stavo sfogliando
le fotografie tramite l'applicazione foto di iPhone.
Mi è capitato di vedere che Apple mette una I, diciamo, all'interno
della barra in basso delle fotografie, e in casi specifici c'è questa
I che cambia icona, in alcune fotografie questa I diventa con due,
diciamo, specie di esatto, di stelline.
Adesso sto cercando qualcos'altro, ma in effetti stelline è la definizione giusta.
Mi chiedevo se l'utilizzo, cioè la nascita di queste stelline stiano dietro
a quello che può essere in effetti una machine learning.
Nella fatispecie, io ho fatto la prova sfogliando praticamente tutte le fotografie
che ho.
Ho visto che ha la tendenza a riconoscere i luoghi fisici, nel
senso luoghi importanti.
Recentemente sono andato a Napoli e poi avevo ancora delle foto di
Roma e quindi le ha riconosciuti i posti più famosi.
E poi ho notato che, ad esempio, ho fatto delle fotografie in
cui era inquadrata in larga parte della vegetazione e fa il riconoscimento
dell'essenza arborea che c'è all'interno di queste fotografie.
Possiamo definirle machine learning anche in questo caso una tipologia di intelligenza
artificiale.
Io faccio questo esempio che è quello che possiamo avere tra le
mani di tutti quanti, perché tra tutti quanti io sono sempre l'uomo
della strada, quello che diciamo ha una conoscenza informatica non così elevata,
ma diciamo che dal punto di vista proprio manuale mi è venuto
in mano questa cosa qua proprio oggi e volevo appunto chiedere ad
Alex di che si tratta.
La questione della location è molto più probabile che sia geo taggato
col GPS, altrimenti è probabile che.
Però dubito che sia fatto in locale.
Però se è fatto in locale, probabilmente hanno un database di ne
so, 100-100 luoghi in cui c'è, ne so, il Duomo di Milano,
il Colosse a Roma, e allora a questo punto riconoscerli è anche
abbastanza facile.
Per quanto concerne invece il contenuto vero e proprio, Apple ha già
di suo un API che ti mette a disposizione circa 1100 classi,
nel senso di classificazione.
È un sistema di riconoscimento delle immagini basato su una rete neurale,
un modello di rete neurale open source, che se non sbaglio, si
chiama Mobile Net, forse una versione 2 o versione 3, perché esiste
la versione 3.
Queste 100 classi in cui ci puoi, se tu fai una fotografia,
ti dice che è una percentuale.
In questa fotografia c'è al 10% un albero, al 3% un bambino,
al 1% un sorriso, al 4% il cielo blu per dirti ci
sono un sacco di classi.
Per cui è molto probabile che poi si scelga le 10 classi
più rappresentative e più percentualmente presenti, in modo tale che se tu
cerchi cane, ti trova tutte le foto con dentro un cane.
Io ho utilizzato questa API già tre anni fa, appunto con video
tag, che consente di fare questa cosa sia con le immagini che
con i video, per poi mandare queste classi trovate come keyword di
Final Cut Pro.
Mi era venuto in mente di questa applicazione.
Anzi, quando ho fatto questa applicazione, qualche giorno dopo Apple ha fatto
il WWDC dicendo: Questa feature sarà presente nella prossima versione di Final
Cut, che sarà una versione che gira su computer M1.
Al che ho detto: Vabbè, questa applicazione l'ho sviluppata.
Poi la butto nel cesso perché sarà già inclusa nel sistema.
Sono tre anni e mezzo che aspetto sta roba.
Anzi, ormai, fra due mesi sono quattro anni che aspettiamo sta roba,
e Apple non ha aggiunto questa feature e se è riuscita ad
aggiungerla, uno sviluppatore cretino e sfigato come sono io.
Cioè, mi fa dubitare sul commitment di Apple su Final Cut, però
questa è una storia che ci porterebbe molto lontano.
Però è una cosa abbastanza inquietante per certi versi, perché io utilizzo
le app che loro mi mettono a disposizione con un'ottima, con tutto
il tempo di utilizzo, con tutte le limitazioni del caso, però sono
riuscito a fare una cosa così e perché non lo fanno loro,
però non lo so.
Detto questo, per quanto concerne i monumenti, non lo so.
Probabilmente ci sono delle basi di dati, dei dataset di documenti già
pronti, che Apple ha macinato e loro diciamo che magari in background
fa queste analisi.
Io ti dico, mi sono accorto che, per esempio, riconosci anche le
piante.
Quindi, se tu fai una foto a un fiore piuttosto che a
un albero, ti riconosce ovviamente non solo che il fiore è che
l'albero, ma ti fa anche la ricerca della tipologia di pianta, ti
dà un risultato, adesso, poi la mia conoscenza di botanica è abbastanza
basica, mettiamola in questi termini.
Quindi, quantomeno, ti dà almeno due possibilità di riconoscimento della pianta o
dell'albero.
Non so con quale precisione perché non ho le capacità.
Diciamo che da foto a foto, devo dire la verità: che la
foto che a cui recentemente sabato sono andato a fare un giro
con la famiglia.
Abbiamo trovato un albero molto bello e molto grande.
A cui ho fatto una foto.
Mia moglie mi chiedeva: Ma che calbero sarà?
Io ho detto: ci provo a vedere con l'iPhone.
Mi ha dato un nome, non so se era quello giusto o
meno, ma effettivamente
la foto, diciamo di riferimento del nome che mi ha dato, assomigliava
sicuramente all'albero che ho fotografato
.
Poi questo non so di più.
Allora, ho messo nella chat proprio su YouTube, ha un link GitHub,
dove ci sono i modelli.
Non i modelli in generale, ma i modelli che sono stati tradotti
in Core Mel che ce ne sono di tutti i tipi.
Per cui c'è Oxford 12: Detect Flowers o from Images.
Però, diciamo che ce ne sono.
Modelli del genere, ce ne sono tantissimi.
C'è un dataset di mille brani divisi in dieci generi per capire
di che genere è la canzone.
C'è gente che si è messa lì, si è costruito questi dataset.
Il dataset, è il tutto perché sui dataset, se hai un dataset
fatto bene, a questo punto riesce a costruirti con molta facilità anche
tu stesso, una cosa del genere.
L'abbiamo fatto tutti noi insieme.
Vi ricordate quando vi ho fatto scegliere, ho fatto scegliere se una
cosa era un primo piano, una mezza figura, una figura intera.
Ecco, l'abbiamo fatto adesso il mio algoritmo, basato su questo modello che
abbiamo creato tutti insieme, ci azzecca nel 90% dei casi, che non
è perfetto al 100%.
Apple direbbe: io il 90% è troppo basso come percentuale.
Se non siamo al 99,5 non possiamo fare un prodotto.
Però la maggior parte di chi fa queste cose, vanno veramente chi
fa il mio mestiere, va anche un tanto al chilo, se dici
tra questi 100 clip, quali sono quelli con primo piano?
Se se ne perde una o mi dà un falso positivo, sticavoli,
a meno, ho comunque una buona sgrassatura.
Apple non ha fatto altro che implementare in maniera molto veloce questi
modelli che sono già presenti.
Ovvio che un'applicazione di botanica bella che magari ha classificazione per 2500
specie, è un'altra roba e allora ne c'è bisogno di un servizio.
Ci sono applicazioni che costano 4 euro al mese per dirti e
che ti fanno questa roba qui, che sono molto comode.
Però, giustamente, se un'azienda ha investito dei soldi per fare questo tipo
di classificazione, il suo modello, il suo dataset, è anche giusto che
voglia ritornare in qualche modo.
Anche perché poi ho letto un articolo qualche tempo fa che diceva
che i dataset, questi dataset di milioni di immagini che sono stati
utilizzati per fare il training di questi modelli che sono utilizzati in
tutte le applicazioni, non soltanto di Apple, hanno dentro un 510% di
tag sbagliati.
E a quel punto lì cosa fai?
Come puoi a capire se è una cosa giusta e sbagliata?
Sai che quel dataset, comunque con un asterisco non è perfetto al
100%.
E abbiamo visto che proprio la stessa chat GPT OpenAI che ha
pagato.
Tra virtà, sottopagato lavoratori in Africa per fare questo mestiere, e ci
sta che questi a un certo punto, sai che c'è per un
euro al giorno, mi butto dentro quel cazzo che trovo e non
sto lì a controllare.
Forse un giorno il vero lavoro del futuro sarà appunto fare dei
dataset fatti bene per il machine learning.
Spero che non sia questo.
Però potrebbe essere.
Mi ricollego invece io al mio lavoro un attimo per un paio
di notizie, giusto perché avevo registrato proprio nel pomeriggio una puntata di
Snap che riguarda appunto il machine learning per l'annuncio di un programma
che secondo me devo già ringraziare che non lo uso più, però
viene ancora molto usato: che appunto AutoCAD, che nella versione 2024 ha
avuto la bella pensata di inserire il machine learning appunto per riuscire
a migliorare quello che può essere l'esperienza di progettazione.
Nella fattispecie riconosce, da quello che ho capito, i blocchi, te li
suggerisce, i blocchi sono diciamo delle entità che vengono utilizzate per fare
molte cose.
La più semplice che mi viene da dire, per esempio, il blocco
potrebbe essere il disegno di un letto in vista in pianta, e
quindi questo blocco di linee, chiamiamolo così, viene riconosciuto, viene anche suggerito
e vengono appunto sparsi viene riconosciuto quelli che vengono utilizzati all'interno del
disegno e quindi fa una specie di riconoscimento automatico dei blocchi e
ragiona quasi da solo.
Ovviamente c'è sempre dietro bisogno dell'utente, del cardista che dia le dritte
al computer ma ci mancherebbe.
Ma la cosa interessante che stavo ragionando appunto in questo periodo è
che sotto un certo punto di vista Apple in questo senso si
sta portando avanti con un vantaggio competitivo perché all'interno dei suoi SOC
c'è appunto una parte dedicata a questo tipo di elaborazioni.
Che come dicevate voi, giustamente, io ho fatto il collegamento adesso mentre
ne parlavate e ci sono arrivato adesso.
Pensate quanto sono lento io.
Che in effetti un computer come il mio, che comunque è del
2019 ha qualche anno addosso, però il lavoro non riesce ancora a
farlo.
Nel momento in cui io vado a utilizzare programmi software di questo
tipo, sicuramente riscontrerò un lavoro molto più alto da parte dell'hardware e
quindi
specie anche del portatile, perché essendo un portatile, magari non lavoro con
la presa, e conseguentemente avrò un hardware che sarà molto sotto sforzo
e conseguentemente l'energia se ne va in mille rivoli.
Questo
cosa ci può far pensare?
Che in effetti l'idea di Apple di mettere all'interno dei SOC un
coprocessore dedicato a questo tipo di lavorazioni che permette appunto di mantenere
le temperature basse.
Come dicevi tu prima, Alex, hai visto anche che se non vengono
programmati nel modo giusto questi software, se non utilizzano le librerie di
Apple, insomma, si sente il carico sul processore e questo è probabilmente
un vantaggio competitivo, secondo me, dal punto di vista di Apple, perché
in effetti mette in campo delle librerie che dialogano in modo corretto
col proprio hardware e quindi consente loro di avere questo tipo di
vantaggio.
Che ad esempio, io, nonostante sia sul
ambiente Apple con i miei software e hardware, molto probabilmente sotto questo
punto di vista stirei ancora di più la differenza verso quello che
è il futuro di Apple che si è instradato su Apple Silicon
e di cui dovremmo vedere, chi lo sa anche nel WWDC 2023,
magari se Dio vuole un M3, se no lo aspettiamo il prossimo
anno e fa bene lo stesso.
Un'altra cosa invece, in conclusione per quanto mi riguarda delle novità di
frontiera che secondo me possono essere interessanti in linea generale, che però
riguardano il mio ambiente lavorativo e che non ho ancora parlato nel
podcast, ma ne parlerò poi più approfonditamente e lascio qua diciamo un
seme per far ragionare un po' tutti quanti.
Siamo arrivati al punto che un'intelligenza artificiale, un acceleratore, riesce a riconoscere,
dandogli in pasto una fotografia, riesce a ricreare la mesh tridimensionale.
Secondo me questo è qualcosa di particolarmente eccitante, nel senso che riuscire
a tirare fuori una mesh che a questo punto non stiamo più
parlando di bidimensionale.
Voi dovete immaginare che gli date una fotografia, questo riesce a ricreare
le mesh, ma si definiscono come mesh le superfici visibili.
Ma la cosa interessante è che questo modello che viene estrapolato da
questo tipo di acceleratore, voi avete le superfici alle distanze giuste.
Che nella presa visuale della camera, se vi mettete nello stesso punto
nel mondo tridimensionale a cui avete all'interno questa mesh, voi avete l'esatta
rappresentazione in bidimensione.
Ovviamente se voi ruotate il modello, incominciate a vedere
dei problemi dal punto di vista tridimensionale di gestione delle superfici.
Ma è molto interessante il fatto che si sia già passato a
un livello successivo in questo momento in cui una macchina riesce a
capire le distanze e a distribuire delle superfici che insomma non è
proprio una bazzecola, anche perché dei calcoli.
Immagino che dietro a questo tipo di sviluppo tridimensionale sia decisamente molto
alto.
Perché già vediamo che ci vuole davvero tantissima energia per il testo,
che sembra una cosa banale, sono solo delle lettere.
Ci vuole altrettanta energia per riuscire a far capire a una macchina
la differenza tra un gatto e un cane.
Perché comunque, ragazzi miei, il computer non ha la nostra vista.
Per noi è molto semplice definire cos'è un cane e un gatto,
ma vede le cose dal punto di vista matematico, non ha un
occhio come il nostro.
E quindi ci vuole tutta una serie di allenamento, di gestione delle
immagini, fargli capire quali sono i cani, quali sono i gatti e
arrivare al risultato.
Ci vuole enormi quantità di energia e pensare ad arrivare al riconoscimento
tridimensionale di una fotografia per adesso, in questo momento, è la frontiera
che sto vedendo dal punto di vista dell'intelligenza artificiale, che ovviamente non
è un'intelligenza artificiale, lo ribadiamo tutti, perché se fosse intelligenza artificiale probabilmente
riuscirebbe anche a fare un modello tridimensionale fatto e finito.
Ma ci stiamo arrivando perché comunque stiamo vedendo, almeno alcuni esperimenti che
cercano di trasformare una pianta, una pianta, non intesa una pianta vegetale,
ma una pianta architettonica, cerca di trasformare una pianta architettonica direttamente in
un modello tridimensionale.
Quindi passare dalla bidimensione alla tridimensione in modo abbastanza semplice, ovviamente ci
vorrà, come sempre, il controllo umano perché c'è poco da fare dal
punto di vista delle capacità e delle qualità.
Siamo un passo in avanti per adesso, poi vedremo in un futuro
lo vedremo, ma sicuramente la questione si sta evolvendo veramente in modo
molto molto veloce e possiamo anche già iniziare a pensare che probabilmente
bisogna iniziare a pensare alle leggi della robotica, quelle di Asimov, molto
probabilmente fra un po' ci arriveremo.
E in realtà una cosa che abbiamo sempre letto sui libri o
sui fumetti, io dalla mia parte, Nata Never, diciamo che ho iniziato
a conoscere le leggi di Asimov lì, direttamente su quel fumetto, e
poi ho approfondito.
Ma diciamo che in questa fase storica ci stiamo già chiedendo come
riuscire a tenere a bada questo tipo di risultati che vengono tirati
fuori dall'intelligenza artificiale e conseguentemente possiamo già immedesimarci in quello che potrebbero
essere il futuro.
Quindi adesso dobbiamo starci veramente sul pezzo per riuscire a dare un'infarinatura
attorno a questa intelligenza artificiale.
Primo o poi, chi lo sa, chiedo a Filippo se ci sarà
un futuro avvocato dell'intelligenza artificiale che dovrà tenere conto anche di quello
che potrebbero essere i problemi dal punto di vista diciamo civile e
penale, in certi casi in un futuro, ma probabilmente in civile in
questo momento, di quello che potrebbe fare o non fare l'intelligenza artificiale,
che è un po' quello che si sta andando anche a vedere
all'interno delle macchine a guida autonoma, si è visto recentemente, che in
qualche modo prendono delle decisioni.
La domanda è a chi devo dare la colpa?
All'autista che ha tirato via le mani dal volante, si è affidato
all'intelligenza artificiale all'interno della macchina?
È colpa della macchina in se stessa che non è riuscita a
riconoscere il problema, oppure il problema deriva a questo punto da chi
l'ha programmata?
Quindi penso che dobbiamo già iniziare a pensare un po' in modo
esteso e in modo molto più civile questo nuovo evento che è
l'intelligenza artificiale, la nascita della base dell'intelligenza artificiale.
Sì, sicuramente ci sono grosse problemi e prospettive.
Adesso credo sia ancora abbastanza presto per fare dei ragionamenti concreti.
Tuttavia, sicuramente l'Europa sta iniziando a predisporre dei disegni di legge proprio
in
questi termini.
Probabilmente, come tutto, occorrerà dare delle regolamentazioni dall'alto verso il basso, anche
perché l'approccio, diciamo, alla Silicon Valley che intanto io faccio, poi dopo
vedo cosa succede, non è dei migliori, giusto un esempio banale, ma
Uber, che in America è spopolato e in tanti stati anche europei,
è presente, da noi è stato vietato per il semplice fatto che
ci sono delle norme che prevedono specificamente che non tutti possano fare
i taxisti e così via.
È ovvio che ci sono tutta una serie di considerazioni da fare,
anche di ragionamenti che devono essere ovviamente capiti e apprezzati dalla collettività.
Oggi siamo sicuramente in un momento di frontiera per quanto riguarda machine
learning e cosiddette intelligenze artificiali o comunque servizi legati a questi sistemi.
Beh, direi che abbiamo fatto la nostra solita ora e mezza di
chiacchierata, una ballo e quell'altra, quindi direi che potremmo andare verso la
conclusione a meno che Alex non abbia qualcos'altro da raccontarci, da precisare.
No, in realtà è strano, perché ho affrontato questa puntata, pensando che
sarei andata in una direzione, poi andata in una direzione completamente diversa,
ma sono molto contento.
Spero che sia stato utile le tre cavolate che ho detto per
voi e per chi vi ascolta.
Io ho prestato molto, quindi
ho imparato cose che non conoscevo, quindi sono molto soddisfatto.
Ma certamente aggiungo io perché si è visto anche dalla quantità di
persone che sono intervenute nella chat che salutiamo e ringraziamo tutti quanti.
Come si dice, oltre alle cose interessanti, che con Alex, le cose
potrebbero andare avanti altre un paio d'ore, tre, e ci sarebbe ancora
da divertirci.
Ma purtroppo il tempo è tiranno e si è fatta anche una
certa ora.
Quindi vado a chiudere dicendo a Alex se vuoi salutare i nostri
ascoltatori, hai carta di più.
Ok, allora, prima di tutto, una piccola aggiunta.
E mi auguro che tra un mese e mezzo, la WWDC, soprattutto
negli incontri successivi, cioè quelli non dedicati ai giornalisti o all'utenza, ma
proprio agli sviluppatori.
Apple fornisca cose nuove che ci faccia vedere effettivamente tutta questa potenza
di calcolo.
Che se c'è qualche api nuova, sono ben contento.
Ci sono voci che dicono: dicono che anche Apple sta lavorando una
LLM, cioè un large language model che potrebbe essere utilizzato anche solo
come filtro per far capire a Siri qualcosa che prima non capisce.
Tuttavia, insomma, sono molto fiducioso, ma sono meno speranzoso rispetto agli altri
anni, ma magari verrò piacevolmente stupito.
Detto questo, allora grazie a tutti quelli che mi hanno ascoltato dire
le mie cavolate.
Eh, devo dare i miei riferimenti.
Certo.
Ah, ok, vabbè, se volete sentire le cavolate che dico quasi tutti
i giorni, diciamo un paio di volte alla settimana.
Intanto che vado in ufficio, il mio podcast è Techno Pils, ma
troverete il link nella note dell'episodio qui sotto su YouTube dove dico
le mie cose.
Invece, insieme a Roberto, settimana prossima torniamo per San Maregio con la
puntata in Italia,
no, perché anche se non lo faccio mi viene a prendere direttamente
di persona.
Diciamo la verità, ti ho minacciato di fare una puntata io in
solitaria se non avremmo fatto iniziato a rimettere in pista MDB San
Maregino.
No, ma guarda, io sono contentissimo.
Voi entrambi sapete che fino a tre settimane fa la mia vita
era molto complicata.
Certo era anche un po' un casino.
Adesso
la situazione non dico che si normalizzerà perché finché non va a
fare la House, secondo me non si normalizza niente.
Però va bene: e aspetta, non basta solo quello.
Vi prego, ma no, non è anzi, è questione che diventi genitori
per sempre, c'è poco da fare.
Per cui no, podcaster di musica che MDB Sama Radio, che appunto
fra una settimana facciamo, basta, direi che mi si ritrova anche su
Twitter.
Io sono Alex G, A L X G I.
Se no, ragazzi, vabbè, cercate Alex Raccuglia.
Non chiedetelo a chat GPT perché dice che non conto un cazzo.
Ho appena chiesto, mi ha detto: non è una persona abbastanza famosa
da sapere qualcosa per cui non dico niente.
È molto interessante, diciamo che non si inventa più le cose.
Apro e chiudo una parentesi, Roberto diceva della rinuncia fatta a chat
GPT.
Sostanzialmente recentemente c'è stato qualcuno che
qualcuno ha chiesto di persone che conosceva che cosa faceva, e legittimamente
ha detto che era un assassino o un truffatore, o robe del
genere.
Quindi ovviamente questo può portare anche a diffamazione vera e propria, tra
virgolette, perché poi se ti affidi a questi sistemi, casomai, io dico
che se chat GPT non solo dice che Alex Arcula non sa
chi sia, ma dice che invece un noto trafficante o robe del
genere, potrebbe darti fastidio legittimamente, ecco, voglio dire.
Il problema che ti è dato fuori, sempre di questa storia dell'intelligenza
artificiale, non è tanto quello che le intelligenze artificiali ti dicono, ma
è che cosa ne fai tu delle informazioni che ti danno.
Cioè, se chiede l'intelligenza artificiale, o date questi esami, che probabilità ci
sono che questa applicazione, questa persona abbia una malattia?
E l'intelligenza artificiale dice: Ma secondo me siamo al 90%.
Allora tu, medico, allora vabbè, facciamo delle altre analisi.
Capiamo, vediamo.
Questo è un atteggiamento.
Se invece il dirigente dell'ospedale ti dice tu hai questa malattia e
nessuno ha controllato, ma magari le cose diventano un pochettino più complicate.
Nel senso,
cioè è sempre la questione di: alla fine ci deve essere passatemi
il termine, uno stronzo che ci mette la faccia.
No, è vero.
Quando qualcuno smette di metterci la faccia, è un problema.
E a questo punto se il problema è anche economico.
Io faccio un pensiero.
Ci pensavo l'altro giorno.
Siccome sono diventato padre, ormai la mia vita è cambiata, come dite
voi.
Le automobili guidano da sole, ok.
A questo punto dice, vabbè, a un certo punto, l'automobile guida da
sola è tirato sotto un bambino.
E l'azienda potrebbe dire: Sì, alla fine, se noi facciamo i conti
di quanto ci costa un bambino all'anno, 100 milioni, 200 milioni di
dollari, vabbè, dai, ci conviene lanciare comunque questa macchina.
Ecco, non è una questione di quanto costa un bambino all'anno, che
quello è un bambino.
Cioè, nel senso, non si può quantificare, sono due, sono
due cose diverse: un per e una mela.
Non vanno messe sullo stesso piano.
E se si dà la possibilità a una macchina di sbagliare, sì,
ne prendiamo la responsabilità anche sti cazzi, tanto facciamo i soldi, è
questa roba qui, e questo che è contro la vita, non altre
scelte, non altre ideologie, dal mio punto di vista.
Però qui ci stiamo spingendo su territori che non sono neanche politicamente
corretti, per cui finiamola qui esatto.
Prima, però, una cosa che non abbiamo detto, ma abbiamo accennato qua
e là, vi ricordiamo: visto che siamo tutti e tre assieme e
abbiamo anche in chatte i nostri alleghi compagni, che se tutto va
bene, se tutti avremo il tempo giusto, il 5 di giugno, se
non sbaglio, ore 19, ci ritroveremo a chiacchierare.
Visto che questa puntata esce prima del WWDC, a chiacchierare in diretta
sull'evento Apple, e quindi, se vorrete, potrete riascoltarci, noi tre più si
spera a Davide Gatti e non so, anche Daniele.
Lo prendiamo, Daniele.
Daniele, sì, sì, sì, assolutamente.
Quindi, noi cinque a chiacchierare, adesso non abbiamo ovviamente mai organizzato nulla
di che, ma diciamo, possiamo dare quasi per sempre.
Lo devo per sicuro.
Io sono qua che devo cercare di capire se faccio il commento,
anche la conferenza successiva.
Lo dico tutti gli anni, ma questo giro, visto che sono interessato
a varie cose, potrei anche
cercare di fare con te la notte, anche se la mia età
anziana, non so quanto reggo.
Bello facciamo.
Se siamo in due, è già più giustificabile.
Io me ne tiro già subito fuori, ma anche no, dormo preferisco.
Purtroppo non è il mio ambito di applicazione preferito.
E pazienza, fa lo stesso.
Lascio voi due a divertirvi con i diciamo fuori onda, chiamiamoli così,
dedicati agli sviluppatori che ci saranno poi dopo la conferenza che è
fatta per noi comuni mortali.
Ma diciamo che dopo aver ringraziato Alex per averci intrattenuto con le
sue cose interessantissime.
Io invece vi ricordo che se volete supportare il podcast, potete lasciare
una bella recensione su Apple Podcast.
Un po' di stelline ci aiuterebbero.
Se volete scrivere due righe, ancora meglio.
Se volete entrare in contatto con noi, potete scriverlo tranquillamente all'indirizzo di
posta elettronica.
Scrivi.A chiocciola due podcast.it.
Sarà quella chiocciola che hai messo al posto della chiocciola, che possono
capire solo chi legge le note dell'episodio che magari mi sbarella un
po' la vista, ma dovete anche capire che ho una certa età
e ho anche un faro puntato sulla faccia per farmi vedere, anche
se non ce n'è bisogno, ma perché giustamente bisogna essere influencer nell'animo
per
portare avanti la baracca e troverete come sempre tutte le note dell'episodio
con il link degli argomenti che abbiamo trattato in questa puntata e
tutti i nostri riferimenti andando a visitare a2podcast.it/58.
Dove ci potete trovare per quanto mi riguarda la mia casa digitale
la trovate sul mio blog personale che è diventato la casa digitale
dove c'è tutto quanto di cui mi occupo e non vi voglio
tediare oltre, la troverete sull'indirizzo marconnet.wordpress.com e si tratta essenzialmente del mio
blog che si chiama Mac e Architettura.
Invece il nostro buon Filippo dove lo troviamo?
Awesome.it e posso dirlo, il mese scorso ho lisciato il podcast, ma
questo mese ho registrato e già editato la puntata, quindi direi che
verrà pubblicata come al solito.
Adesso anzi, probabilmente con il divario temporale che abbiamo, forse viene pubblicato
prima la puntata e di questa.
Però insomma, c'è la puntata 40 di compendium, anche se la volete
ascoltare, facendo gli applausi a Filippo per questo suo traguardo raggiunto, il
numero 40, che è un numero tondo.
Ci sentiamo poi tra due settimane.
Alla prossima, ciao,