Spiegabilità AI
La spiegabilità dell'IA si riferisce alla capacità dei modelli di intelligenza artificiale (AI) di fornire spiegazioni comprensibili e interpretabili per le loro previsioni o decisioni. Coinvolge tecniche e metodi che mirano a rendere i modelli di intelligenza artificiale trasparenti e responsabili, consentendo agli esseri umani di capire come e perché è stata presa una particolare previsione o decisione. La spiegabilità dell'IA è fondamentale per creare fiducia nei sistemi di intelligenza artificiale, garantire equità, responsabilità e trasparenza e consentire agli esseri umani di comprendere, convalidare e interpretare i risultati dei modelli di intelligenza artificiale in modo significativo.
Pregiudizio
Bias si riferisce a un errore sistematico nelle previsioni o nelle decisioni di un modello, causato dall'incapacità del modello di catturare la vera relazione sottostante tra le variabili di input e la variabile di output. Ciò può portare a inesattezze o discriminazioni nei confronti di determinati gruppi o individui. Il bias può essere causato da vari fattori come un set di dati di addestramento distorto, una selezione inadeguata delle funzionalità o una scelta inappropriata dell'algoritmo. Per mitigare i bias, è importante selezionare e preelaborare attentamente i dati, utilizzare metriche di valutazione appropriate e monitorare regolarmente le prestazioni del modello su dati diversi.
Registrazione dati
La registrazione dei dati è l'acquisizione, l'archiviazione e la presentazione di uno o più set di dati per l'analisi. Questo viene quindi utilizzato per identificare tendenze, correlazioni e l'analisi dei dati per previsioni future.
Risorse addizionali:
- Registrazione dati con whylogs: profilazione per efficienza e velocità
Qualità dei dati
La qualità dei dati si riferisce alla coerenza, accuratezza e pertinenza di un set di dati. Poiché le pipeline di dati gestiscono volumi maggiori di dati da una varietà di origini e aumentano la complessità, la qualità dei dati diventa uno dei fattori più importanti per l'integrità generale del modello.
Risorse addizionali:
Come convalidare la qualità dei dati per il monitoraggio ML
(Video) ML Ops: What is it REALLY?- Una panoramica completa del monitoraggio della qualità dei dati
IA incentrata sui dati
L'IA incentrata sui dati si riferisce a un approccio all'intelligenza artificiale (AI) in cui l'attenzione è rivolta a sfruttare i dati come motore principale per lo sviluppo del modello e il processo decisionale. Nell'IA incentrata sui dati, la qualità, la quantità e la diversità dei dati hanno la priorità e i modelli vengono addestrati per apprendere dai dati in modo autonomo e adattivo.
Apprendimento approfondito
Il deep learning è un sottocampo dell'apprendimento automatico che utilizza reti neurali artificiali per addestrare modelli in grado di apprendere e fare previsioni o decisioni basate su grandi quantità di dati. Queste reti neurali, organizzate in più livelli, possono estrarre caratteristiche complesse da dati grezzi, consentendo un riconoscimento di modelli altamente accurato e sofisticato.
Turni di distribuzione
Lo spostamento della distribuzione si riferisce a un cambiamento nella distribuzione statistica dei dati di input utilizzati per addestrare un modello rispetto alla distribuzione dei dati di input utilizzati nell'applicazione del mondo reale. Ciò può verificarsi quando i dati utilizzati per addestrare il modello vengono raccolti da un'origine o un periodo di tempo diverso rispetto ai dati a cui verranno applicati. Di conseguenza, il modello potrebbe non riuscire a generalizzare bene ai nuovi dati, con conseguente riduzione dell'accuratezza e delle prestazioni.
Risorse addizionali:
- Ispezione visiva dei profili dei dati per i turni di distribuzione dei dati
Incorporamenti
Gli incorporamenti sono un modo per rappresentare i dati in uno spazio dimensionale inferiore, preservando le relazioni tra i diversi punti dati. Gli incorporamenti sono ampiamente utilizzati nell'elaborazione del linguaggio naturale (NLP), nella visione artificiale e in altre aree dell'apprendimento automatico.
Risorse addizionali:
Come risolvere i problemi di incorporamento senza t-SNE o grafici UMAP
(Video) MLOps Using MLflow- Integrazione dei dati in WhyLabs.
Negozio di funzionalità
Un feature store è un repository centralizzato per l'archiviazione, la gestione e la condivisione delle funzionalità di machine learning all'interno di un'organizzazione. Le funzionalità sono gli input di un modello di machine learning che il modello usa per fare previsioni. Un archivio di funzionalità consente ai data scientist e agli ingegneri di machine learning di scoprire, condividere e riutilizzare facilmente le funzionalità, consentendo loro di creare modelli in modo più efficiente ed efficace.
Distanza di Hellinger
La distanza di Hellinger, nota anche come divergenza di Hellinger o kernel di Hellinger, è una misura di somiglianza o dissomiglianza tra distribuzioni di probabilità. È comunemente usato nell'apprendimento automatico e nelle statistiche per confrontare e quantificare le differenze tra due distribuzioni di probabilità.
Distanza di Kellinger
La divergenza di Kullback-Leibler (KL), nota anche come distanza di Kullback-Leibler, è una misura della differenza tra due distribuzioni di probabilità. Misura la quantità di informazioni perse quando si approssima una distribuzione con un'altra. La divergenza KL è asimmetrica, il che significa che la distanza dalla distribuzione A alla distribuzione B non è necessariamente uguale alla distanza dalla distribuzione B alla distribuzione A.
Test di Kolmogorov-Smirnov (KS).
Il test di Kolmogorov-Smirnov (KS) è un test statistico utilizzato per confrontare la somiglianza o la differenza tra due distribuzioni di probabilità. Misura la differenza massima tra le funzioni di distribuzione cumulativa (CDF) delle due distribuzioni, quantificandone il livello di somiglianza o dissimilarità.
Risorse addizionali:
- Comprensione dei test di Kolmogorov-Smirnov (KS) per la deriva dei dati sui dati profilati
MLOps
MLOps (Machine Learning Operations) è un paradigma che include best practice, insiemi di concetti e cultura di sviluppo per facilitare il processo di machine learning. MLOps mira a fornire una sperimentazione e uno sviluppo più rapidi dei modelli, un'implementazione più rapida dei modelli nella produzione, nonché la garanzia della qualità e il tracciamento del lignaggio end-to-end
Deriva del modello
La deriva del concetto si riferisce al fenomeno in cui le proprietà statistiche della variabile target o la distribuzione dei dati di input cambiano nel tempo, determinando un degrado delle prestazioni del modello. Ciò significa che le relazioni tra le variabili di input e la variabile di output possono cambiare, il che può rendere i modelli precedentemente addestrati meno accurati e rilevanti per i nuovi dati.
Risorse addizionali:
- Deriva dei dati rispetto alla deriva dei concetti e perché il monitoraggio per loro è importante
Prestazioni del modello
Le prestazioni del modello sono una valutazione del rendimento di un modello ML, non solo con i dati di addestramento, ma anche in tempo reale una volta che il modello è stato distribuito alla produzione. Descrive l'accuratezza delle previsioni del modello e l'efficacia con cui può svolgere i propri compiti con i dati su cui è stato addestrato.
Modelli ad alte prestazioni significano previsioni accurate e affidabili per i rispettivi casi d'uso.
Degrado delle prestazioni del modello
Il degrado delle prestazioni del modello si riferisce al declino delle prestazioni di un modello di machine learning nel tempo. Può verificarsi a causa di vari fattori, come i cambiamenti nella distribuzione dei dati, lo spostamento delle caratteristiche o l'invecchiamento del modello.
Il degrado può essere il risultato di problemi di qualità dei dati e dati del mondo reale che differiscono dai dati di base su cui è stato addestrato il modello, nonché una miriade di altri fattori come anomalie statistiche e un accumulo di errori invisibili all'interno del sistema.
Software opensource
OSS o Open Source Software è qualsiasi software in cui l'intero programma, incluso il codice sorgente, è disponibile online, gratuitamente, e può essere modificato da qualsiasi parte indipendente.
Profilazione
Al contrario, la profilazione raccoglie misurazioni statistiche dei dati. Nel caso dei whylog, le metriche prodotte vengono fornite con limiti di incertezza derivati matematicamente. Questi profili sono scalabili, leggeri, flessibili e configurabili. Gli eventi rari e le metriche dipendenti dai valori anomali possono essere acquisiti con precisione. I risultati sono statistici e di un formato di dati standard e portatile che sono direttamente interpretabili. Ulteriori informazioni sul campionamento rispetto alla profilazioneQui.
Modelli di regressione
I modelli di regressione sono algoritmi utilizzati per prevedere una variabile di output numerica continua basata su una o più variabili di input. L'obiettivo di un modello di regressione è trovare la relazione tra le variabili di input e la variabile di output e utilizzare tale relazione per fare previsioni sulla variabile di output per i nuovi dati di input. I tipi più comuni di modelli di regressione sono la regressione lineare, la regressione polinomiale e la regressione logistica.
IA responsabile
L'IA responsabile è l'idea che l'IA dovrebbe essere sviluppata, progettata e implementata con buone intenzioni. I suoi principi fondamentali sono che l'IA dovrebbe essere sviluppata in modo equo, trasparente, responsabile e, soprattutto, in modo non discriminatorio.
Campionamento
La traccia è il processo di tracciamento del flusso di dati attraverso un sistema di apprendimento automatico, inclusi i dati di input, i modelli utilizzati e i risultati di output. La traccia può essere utilizzata per identificare colli di bottiglia o errori nel sistema e per eseguire il debug di problemi che possono sorgere durante lo sviluppo o la distribuzione. Può anche aiutare con l'analisi e l'ottimizzazione delle prestazioni, identificando quali parti del sistema impiegano più tempo o risorse. Il tracciamento viene in genere eseguito mediante l'uso di strumenti software specializzati in grado di monitorare e registrare il flusso di dati attraverso il sistema in tempo reale.
Risorse addizionali:
Raggiungere un'intelligenza artificiale etica con il tracciamento delle prestazioni del modello e la spiegabilità del machine learning
- Tracciamento delle prestazioni in WhyLabs