Glossario MLOps, monitoraggio ML e scienza dei dati (2023)

Spiegabilità AI

La spiegabilità dell'IA si riferisce alla capacità dei modelli di intelligenza artificiale (AI) di fornire spiegazioni comprensibili e interpretabili per le loro previsioni o decisioni. Coinvolge tecniche e metodi che mirano a rendere i modelli di intelligenza artificiale trasparenti e responsabili, consentendo agli esseri umani di capire come e perché è stata presa una particolare previsione o decisione. La spiegabilità dell'IA è fondamentale per creare fiducia nei sistemi di intelligenza artificiale, garantire equità, responsabilità e trasparenza e consentire agli esseri umani di comprendere, convalidare e interpretare i risultati dei modelli di intelligenza artificiale in modo significativo.

Pregiudizio

Bias si riferisce a un errore sistematico nelle previsioni o nelle decisioni di un modello, causato dall'incapacità del modello di catturare la vera relazione sottostante tra le variabili di input e la variabile di output. Ciò può portare a inesattezze o discriminazioni nei confronti di determinati gruppi o individui. Il bias può essere causato da vari fattori come un set di dati di addestramento distorto, una selezione inadeguata delle funzionalità o una scelta inappropriata dell'algoritmo. Per mitigare i bias, è importante selezionare e preelaborare attentamente i dati, utilizzare metriche di valutazione appropriate e monitorare regolarmente le prestazioni del modello su dati diversi.

Registrazione dati

La registrazione dei dati è l'acquisizione, l'archiviazione e la presentazione di uno o più set di dati per l'analisi. Questo viene quindi utilizzato per identificare tendenze, correlazioni e l'analisi dei dati per previsioni future.

Risorse addizionali:

  • Registrazione dati con whylogs: profilazione per efficienza e velocità

Qualità dei dati

La qualità dei dati si riferisce alla coerenza, accuratezza e pertinenza di un set di dati. Poiché le pipeline di dati gestiscono volumi maggiori di dati da una varietà di origini e aumentano la complessità, la qualità dei dati diventa uno dei fattori più importanti per l'integrità generale del modello.

Risorse addizionali:

  • Come convalidare la qualità dei dati per il monitoraggio ML

    (Video) ML Ops: What is it REALLY?

  • Una panoramica completa del monitoraggio della qualità dei dati

IA incentrata sui dati

L'IA incentrata sui dati si riferisce a un approccio all'intelligenza artificiale (AI) in cui l'attenzione è rivolta a sfruttare i dati come motore principale per lo sviluppo del modello e il processo decisionale. Nell'IA incentrata sui dati, la qualità, la quantità e la diversità dei dati hanno la priorità e i modelli vengono addestrati per apprendere dai dati in modo autonomo e adattivo.

Apprendimento approfondito

Il deep learning è un sottocampo dell'apprendimento automatico che utilizza reti neurali artificiali per addestrare modelli in grado di apprendere e fare previsioni o decisioni basate su grandi quantità di dati. Queste reti neurali, organizzate in più livelli, possono estrarre caratteristiche complesse da dati grezzi, consentendo un riconoscimento di modelli altamente accurato e sofisticato.

Turni di distribuzione

Lo spostamento della distribuzione si riferisce a un cambiamento nella distribuzione statistica dei dati di input utilizzati per addestrare un modello rispetto alla distribuzione dei dati di input utilizzati nell'applicazione del mondo reale. Ciò può verificarsi quando i dati utilizzati per addestrare il modello vengono raccolti da un'origine o un periodo di tempo diverso rispetto ai dati a cui verranno applicati. Di conseguenza, il modello potrebbe non riuscire a generalizzare bene ai nuovi dati, con conseguente riduzione dell'accuratezza e delle prestazioni.

Risorse addizionali:

  • Ispezione visiva dei profili dei dati per i turni di distribuzione dei dati

Incorporamenti

Gli incorporamenti sono un modo per rappresentare i dati in uno spazio dimensionale inferiore, preservando le relazioni tra i diversi punti dati. Gli incorporamenti sono ampiamente utilizzati nell'elaborazione del linguaggio naturale (NLP), nella visione artificiale e in altre aree dell'apprendimento automatico.

Risorse addizionali:

  • Come risolvere i problemi di incorporamento senza t-SNE o grafici UMAP

    (Video) MLOps Using MLflow

  • Integrazione dei dati in WhyLabs.

Negozio di funzionalità

Un feature store è un repository centralizzato per l'archiviazione, la gestione e la condivisione delle funzionalità di machine learning all'interno di un'organizzazione. Le funzionalità sono gli input di un modello di machine learning che il modello usa per fare previsioni. Un archivio di funzionalità consente ai data scientist e agli ingegneri di machine learning di scoprire, condividere e riutilizzare facilmente le funzionalità, consentendo loro di creare modelli in modo più efficiente ed efficace.

Distanza di Hellinger

La distanza di Hellinger, nota anche come divergenza di Hellinger o kernel di Hellinger, è una misura di somiglianza o dissomiglianza tra distribuzioni di probabilità. È comunemente usato nell'apprendimento automatico e nelle statistiche per confrontare e quantificare le differenze tra due distribuzioni di probabilità.

Distanza di Kellinger

La divergenza di Kullback-Leibler (KL), nota anche come distanza di Kullback-Leibler, è una misura della differenza tra due distribuzioni di probabilità. Misura la quantità di informazioni perse quando si approssima una distribuzione con un'altra. La divergenza KL è asimmetrica, il che significa che la distanza dalla distribuzione A alla distribuzione B non è necessariamente uguale alla distanza dalla distribuzione B alla distribuzione A.

Test di Kolmogorov-Smirnov (KS).

Il test di Kolmogorov-Smirnov (KS) è un test statistico utilizzato per confrontare la somiglianza o la differenza tra due distribuzioni di probabilità. Misura la differenza massima tra le funzioni di distribuzione cumulativa (CDF) delle due distribuzioni, quantificandone il livello di somiglianza o dissimilarità.

Risorse addizionali:

  • Comprensione dei test di Kolmogorov-Smirnov (KS) per la deriva dei dati sui dati profilati

MLOps

MLOps (Machine Learning Operations) è un paradigma che include best practice, insiemi di concetti e cultura di sviluppo per facilitare il processo di machine learning. MLOps mira a fornire una sperimentazione e uno sviluppo più rapidi dei modelli, un'implementazione più rapida dei modelli nella produzione, nonché la garanzia della qualità e il tracciamento del lignaggio end-to-end

(Video) What is MLOps in ML Engineering? #shorts

Deriva del modello

La deriva del concetto si riferisce al fenomeno in cui le proprietà statistiche della variabile target o la distribuzione dei dati di input cambiano nel tempo, determinando un degrado delle prestazioni del modello. Ciò significa che le relazioni tra le variabili di input e la variabile di output possono cambiare, il che può rendere i modelli precedentemente addestrati meno accurati e rilevanti per i nuovi dati.

Risorse addizionali:

  • Deriva dei dati rispetto alla deriva dei concetti e perché il monitoraggio per loro è importante

Prestazioni del modello

Le prestazioni del modello sono una valutazione del rendimento di un modello ML, non solo con i dati di addestramento, ma anche in tempo reale una volta che il modello è stato distribuito alla produzione. Descrive l'accuratezza delle previsioni del modello e l'efficacia con cui può svolgere i propri compiti con i dati su cui è stato addestrato.

Modelli ad alte prestazioni significano previsioni accurate e affidabili per i rispettivi casi d'uso.

Degrado delle prestazioni del modello

Il degrado delle prestazioni del modello si riferisce al declino delle prestazioni di un modello di machine learning nel tempo. Può verificarsi a causa di vari fattori, come i cambiamenti nella distribuzione dei dati, lo spostamento delle caratteristiche o l'invecchiamento del modello.

Il degrado può essere il risultato di problemi di qualità dei dati e dati del mondo reale che differiscono dai dati di base su cui è stato addestrato il modello, nonché una miriade di altri fattori come anomalie statistiche e un accumulo di errori invisibili all'interno del sistema.

Software opensource

OSS o Open Source Software è qualsiasi software in cui l'intero programma, incluso il codice sorgente, è disponibile online, gratuitamente, e può essere modificato da qualsiasi parte indipendente.

(Video) What is MLOps Tutorial for Beginners | Machine Learning Operations Tutorial [Updated 2023] - igmGuru

Profilazione

Al contrario, la profilazione raccoglie misurazioni statistiche dei dati. Nel caso dei whylog, le metriche prodotte vengono fornite con limiti di incertezza derivati ​​matematicamente. Questi profili sono scalabili, leggeri, flessibili e configurabili. Gli eventi rari e le metriche dipendenti dai valori anomali possono essere acquisiti con precisione. I risultati sono statistici e di un formato di dati standard e portatile che sono direttamente interpretabili. Ulteriori informazioni sul campionamento rispetto alla profilazioneQui.

Modelli di regressione

I modelli di regressione sono algoritmi utilizzati per prevedere una variabile di output numerica continua basata su una o più variabili di input. L'obiettivo di un modello di regressione è trovare la relazione tra le variabili di input e la variabile di output e utilizzare tale relazione per fare previsioni sulla variabile di output per i nuovi dati di input. I tipi più comuni di modelli di regressione sono la regressione lineare, la regressione polinomiale e la regressione logistica.

IA responsabile

L'IA responsabile è l'idea che l'IA dovrebbe essere sviluppata, progettata e implementata con buone intenzioni. I suoi principi fondamentali sono che l'IA dovrebbe essere sviluppata in modo equo, trasparente, responsabile e, soprattutto, in modo non discriminatorio.

Campionamento

La traccia è il processo di tracciamento del flusso di dati attraverso un sistema di apprendimento automatico, inclusi i dati di input, i modelli utilizzati e i risultati di output. La traccia può essere utilizzata per identificare colli di bottiglia o errori nel sistema e per eseguire il debug di problemi che possono sorgere durante lo sviluppo o la distribuzione. Può anche aiutare con l'analisi e l'ottimizzazione delle prestazioni, identificando quali parti del sistema impiegano più tempo o risorse. Il tracciamento viene in genere eseguito mediante l'uso di strumenti software specializzati in grado di monitorare e registrare il flusso di dati attraverso il sistema in tempo reale.

Risorse addizionali:

  • Raggiungere un'intelligenza artificiale etica con il tracciamento delle prestazioni del modello e la spiegabilità del machine learning

  • Tracciamento delle prestazioni in WhyLabs

Videos

1. Introduzione al Data Versioning nel mondo ML
(Python Biella Group)
2. Taking Machine Learning to Production with New Features in MLflow | Keynote Data + AI Summit EU 2020
(Databricks)
3. MLOps #37 When You Say Data Scientist Do You Mean Data Engineer? Lessons Learned From Startup Life
(MLOps.community)
4. MLOps with vetiver in Python and R | Led by Julia Silge & Isabel Zimmerman
(Posit PBC)
5. System Design for Recommendations and Search // Eugene Yan // MLOps Meetup #78
(MLOps.community)
6. 🦾 Made With ML - Learning How to Apply MLOps with Goku Mohandas
(DagsHub)

References

Top Articles
Latest Posts
Article information

Author: Kieth Sipes

Last Updated: 10/27/2023

Views: 5359

Rating: 4.7 / 5 (67 voted)

Reviews: 82% of readers found this page helpful

Author information

Name: Kieth Sipes

Birthday: 2001-04-14

Address: Suite 492 62479 Champlin Loop, South Catrice, MS 57271

Phone: +9663362133320

Job: District Sales Analyst

Hobby: Digital arts, Dance, Ghost hunting, Worldbuilding, Kayaking, Table tennis, 3D printing

Introduction: My name is Kieth Sipes, I am a zany, rich, courageous, powerful, faithful, jolly, excited person who loves writing and wants to share my knowledge and understanding with you.