Deep Learning: fondamento

Deep Learning: fondamento Tenerside

Oltre a questi due modelli, hanno trovato applicazione molte tecnologie sviluppate di recente: FastText, Poincare Embeddings, sense2vec, Skip-Thought, Adaptive Skip-Gram.
2021-10-08, by ,

#Science || #Neural networks || #AI ||

Table of contents:



L'affermazione del problema NER è molto flessibile. È possibile selezionare qualsiasi frammento di testo continuo desiderato che sia leggermente diverso dal resto del testo. Di conseguenza, puoi selezionare il tuo set di entità per un'attività pratica specifica, elaborare i testi con questo set e addestrare il modello. Questo scenario è onnipresente e rende il NER uno dei problemi di PNL più frequentemente risolti nel settore.

Ecco come si presenta un progetto simile per una grande compagnia petrolifera. Il cliente si è trovato di fronte al compito di predisporre i dati sugli asset: impianti industriali, apparecchiature in esercizio, nonché strumenti di misura e controllo. Le fonti dei dati erano documenti di testo - regolamenti tecnici che descrivono in modo più completo i processi tecnici e gli impianti di produzione necessari.

Abbiamo dimostrato la possibilità di utilizzare le tecnologie ML e NLP per estrarre informazioni da una descrizione testuale (e generare profili di apparecchiature basati su di essa). I profili generati sono stati confrontati con i risultati della mappatura manuale, presi come standard: l'accuratezza raggiunta è stata del 97,3%. L'approccio consente di ridurre significativamente i costi di manodopera e di tempo, oltre a ridurre al minimo i rischi associati agli errori nell'elaborazione di testi manuale. Un altro articolo: doctranslator

Come viene elaborato il linguaggio naturale?

Alcuni problemi di PNL per il linguaggio naturale, al contrario dell'elaborazione delle immagini, sono stati risolti fino a poco tempo fa utilizzando algoritmi classici di apprendimento automatico.

La maggior parte delle attività richiedeva un'attenta scelta dell'architettura, nonché la raccolta manuale e l'elaborazione delle funzionalità. Recentemente, tuttavia, le reti neurali hanno iniziato a fornire risultati più accurati rispetto ai modelli classici e hanno formato un approccio generale per la risoluzione dei problemi di PNL.

Trasportatore PNL

L'implementazione di qualsiasi attività complessa di solito significa costruire una pipeline (pipeline).

L'essenza di questo approccio è suddividere il problema in una serie di sottoattività sequenziali e risolverle separatamente. Nella creazione di una pipeline, è possibile distinguere in modo condizionale due parti: la preelaborazione dei dati di input (di solito richiede più tempo) e la creazione del modello. Ci sono sette fasi principali.

1. I primi due passaggi della pipeline, che vengono eseguiti per risolvere quasi tutti i compiti della PNL, sono la segmentazione (divisione del testo in frasi) e la tokenizzazione (divisione delle frasi in token, ovvero parole separate).

2. Calcolo delle caratteristiche di ciascun token. Vengono calcolati gli attributi indipendenti dal contesto del token. Questo è un insieme di caratteristiche che non dipendono dalle parole adiacenti al token.