» » » » » » Obținerea informațiilor din surse naturale de limbaj

Obținerea informațiilor din surse naturale de limbaj

postat în: Cunoaşterea 0

Obținerea informațiilor

Cea mai mare parte a informațiilor conținute în documentele de afaceri (circa 80%) este codificată în limbaj natural și, prin urmare, nestructurate. Deoarece datele nestructurate sunt mai degrabă o provocare pentru extragerea cunoștințelor, sunt necesare metode mai sofisticate, care, în general, au tendința de a furniza rezultate mai proaste comparativ cu datele structurate. Potențialul pentru o achiziție masivă a cunoștințelor extrase, cu toate acestea, ar trebui să compenseze creșterea complexității și scăderea calității extracției. În cele ce urmează, sursele naturale de limbă sunt înțelese ca surse de informații, unde datele sunt oferite într-o manieră nestructurată ca text simplu. Dacă textul dat este încorporat suplimentar într-un document de marcare (de ex., document HTML), sistemele menționate în mod normal elimină automat elementele de marcare.

Extracție de informații (EI) tradițională

Extragerea de informații tradițională este o tehnologie de procesare a limbajului natural, care extrage informații din texte de limbaj și structurile acestora în mod tipic naturale, într-un mod adecvat. Tipurile de informații care urmează să fie identificate trebuie să fie specificate într-un model înainte de a începe procesul, acesta fiind motivul pentru care întregul proces de extragere a informațiilor tradițională este dependentă de domeniu. EI este împărțită în următoarele cinci sarcini secundare.

  • Recunoașterea entități numite (REN)
  • Rezoluția coreferenței (CO)
  • Construcția elementului șablon (ES)
  • Construcția relației șablon (RS)
  • Producția scenariu șablon (SS)

Sarcina de recunoaștere a entității numite este de a recunoaște și de a clasifica toate entitățile numite conținute într-un text (atribuirea unei entități numite într-o categorie predefinită). Aceasta funcționează prin aplicarea unor metode bazate pe gramatică sau modele statistice.

Rezoluția coreferenței identifică entități echivalente, care au fost recunoscute de către REN, într-un text. Există două tipuri relevante de relație de echivalență. Prima dintre ele se referă la relația dintre două entități diferite reprezentate (de exemplu, IBM Europa și IBM), iar al doilea la relația dintre o entitate și referințele anaforice ale acesteia. Ambele tipuri pot fi recunoscute prin rezoluția coreferenței.

În timpul construcției elementului șablon sistemul EI identifică proprietățile descriptive ale entităților, recunoscute de REN și CO. Aceste proprietăți corespund calităților obișnuite cum ar fi roșu sau mare.

Construcție relației șablon identifică relațiile care există între elementele șablon. Aceste relații pot fi de mai multe feluri, cum ar fi lucrul-pentru sau localizat-în, cu restricția că atât domeniu cât și intervalul corespund entităților.

În evenimentele de producția scenariu șablon, care sunt descrise în text, vor fi identificate și structurate în funcție de entități, recunoscute de REN și CO și relații, identificate prin RS.

Extracția de informații bazată pe ontologie (EIBO)

Extracția de informații bazată pe ontologie este un subdomeniu de extragere a informației, în care cel puțin o ontologie este utilizată pentru a ghida procesul de extragere a informației din textul din limbajul natural. Sistemul OBIE utilizează metode de extragere a informației tradiționale pentru a identifica concepte, cazuri și relațiile ontologiilor utilizate în text, care vor fi structurate într-o ontologie după proces. Astfel, intrarea ontologiilor constituie modelul de informații care trebuie extrase.

Învățarea ontologiei

Învățarea ontologiei constă în crearea automată sau semi-automată a ontologiilor, inclusiv extragerea termenilor de domeniu corespunzători din textul în limbajul natural. Întrucât construcția manuală a ontologiilor este extrem de laborioasă și consumatoare de timp, există o mare motivație pentru a automatiza procesul.

Adnotare semantică

În timpul adnotării semantice, textul limbajului natural este completat cu metadate (adesea reprezentate în RDFa), care ar trebui să facă inteligibilă semantica mașini termenii. În acest proces, care este în general semi-automat, cunoștințele sunt extrase în sensul că este stabilită o legătură între termenii lexicali și, de exemplu, concepte din ontologii. Astfel, cunoașterea este dobândită, ce semnificație a unui termen, în contextul prelucrat s-a dorit și, prin urmare, semnificația textului este implementată în date care pot fi citite de mașină cu posibilitatea de a trage concluzii. Adnotarea semantică este de obicei împărțită în următoarele două sarcinile secundare.

  • Extracția terminologiei
  • Corelarea entității

La nivelul de extracție a terminologiei, sunt extrași termenii lexicali din text. În acest scop, un proces de marcare și clasificare determină la început limitele de cuvinte și rezolvă abrevierile. După aceea, termenii din text care corespund unui concept sunt extrași cu ajutorul unui lexic specifice unui domeniu pentru a-i lega la entitate.

În entitatea care se leagă se stabilește o legătură între termenii lexicali extrași din textul sursă și conceptele dintr-o bază de ontologie sau cunoștințe, cum ar fi stabilit DBpedia. Pentru aceasta, conceptele candidate sunt detectate în mod adecvat la mai multe sensuri ale unui termen cu ajutorul unui lexicon. În cele din urmă, contextul termenilor este analizat pentru a determina dezambiguizarea cea mai potrivită și pentru a atribui termenul unui conceptul corect.

Instrumente

Următoarele criterii pot fi utilizate pentru a clasifica instrumentele care extrag cunoștințe din textul în limbaj natural.

  • Sursa >>> Ce formate de intrare pot fi procesate de către instrument (de exemplu, text simplu, HTML sau PDF)?
  • Paradigma de acces >>> Poate instrumentul să interogheze sursa de date sau să necesite un întreg depozit pentru procesul de extracție?
  • Sincronizarea datelor >>> Este rezultatul procesului de extracție sincronizat cu sursa?
  • Utilizarea ontologiei de ieșire >>> Leagă instrumentul rezultatul cu o ontologie?
  • Automatizarea mapării >>> Cum este procesul de extracție automatizat (manuală, semi-automtic sau automat)?
  • Necesitatea ontologiei >>> Are instrumentul nevoie de o ontologie pentru extracție?
  • Utilizarea GUI >>> Oferă instrumentul o interfață grafică cu utilizatorul?
  • Abordare >>> Care abordare (IE, OBIE, OL sau SA) este utilizată de instrument?
  • Entități extrase >>> Ce tipuri de entități (de exemplu, entități numite, concepte sau relații) pot fi extrase de instrument?
  • Tehnici aplicate >>> Ce tehnici sunt aplicate (de exemplu, NLP, metode statistice, gruparea sau mașina de învățare)?
  • Model de ieșire >>> Ce model este utilizat pentru a reprezenta rezultatul instrumentului (de ex., RDF sau OWL)?
  • Domenii acceptate >>> Ce domenii sunt suportate (de exemplu, economie sau biologie)?
  • Limbi suportate >>> Ce limbi pot fi prelucrate (de exemplu, limba engleză sau germană)?

Tabelul de mai jos caracterizează unele instrumente pentru extracție din surse naturale de limbaj.

Nume Sursa Paradigma acces Sincronizare date Ontologia ieșire utilizatori Automatizzarea mapării Necesită ontologie GUI utilizatori Abordare Entități extrase Tehnici utilizate Model ieșire Domenii suportate Limbi suportate
AeroText text simplu, HTML, XML, SGML dump nu da automat da da IE entități numite, relații, evenimente nurme lingvistice proprietar independent de domeniu engleză, spaniolă, arabă, chineză, indoneziană
AlchemyAPI text simplu, HTML automat da SA multilingual
ANNIE text simplu dump da da IE stări finite de algoritmi multilingual
ASIUM text simplu dump semi-automat da OL concepte, ierarhizarea conceptelor NLP, grupare
Attensity Exhaustive Extraction automat IE entități numite, relații, evenimente NLP
Dandelion API text simplu, HTML, URL REST nu nu automat nu da SA entități numite, concepte metode statistice JSON independent de domeniu multilingual
DBpedia Spotlight text simplu, HTML dump, SPARQL da da automat nu da SA adnotare  la fiecare cuvânt, adnotare  la cuvinte nefiltrate NLP, metode statistice, învățare mașină RDFa independent de domeniu engleză
EntityClassifier.eu text simplu, HTML dump da da automat nu da IE, OL, SA adnotare  la fiecare cuvânt, adnotare  la cuvinte nefiltrate gramatica bazată pe reguli XML independent de domeniu engleză, germană, olandeză
FRED text simplu, PDF și Word via Sheldon dump, REST da automat nu da OL+IE+SA concepte, ierarhizarea conceptelor, cadre, evenimente, relații, entitati numite, negație, modalitate, încordare, entitate care leagă, alinierea schemei, sentiment (prin Sentilo) NLP, SPARQL, reguli euristice, modele de design ontologii RDF-OWL, Turtle, NT, JSON-LD, DAG, diagrame independent de domeniu engleză, multilingual input
K-Extractor text simplu, HTML, XML, PDF, MS Office, e-mail dump, SPARQL da da automat nu da IE, OL, SA concepte, entități numite, instanțe,  ierarhie concept, relații generice, relații definite de utilizator, evenimente, modalitate, tensionare, entitate care leagă, eveniment care leagă, sentiment NLP, învățare mașină, reguli euristice RDF, OWL, XML proprietar independent de domeniu engleză, spaniolă
iDocument HTML, PDF, DOC SPARQL da da OBIE instances, property values NLP personal, afaceri
NetOwl Extractor text simplu, HTML, XML, SGML, PDF, MS Office dump Nu Da Automat da Da IE entități numite, relații, evenimente NLP XML, JSON, RDF-OWL, others domenii multiple engleză, arabă chineză (simplificată și tradițională), franceză, coreeană, persană (Farsi și Dari), rusă, spaniolă
OntoGen semi-automat da OL concepte, ierarhizarea conceptelor, nun-taxonumic relations, instances NLP, învățare mașină, grupare
OntoLearn text simplu, HTML dump nu da automat da nu OL concepte, ierarhizarea conceptelor, instances NLP, metode statistice proprietary independent de domeniu engleză
OntoLearn Reloaded text simplu, HTML dump nu da automat da nu OL concepte, ierarhizarea conceptelor, instances NLP, metode statistice proprietary independent de domeniu engleză
OntoSyphon HTML, PDF, DOC dump, interogări motoare de căutare nu da automat da nu OBIE concepte, relații, instanțe NLP, metode statistice RDF independent de domeniu engleză
ontoX text simplu dump nu da semi-automat da nu OBIE instanțe, valori de proprietate tip date metode euristice proprietary independent de domeniu independent de limbă
OpenCalais text simplu, HTML, XML dump nu da automat da nu SA adnotare  la entități, adnotare  la evenimente, adnotare  la fapte NLP, învățare mașină RDF independent de domeniu engleză, franceză, spaniolă
PoolParty Extractor text simplu, HTML, DOC, ODT dump nu da automat da da OBIE entități numite, concepte, relații, concepte care clasifică textul, îmbogățiri NLP, învățare mașină, metode statistice RDF, OWL independent de domeniu engleză, germană, spaniolă, franceză
Rosoka text simplu, HTML, XML, SGML, PDF, MS Office dump Da Da automat nu Da IE entități numite, relații, atribute, concepte NLP XML, JSON, RDF, others domenii multiple Multilingv (230)
SCOOBIE text simplu, HTML dump nu da automat nu nu OBIE instanțe, valori de proprietate, tipuri de RDFs NLP, învățare mașină RDF, RDFa independent de domeniu engleză, germană
SemTag HTML dump nu da automat da nu SA învățare mașină database record independent de domeniu independent de limbă
smart FIX text simplu, HTML, PDF, DOC, e-Mail dump da nu automat nu da OBIE entități numite NLP, învățare mașină proprietary independent de domeniu engleză, germană, franceză, olandeză, polish
Text2Onto text simplu, HTML, PDF dump da nu semi-automat da da OL concepte, ierarhizarea conceptelor, relații nun-taxonumice, instanțe, axiome NLP, metode statistice, învățare mașină, metode bazate pe reguli OWL independent de domeniu engleză, germană, spaniolă
Text-To-Onto text simplu, HTML, PDF, PostScript dump semi-automat da da OL concepte, ierarhizarea conceptelor, relațiile nun-taxonumice, entitățile lexicale care se referă la concepte, entități lexicale referindu-se la relații NLP, învățare mașină, grupare, metode statistice germană
ThatNeedle text simplu dump automat nu concepte, relații, ierarhie NLP, proprietar JSON domenii multiple engleză
The Wiki Machine text simplu, HTML, PDF, DOC dump nu da automat da da SA adnotare  la substantive proprii, adnotare a în substantive comune învățare mașină RDFa independent de domeniu engleză, germană, spaniolă, franceză, portugheză, italiană, rusă
ThingFinder IE entități numite, relații, evenimente multilingv

Descoperirea de cunoștințe

Descoperirea cunoștințelor descrie procesul de căutare în mod automat în volume mari de date pentru modele care pot fi considerate cunoștințe despre datele. Aceasta este adesea descris ca derivând cunoștințele din datele de intrare. Descoperirea de cunoștințe s-a dezvoltat din domeniul minieritului de date, și este strâns legată de aceasta, atât în ceea ce privește metodologia cât și terminologia.

Cea mai binecunoscută ramură a mineritului de dater este descoperirea de cunoștințe, de asemenea cunoscută sub numele de descoperirea de cunoștințe în bazele de date. La fel ca și multe alte forme de descoperire de cunoștințe aceasta creează abstracții ale datelor de intrare. Cunoștințele obținute prin proces pot deveni date suplimentare care pot fi utilizate pentru utilizarea ulterioară și descoperire. De multe ori rezultatele din descoperirea de cunoștințe nu sunt acționabile, descoperire de cunoștințe acționabile, de asemenea cunoscută sub numele de mineritul datelor bazat pe domeniu, propunându-și să descopere și să livreze cunoștințe și date concrete.

O altă aplicație promițătoare de descoperire de cunoștințe este în domeniul modernizării software-ului, descoperirea slăbiciunilor și conformitatea, care implică înțelegerea artefactelor software existente. Acest proces este legat de un concept de inginerie inversă. De obicei, cunoștințele obținute din software-ul existent este prezentat sub formă de modele la care pot fi făcute atunci când este necesar interogări specifice. O relație de entitate este un format frecvent de de reprezentare a cunoștințelor obținute din software-ul existent. Object Management Group (OMG) a dezvoltat Knowledge Discovery Metamodel (KDM), care definește o ontologie pentru activele software și relațiile lor cu scopul de a efectua descoperirea cunoașterii codului existent. Descoperirea de cunoștințe din sistemele informatice existente, de asemenea cunoscută sub numele de minerit de software, este strâns legată de mineritul de date, întrucât artefactele software existente conțin o valoare enormă pentru managementul riscului și valoarea afacerii, cheie pentru evaluarea și evoluția sistemelor informatice. În loc de exploatarea de seturi de date individuale, minieritul de software se concentrează pe metadate, cum ar fi fluxurile de proces (de exemplu, fluxuri de date, fluxuri de control, si hărți de apel), arhitectura, scheme de baze de date, și reguli/termeni/procese de afaceri.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *