NL8900587A - Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. - Google Patents
Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. Download PDFInfo
- Publication number
- NL8900587A NL8900587A NL8900587A NL8900587A NL8900587A NL 8900587 A NL8900587 A NL 8900587A NL 8900587 A NL8900587 A NL 8900587A NL 8900587 A NL8900587 A NL 8900587A NL 8900587 A NL8900587 A NL 8900587A
- Authority
- NL
- Netherlands
- Prior art keywords
- found
- determining
- relations
- lexical
- common
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Description
- Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
De uitvinding heeft betrekking op een werkwijze voor het bepalen van de mate waarin twee of meer lexicale componenten (morfemen, woorden, woordsamenstellingen of frasen) behorend tot een voorafbepaald tekstcorpus in een willekeurige bepaalde taal semantisch aan elkaar gerelateerd zijn.
De kennis omtrent semantische relaties tussen twee of meer lexicale componenten in een tekst is van belang, onder andere in computerprogramma's voor tekstverwerking en programma's voor het automatisch vertalen van een tekst in een natuurlijke taal naar een tekst in een andere natuurlijke taal.
Tot nu toe was het gebruikelijk om bij het bepalen van semantische relaties uit te gaan van in een woordenlijst gecompileerde gegevens. De woordenlijst bevat dan voor elk daarin opgenomen woord een identificatiecode die aangeeft welke semantische eigenschappen het woord heeft. Ook kan gebruik worden gemaakt van een classificatiecode die het semantische type van elk woord classificeert of er kan een analyse uitgevoerd worden tot op het niveau van semantische componenten of primitieven. Alhoewel dergelijke methoden door taalonderzoekers veel worden toegepast, zijn ze zeer arbeidsintensief en moeilijk om op een grote schaal consistent toe te passen als gevolg van de subjectieve persoonlijke beoordeling, die bij het bepalen van de semantische relaties op deze wijze een grote rol speelt.
De uitvinding heeft nu ten doel aan te geven op welke wijze de semantische gerelateerdheid van twee of meer lexicale componenten op automatische wijze kan worden vastgesteld zonder dat de persoonlijke beoordeling van de gebruiker daarbij een rol speelt.
Aan deze doelstelling wordt nu volgens de uitvinding voldaan door een werkwijze voor het bepalen van de mate waarin twee of meer lexicale componenten behorend tot een voorafbepaald tekstcorpus in een willekeurige bepaalde taal semantisch aan elkaar gerelateerd zijn, omvattende de volgende stappen: a) het opsporen van een aantal zinnen in het genoemd tekstcorpus waarin een of meer van de betreffende twee of meer lexicale componenten voorkomen, b) het ontleden van elk van de opgespoorde zinnen met behulp van een daartoe geschikt ontleedsysteem teneinde van elk van de genoemde zinnen de syntactische afhankelijkheidsstructuur te bepalen, c) het aan de hand van de gevonden syntactische afhankelijkheids-structuur voor elke zin bepalen van de contextuele relaties die de genoemde lexicale componenten daarin hebben, d.w.z het bepalen van die elementen uit de context die een directe syntactische relatie hebben met de in de betreffende zin voorkomende genoemde lexicale componenten tesamen met die syntactische relatie, d) het voor elk van de genoemde lexicale componenten bepalen van het totaal aantal contextuele relaties, gevonden in stap c), e) het bepalen van het aantal contextuele relaties die de genoemde lexicale componenten gemeenschappelijk hebben, f) het op grond van de resultaten uit de stappen d} en e) bepalen van de statistische waarschijnlijkheid dat een bepaalde gemeenschappelijke relatie zal voorkomen.
Als resultaat van deze werkwijze wordt een indicatie verkregen omtrent de statistische waarschijnlijkheid van een bepaalde gemeenschappelijke semantische relatie. Aan de hand daarvan is een eventueel tekstverwerkingsprogramma of automatisch vertaalprogramma of dergelijke in staat om zelfstandig automatisch een beslissing te nemen en op basis daarvan eventuele verdere bewerkingsstappen uit te voeren.
Alhoewel er meerdere statistische analysemethoden kunnen worden toegepast voor het bepalen van de statistische waarschijnlijkheid verdient het de voorkeur dat stap f) is opgesplitst in twee deelstappen: f1} het bepalen van het op grond van louter toeval te verwachten aantal gemeenschappelijke relaties, f2) het vergelijken van het in stap f 1) gevonden aantal met het in stap e) gevonden aantal.
Bij voorkeur wordt de vergelijking in stap f2) uitgevoerd door berekening van de volgende formule: nabijheid = (C-E)/(C+K), waarin: C = aantal gemeenschappelijke relaties gevonden in stap e) E * op grond van louter toeval te verwachten aantal relaties gevonden in stap f1) K a een constante.
Alhoewel de werkwijze volgens de uitvinding in veel gevallen al een goed resultaat kan opleveren bij een beperkt aantal zinnen, genomen uit de betreffende tekstcorpus, zal het in het algemeen de voorkeur verdienen dat in stap a) alle zinnen uit de tekstcorpus worden opgespoord waarin een of meer van de genoemde lexicale componenten voorkomen. Alleen als alle semantische relaties tussen de genoemde twee of meer lexicale componenten worden vastgesteld, met andere woorden als alle zinnen uit de tekstcorpus worden opgespoord, waarin de betreffende lexicale componenten voorkomen, wordt de statistische waarschijnlijkheid met de grootste mate van zekerheid bepaald.
De uitvinding zal in het volgende nader worden besproken aan de hand van uitvoeringsvoorbeelden.
Voorbeeld 1: Het meten van de semantische afstand of semantische nabijheid tussen de engelse woorden DISCARD en REMOVE.
In het volgende zal als voorbeeld van de werkwijze de semantische afstand worden bepaald tussen twee woorden waarbij uitgegaan wordt van een aantal zinnen, die ontleend zijn aan een engelstalig vliegtuig-onderhoudshandboek. In dit voorbeeld worden voor elk van de beide sleutelwoorden slechts enkele zinnen gebruikt, maar het zal duidelijk zijn, dat voor het verkrijgen van een nauwkeurig resultaat een zo groot mogelijk aantal zinnen moet worden gebruikt en bij voorkeur uitgegaan moet worden van alle zinnen uit het totale tekstcorpus (in dit geval het gehele onderhoudshandboek), waarin de gezochte woorden voorkomen. In het onderhavige geval zal gezocht worden naar de semantische afstand tussen de engelse woorden DISCARD en REMOVE. Uit het handboek werden de volgende vijf zinnen geselecteerd waarin in elk geval het woord DISCARD voorkomt: [1] Remove and DISCARD the O-rings (9 and 12).
[2] Remove and DISCARD the split pins (18) and remove the nuts (17) and washers (16) from the clamp rods (11).
[3] DISCARD the gasket (9).- [4] Remove and DISCARD the two split pins which safety the autopilot cable end fittings (21).
[5] DISCARD the lockwire from the glandnuts (2).
Met het opsporen en verzamelen van deze zinnen is stap a) van de werkwijze volgens de uitvinding gedeeltelijk voltooid. (Het andere gedeelte van stap a) bestaat uit het selecteren van de zinnen waarin REMOVE voorkomt, zoals in het volgende nog wordt besproken). Vervolgens moet, volgens stap b) van de werkwijze, elk van deze opgespoorde zinnen worden ontleed met behulp van een daartoe geschikt ontleedsysteem, teneinde van elke zin de syntactische afhankelijkheidssstructuur te bepalen. Dergelijke geschikte ontleedsystemen, in het algemeen aangeduidt met de engelse term "parser", zijn op zichzelf voor de deskundige bekend. Wordt bijvoorbeeld voor de laatste zin uit de bovenstaande verzameling de syntactische afhankelijkheidsboom geconstrueerd met behulp van een dergelijke op zichzelf bekende parser dan zal het resultaat bijvoorbeeld als volgt kunnen worden gepresenteerd: [GOVERNOR, 'discard', [DIRECT-OBJECT, 'lockwire', [DETERMINER, 'the'], [PREPOSITIONAL-ADJUNCT, 'from', [PREPOSITIONAL-ARGUMENT, 'glandnuts', [DETERMINER, 'the'],
[EPITHET, '(2)'] J ] ] I
(De in de bovenstaande representatie gebruikte linguïstische termen worden voor een deskundige bekend verondersteld en behoeven geen nadere uitleg).
Uit deze afhankelijkheidsstructuur kan nu het sleutelwoord (of eventueel de sleutelwoorden als beide woorden in de betreffende zin voorkomen) worden gehaald, tezamen met die elementen uit zijn context die een directe relatie met het sleutelwoord (of de sleutelwoorden) hebben. Uit de bovenstaande afhankelijkheidsstructuur van de vijfde zin bijvoorbeeld blijkt dat het sleutelwoord DISCARD via de OBJECT-relatie direct gerelateerd is aan het onderwerp "lockwire". Dergelijke relaties kunnen ook voor alle andere zinnen uit de gevonden afhankelijkheidsstructuur worden afgeleid.
Verder worden uit de gevormde afhankelijkheidsstructuren tevens de sleutelwoorden gehaald die een indirecte relatie met een ander woord hebben via een functiewoord zoals een prepositie of een conjunctie.
Wordt bijvoorbeeld de afhankelijkheidsstructuur van de eerste zin bepaald dan blijkt dat de beide sleutelwoorden REMOVE en DISCARD een indirecte relatie bezitten via het voegwoord AND.
Worden alle relaties die via de syntactische afhankelijkheidsstructuren voor de genoemde trefwoorden uit de bovenstaande zinnen kunnen worden gevonden in een tabel gezet, dan resulteert het volgende:
De nummercode aan het begin van elke rij in de bovenstaande tabel geeft het nummer van de zin, corresponderend met de nummering die in de bovenstaande reeks van zinnen is gebruikt en daarna een rangnummer voor de in deze zin gevonden relatie waarin ten minste één van de trefwoorden voorkomt. Het blijkt dat in enkele gevallen relaties worden gevonden tussen de beide trefwoorden.
Een volledig identieke procedure kan nu worden uitgevoerd voor het tweede trefwoord REMOVE. Daarvoor kunnen bijvoorbeeld de volgende vijf zinnen uit het handboek worden gebruikt: [1] Lift the loosened bus-bars (7) from the terminal studs (6) and REMOVE the contactor (14) from the interface (12).
[2] When power to main ac bus 1 (2) is REMOVED, the following events occur.
[3] Do not REMOVE the nuts (5).
[4] REMOVE the lockwire and REMOVE the sensor connector (9) from the receptacle (10).
[5] REMOVE and discard the split pins (18) and REMOVE the nuts (17) and washers (16) from the clamp rods (11).
Uit deze zinnen kunnen nadat elk van deze zinnen onderworpen is aan een structuuranalyse en van elke zin de syntactische afhankelijkheidsstructuur is verkregen de volgende relaties worden gehaald:
Ook in dit geval worden voor REMOVE enerzijds relaties gevonden met willekeurige andere woorden en anderzijds ook relaties met het andere trefwoord DISCARD. Verder blijkt dat zowel REMOVE als DISCARD relaties hebben met identieke andere woorden, hetgeen in bovenstaande tabel met * is aangegeven. Het woord "pin" heeft bijvoorbeeld een directe object-relatie met zowel DISCARD als ook met REMOVE.
Een vergelijking tussen de beide tabellen laat al duidelijk zien dat het identificeren van de syntactische relaties in de context de mogelijkheid biedt om betekenisvolle overeenstemmingen op te sporen in de contextuele patronen van semantisch-gerelatêerde woorden, zoals in het onderhavige geval de woorden DISCARD and REMOVE. Zelfs met de beperkte aantallen zinnen, die in het voorbeeld zijn gebruikt worden al een aantal gemeenschappelijke contextuele elementen gevonden. Als uit de gehele tekst alle zinnen worden genomen waarin ten minste één van de trefwoorden voorkomt, dan zal het totaal aantal zeker nog stijgen. Hoe meer contextuele relaties de twee sleutelwoorden gemeen hebben, hoe kleiner hun semantische afstand zal zijn, met andere woorden hoe meer de betekenis of uitleg van beide woorden met elkaar overeenstemt of aan elkaar gelijk is. Er kunnen nu in overeenstemming met de werkwijze volgens de uitvinding statistische methoden worden toegepast op de bovengenoemde relatieverzamelingen om een numerieke indicatie te krijgen van deze semantische afstand.
De semantische afstand moet een functie zijn van: a) het aantal contextuele relaties waarin de beide trefwoorden voorkomen, en b) het aantal contextuele relaties dat voor elk trefwoord in de gekozen verzameling van zoekzinnen is te vinden. (In het ideale geval moet voor de gekozen verzameling van zoekzinnen het gehele tekstcorpus worden genomen).
In het bovenstaande voorbeeld hangt de semantische afstand van de woorden DISCARD en REMOVE niet alleen af van het aantal gemeenschappelijke relaties zoals bijvoorbeeld de OBJECT-relatie die beide woorden hebben met "pin", maar ook van het totaal aantal contextuele relaties, dat de woorden DISCARD en REMOVE in het tekstcorpus dat dienst doet als bron van lexicale kennis.
Er is een groot aantal manieren om op statistische wijze de mate van semantische afstand tussen twee woorden tot uitdrukking te brengen. Het verdient echter de voorkeur dat de in stap f) genoemde semantische verwantheid wordt gevonden door van het in stap e) gevonden aantal het op grond van louter toeval te verwachten aantal af te trekken, waarna het resultaat daarvan wordt gedeeld door het in stap e) gevonden aantal, vermeerderd met een constante. Met andere woorden, berekend wordt: nabijheid = (C-E)/(C+K).
Daarin is: C = aantal gemeenschappelijke relaties E = op grond van louter toeval te verwachten aantal relaties K = een constante.
Het op grond van louter toeval te verwachten aantal relaties kan theoretisch worden berekend uit: E = A x B/f(N), waarin: A = aantal relaties eerste woord B = aantal relaties tweede woord f(N) = een functie van het aantal verschillende relaties N in het totale tekstcorpus.
Stel dat er in het onderhavige voorbeeld voor het woord DISCARD in het totaal 300 relaties in de tekst zijn gevonden en voor het woord REMOVE in het totaal 500 relaties zijn gevonden, terwijl er verder 50 relaties gemeenschappelijk blijken te zijn. Stel verder dat voor de functie F(N) van het aantal verschillende relaties N in de tekstcorpus experimenteel een getalwaarde van 15.000 is vastgesteld en dat voor de constante K de waarde 1 is gekozen. Het op grond van louter toeval te verwachten gemeenschappelijke relaties wordt dan aan de hand van de bovenstaande formule bepaald als: E = A x B/f(N) = 300 x 500/15,000 = 10.
Voor de mate van verwantheid ofwel semantische nabijheid van de twee woorden DISCARD en REMOVE wordt dan in overeenstemming met de bovengegeven formule een numerieke waarde gevonden, die gelijk is aan: nabijheid = (C-E)/(C+K) = (50-10)/(50+1) =0,784.
Hoe groter het aantal gemeenschappelijke relaties en hoe kleiner het aantal te verwachten relaties hoe dichter de gevonden numerieke waarde uiteindelijk nadert naar de waarde 1.
In de praktijk zal het berekenen van f(N) niet triviaal zijn aangezien de distributie van de verschillende relaties niet gelijk zal zijn en onderhevig zal zijn aan allerlei beperkingen, bijvoorbeeld voor verschillende woordsoorten. De waarde van f(N) kan echter ook experimenteel worden vastgesteld door die waarde te kiezen die de meest aanvaardbare resultaten geeft.
Ook de waarde van K hangt af van de toepassing van de methode. De invloed van deze constante is in eerste instantie normaliserend. Door toevoeging van deze constante aan de noemer van de bovenstaande uitdrukking wordt de semantische verwantheid uitgedrukt met een getalwaarde die ligt tussen 0 en 1. Bovendien heeft deze constante als resultaat dat de semantische verwantheid gebaseerd op een zeer kleine waarde van C (dus een waarde die aangeeft dat het aantal gemeenschapplijke relaties relatief klein is) wordt afgezwakt. Dit kan nuttig zijn om de invloed van statistisch toeval te beperken, zijn immers de aantallen relatief klein dan zullen ook in het algemeen de conclusies die daaruit kunnen 'worden getrokken, minder betrouwbaar zijn.
In het geval er geen gemeenschappelijke relaties worden gevonden tussen de genoemde lexicale componenten, maar er wel een aantal gemeenschappelijke relaties op grond van louter toeval verwacht zou worden, dan wordt de getalwaarde, die de semantische verwantheid uitdrukt, negatief. In dat geval verdient het de voorkeur dat in de noemer van de bovengenoemde uitdrukking de term C vervangen wordt door de term E in welk geval de verkregen getalwaarde wordt genormaliseerd in een traject tussen 0 en -1. In dat geval wordt de berekening gelijk aan: nabijheid = (C-E)/(E-K),
Een andere mogelijkheid om de mate van semantische afstand tussen twee woorden tot uitdrukking te brengen, bestaat uit het delen van het totaal aantal gemeenschappelijke relaties C door de som van het totaal aantal relaties A dat afzonderlijk voor het eerste woord en het totaal aantal relaties B dat afzonderlijk voor het tweede woord is gevonden.
Het resultaat daarvan is een numerieke waarde die in feite een maat vormt voor de nabijheid (eng: proximity) van beide woorden. Met andere woorden: nabijheid = C/(A + B) A = aantal relaties eerste woord B = aantal relaties tweede woord C = aantal gemeenschappelijke relaties
Deze formule levert bij twee sleutelwoorden een numerieke waarde op die afhankelijk van de getalwaarden verloopt tussen 0 en een 1/2, bij drie sleutelwoorden een numerieke waarde die verloopt tussen 0 en 1/3. Om overeenstemming te krijgen met de algemene praktijk waarin een waarschijnlijkheid numeriek kan worden uitgedrukt met een getalwaarde die ligt tussen 0 en 1 (of 0% en 100%) verdient het de voorkeur om de teller van de bovenbeschreven breuk te vermenigvuldigen met het aantal sleutelwoorden dat bij de beschouwing is betrokken. Dus in het algemeen: nabijheid = (aantal sleutelwoorden) C/(A + B)
Stel weer dat er in het onderhavige voorbeeld voor het woord DISCARD in het totaal 300 relaties in de tekst zijn gevonden en voor het woord REMOVE in het totaal 500 relaties zijn gevonden, terwijl er verder 50 relaties gemeenschappelijk blijken te zijn dan wordt voor de mate van gerelateerdheid ofwel de semantische nabijheid van de twee woorden DISCARD en REMOVE een numerieke waarde gevonden die gelijk is aan 2 * 50/(300 + 500) = 0,125, Hoe groter het aantal gemeenschappelijke relaties hoe dichter de gevonden numerieke waarde uiteindelijk nadert naar de waarde 1.
Een dergelijke semantische afstands- of nabijheidsberekening kan bijvoorbeeld in de praktijk worden gebruikt bij het vervaardigen van machinale vertalingen. Als voorbeeld kan worden gewezen op de franse vertaling van het engelse woord "smooth". Dit woord heeft in het frans een aantal mogelijke equivalenten met duidelijk verschillende betekenis: lisse, uni, poli, doux, insinuant.
Uit traditionele woordenboeken is het bekend om in een dergelijk geval, waar er meerdere mogelijkheden zijn om één en hetzelfde woord in een andere taal te vertalen (met verschillende betekenissen) het betreffende woord te voorzien van een aantal gecodeerde contextuele aanduidingen en deze alternatieven met de bijbehorende betekenis en/of vertaling op te slaan in een tweetalige woordenlijst, zoals bijvoorbeeld: smooth (leather) = lisse smooth (road) = uni smooth (glass) = poli smooth (skin) = doux smooth (talk) = insinuant
Blijft dan nog over het probleem om uit de tekst af te leiden welke betekenis in het onderhavige geval moet worden gebruikt en hoe dus het betreffende woord moet worden vertaald. Als bijvoorbeeld het woord "smooth" voorkomt in de combinatie "smooth path", dan moet het systeem in staat zijn om te beslissen welk van de aangegeven vertalingen in de woordenlijst de meest geschikte is, met andere woorden welke vertaling van "smooth" het best past bij het woord "path". In het onderhavige geval zal dat waarschijnlijk het franse woord "uni" zijn. Wordt het tekstcorpus nu onderzocht met behulp van de werkwijze volgens de uitvinding dan zal uit deze werkwijze een nabijheidsindex resulteren, die aangeeft dat er, gezien de gevonden relaties, een hoge mate van nabijheid is tussen het woord "road" en het woord "path", terwijl eventuele andere relaties tot een veel lagere nabijheidswaarde zullen leiden, zodat op grond daarvan kan worden besloten dat het franse woord "uni" de juiste vertaling van het woord "smooth" zou zijn.
Dit voorbeeld toont aan waarom het aantal gemeenschappelijke relaties moet worden bekeken in verhouding tot het totaal aantal relaties dat voor elk woord wordt gevonden. Als bijvoorbeeld wordt gevonden dat de woorden A en B 50 gemeenschappelijke relaties hebben en dat de woorden A en C slechts 10 gemeenschappelijke relaties hebben dan kan daaruit worden geconcludeerd dat A in betekenis dichter bij B staat dan bij C, vooropgesteld evenwel dat voor zowel B als C eenzelfde totaal aantal relaties in de tekst wordt gevonden. Als anderzijds dit totaal aantal verschillend is dan moet daarmee rekening worden gehouden. Het vinden van 10 gemeenschappelijke relaties tussen A en C kan statistisch van veel meer betekenis zijn dan de 50 gemeenschappelijke relaties tussen A en B als B een woord is met een hogere voorkomensfrequentie, zoals bijvoorbeeld "road", en C een relatief zeldzaam gebruikt woord is, bijvoorbeeld "gasket".
Voorbeeld 2: Het meten van de mate van semantische associatie tussen twee woorden zoals PRESSURE en VALVE.
Voordat dit voorbeeld nader wordt uitgewerkt wordt er op gewezen dat er verschil bestaat tussen semantische associatie en semantische nabijheid. De woorden PRESSURE en VALVE hebben zeker niet dezelfde betekenis, het ene woord (pressure) heeft betrekking op een abstractie, terwijl het andere woord (valve) betrekking heeft op een concreet stuk apparatuur. Daarom zal waarschijnlijk de semantische afstand relatief groot zijn, met andere woorden de numerieke nabijheidsindex laag zijn.
De in het bovenstaande beschreven werkwijze kan echter met succes worden gebruikt om niet zozeer de semantische afstand of nabijheid dan wel de semantische associatie te bepalen, zoals in het volgende zal worden verklaard.
Op gelijke wijze als in voorbeeld 1 worden de beide sleutelwoorden PRESSURE en VALVE gebruikt om uit een gehele tekstcorpus die zinnen te lichten, waarin althans één van deze woorden vookomt. Deze keer wordt in het bijzonder alleen gezocht naar zinnen waarin beide sleutelwoorden voorkomen. Tien zinnen uit een als voorbeeld gebruikte tekst zijn in het onderstaande aangegeven: [1] A temperature-compensated PRESSURE switch, a fill VALVE and a safety device are installed on the bottle.
[2] The spool VALVE supplies PRESSURE to the hydraulic motor.
[3] If the isolation VALVE cuts off the PRESSURE to the system application of the brake is automatic.
[4] The PRESSURE goes through the second-stage poppet of the shutoff VALVE to the high PRESSURE ports of the spool VALVE.
[5] A PRESSURE relief-VALVE prevents an overpressure in the hydraulic system.
[6] A bleed-air regulating and relief VALVE controls the air-PRESSURE in the system reservoir.· [7] The off loader VALVE decreases the PRESSURE to 2750 - 3430 kPa (400-500 psi) if the hydraulic systems are not used.
[8] Two vacuum relief-VALVES prevent a negative PRESSURE.
[9] The selector VALVE supplies oil PRESSURE to move the piston in the control cylinder.
[10] The system-accumulator nitrogen-lines connect the gas chamber of the system accumulator to its charging VALVE and its PRESSURE gage.
Ook deze zinnen moeten elk afzonderlijk worden ontleed met behulp van een parser of ontleedsysteem om de syntactische structuur van elke zin te bepalen. Zodra deze syntactische structuur beschikbaar is, kan in elk van de structuren een onderzoek worden uitgevoerd om vast te stellen of: 1) de twee sleutelwoorden direct in de syntactische structuur met elkaar zijn gekoppeld of 2) de twee sleutelwoorden via een tussenliggend knooppunt toch een onderlinge relatie hebben.
De volgende tabel toont de soort van informatie die, nadat elk van de zinnen is ontleed en voor elk van de zinnen de analyse structuur is vastgesteld, uit deze structuur kan worden gehaald.
1 switch valve + switch ATTRIBUTE pressure 2 supply SUBJECT valve + supply OBJECT pressure 3 cut SUBJECT valve + cut OBJECT pressure 4 port OF valve + port ATTRIBUTE pressure 5 valve ATTRIBUTE relief + relief ATTRIBUTE pressure 6 control SUBJECT valve + control OBJECT pressure 7 decrease SUBJECT valve + decrease OBJECT pressure 8 prevent SUBJECT valve + prevent OBJECT pressure 9 supply SUBJECT valve + supply OBJECT pressure 10 valve AND gage + gage ATTRIBUTE pressure
Uit deze tabel blijkt dat de woorden PRESSURE en VALVE via een relatie met andere woorden zoals "switch, supply, cut, port, relief, control, decrease, prevent, gage” toch een onderlinge relatie bezitten. Het identificeren van deze syntactische relaties in de context maakt het nu mogelijk om niet alleen de mate of sterkte van de associatie tussen bepaalde woorden vast te stellen, maar om ook de soort van deze associatie te identificeren. Uit de bovenstaande tabel zal het onmiddellijk duidelijk zijn dat het dominerende associatietype dat type is waarin VALVE het subject is, terwijl PRESSURE het directe object is van een willekeurig gemeenschappelijk werkwoord. De werkwoorden die in de bovenstaande tabel in dat verband worden aangetroffen, zijn "supply, cut, control, decrease, prevent". Daarmee wordt ook duidelijk welke betrekking de functie van VALVE heeft op PRESSURE.
Deze toepassingsmogelijkheid van de werkwijze volgens de uitvinding bewijst in het bijzonder zijn waarde bij het maken van een keuze in het geval er een dubbelzinnigheid optreedt in woordcombinaties met een impliciete relatie zoals bijvoorbeeld voorkomt bij reeksen van naamwoorden in de engelse taal. In het bovenstaande voorbeeld zijn weliswaar alleen indirecte relaties in de diverse zinnen aangetroffen, maar het was ook mogelijk geweest dat een directe syntactische relatie in de tekst was aangetroffen, zoals in de woordsamenstelling "pressure-valve" . Dit zou bovendien de associatie-index tussen de twee woorden hebben versterkt. De expliciete karakterisering van de associatie wordt nu verkregen uit de in het bovenstaande getoonde indirecte relaties.
Evenals in het eerste voorbeeld wordt de mate of sterkte van de associatie tussen twee woorden numeriek uitgedrukt als functie van het aantal verbindingsrelaties, dat tussen de twee woorden wordt gevonden en als functie van het totaal aantal relaties voor de afzonderlijke woorden zelf.
De mate van semantische associatie kan, uitgedrukt op een geschikte wijze, ook een rol spelen bij programma's waarmee vertalingen worden vervaardigd. Als voorbeeld wordt gewezen op de volgende twee zinnen: [1] Remove the pins from the bandages.
[2] Remove the pins from the bolts.
Als er in de taal, waarin deze engelse zinnen moeten worden vertaald, bijvoorbeeld de nederlandse taal, duidelijk te onderscheiden verschillende vertalingen bestaan voor het woord "pin", bijvoorbeeld het woord "speld" in de eerste zin en het woord "splitpen" in de tweede zin, dan wil dat zeggen dat er tijdens de vertaling een situatie optreedt waarin een keuze moet worden gemaakt. De relatie tussen het woord "pin" en het woord "remove" biedt in dit geval geen houvast omdat zowel een speld als een splitpen kunnen worden "removed". De oplossing van het keuzeprobleem hangt dermate af van het feit of er een relatie kan worden gelegd tussen enerzijds "pins" en "bandages" (in welk geval "pin" door "speld" vertaald zou moeten worden) en anderzijds tussen "pins" en "bolts" (in welk geval "pin" door "splitpen" vertaald zou moeten worden). Met andere woorden de keuze hangt af van de mate van associatie tussen de genoemde woorden gebaseerd op de contextuele patronen, die optreden in de taal waarnaar vertaald moet worden (de doeltaal).
Wordt met behulp van de werkwijze volgens de uitvinding deze associatie bepaald dan zal blijken dat er een sterkere associatie is tussen spelden en "bandages" dan tussen spelden en "bolts". Anderzijds zal er een sterkere associatie zijn tussen splitpennen en "bolts" dan tussen splitpennen en "bandages". Aan de hand van de sterkte van de vastgestelde associatie kan derhalve een juiste keuze worden gemaakt van het woord dat in de vertaling voor "pin" moet worden gebruikt. Hoe sterker de associatie tussen de bepaalde woorden, hoe beter deze keuze kan worden onderbouwd.
Claims (6)
1. Werkwijze voor het bepalen van de mate waarin twee of meer lexicale componenten behorend tot een voorafbepaald tekstcorpus in een willekeurige bepaalde taal semantisch aan elkaar gerelateerd zijn, omvattende de volgende stappen: a) het opsporen van een aantal zinnen in de genoemde tekst waarin een of meer van de betreffende twee of meer lexicale componenten voorkomen, b) het ontleden van elk van de opgespoorde zinnen met behulp van een daartoe geschikt ontleedsysteem teneinde van elk van de genoemde zinnen de syntactische afhankelijkheidsstructuur te bepalen, c) het aan de hand van de gevonden syntactische afhankelijkheids-structuur voor elke zin bepalen van de contextuele relaties die de genoemde lexicale componenten daarin hebben, d.w.z het bepalen van die elementen uit de context die een directe syntactische relatie hebben met de in de betreffende zin voorkomende genoemde lexicale componenten tesamen met die syntactische relatie, d) het voor elk van de genoemde lexicale componenten bepalen van het totaal aantal contextuele relaties, gevonden in stap c), e) het bepalen van het aantal contextuele relaties die de genoemde lexicale componenten gemeenschappelijk hebben, f) het op grond van de resultaten uit de stappen d) en e) bepalen van de statistische waarschijnlijkheid dat een bepaalde gemeenschappelijke relatie zal voorkomen.
2. Werkwijze volgens conclusie 1, met het kenmerk, dat stap f) is opgesplitst in twee deelstappen: f1) het bepalen van het op grond van louter toeval te verwachten aantal gemeenschappelijke relaties, f2) het vergelijken van het in stap £1) gevonden aantal met het in stap e) gevonden aantal.
3. Werkwijze volgens conclusie 2, met het kenmerk, dat de vergelijking in stap f2) wordt uitgevoerd door berekening van de volgende formule: nabijheid = (C-E)/(C+K), waarin: C = aantal gemeenschappelijke relaties gevonden in stap e) E = op grond van louter toeval te verwachten aantal relaties gevonden in stap f1) K = een constante.
4. Werkwijze volgens conclusie 2, met het kenmerk, dat voor het geval het op grond van louter toeval te verwachten aantal relaties, gevonden in stap f1) groter is dan het aantal gemeenschappelijke relaties gevonden in stap e) de vergelijking in stap f2) wordt uitgvoerd door berekening van de volgende formule: nabijheid = (C-E)/(E-K),
5. Werkwijze volgens conclusie 1, met het kenmerk, dat de in stap f) genoemde statistische waarschijnlijkheid wordt gevonden door de som te bepalen van de in stap d) gevonden aantallen voor de afzonderlijke lexicale componenten en vervolgens het in stap e) gevonden aantal door de genoemde som te delen.
5. Werkwijze volgens conclusie 2, 3 of 4, met het kenmerk, dat de bepaling in stap f1) wordt uitgevoerd door het berekenen van de volgende formule: E = A X B/f(N), waarin: A = het in stap d) gevonden aantal voor de eerste lexicale component, B = het in stap d) gevonden aantal voor de tweede lexicale component, f(N) = een functie van het aantal verschillende relaties in het totale genoemde voorafbepaalde tekstcorpus.
6. Werkwijze volgens conclusie 5, met het kenmerk, dat de genoemde som wordt vermenigvuldigd met het aantal lexicale componenten waarvoor de mate van gerelateerdheid wordt bepaald.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL8900587A NL8900587A (nl) | 1989-03-10 | 1989-03-10 | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
EP90200462A EP0386825A1 (en) | 1989-03-10 | 1990-02-26 | Method for determining the semantic relatedness of lexical items in a text |
CA002011411A CA2011411A1 (en) | 1989-03-10 | 1990-03-02 | Method for determining the semantic relatedness of lexical items in a text |
US07/487,649 US5128865A (en) | 1989-03-10 | 1990-03-02 | Method for determining the semantic relatedness of lexical items in a text |
JP2057862A JPH0387975A (ja) | 1989-03-10 | 1990-03-08 | テキスト中の語彙項の意味論的関係を決定するための方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL8900587A NL8900587A (nl) | 1989-03-10 | 1989-03-10 | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
NL8900587 | 1989-03-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
NL8900587A true NL8900587A (nl) | 1990-10-01 |
Family
ID=19854273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NL8900587A NL8900587A (nl) | 1989-03-10 | 1989-03-10 | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
Country Status (5)
Country | Link |
---|---|
US (1) | US5128865A (nl) |
EP (1) | EP0386825A1 (nl) |
JP (1) | JPH0387975A (nl) |
CA (1) | CA2011411A1 (nl) |
NL (1) | NL8900587A (nl) |
Families Citing this family (121)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
GB9209346D0 (en) * | 1992-04-30 | 1992-06-17 | Sharp Kk | Machine translation system |
JP2892548B2 (ja) * | 1992-05-25 | 1999-05-17 | シャープ株式会社 | 自動翻訳装置 |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5822720A (en) | 1994-02-16 | 1998-10-13 | Sentius Corporation | System amd method for linking streams of multimedia data for reference material for display |
JP2855409B2 (ja) * | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
JP3385146B2 (ja) * | 1995-06-13 | 2003-03-10 | シャープ株式会社 | 会話文翻訳装置 |
US6684188B1 (en) * | 1996-02-02 | 2004-01-27 | Geoffrey C Mitchell | Method for production of medical records and other technical documents |
JP3916007B2 (ja) * | 1996-08-01 | 2007-05-16 | 高嗣 北川 | 意味情報処理方法及びその装置 |
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6539430B1 (en) | 1997-03-25 | 2003-03-25 | Symantec Corporation | System and method for filtering data received by a computer system |
US5996011A (en) * | 1997-03-25 | 1999-11-30 | Unified Research Laboratories, Inc. | System and method for filtering data received by a computer system |
US6016467A (en) * | 1997-05-27 | 2000-01-18 | Digital Equipment Corporation | Method and apparatus for program development using a grammar-sensitive editor |
WO1999005621A1 (en) * | 1997-07-22 | 1999-02-04 | Microsoft Corporation | System for processing textual inputs using natural language processing techniques |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6138085A (en) * | 1997-07-31 | 2000-10-24 | Microsoft Corporation | Inferring semantic relations |
EP1151401A4 (en) * | 1998-11-30 | 2002-03-06 | Lexeme Corp | NATURAL LANGUAGE KNOWLEDGE ACQUISITION PROCESS |
US7356462B2 (en) * | 2001-07-26 | 2008-04-08 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6401061B1 (en) * | 1999-05-13 | 2002-06-04 | Yuri L. Zieman | Combinatorial computational technique for transformation phrase text-phrase meaning |
US6816857B1 (en) | 1999-11-01 | 2004-11-09 | Applied Semantics, Inc. | Meaning-based advertising and document relevance determination |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US7925610B2 (en) * | 1999-09-22 | 2011-04-12 | Google Inc. | Determining a meaning of a knowledge item using document-based information |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
US7770102B1 (en) * | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7421645B2 (en) | 2000-06-06 | 2008-09-02 | Microsoft Corporation | Method and system for providing electronic commerce actions based on semantically labeled strings |
US6823333B2 (en) * | 2001-03-02 | 2004-11-23 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for conducting a keyterm search |
US6721728B2 (en) * | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
US6697793B2 (en) * | 2001-03-02 | 2004-02-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for generating phrases from a database |
US6741981B2 (en) * | 2001-03-02 | 2004-05-25 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) | System, method and apparatus for conducting a phrase search |
US7216073B2 (en) * | 2001-03-13 | 2007-05-08 | Intelligate, Ltd. | Dynamic natural language understanding |
US20030083860A1 (en) * | 2001-03-16 | 2003-05-01 | Eli Abir | Content conversion method and apparatus |
US8744835B2 (en) * | 2001-03-16 | 2014-06-03 | Meaningful Machines Llc | Content conversion method and apparatus |
US7032174B2 (en) * | 2001-03-27 | 2006-04-18 | Microsoft Corporation | Automatically adding proper names to a database |
US7778816B2 (en) | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
US7050964B2 (en) | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
US7734459B2 (en) | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US20030033138A1 (en) * | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
US7130861B2 (en) | 2001-08-16 | 2006-10-31 | Sentius International Corporation | Automated creation and delivery of database content |
US7325194B2 (en) | 2002-05-07 | 2008-01-29 | Microsoft Corporation | Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US7281245B2 (en) | 2002-06-05 | 2007-10-09 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7392479B2 (en) | 2002-06-27 | 2008-06-24 | Microsoft Corporation | System and method for providing namespace related information |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US7356457B2 (en) * | 2003-02-28 | 2008-04-08 | Microsoft Corporation | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US7558841B2 (en) | 2003-05-14 | 2009-07-07 | Microsoft Corporation | Method, system, and computer-readable medium for communicating results to a data query in a computer network |
US7739588B2 (en) | 2003-06-27 | 2010-06-15 | Microsoft Corporation | Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data |
US7434157B2 (en) | 2003-12-09 | 2008-10-07 | Microsoft Corporation | Programmable object model for namespace or schema library support in a software application |
US7178102B1 (en) | 2003-12-09 | 2007-02-13 | Microsoft Corporation | Representing latent data in an extensible markup language document |
US7404195B1 (en) | 2003-12-09 | 2008-07-22 | Microsoft Corporation | Programmable object model for extensible markup language markup in an application |
US7487515B1 (en) | 2003-12-09 | 2009-02-03 | Microsoft Corporation | Programmable object model for extensible markup language schema validation |
US7814089B1 (en) | 2003-12-17 | 2010-10-12 | Topix Llc | System and method for presenting categorized content on a site using programmatic and manual selection of content items |
US8271495B1 (en) | 2003-12-17 | 2012-09-18 | Topix Llc | System and method for automating categorization and aggregation of content from network sites |
US7509573B1 (en) | 2004-02-17 | 2009-03-24 | Microsoft Corporation | Anti-virus security information in an extensible markup language document |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US9886478B2 (en) * | 2005-10-07 | 2018-02-06 | Honeywell International Inc. | Aviation field service report natural language processing |
US7930647B2 (en) * | 2005-12-11 | 2011-04-19 | Topix Llc | System and method for selecting pictures for presentation with text content |
US7739255B2 (en) * | 2006-09-01 | 2010-06-15 | Ma Capital Lllp | System for and method of visual representation and review of media files |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US20080109305A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Using internet advertising as a test bed for radio advertisements |
US20080109409A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Brokering keywords in radio broadcasts |
US20080109845A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | System and method for generating advertisements for use in broadcast media |
US9405732B1 (en) | 2006-12-06 | 2016-08-02 | Topix Llc | System and method for displaying quotations |
US8065307B2 (en) | 2006-12-20 | 2011-11-22 | Microsoft Corporation | Parsing, analysis and scoring of document content |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
WO2009016559A1 (en) * | 2007-08-01 | 2009-02-05 | Koninklijke Philips Electronics N.V. | Accessing medical image detabases using medically relevant terms |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US9262395B1 (en) | 2009-02-11 | 2016-02-16 | Guangsheng Zhang | System, methods, and data structure for quantitative assessment of symbolic associations |
US8380489B1 (en) | 2009-02-11 | 2013-02-19 | Guangsheng Zhang | System, methods, and data structure for quantitative assessment of symbolic associations in natural language |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US8577718B2 (en) | 2010-11-04 | 2013-11-05 | Dw Associates, Llc | Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
US8952796B1 (en) | 2011-06-28 | 2015-02-10 | Dw Associates, Llc | Enactive perception device |
US9442930B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9442928B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US9195647B1 (en) | 2012-08-11 | 2015-11-24 | Guangsheng Zhang | System, methods, and data structure for machine-learning of contextualized symbolic associations |
US9311297B2 (en) * | 2013-03-14 | 2016-04-12 | Prateek Bhatnagar | Method and system for outputting information |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10146751B1 (en) | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
US20170242932A1 (en) * | 2016-02-24 | 2017-08-24 | International Business Machines Corporation | Theft detection via adaptive lexical similarity analysis of social media data streams |
US10042842B2 (en) | 2016-02-24 | 2018-08-07 | Utopus Insights, Inc. | Theft detection via adaptive lexical similarity analysis of social media data streams |
US10459900B2 (en) * | 2016-06-15 | 2019-10-29 | International Business Machines Corporation | Holistic document search |
RU2672393C2 (ru) * | 2016-09-20 | 2018-11-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система автоматического создания тезауруса |
CN113779062B (zh) * | 2021-02-23 | 2025-02-21 | 北京沃东天骏信息技术有限公司 | Sql语句生成方法、装置、存储介质及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
JPH0724055B2 (ja) * | 1984-07-31 | 1995-03-15 | 株式会社日立製作所 | 単語分割処理方法 |
JPH083815B2 (ja) * | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | 自然言語の共起関係辞書保守方法 |
JPS6410300A (en) * | 1987-07-03 | 1989-01-13 | Hitachi Ltd | User's interface system for searching |
US4849898A (en) * | 1988-05-18 | 1989-07-18 | Management Information Technologies, Inc. | Method and apparatus to identify the relation of meaning between words in text expressions |
-
1989
- 1989-03-10 NL NL8900587A patent/NL8900587A/nl not_active Application Discontinuation
-
1990
- 1990-02-26 EP EP90200462A patent/EP0386825A1/en not_active Withdrawn
- 1990-03-02 US US07/487,649 patent/US5128865A/en not_active Expired - Fee Related
- 1990-03-02 CA CA002011411A patent/CA2011411A1/en not_active Abandoned
- 1990-03-08 JP JP2057862A patent/JPH0387975A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP0386825A1 (en) | 1990-09-12 |
JPH0387975A (ja) | 1991-04-12 |
CA2011411A1 (en) | 1990-09-10 |
US5128865A (en) | 1992-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NL8900587A (nl) | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. | |
US6055528A (en) | Method for cross-linguistic document retrieval | |
Mikheev | Automatic rule induction for unknown-word guessing | |
Picchi et al. | Cross-language information retrieval: A system for comparable corpus querying | |
Tong et al. | Evaluation of Syntactic Phrase Indexing--CLARIT NLP Track Report. | |
Vivaldi et al. | Improving term extraction by system combination using boosting | |
Jacquemin et al. | Retrieving terms and their variants in a lexicalized unification-based framework | |
Medelyan et al. | Thesaurus-based index term extraction for agricultural documents | |
Wu et al. | ACTS: An automatic Chinese text segmentation system for full text retrieval | |
Passaro et al. | Extracting terms with extra | |
Sato et al. | Automatic collection of related terms from the web | |
Mueller et al. | Causal analysis of syntactic agreement neurons in multilingual language models | |
Nokkaew et al. | Keyphrase extraction as topic identification using term frequency and synonymous term grouping | |
Hodász et al. | MetaMorpho TM: a linguistically enriched translation memory | |
KR20020036059A (ko) | 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법 | |
Grefenstette | SEXTANT: Extracting semantics from raw text implementation details | |
Rocha | Supporting anaphor resolution in dialogues with a corpus-based probabilistic model | |
JPH0844763A (ja) | キーワード自動抽出装置 | |
Austin | Vocabulary control and information technology | |
Terryn et al. | Validating multilingual hybrid automatic term extraction for search engine optimisation: the use case of EBM-GUIDELINES | |
Zhou | Phrasal terms in real-world IR applications | |
Simonnæs | Vague legal concepts: A contradictio in adjecto? | |
Maragoudakis et al. | Learning subcategorization frames from corpora: A case study for modern Greek | |
Siegel et al. | Gathering statistics to aspectually classify sentences with a genetic algorithm | |
Oakes | Statistical measures for corpus profiling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A1B | A search report has been drawn up | ||
BV | The patent application has lapsed |