[go: up one dir, main page]

SE524595C2 - Förfarande och datorprogram för normalisering av stilkast - Google Patents

Förfarande och datorprogram för normalisering av stilkast

Info

Publication number
SE524595C2
SE524595C2 SE0003433A SE0003433A SE524595C2 SE 524595 C2 SE524595 C2 SE 524595C2 SE 0003433 A SE0003433 A SE 0003433A SE 0003433 A SE0003433 A SE 0003433A SE 524595 C2 SE524595 C2 SE 524595C2
Authority
SE
Sweden
Prior art keywords
style
word type
input word
throw
variant
Prior art date
Application number
SE0003433A
Other languages
English (en)
Other versions
SE0003433D0 (sv
SE0003433L (sv
Inventor
Eva Ingegerd Ejerhed
Original Assignee
Hapax Information Systems Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hapax Information Systems Ab filed Critical Hapax Information Systems Ab
Priority to SE0003433A priority Critical patent/SE524595C2/sv
Publication of SE0003433D0 publication Critical patent/SE0003433D0/sv
Priority to US09/672,101 priority patent/US6385630B1/en
Priority to DE60136478T priority patent/DE60136478D1/de
Priority to PCT/SE2001/002069 priority patent/WO2002027539A1/en
Priority to EP01970463A priority patent/EP1325429B1/en
Priority to AU2001290464A priority patent/AU2001290464A1/en
Priority to AT01970463T priority patent/ATE413651T1/de
Priority to ES01970463T priority patent/ES2316474T3/es
Publication of SE0003433L publication Critical patent/SE0003433L/sv
Publication of SE524595C2 publication Critical patent/SE524595C2/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)

Description

25 30 35 524- 595 . . A n en 2 Sammanfattning av uppfinningen Ett syfte med föreliggande uppfinning är att undanröja problemet med förlust av information som är förenat med stilkastokänslighet respektive problemet med stora ordtypuppsättningar som är förenat med stilkastkänslighet, två tillvägagångssätt bibehålls. Detta syfte åstadkoms samtidigt som fördelarna med dessa genom ett förfarande för automatiskt särskiljande av betydelsefulla från betydelselösa varianter med stor och liten bokstav i ett antal inmatade ordtyper enligt de bifogade patentkraven.
Uppfinningen baseras på insikten att lokal information, såsom förekomsten av och platsen för stor bokstav i ordtyper, tillsammans med global information, såsom förekomsten av ordtyper som endast skiljer sig från varandra med avseende på en eller flera bokstävers stilkast, i bokstavens stilkast är betydelsefull eller inte. kan användas för fastställande av om skillnaden Enligt en aspekt av uppfinningen tillhandahålls ett förfarande för automatisk särskiljande av betydelselösa från betydelsefulla skillnader mellan stor och liten bokstav i ett antal inmatade ordtyper med hjälp av en dator. Enligt förfarandet hänförs en inmatad ordtyp en av ett antal disjunkta lokala grupper baserat på stilkasten på och platsen för bokstäver som tillsammans bildar ordtypen. Vidare hänförs ordtypen till ett antal disjunkta globala grupper baserat på vilka lokala grupper som stilkastvarianter av den inmatade ordtypen tillhör.
Slutligen normaliseras nämnda inmatade ordtyps stilkast i enlighet med i förväg bestämda regler som är associerade med de globala grupperna som nämnda inmatade ordtyp tillhör.
Enligt denna aspekt av uppfinningen matas ett stort antal ordtyper som har identifierats i en väldigt stor textdatabas in till en dator. Ordtyperna matas in såsom de uppträder i textdatabasen, d v s stilkasterna på ordtypernas bokstäver bibehålls. Således kommer två - - n Q . « . u nu 10 15 20 25 30 35 524 595 . + . . .- u u . v ø : | f. 3 löpord i textdatabasen som är identiska med undantag av en eller flera bokstävers stilkast att matas in som tvá olika ordtyper, medan tvà löpord i textdatabasen som är identiska även vad beträffar bokstävernas stilkast kommer att matas in som en ordtyp. Förfarande som utförs helautomatiskt med hjälp av en dator använder sedan både lokal information och global information beträffande ordtypernas stilkast. Den lokala informationen är stilkasterna pà och platserna för bokstäverna som tillsammans bildar ordtyperna, såsom begynnelsebokstavens stilkast och icke-initiala bokstävers stilkast. Vad beträffar den globala informationen används enligt uppfinningen det faktum att det finns ordtyper som endast skiljer sig från varandra med avseende pà en eller flera bokstävers stilkast. Dessa ordtyper är stilkastvarianter av en gemensam ordtyp. Det har insetts att det, genom att man fastställer vilka olika stilkastvarianter som finns för en gemensam ordtyp, är möjligt att med en rimlig säkerhetsnivà fastställa om skillnaden mellan stilkastvarianterna är betydelsefull eller inte och, om den inte är det, till vilken stilkastvariant som stilkastvarianterna skall normaliseras. Termen hänförs i uttrycket "hänförs till ett antal disjunkta lokala grupper" och "hänförs till ett antal disjunkta globala grupper" skall tolkas brett sà att det inte endast täcker en verklig gruppering av de inmatade ordtyperna utan även en mer teoretisk insikt om att det finns olika typer av ordtyper vad beträffar de lokala och globala egenskaperna av intresse. Vidare innefattar de i förväg bestämda reglerna även regler som detekterar när ingen normalisering skall göras vilket inträffar när stilkasterna pà bokstäverna i ordtyperna anses vara betydelsefulla. inmatade ordtyper som inte har nägra stilkastvarianter På detta sätt bevaras stilkasterna för de och för de inmatade ordtyper som har stilkastvarianter för vilka stilkastskillnaderna anses vara betydelsefulla medan stilkasterna normaliseras för inmatade ordtyper för 10 15 20 25 30 35 -524 595 . « . I n; n . u | « - u 4 vilka stilkastskillnaderna anses vara betydelselösa. En fördel med detta förfarande är att antalet ordtyper, som exempelvis skall lagras i en databas, minskas. Samtidigt bevaras den information som meddelas av stilkasten när stilkasten anses vara betydelsefullt. Således kommer storleken på databasen att minskas vilket kommer att minska kostnaden för databasen och öka hastigheten på uppslag i databasen.
Förfarandet är generellt, språkoberoende och tillämpbart på teckenuppsåttningar i språk för vilka standardortografi skiljer på stor ock liten bokstav.
Förfarandet har tillämpningar i indexerings- och uppslagsförfaranden i system för informationsàtervinning och i komponenter för lexikal analys hos system för textanalys.
I en utföringsform av förfarandet enligt uppfinningen normaliseras stilkastvarianterna av en inmatad ordtyp till en given stilkastvariant som är i förväg bestämd för en given global grupp för den inmatade ordtypen. Således finns det för varje global grupp en stilkastform som anses var normalformen och alla stilkastvarianter av en ordtyp av en given global grupp normaliseras till den normalformen. Detta baseras på insikten att olika typer av ordtyper, såsom namn, akronymer, substantiv etc., kommer att förekomma i en viss uppsättning av stilkastvarianter i en text på naturligt språk, och att uppsättningen av stilkastvarianter för en ordtyp som återfinns i en stor text på naturligt språk indikerar vilken typ av ordtyp ordtypen är.
I en annan utföringsform av förfarandet enligt uppfinningen associeras varje ordtyp med en frekvens som anger antalet förekomster av den inmatade ordtypen i texten pà naturligt språk. Stilkastvarianterna av en inmatad ordtyp normaliseras sedan i enlighet med i förväg bestämda regler som är associerade med (a) den globala grupp som den inmatade ordtypen tillhör och (b) - u n ø u vn 10 15 20 25 30 35 524 595 šïï; . » u v ø no 5 frekvensen för stilkastvarianterna av den inmatade ordtypen. I denna utföringsform används sàledes den ytterligare informationen avseende antalet gånger varje ordtyp har förekommit i texten på naturligt språk i fastställandet av om och hur en inmatad ordtyp skall normaliseras. Exempelvis kan information om frekvensen för varje stilkastvariant av en ordtyp indikera att standardnormaliseringen som är associerad med den globala gruppen av stilkastvarianterna inte skall tillämpas. Även om det finns en form vad beträffar stilkast som anses vara normalformen till vilken alla stilkastvarianter av en ordtyp skall normaliseras, skall detta inte göras i vissa fall. Detta kan exempelvis vara fallet när en stilkastvariant som anses vara normalformen har en frekvens som är avsevärt mindre än frekvensen för en annan stilkastvariant. Detta baseras på insikten att det, även om uppsättningen av stilkastvarianter som en ordtyp har i en text pá naturligt språk indikerar vilken typ av ordtyp ordtypen är, finns undantag frán detta. Dessa undantag kan identifieras genom att hänsyn tas även till frekvensen för varje stilkastvariant. Detta förbättrar förfarandets prestanda vad beträffar normaliseringens korrekthet.
I ytterligare en utföringsform av förfarandet enligt uppfinningen associeras varje inmatad ordtyp med en meningsposition som indikerar om den inmatade ordtypen förekom i en meningsintern position och/eller i en meningsinledande position i texten pà naturligt språk.
Stilkastvarianterna av en inmatad ordtyp normaliseras sedan i enlighet med i förväg bestämda regler som hänför sig till den globala gruppen för den inmatade ordtypen och till meningspositionerna för stilkastvarianterna av den inmatade ordtypen. I denna utföringsform kan även information avseende varje specifik grupp av stilkastvarianter vägas in vid fastställande av om och hur en inmatad ordtyp skall normaliseras. Information avseende meningspositionen för varje stilkastvariant av | ~ n ~ « -ø 10 15 20 25 30 35 524 595 | » . | .u n u « . . . ., 6 en ordtyp kan exempelvis indikera att standardnormaliseringen som är associerad med den globala gruppen för stilkastvarianterna inte skall tillämpas. Även om det finns en stilkastform som anses vara normalformen till vilken alla stilkastvarianter av en ordtyp skall normaliseras, skall detta således inte göras i vissa fall. När en stilkastvariant med en stor begynnelsebokstav och en annan stilkastvariant med en liten begynnelsebokstav båda uppträder i meningsinterna positioner i den naturliga texten, indikerar detta exempelvis att stilkastskillnaderna är betydelsefull och att ingen normalisering skall göras. Detta baseras pà insikten att det även om uppsättningen stilkastvarianter av en ordtyp indikerar vilken typ av ordtyp som ordtypen är finns undantag för detta. Dessa undantag kan identifieras genom att hänsyn tas även till vilken meningsposition som varje stilkastvariant har förekommit i. Detta förbättrar förfarandets prestanda vad beträffar bevarandet av betydelsefulla stilkastskillnader.
Kort beskrivning av ritningarna I det följande àskàdliggörs föreliggande uppfinning medelst exempel och inte begränsning med hänvisning till de åtföljande ritningarna, pà vilka: figur 1 är ett flödesschema över en första utföringsform av ett förfarande enligt uppfinningen; figur 2 är ett flödesschema över en andra utföringsform av ett förfarande enligt uppfinningen; och figur 3 är ett flödesschema över en tredje utföringsform av ett förfarande enligt uppfinningen.
Detaljerad beskrivning av uppfinningen I figur 1 visas ett flödesschema över en första utföringsform av ett förfarande enligt uppfinningen. Ett antal ordtyper har identifierats i en stor textdatabas som innefattar text pà naturligt språk. Ordtyperna matas sedan in till en dator eller liknande. Ordtyperna matas 10 15 20 25 30 35 5-24 595 . - n | .o v q u ~ u ao 7 in såsom de uppträder i textdatabasen, d v s stilkasterna på bokstäverna hos ordtyperna bibehålls. Således kommer två löpord i textdatabasen som är identiska med undantag av en eller flera bokstävers stilkast att matas in som två olika ordtyper medan två löpord i textdatabasen som är identiska även vad beträffar bokstävernas stilkast kommer att matas in som en ordtyp. Ordtyper som skiljer sig från varandra endast med avseende på en eller flera bokstävers stilkast kommer i det följande att kallas stilkastvarianter av en gemensam ordtyp. Enligt utföringsformen av förfarandet hänförs varje ordtyp som börjar med ett alfabetiskt tecken till en av fyra disjunkta lokala grupper i steg 110. En ordtyp hänförs till en lokal grupp på basis av stilkasten på ordtypens begynnelsebokstav och stilkasten på ordtypens icke- initiala bokstäver. Närmare bestämt hänförs i steg 1l5A varje ordtyp som har en stor begynnelsebokstav och inte har någon liten icke-initial bokstav till en första lokal grupp (LGl). I steget ll5B hänförs varje ordtyp som har en stor begynnelsebokstav och åtminstone en liten icke- initial bokstav till en andra lokal grupp (LG2). I steg 115C hänförs varje ordtyp som har en liten begynnelsebokstav och inte har någon liten icke-initial bokstav till en tredje lokal grupp (LG3). I steg ll5D hänförs varje ordtyp som har en liten begynnelsebokstav och åtminstone en stor icke-initial bokstav till en fjärde lokal grupp (LG4). Efter identifieringen av lokal information, d v s information som kan erhållas genom att varje ordtyp betraktas endast i sin lokala kontext, hänförs varje ordtyp till en av fyra globala grupper i steg 120. En ordtyp hänförs till en global grupp på basis av de lokala grupper vilka stilkastvarianterna av ordtypen tillhör. Identifieringen av stilkastvarianterna, d v s ordtyper som är lika varandra med undantag för en eller flera bokstävers stilkast kan göras pà flera olika sätt som är uppenbara för en fackman inom området. När alla stilkastvarianter har hittats för en gemensam ordtyp ~ . ø o n n n n .nu 10 15 20 25 30 35 524 595 ---- -- . o « . uu 8 identifieras de lokala grupper vilka stilkastvarianterna tillhör. Om åtminstone en stilkastvariant tillhör den första lokala gruppen och åtminstone en stilkastvariant av ordtypen tillhör den andra lokala gruppen samt inga stilkastvarianter tillhör den tredje lokala gruppen, hänförs ordtypen till en första global grupp (GGl) i steg 125A. Om åtminstone en stilkastvariant tillhör den första lokala gruppen och åtminstone en stilkastvariant av ordtypen tillhör den tredje lokala gruppen samt inga stilkastvarianter tillhör den andra lokala gruppen, hänförs ordtypen till en andra global grupp (GG2) i steg l25B. Om åtminstone en stilkastvariant tillhör den andra lokala gruppen och åtminstone en stilkastvariant av ordtypen tillhör den tredje lokala gruppen samt inga stilkastvarianter tillhör den första lokala gruppen, hänförs ordtypen till den tredje globala gruppen (GG3) i steg 125C. Om åtminstone en stilkastvariant tillhör den första lokala gruppen och åtminstone en stilkastvariant av ordtypen tillhör den andra lokala gruppen samt åtminstone en stilkastvariant tillhör den tredje lokala gruppen, hänförs ordtypen till den fjärde globala gruppen (GG4) i steg 125D. På detta sätt identifieras global information, d v s information som kan erhållas genom analys av förekomsten av en ordtyp och stilkastvarianter av ordtypen i en fullständig databas. Den globala informationen används sedan i steg 130 vid normalisering av ordtypernas stilkast i enlighet med i förväg bestämda regler som är associerade med varje global grupp. De i förväg bestämda reglerna baseras på empirisk kunskap om betydelsen av stilkast för ordtyper som förekommer som vissa stilkastvarianter i en textdatabas och den mest sannolika normalformen vad gäller stilkast för dessa ordtyper. I denna utföringsform normaliseras varje inmatad ordtyp som tillhör den första globala gruppen till stilkastvarianten som tillhör den andra lokala gruppen. Varje imatad ordtyp som tillhör den andra globala gruppen normaliseras till stilkastvarianten av V 10 15 20 25 30 35 524- 595 | ø o » un 9 ordtypen som tillhör den tredje lokala gruppen. Varje inmatad ordtyp som tillhör den tredje globala gruppen normaliseras till stilkastvarianten som tillhör den tredje lokala gruppen. Varje inmatad ordtyp som tillhör den fjärde globala gruppen normaliseras till ordtypen som tillhör den andra lokala gruppen.
För exemplifiering av utföringsformen som beskrivs med hänvisning till figur 1 kommer fyra olika exempel som är associerade med olika globala grupper att ges i det följande. I ett första exempel har de två ordtyperna "CALIFORNIA" och "California" matats in till förfarandet.
Dessa ordtyper är stilkastvarianter av en gemensam ordtyp. Stilkastvarianten "CALIFORNIA" hänförs till den första lokala gruppen och stilkastvarianten "California" hänförs till den andra lokala gruppen. Således hänförs de två stilkastvarianterna båda till den första globala gruppen och kommer att normaliseras till stilkastvarianten som tillhör den andra lokala gruppen, d v s stilkastvarianten "California". En anledning till att normaliseringen görs till stilkastvarianten som tillhör den andra lokala gruppen är att ordtyper som tillhör den första globala gruppen normalt är namn som har förekommit i en rubrik (första lokala gruppen) och i vanlig text (andra lokala gruppen). Således anses stilkastskillnaden mellan de tvä stilkastvarianterna inte vara betydelsefull och stilkastvarianterna som tillhör den första globala gruppen normaliseras till stilkastvarianten som tillhör den andra lokala gruppen, som anses vara normalformen.
I ett andra exempel har de två ordtyperna "SUMMARY" och "summary" matats in till förfarandet. I detta exempel hänförs stilkastvarianten "SUMMARY" till den första lokala gruppen och hänförs stilkastvarianten "summary" till den tredje lokala gruppen. Således hänförs de tvà stilkastvarianterna båda till den andra globala gruppen och kommer att normaliseras till den stilkastvariant som tillhör den tredje lokala gruppen, d v s p - o o | - u c u vn 10 15 20 25 30 35 un con o c n; e' .n i oi v o 0 o nu n | n I b- a v o n o o n s ' n; u; n' o n n n; c s z u \ø n « o a ' U e n 10 stilkastvarianten "summary". En anledning till att normaliseringen görs till stilkastvarianten som tillhör den tredje lokala gruppen är att ordtyper som hänförs till den andra globala gruppen normalt är substantiv, verb, prepositioner, etc. som har förekommit i en rubrik (första lokala gruppen) och i vanlig text (tredje lokala gruppen). Således anses stilkastskillnaden mellan de två stilkastvarianterna inte vara betydelsefull och stilkastvarianterna som tillhör den andra globala gruppen normaliseras till stilkastvarianten som tillhör den tredje lokala gruppen som anses vara normalformen.
I ett tredje exempel har de två ordtyperna "Often" och "often" matats in till förfarandet. I detta exemplet till den andra lokala till den hänförs stilkastvarianten "Often" gruppen, tredje lokala gruppen. Således hänförs de två och hänförs stilkastvarianten "often" stilkastvarianterna båda till den tredje globala gruppen och kommer att normaliseras till stilkastvarianten som tillhör den tredje lokala gruppen, d v s stilkastvarianten "often". En anledning till att normaliseringen görs till stilkastvarianten som tillhör den tredje lokala gruppen är att ordtyper som tillhör den tredje globala gruppen normalt är substantiv, verb, prepositioner, etc. som har förekommit både i en begynnelseposition i en mening (andra lokala gruppen) och en intern position i en mening (tredje lokala gruppen).
Således anses stilkastskillnaden inte vara betydelsefull och stilkastvarianterna som tillhör den tredje globala gruppen normaliseras till den stilkastvariant som tillhör den tredje lokala gruppen, som anses vara normalformen.
Slutligen har i ett fjärde exempel de tre ordtyperna "ALICE, detta exempel hänförs stilkastvarianten "ALICE" till den "Alice" och "alice" matats in till förfarandet. I första lokala gruppen, hänförs stilkastvarianten "Alice" till den andra lokala gruppen och hänförs stilkastvarianten "alice" till den tredje lokala gruppen.
Således hänförs de tre stilkastvarianterna alla till den 10 15 20 25 30 35 524 595 - . u w - | - ø u. ll fjärde globala gruppen och kommer att normaliseras till den stilkastvariant som tillhör den andra lokala gruppen, d v s stilkastvarianten "Alice". En anledning till att normalisering görs till stilkastvarianten som tillhör den andra lokala gruppen är att ordtyper som tillhör den fjärde globala gruppen normalt är namn som har förekommit i en rubrik (första lokala gruppen), i normal text (andra lokala gruppen) och exempelvis i en e-postadress (tredje lokala gruppen). Således anses stilkastskillnaden inte vara betydelsefull och stilkastvarianterna som tillhör den fjärde globala gruppen normaliseras till stilkastvarianten som tillhör den andra lokal gruppen, som anses vara normalformen.
I figur 2 visas ett flödesschema över en andra utföringsform av ett förfarande enligt uppfinningen.
Såsom i utföringsformen som beskrivs med hänvisning till figur 1 matas ett antal ordtyper som har identifierats i en stor textdatabas som innefattar text på naturligt språk in till en dator. Enligt denna andra utföringsform associeras varje inmatad ordtyp med en frekvens som indikerar antalet förekomster av den inmatade ordtypen i texten på naturligt språk. Stegen att hänföra ordtyperna till de lokala grupperna och de globala grupperna skiljer sig inte från den första utföringsformen. Följaktligen beskrivs dessa inte ytterligare här. Skillnaden från den första utföringsformen påträffas i steget 230 där stilkast normaliseras. I denna utföringsform normaliseras en inmatad ordtyps stilkast i enlighet med i förväg bestämda regler som är associerade med (1) den inmatade ordtypens globala grupp (2) frekvensen för varje stilkastvariant av den inmatade ordtypen. Närmare bestämt normaliseras, för inmatade ordtyper som tillhör den första globala gruppen, den andra globala gruppen eller den tredje globala gruppen, stilkast till stilkasten på den stilkastvariant av den inmatade ordtypen som har den största frekvensen. I fallet med oavgjort resultat vid låga frekvenser för stilkastvarianter normaliseras 10 15 20 25 30 35 -524 595 - . | ~ n 12 stilkast till den förinställda normalformen för respektive global grupp. I fallet med oavgjort resultat vid höga frekvenser är skillnaden mellan stilkastvarianter betydelsefull och normalisering blockeras. För inmatade ordtyper som tillhör den fjärde globala gruppen finns två alternativ. Om frekvensen för stilkastvarianten som tillhör den andra lokala gruppen är större än frekvensen för stilkastvarianten som tillhör den första lokala gruppen, normaliseras stilkast till den stilkastvariant som tillhör den andra lokala gruppen. Om frekvensen för stilkastvarianten som tillhör den andra lokala gruppen är mindre än frekvensen för stilkastvarianten som tillhör den första lokala gruppen, så normaliseras stilkasten på den inmatade ordtypen till stilkastvarianten som tillhör den första lokala gruppen.
Behandlingen av det andra paret som består av stilkastvarianten som tillhör den första lokala gruppen och stilkastvarianten som tillhör den tredje lokala gruppen är analog.
För exemplifiering av utföringsformen som beskrivs med hänvisning till figur 2 kommer tvà olika exempel som är associerade med olika globala grupper att ges i det följande. I ett första exempel har de två ordtyperna "UNESCO" två ordtyper är stilkastvarianter av en gemensam ordtyp.
Stilkastvarianten "UNESCO" hänförs till den första lokala och "Unesco" matats in till förfarandet. Dessa gruppen och stilkastvarianten "Unesco" hänförs till den andra lokala gruppen. I detta exempel associeras de två stilkastvarianterna med sina respektive frekvenser och är större än Trots att stilkastvarianterna tillhör den första globala gruppen, frekvensen för stilkastvarianten "UNESCO" frekvensen för stilkastvarianten "Unesco". för vilken den förinställda normalformen är stilkastvarianten som tillhör den andra lokala gruppen, kommer de således att normaliseras till stilkastvarianten som tillhör den första lokala gruppen istället, d v s stilkastvarianten "UNESCO". Detta beror pà att respektive 10 15 20 25 30 35 524 595 | A . ~ n» p - - . « . - - v : ~ | ~ u 13 frekvens av stilkastvarianterna åsidosätter de i förväg bestämda reglerna som är associerade med de globala grupperna. I detta exempel är stilkastvarianterna akronymer för vilka stilkastvarianten som tillhör den första globala gruppen anses vara normalformen.
I ett andra exempel har de tre ordtyperna "ATM", "Atm" och "atm" matats in till förfarandet. I detta exempel associeras de tre stilkastvarianterna med sina frekvenser och frekvensen för stilkastvarianten "ATM" är större än frekvensen för stilkastvarianten "Atm". Trots att stilkastvarianterna hänförs till den fjärde globala gruppen kommer de således att normaliseras till stilkastvarianten som tillhör den första lokala gruppen, d v s den första stilkastvarianten "ATM". Detta beror pà att respektive frekvens för stilkastvarianterna åsidosätter de i förväg bestämda reglerna som är associerade med den globala gruppen. I detta exempel är stilkastvarianterna akronymer för vilka stilkastvarianterna som tillhör den första globala gruppen anses vara normalformen.
I figur 3 visas ett flödesschema över en tredje utföringsform av ett förfarande enligt uppfinningen.
Sàsom i utföringsformen som beskrivs med hänvisning till figur 1 matas ett antal ordtyper som har identifierats i en stor textdatabas som innefattar text pà naturligt språk in till en dator. Enligt denna tredje utföringsform associeras varje inmatad ordtyp även med en meningsposition som indikerar om den inmatade ordtypen förekom i en meningsintern position och/eller i en begynnelseposition av en mening i texten pà naturligt språk. Stegen att hänföra ordtyperna till de lokala grupperna och de globala grupperna skiljer sig inte fràn den första utföringsformen. Således beskrivs dessa inte ytterligare här. Skillnaden fràn den första utföringsformen påträffas i steget 330 där stilkast normaliseras. I denna utföringsform normaliseras varje inmatad ordtyps stilkast i enlighet med i förväg bestämda 10 15 20 25 30 35 » . - ~ n u n 14 regler som är associerade med (1) den inmatade ordtypens globala grupp och (2) meningspositionen för varje stilkastvariant av den inmatade ordtypen. Närmare bestämt normaliseras en inmatad ordtyps stilkast enligt samma regler som i utföringsformen som beskriv med hänvisning till figur 1 med tvà undantag. Om en inmatad ordtyp tillhör den tredje eller fjärde globala gruppen, kommer normaliseringen inte att utföras om stilkastvarianten som tillhör den andra globala gruppen är associerad med en meningsposition som indikerar att den inmatade ordtypen förekom i en meningsintern position i texten pà naturligt spräk.
För exemplifiering av utföringsformen som beskrivs med hänvisning till figur 3, kommer ett exempel att ges i det följande. I exemplet har de tvà ordtyperna "Bill" och "bill" matats in till förfarandet. Dessa ordtyper är stilkastvarianter av en gemensam ordtyp.
"Bill" gruppen och stilkastvarianten "bill" hänförs till den Stilkastvarianten hänförs till den andra lokala tredje lokala gruppen. I detta exempel associeras de tvä stilkastvarianterna med meningspositionsinformation.
Meningspositionsinformationen avseende stilkastvarianten "Bill" bàde i en meningsinledande position och i en indikerar att stilkastvarianten har förekommit meningsintern position i texten pà naturligt språk.
Således kommer ingen normalisering av stilkast att "bill". beror på att meningspositionen för stilkastvarianterna utföras för stilkastvarianterna "Bill" och Detta indikerar att de i förväg bestämda reglerna som är associerade med den globala gruppen inte skall användas.
I detta exempel meddelar skillnaden i stilkast information som skall bevaras. Närmare bestämt kan "Bill" vanligt engelskt substantiv. Om de tvä ordtyperna "Car" stilkastvarianten bàde vara ett namn och ett och "car" har matats in till förfarandet och meningspositionsinformationen avseende stilkastvarianten "Car" indikerar att denna stilkastvariant endast 10 15 n n nnn n n n: nn nn n nu nnnn _ n u n n n » n n n n n n nn n u n n n n n n . n n n n n n n n.. n ~ n n nn - . n n n n n n n n n n n n n :n n . n n n n n n c n n n un: nn ~.n 15 förekommer i en meningsinledande position medan meningspositionsinformationen avseende stilkastvarianten "car" indikerar att denna variant endast förekommer i en meningsintern position, skulle reglerna hos utföringsformen som beskrivs med hänvisning till figur 1 användas och de tvà stilkastvarianterna normaliseras till stilkastvarianten som tillhör den tredje lokala gruppen, d v s stilkastvarianten "car".
Utföringsformerna som beskrivs ovan kan implementeras i ett datorprogram som innefattar datorexekverbara instruktioner för utförande av stegen.
Datorprogrammet kan sedan lagras pà ett godtyckligt datorläsbart medium och utföringsformen kan sedan utföras med hjälp av en generell dator som har tillgång till detta medium. Vidare kan utföringsformerna även realiseras direkt i maskinvara, såsom en eller flera datorprocessorer som är anordnade att utföra stegen.

Claims (15)

10 15 20 25 30 35 524 595 - . | . nu 16 PATENTKRAV
1. Förfarande för automatiskt särskiljande av betydelsefulla fràn betydelseslösa skillnader mellan stor och liten bokstav i ett antal inmatade ordtyper från en text pà naturligt spräk med hjälp av en dator, innefattande stegen: att hänföra en inmatad ordtyp till en av ett antal disjunkta lokala grupper baserat pá stilkasten pà och positionen för bokstäverna som tillsammans bildar ordtypen; att hänföra nämnda inmatade ordtyp till en av ett antal disjunkta globala grupper baserat pà vilka lokala grupper som stilkastvarianter av den inmatade ordtypen tillhör; att normalisera stilkast för nämnda inmatade ordtyp och i enlighet med i förväg bestämda regler som är associerade med den globala gruppen som nämnda inmatade ordtyp tillhör.
2. Förfarande enligt patentkrav 1, varvid steget att normalisera stilkast innefattar steget: att normalisera nämnda inmatade ordtyp enligt stilkasterna på den stilkastvariant av nämnda inmatade ordtyp som tillhör en lokal grupp som är i förväg bestämd för den globala gruppen som nämnda inmatade ordtyp tillhör.
3. Förfarande enligt patentkrav 1 eller 2, varvid steget att hänför en inmatad ordtyp till en av ett antal disjunkta lokala grupper innefattar steget: att hänföra en inmatad ordtyp till en av ett antal disjunkta grupper baserade pà stilkasten på nämnda ordtyps begynnelsebokstav och stilkasterna pà nämnda ordtyps icke-initiala bokstäver. 10 15 20 25 30 35 -524 595 Q . - e v. n 1 - v v Q u : - . » - n » . - n. 17
4. Förfarande enligt patentkrav 1 eller 2, varvid nämnda steg att hänföra en inmatad ordtyp till en av ett antal disjunkta lokala grupper innefattar stegen: att hänföra en inmatad ordtyp till en av ett antal disjunkta lokala grupper baserat på stilkasten pà ordtypens begynnelsebokstav och huruvida det finns några icke-initiala bokstäver hos nämnda inmatade ordtyp som har ett annat stilkast än den inmatade ordtypens begynnelsebokstav eller inte.
5. Förfarande enligt patentkrav 1 eller 2, varvid steget att hänföra en inmatad ordtyp till en av ett antal disjunkta lokala grupper innefattar stegen: att hänföra en inmatad ordtyp, som har en stor begynnelsebokstav och inte har nägra smà icke-initiala bokstäver, till en första lokal grupp; att hänföra en inmatad ordtyp, som har en stor begynnelsebokstav och har åtminstone en liten icke- initial bokstav, till en andra lokal grupp; att hänföra en inmatad ordtyp, som har en liten begynnelsebokstav och inte har nâgra små icke-initiala bokstäver, till en tredje lokal grupp; och att hänföra en inmatad ordtyp, som har en liten begynnelsebokstav och àtminstone en stor icke-initial bokstav, till en första lokal grupp.
6. Förfarande enligt patentkrav 5, varvid steget att hänföra nämnda inmatade ordtyp till en av ett antal disjunkta globala grupper innefattar stegen: att hänföra nämnda inmatade ordtyp till en första global grupp om en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda första lokala grupp, en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda andra lokala grupp och inte någon stilkastvariant av nämnda inmatade ordtyp tillhör nämnda tredje lokala 9rUPPi 10 15 20 25 30 35 524 595 « . - - . u n u u n ~ . ~ ~ s ~ . a nu 18 att hänföra nämnda inmatade ordtyp till en andra global grupp om en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda första lokala grupp, en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda tredje lokala grupp och inte någon stilkastvariant av nämnda inmatade ordtyp tillhör nämnda andra lokala grupp; att hänföra varje inmatad ordtyp till en tredje global grupp om en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda andra lokala grupp, en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda tredje lokala grupp och inte någon stilkastvariant av nämnda inmatade ordtyp tillhör nämnda första lokala grupp; att hänföra varje inmatad ordtyp till en fjärde och global grupp om en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda första lokala grupp, en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda andra lokala grupp och en stilkastvariant av nämnda inmatade ordtyp tillhör nämnda tredje lokala grupp.
7. Förfarande enligt patentkrav 6, varvid steget att normalisera stilkast innefattar stegen: att normalisera stilkast pà nämnda ordtyp enligt stilkasterna pä den stilkastvariant av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp om nämnda inmatade ordtyp tillhör nämnda första globala grupp; att normalisera stilkast pä nämnda ordtyp enligt stilkasterna pà den stilkastvariant av nämnda inmatade ordtyp som tillhör nämnda tredje lokala grupp om nämnda inmatade ordtyp tillhör nämnda andra globala grupp; att normalisera stilkast pà nämnda ordtyp enligt stilkasterna pà den stilkastvariant av nämnda inmatade ordtyp som tillhör nämnda tredje lokala grupp om nämnda inmatade ordtyp tillhör nämnda tredje globala grupp; och att normalisera stilkast pà nämnda ordtyp enligt stilkasterna pä den stilkastvariant av nämnda inmatade 10 15 20 25 30 35 19 ordtyp som tillhör nämnda andra lokala grupp om nämnda inmatade ordtyp tillhör nämnda fjärde globala grupp.
8. Förfarande enligt patentkrav l, varvid de inmatade ordtyperna var och en är associerade med en frekvensindikator som indikerar antalet förekomster av den inmatade ordtypen i nämnda text pà naturligt spràk, och varvid steget att normalisera stilkast innefattar steget att: normalisera stilkast pà nämnda inmatade ordtyp i enlighet med i förväg bestämda regler som är associerade med den globala gruppen som nämnda inmatade ordtyp tillhör och frekvensindikatorerna som stilkastvarianterna av nämnda ordtyp är associerad med.
9. Förfarande enligt patentkrav 6, varvid den inmatade ordtypen när associerad med en frekvensindikator som indikerar antalet förekomster av ordtypen i nämnda text pà naturligt språk, och varvid steget att normalisera innefattar steget att: normalisera stilkast pà nämnda inmatade ordtyp enligt stilkasterna pà den stilkastvariant av nämnda inmatade ordtypen som är associerad med den största frekvensindikatorn om nämnda inmatade ordtyp tillhör nämnda första globala grupp, nämnda andra globala grupp eller nämnda tredje globala grupp; att normalisera stilkast pà nämnda inmatade ordtyp enligt den stilkastvariant av nämnda inmatade ordtyp som tillhör den andra lokala gruppen om nämnda inmatade ordtyp tillhör den fjärde globala gruppen och stilkastvarianten av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp är associerad med en frekvensindikator som är större än frekvensindikatorn som stilkastvarianten av nämnda inmatade ordtyp som tillhör den första lokala gruppen är associerad med; och att normalisera stilkast pà nämnda inmatade ordtyp enligt den stilkastvariant av nämnda inmatade ordtyp som 10 l5 20 25 30 35 | u - v » u. 20 tillhör den första lokala gruppen om nämnda inmatade ordtyp tillhör den fjärde globala gruppen och stilkastvarianten av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp är associerad med en frekvensindikator som är mindre än frekvensindikatorn som stilkastvarianten av nämnda inmatade ordtyp som tillhör den första lokala gruppen är associerad med.
10. Förfarande enligt patentkrav 1, varvid nämnda inmatade ordtyper var och en är associerad med en meningspositionsindikator som indikerar om den inmatade ordtypen förekom i en intern position av en mening och/eller i en inledande position av en mening i nämnda text pà naturligt språk, och varvid steget att normalisera innefattar steget: att normalisera stilkast för nämnda inmatade ordtyp i enlighet med i förväg bestämda regler som är associerade med den globala gruppen som nämnda inmatade ordtypen tillhör och meningspositionsindikatorn som stilkastvarianterna av nämnda inmatade ordtyp är associerade med.
11. ll. Förfarande enligt patentkrav 6, varvid nämnda inmatade ordtyper var och en är associerad med en meningspositionsindikator som indikerar om den inmatade ordtypen förekom i en intern position av en mening och/eller i en inledande position av en mening i nämnda text på naturligt spràk, och varvid steget att normalisera stilkast innefattar stegen: att normalisera stilkast pà nämnda inmatade ordtyp enligt stilkasterna pà stilkastvarianten av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp om nämnda inmatade ordtyp tillhör nämnda första globala grupp; att normalisera stilkast pà nämnda inmatade ordtyp enligt stilkasterna på den stilkastvariant av nämnda inmatade ordtyp som tillhör nämnda tredjelokala grupp om 10 15 20 25 30 35 ' Ü ' (I aa! 21 nämnda inmatade ordtyp tillhör nämnda andra globala grupp; att normalisera stilkast på nämnda inmatade ordtyp enligt stilkasterna på den stilkastvariant av nämnda inmatade ordtyp som tillhör nämnda tredje lokala grupp om nämnda inmatade ordtyp tillhör nämnda tredje globala grupp och stilkastvarianten av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp inte är associerad med en meningspositionsindikator som indikerar att den inmatade ordtypen förekom i en intern position av en mening i nämnda text pà naturligt språk; och att normalisera stilkast pà nämnda inmatade ordtyp enligt stilkasterna på den stilkastvariant av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp om nämnda inmatade ordtyp tillhör nämnda fjärde globala grupp och stilkastvarianten av nämnda inmatade ordtyp som tillhör nämnda andra lokala grupp inte är associerad med en meningspositionsindikator som indikerar att den inmatade ordtypen förekom i en intern position av en mening i nämnda text på naturligt språk.
12. Förfarande enligt något av patentkraven l-ll, vidare innefattande steget att: lagra nämnda inmatade ordtyper med normaliserade stilkast i ett elektroniskt lagringsorgan.
13. Datorprocessor som är anordnad att utföra stegen som omnämns i något av kraven l-12.
14. Datorläsbart medium som har datorexekverbara instruktioner för att en dator skall utföra stegen som omnämns i något av kraven l-12.
15. Datorprogram som innefattar datorexekverbara instruktioner för att en dator skall utföra stegen som omnämns i något av kraven 1-12.
SE0003433A 2000-09-26 2000-09-26 Förfarande och datorprogram för normalisering av stilkast SE524595C2 (sv)

Priority Applications (8)

Application Number Priority Date Filing Date Title
SE0003433A SE524595C2 (sv) 2000-09-26 2000-09-26 Förfarande och datorprogram för normalisering av stilkast
US09/672,101 US6385630B1 (en) 2000-09-26 2000-09-29 Method for normalizing case
DE60136478T DE60136478D1 (de) 2000-09-26 2001-09-26 Chstaben.
PCT/SE2001/002069 WO2002027539A1 (en) 2000-09-26 2001-09-26 Method for normalizing case
EP01970463A EP1325429B1 (en) 2000-09-26 2001-09-26 Method for normalizing case
AU2001290464A AU2001290464A1 (en) 2000-09-26 2001-09-26 Method for normalizing case
AT01970463T ATE413651T1 (de) 2000-09-26 2001-09-26 Verfahren zur normalisierung von gross und kleinbuchstaben.
ES01970463T ES2316474T3 (es) 2000-09-26 2001-09-26 Metodo para normalizar caja.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE0003433A SE524595C2 (sv) 2000-09-26 2000-09-26 Förfarande och datorprogram för normalisering av stilkast

Publications (3)

Publication Number Publication Date
SE0003433D0 SE0003433D0 (sv) 2000-09-26
SE0003433L SE0003433L (sv) 2002-03-27
SE524595C2 true SE524595C2 (sv) 2004-08-31

Family

ID=20281160

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0003433A SE524595C2 (sv) 2000-09-26 2000-09-26 Förfarande och datorprogram för normalisering av stilkast

Country Status (8)

Country Link
US (1) US6385630B1 (sv)
EP (1) EP1325429B1 (sv)
AT (1) ATE413651T1 (sv)
AU (1) AU2001290464A1 (sv)
DE (1) DE60136478D1 (sv)
ES (1) ES2316474T3 (sv)
SE (1) SE524595C2 (sv)
WO (1) WO2002027539A1 (sv)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6739719B2 (en) 2002-06-13 2004-05-25 Essilor International Compagnie Generale D'optique Lens blank convenient for masking unpleasant odor and/or delivering a pleasant odor upon edging and/or surfacing, and perfume delivering lens
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US20050216256A1 (en) * 2004-03-29 2005-09-29 Mitra Imaging Inc. Configurable formatting system and method
US8225231B2 (en) 2005-08-30 2012-07-17 Microsoft Corporation Aggregation of PC settings
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US20100087169A1 (en) * 2008-10-02 2010-04-08 Microsoft Corporation Threading together messages with multiple common participants
US8411046B2 (en) 2008-10-23 2013-04-02 Microsoft Corporation Column organization of content
US20100107100A1 (en) 2008-10-23 2010-04-29 Schneekloth Jason S Mobile Device Style Abstraction
US8385952B2 (en) 2008-10-23 2013-02-26 Microsoft Corporation Mobile communications device user interface
JP5412096B2 (ja) * 2008-12-03 2014-02-12 株式会社やまびこ 携帯式チェンソーの動力ユニット構造
US8238876B2 (en) 2009-03-30 2012-08-07 Microsoft Corporation Notifications
US8355698B2 (en) 2009-03-30 2013-01-15 Microsoft Corporation Unlock screen
US8175653B2 (en) 2009-03-30 2012-05-08 Microsoft Corporation Chromeless user interface
US8836648B2 (en) 2009-05-27 2014-09-16 Microsoft Corporation Touch pull-in gesture
US20120159383A1 (en) 2010-12-20 2012-06-21 Microsoft Corporation Customization of an immersive environment
US20120159395A1 (en) 2010-12-20 2012-06-21 Microsoft Corporation Application-launching interface for multiple modes
US8689123B2 (en) 2010-12-23 2014-04-01 Microsoft Corporation Application reporting in an application-selectable user interface
US8612874B2 (en) 2010-12-23 2013-12-17 Microsoft Corporation Presenting an application change through a tile
US9423951B2 (en) 2010-12-31 2016-08-23 Microsoft Technology Licensing, Llc Content-based snap point
US9383917B2 (en) 2011-03-28 2016-07-05 Microsoft Technology Licensing, Llc Predictive tiling
US8893033B2 (en) 2011-05-27 2014-11-18 Microsoft Corporation Application notifications
US9658766B2 (en) 2011-05-27 2017-05-23 Microsoft Technology Licensing, Llc Edge gesture
US9104440B2 (en) 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US20120304132A1 (en) 2011-05-27 2012-11-29 Chaitanya Dev Sareen Switching back to a previously-interacted-with application
US9104307B2 (en) 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US9158445B2 (en) 2011-05-27 2015-10-13 Microsoft Technology Licensing, Llc Managing an immersive interface in a multi-application immersive environment
US8687023B2 (en) 2011-08-02 2014-04-01 Microsoft Corporation Cross-slide gesture to select and rearrange
US20130057587A1 (en) 2011-09-01 2013-03-07 Microsoft Corporation Arranging tiles
US10353566B2 (en) 2011-09-09 2019-07-16 Microsoft Technology Licensing, Llc Semantic zoom animations
US8922575B2 (en) 2011-09-09 2014-12-30 Microsoft Corporation Tile cache
US9557909B2 (en) 2011-09-09 2017-01-31 Microsoft Technology Licensing, Llc Semantic zoom linguistic helpers
US8933952B2 (en) 2011-09-10 2015-01-13 Microsoft Corporation Pre-rendering new content for an application-selectable user interface
US9146670B2 (en) 2011-09-10 2015-09-29 Microsoft Technology Licensing, Llc Progressively indicating new content in an application-selectable user interface
US9244802B2 (en) 2011-09-10 2016-01-26 Microsoft Technology Licensing, Llc Resource user interface
US9223472B2 (en) 2011-12-22 2015-12-29 Microsoft Technology Licensing, Llc Closing applications
US9128605B2 (en) 2012-02-16 2015-09-08 Microsoft Technology Licensing, Llc Thumbnail-image selection of applications
US20140129928A1 (en) * 2012-11-06 2014-05-08 Psyentific Mind Inc. Method and system for representing capitalization of letters while preserving their category similarity to lowercase letters
US9450952B2 (en) 2013-05-29 2016-09-20 Microsoft Technology Licensing, Llc Live tiles without application-code execution
CN105359094A (zh) 2014-04-04 2016-02-24 微软技术许可有限责任公司 可扩展应用表示
KR102107275B1 (ko) 2014-04-10 2020-05-06 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 컴퓨팅 디바이스에 대한 접이식 쉘 커버
WO2015154276A1 (en) 2014-04-10 2015-10-15 Microsoft Technology Licensing, Llc Slider cover for computing device
US10592080B2 (en) 2014-07-31 2020-03-17 Microsoft Technology Licensing, Llc Assisted presentation of application windows
US10678412B2 (en) 2014-07-31 2020-06-09 Microsoft Technology Licensing, Llc Dynamic joint dividers for application windows
US10254942B2 (en) 2014-07-31 2019-04-09 Microsoft Technology Licensing, Llc Adaptive sizing and positioning of application windows
US10642365B2 (en) 2014-09-09 2020-05-05 Microsoft Technology Licensing, Llc Parametric inertia and APIs
CN106662891B (zh) 2014-10-30 2019-10-11 微软技术许可有限责任公司 多配置输入设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63120362A (ja) 1986-11-10 1988-05-24 Brother Ind Ltd スペルチエツク機能付文書処理装置
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US5008818A (en) * 1989-04-24 1991-04-16 Alexander K. Bocast Method and apparatus for reconstructing a token from a token fragment
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US5485372A (en) 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5819265A (en) 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text

Also Published As

Publication number Publication date
EP1325429B1 (en) 2008-11-05
SE0003433D0 (sv) 2000-09-26
ES2316474T3 (es) 2009-04-16
EP1325429A1 (en) 2003-07-09
ATE413651T1 (de) 2008-11-15
WO2002027539A1 (en) 2002-04-04
SE0003433L (sv) 2002-03-27
DE60136478D1 (de) 2008-12-18
AU2001290464A1 (en) 2002-04-08
US6385630B1 (en) 2002-05-07

Similar Documents

Publication Publication Date Title
SE524595C2 (sv) Förfarande och datorprogram för normalisering av stilkast
US7231388B2 (en) Similar document retrieving method and system
CN101131706B (zh) 一种查询修正方法及系统
US20050278292A1 (en) Spelling variation dictionary generation system
SE517005C2 (sv) Segmentering av text
WO2008031062A2 (en) System and method for building and retriving a full text index
CN111144100B (zh) 一种问题文本识别方法、装置、电子设备及存储介质
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
JP4687089B2 (ja) 重複レコード検出システム、および重複レコード検出プログラム
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
US9965546B2 (en) Fast substring fulltext search
WO2021051600A1 (zh) 基于信息熵识别新词的方法、装置、设备及存储介质
US20160078072A1 (en) Term variant discernment system and method therefor
CN115906817A (zh) 一种跨语言环境的关键字匹配方法、装置及电子设备
WO2003003241A1 (en) Predictive cascading algorithm for multi-parser architecture
JP4489034B2 (ja) 構造化文書処理装置、構造化文書処理方法および構造化文書処理プログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP7326637B2 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
CN117688927B (zh) 病历章节重配置方法、系统、终端及存储介质
CN110866406A (zh) 用于翻译集成服务优化方法、电子装置及储存介质
Leidner et al. Qed: The edinburgh trec-2003 question answering system
CN117454893B (zh) 基于Python的智能切词方法、系统、设备及存储介质
JP2009181524A (ja) 文書検索システム及び文書検索方法
JP4206266B2 (ja) 全文検索装置、処理方法、処理プログラム及び記録媒体
CN112328622A (zh) 分组处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
NUG Patent has lapsed