CN101004737A - 基于关键词的个性化文档处理系统 - Google Patents
基于关键词的个性化文档处理系统 Download PDFInfo
- Publication number
- CN101004737A CN101004737A CN 200710200102 CN200710200102A CN101004737A CN 101004737 A CN101004737 A CN 101004737A CN 200710200102 CN200710200102 CN 200710200102 CN 200710200102 A CN200710200102 A CN 200710200102A CN 101004737 A CN101004737 A CN 101004737A
- Authority
- CN
- China
- Prior art keywords
- keyword
- document
- user
- window
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词的个性化文档处理系统,它包括计算机,在该计算机中运行有多任务和多窗口的操作系统,还包括屏幕协同显示装置、信息组织装置、鼠标轨迹识别装置、屏幕抓词装置、剪贴板取词装置、输入过程取词装置、关键词识别装置、关键词分析装置、关键词语义装置、关注位置识别装置、操作控制识别装置、主题词与评语装置、附记与评论装置、搜索引擎接口装置和辅助工具库接口装置。本系统根据用户在使用包含文字信息的文档过程中,有意识地抓取的用户关注的个性化的关键词,利用软性超链接技术,以关键词为节点,对文档进行组织,生成个性化的综合倒排索引表和以文档为中心的软性超链接记录,以帮助用户深入文档内部管理用户个人信息。
Description
技术领域
本发明涉及一种文档处理系统,特别是一种利用人工智能对文档和人机交互进行智能处理的基于关键词的个性化文档处理系统。
背景技术
随着个人计算机和Internet网络的普及,远远超过人类用户能够处理的大量的信息需要更好地组织和管理,于是超链接技术和门户网站遍布Internet网络,全文搜索技术得到快速发展。他们至少提供搜索信息的两种模式,诸如通过按用户要浏览的主题组织的它们自己的网站目录,或通过执行浏览器上用户界面输入的关键词搜索。由于按主题组织网页的方式展示Internet网络的信息时,往往需要将网站目录和有关摘要分级分成许多子目录和大量的页面,使用户寻找某特定信息时,耗费大量操作;另外由于Internet网络上的信息实在太多,成百上千的目录只能展示其中的极小一部分信息,所以用户往往还不能找到特定的信息。对许多用户来说,按主题组织网页的方式只能当成一个网络上的新闻报纸和公共信息查找源。基于关键词的全文搜索技术可以提供更方便的信息查询,通常,关键词搜索将尽计算机所能找到其中具有与指定的所有关键词和短语相关的任何信息的所有Web网站或网页。这带来的问题是搜索到太多的垃圾网页,使用户希望查找的信息淹没其中,需要用户通过阅读找到真正需要的信息。
在个人计算机上,随着从Internet网络下载和通过内部局域网的交流,以及用户自己撰写和编辑的文档越来越多,数目也相当巨大,经常是几万或几十万个文档。因此,按主题组织文档和全文搜索技术也开始运用到个人计算机上,作为文件目录存储方式的补充。相比专业化的门户网站,个人用户组织个人计算机上文档的能力和精力都小很多,难以维护一个良好的、实时更新的按主题组织的文档体系。对于基于关键词的全文搜索,搜索引擎可以自动维护和更新,但必须能够尽量减少垃圾信息的干扰。因为在个人计算机上用户要查找的往往是用户确定的信息,而不需要查找到一批类似的信息,所以个性化、智能化、自动化的文档组织技术是个人计算机用户真正需要的,这个技术虽然有一定的发展,但仍然是一个难题。
发明内容
本发明的目的在于,提供一种基于关键词的个性化文档处理系统。该系统以全文搜索为基本手段,综合多个辅助工具的功能,利用软性超链接技术,以关键词为节点,采用智能化的方法,对文档进行组织。
本发明的技术方案。基于关键词的个性化文档处理系统,它包括具有至少一个处理机和一组存储器,并且还至少包括一个输出用的屏幕和输入用的键盘、鼠标以提供用户和程序交互的用户接口,并且与外部存储器、内部局域网连接的,或者与外部存储器、外部国际互连网连接的,或者是与外部存储器、内部局域网和外部国际互连网连接的计算机,在该计算机中运行有多任务和多窗口的操作系统,系统的构成还包括,
用以显示用户关注的主文档和与该主文档关联的辅助文档,或者显示用户关注的主文档和与该主文档关联的辅助信息,或者显示用户关注的主文档和与该主文档关联的辅助文档和辅助信息的屏幕协同显示装置;
用以存储屏幕协同显示装置显示的各种信息和这些信息之间的关系并供其它装置使用、或者供外部工具调用的信息组织装置;
用以识别用户移动鼠标有意识地画出的一些特定鼠标轨迹、并调用对应操作的鼠标轨迹识别装置;
用于确定用户感兴趣的关键词的关键词产生装置;
用于对用户确定的关键词进行分析处理的关键词处理装置;
以及用于根据用户确定的关键词调用外部工具的工具调用装置。
上述的基于关键词的个性化文档处理系统中,关键词产生装置包括用以通过用户使用鼠标移动的特定轨迹有意识地标明屏幕上显示的、用户能够看到的文字和符号串的起始和结束位置,并将该文字和符号串作为关键词取出的屏幕抓词装置。
前述的基于关键词的个性化文档处理系统中,关键词产生装置包括用以监视用户利用操作系统提供的剪贴板进行复制、粘贴、移动乃至删除操作,并察看剪贴板中的内容,判断其是否为关键词,如果是,则作为关键词取出的剪贴板取词装置。
前述的基于关键词的个性化文档处理系统中,关键词产生装置包括用以监视用户输入的文字和符号串,并通过关键词识别装置自动分析和判断输入的文字和符号串是否为关键词,如果是,则将该文字和符号串作为关键词取出的输入过程取词装置。
前述的基于关键词的个性化文档处理系统中,关键词处理装置包括用以判断一个给定的文字和符号串是否是关键词,以及是否可能是新的关键词的关键词识别装置和用以确定用户感兴趣的关键词并确定用户希望通过该关键词启动操作的关键词分析装置。
上述的基于关键词的个性化文档处理系统中,关键词处理装置还包括用以给出关键词的语义的关键词语义装置,该关键词语义装置给出关键词识别装置识别出的关键词的语义并记录到信息组织装置中,在屏幕上显示;或者将关键词和有关的语义传递到关键词分析装置进行后续处理。
前述的基于关键词的个性化文档处理系统中,工具调用装置包括一个基于关键词来调用外部搜索引擎,以提高信息搜索质量的搜索引擎接口装置。
前述的基于关键词的个性化文档处理系统中,工具调用装置包括一组基于关键词来调用外部辅助工具库的辅助工具库接口装置。
前述的基于关键词的个性化文档处理系统中,所述的辅助工具库包括但不限于中外文词典、汉语词典、百科全书、通讯录、电话号码本、计算器、地图、电影片段、音乐片段、名人介绍以及内容相关的文档链接的至少之一。
前述的基于关键词的个性化文档处理系统中,系统的构成还包括用以提取主文档中用户关注的某个位置的信息和特点的关注位置识别装置。
前述的基于关键词的个性化文档处理系统中,系统的构成还包括用以根据鼠标轨迹识别装置识别轨迹后得到的轨迹代号查找对应的功能或指令,并根据运行环境和相关参数的情况调用对应的功能或发出对应的操作指令,以及在不适合的情况下,取消功能的调用和指令的发出的操作控制识别装置。
前述的基于关键词的个性化文档处理系统中,系统的构成还包括用以弹出一个窗口以树状结构展示主题词或评语供用户选择的主题词与评语装置。
前述的基于关键词的个性化文档处理系统中,系统的构成还包括用以打开一个文字编辑器供用户录入文字信息,对文档关注位置的上下文进行附记补充,或者进行评论,或者进行附记补充与进行评论的附记与评论装置。
前述的基于关键词的个性化文档处理系统中,屏幕协同显示装置包括主窗口、辅窗口、协同显示控制装置;主窗口就是常规软件的显示窗口,用以显示用户进行主要的阅读操作,或者编辑操作,或者是阅读和编辑操作的包括有文字和符号的信息;协同显示控制装置用以监视主窗口的操作,或者接受主窗口发出的消息,或者监视主窗口的操作并接受主窗口发出的消息,当主窗口显示的内容变化时,计算出主窗口内显示的所有被选择或者产生的关键词的坐标值和显示的缩放比例值,并将这些值传递给所有的辅窗口,使辅窗口能够调整显示位置和状态,与主窗口显示的内容协同地变化并显示;辅窗口用于在协同显示控制装置的控制下,基于主窗口中的显示内容显示出对应的帮助、附记、评论、主题词和评语辅助信息。
前述的基于关键词的个性化文档处理系统中,辅窗口具有视觉透明和交互操作透明的功能,即:当辅窗口置于主窗口之上时,辅窗口具有半透明到完全透明的边框和背景,用户可以看清辅窗口之下的主窗口所显示的内容,辅窗口中显示的文字或者图形内容漂浮在主窗口之上;用户的键盘和鼠标操作可以透过辅窗口和辅窗口中的显示内容而操作在辅窗口之下主窗口显示的内容上。
前述的基于关键词的个性化文档处理系统中,辅窗口可根据协同显示控制装置提供的关键词的新的位置坐标值和缩放比例值进行显示刷新,主要有四种模式的显示刷新,即:当主窗口中链接该辅窗口的关键词位置移动时,模式一,辅窗口跟随移动;模式二,辅窗口保持不动;模式三,辅窗口变为一个同关键词包含的文字同等大小的半透明图标,挂在该关键词后面跟随移动;模式四,辅窗口关闭。
前述的基于关键词的个性化文档处理系统中,信息组织装置的构成包括工作日志装置、综合倒排索引装置、软性超链接装置、文档操作装置和系统配置装置。
前述的基于关键词的个性化文档处理系统中,工作日志装置用于保存用户使用计算机的过程以及本系统各个装置运行的状态与结果:重点保存计算机的当前配置、近期使用过的工具、超链接和软性超链接的记录、用户的个性化特点。
前述的基于关键词的个性化文档处理系统中,工作日志装置记录的信息至少包括关键词产生表、关键词应用表和关注位置操作表,其中关键词产生表中的信息是由屏幕抓词装置、剪贴板取词装置或输入过程取词装置产生,并经关键词识别装置识别、传递后,调用工作日志装置进行记录的;关键词应用表中的信息是由搜索引擎接口装置调用外部搜索引擎成功返回辅助文档后,或者是辅助工具库接口装置调用辅助工具成功返回信息后,调用工作日志装置进行记录;关注位置操作表中的信息是主题词与评语装置和附记与评论装置运行后,调用工作日志装置进行记录的。
前述的基于关键词的个性化文档处理系统中,综合倒排索引装置用于根据工作日志装置中记录的关于关键词、主题词和评语的记录,建立以关键词、主题词和评语为索引词,以文档、附记、评论和辅助工具为检索项的索引表;索引表中的词汇是动态的,不断有新关键词加入也不断有旧关键词删除或遗忘,所有经过用户确认的新关键词采用瞬时记忆、短期记忆和长期记忆三个阶段的模式进行记忆和遗忘,新出现的主题词和评语直接进入短期记忆缓冲区;瞬时记忆的新关键词保留在综合倒排序索引装置的瞬时记忆缓冲区,同时根据索引主表记录它的渠道信息,该记忆缓冲区使用频率排序和用遗忘很快的遗忘算法减少词频;当该新关键词与某个文档关联或者与某个辅助工具固定关联,或者瞬时词频大于某个阈值后,该关键词就被存入综合倒排序索引装置的短期记忆缓冲区,并仍然根据索引主表记录该词的产生渠道,该新关键词的词频统计采取新渠道奖励算法统计,并按照词频进行排序和遗忘比较慢的遗忘算法减少词频,词频很低的词将被遗忘,从缓冲区排除;当存入短期记忆缓冲区的新关键词的必要属性被补充,而且词频高于一定的阈值,则该关键词将被存入综合倒排序索引装置的长期记忆缓冲区,成为该区的新关键词,并仍然根据索引主表进行词频统计的渠道奖励算法和用遗忘很慢的遗忘算法减少词频。
前述的基于关键词的个性化文档处理系统中,词频统计的渠道奖励算法是模仿人类记忆过程中的感观渠道的综合作用和新鲜感对记忆的影响;一个关键词被使用第n次,并且使用渠道Hi,这时Hi被累计使用了ni次,则该词的词频Fc(n)=Fc(n-1)+1+Ft(Hi,ni),Fc为0~255之间的整数,当Fc(n-1)=255时,Fc(n)=Fc(n-1);Ft(Hi,ni)为使用Hi渠道第ni次的奖励词频值,Ft(Hi,ni)的计算公式为:
Fo为词频奖励值,Q为渠道相似度,Zd为渠道的新鲜感指数因子;Zd的取值大于0,小于1;Q的取值范围在0与1之间;
遗忘算法是根据用户使用关键词时遗忘的特点,参考艾宾浩斯记忆规律曲线揭示的规律,将该曲线分为三段:瞬时记忆阶段、短期记忆阶段和长期记忆阶段,并都用指数函数进行模拟,在综合倒排索引装置中索引词的词频Fc作为记忆强度的度量,设经过T时间后,遗忘比例为Y,Y的取值大于0,小于1,则遗忘算法就是经过一段时间t之后,记忆残留量Fc=Fc0*(1-Y)t/T。
前述的基于关键词的个性化文档处理系统中,索引文档按文档关注度Gz排序,文档关注度Gz与该文档被使用到的情况有关,首先与该文档被使用的频率Fw有关,也与该文档的所有用户用到的关键词、主题词和评语有关,与用户直接给文档关注度的打分Fs相关,还与该文档联系的其它文档和辅助工具有关;文档被关注的信息包含在用户使用该文档时最经常用到的索引词中,所有的文档取与它关联的最重要的前k个索引词进行词频平均,得到文档的关注度Gz的计算公式为:
公式中,Rw代表文档使用频率的权重,Rc代表重要索引词词频均值的权重,Rs代表用户对文档关注度主观打分值的权重,对于不同的用户,可以取不同的权重值,并且Rw+Rc+Rs=1。
前述的基于关键词的个性化文档处理系统中,软性超链接装置用于以文档为中心,从工作日志装置的记录中,将用户使用该文档时抓取过的关键词及其位置、由该关键词调用的辅助工具以及返回的信息、调用搜索引擎搜索到的辅助文档,还有通过关注位置及其上下文进行的主题词和评语标注,以及添加的附记和评论记录按照时间排列,以最近和最频繁使用的记录作为该文档的软性超链接,当该文档被再次打开使用时,这些软性超链接就会被自动打开调出辅助信息,协同显示在屏幕上,恢复用户最近几次使用该文档时的运行状况,并且从工作日志装置的记录中,还可以统计出调用或打开该文档的主要方式,从而使该文档可以进行一定的回溯操作。
前述的基于关键词的个性化文档处理系统中,文档操作装置用于将用户最常用到的文档、最新用到的文档,以及将会被用户感兴趣的新文档的标题和简单摘要按照主题词和重要关键词进行用户主导下的自动分类显示。
前述的基于关键词的个性化文档处理系统中,系统配置装置用于用户设定整个系统运行参数和输入用户个人信息。
本发明中,文档泛指一切包含文字信息的、人类用户能够阅读的、可以被独立存取的信息单元。文档的例子有TXT文件、DOC文件、PDF文件、Excel电子报表文件、Web网页、数据库中的一条记录等。文档的内容可以显示在屏幕上供用户阅读,有些不能被编辑修改(如PDF文档、Web网页和电子图书等),有些可以编辑修改(如Word文档等)。文档的内容容量可以小到只有几个字,也可以大到在屏幕上分几十上百页才能显示完,关键是一个文档必须能够作为一个独立的信息单元被存储和调用。从信息搜索的角度看,文档能够被作为一个整体搜索到,即每一个文档,不论它被存放在个人计算机上还是存放在内部局域网中的服务器上,甚至存放在外部Internet网络的网站上,都有一个唯一的存储地址。对文档操作的程序或软件可以不同,虽然一个软件可以读取和编辑多种文档,但是一种文档往往是同某个特定的软件对应,比如DOC文档对应Word程序,PDF文档对应Acrobat Reader程序,本发明中的文档都假定有用户指定对应软件。关键词是文档中出现的,对文档的本质意义有重大关联,或者抓住文档重要特征的名词性的词与词组。包括文档中的重要名称:人名、地名、地址、机构名,文档中的重要的时间、事件的提法与描述、问题的提法与描述、概念的提法与描述,独特的新词、专业术语等。语义词是不一定在文档中出现的关键词的语义。比如人名,就需要确定该人名是文档的作者、译者、评论员,还是该文档中描写的主角、配角等。主题词是不必出现在文档中的按照公认的学科体系(政治、经济、军事、工业、农业、科学、自然、生物、地质、地理、物理、数学、化学、历史等)、独自的业务部门公文分类体系(管理、生产、营销、采购、投资、金融、后勤、资产、品牌等)或者用户自定义的个性化分类体系(新闻、娱乐、学业、工作、爱好、通信、家庭、情感等)对文档或文档的某个部分进行分类的名词性的词和词组。评语是按用户独特的观点对文档进行评价或评论的形容词性的词和词组,它们一般不在文档中出现,比如对文档的观点:同意、反对;对文档的风格:潇洒、拘谨、呆板、死板、僵化、严肃、严谨、散漫、随意、活泼、生动;对文档的写作手法:尖酸、刻薄、谄媚、歌颂、赞扬、批评、讽刺;诙谐、幽默等。综合倒排索引是以关键词(包括与语义词组合的新关键词,比如“作者爱因斯坦”与“爱因斯坦”将作为两个不同的索引词。以后提到索引词时,都包括关键词的语义)、主题词和评语共同作为索引词对文档建立的倒排索引。本发明中还加入了这些词的使用频率统计字段和词性字段。因为用户对某个文档或文档的一些部分进行主题词和评语标注,就是使可能没有在文档中出现的主题词和评语与文档进行了关联。关键词、主题词和评语实际上从三个不同的角度体现了文档的特征和用户的特点,它们联合对文档进行分类可以更细致地刻画文档。在全文搜索技术中,主题词和评语可以同关键词一起来对文档建立倒排索引,即在倒排索引中,主题词、评语和关键词都作为索引词对待。由于主题词、评语和关键词相互间可以容易地区分,所以在一个倒排索引中,其实它们各自还是相对独立的,即与分别建立三个倒排索引的效果相同。
本发明属于操作系统的智能壳体范畴,涉及各种用户与计算机的交互操作,它本质上是一个连接在拥有内容管理服务的内部网和拥有全文搜索服务的国际互联网上的以键盘、鼠标和多窗口显示为交互体系的信息终端(比如以Windows或者Linux为操作系统的个人计算机)环境下,根据用户个性和习惯,以全文搜索为基本手段,综合多个辅助工具的功能,采用智能化的方法,帮助用户深入文档内部组织和管理用户个人信息的辅助系统。通过帮助用户,通过记录用户的工作过程,通过屏幕抓词和其他辅助交互界面,增加用户与本系统的交互方式和交互量,从而更好地掌握用户的特点,并利用用户在分词上的智能,提高关键词识别的准确度。本系统新增鼠标轨迹识别的人机交互模式区别于用户与原有的运行程序之间的信息交流和控制模式。
本发明通过用户有意识地关注文档内部的关键词,使得信息的组织和管理的粒度细化。随着选择的关键词不同,用户的分类和评价不同,添加的附记和评论不同,搜索的辅助信息不同,调用的辅助工具不同,经过智能化机器学习,就能更好地把握用户对某个文档的个性化认知,并据此组织和管理用户使用过的所有文档,同时通过屏幕协同显示方式将附记评论和辅助信息随同文档在屏幕上展示给用户。
本发明通过用户在计算机上使用文档时,监视用户与打开该文档的程序的交互过程,识别和记录用户关注的关键词、句子、段落等,以及通过这些关注内容对文档进行的主题词(包括用户自定义的主题词)分类,对所看所写的内容进行用户建立的评语体系的评语评价,或是对文档某些内容的在文档外进行补充、附记和评论,以及按该关键词搜索到的信息和调用别的工具得到的与主文档相关的其他信息相关联,然后从这些相关信息中提取用户的个性化特点和用户对该文档的个性化认知。为了让用户愿意有意识地对该文档关注部分的信息传递给本系统,该系统为用户提供了各方面的辅助工具方便用户浏览和阅读、分类和评价、撰写和编辑附记和评论。
对于使用中文的用户,智能化汉字输入工具是必须的,英汉与汉英词典、百科全书、书写秘书等智能化辅助工具也是常备的,Internet网页个性化智能化搜索工具,超文本超链接的创建工具也将智能化,本发明将这些工具集成起来,共享一个中文信息处理的内核,按照一套统一的人机交互方式,在尽可能少地干扰用户使用其主要工作软件的情况下,综合地为用户提供服务。
在本发明中对关键词的分类比较细致,对于出现在各种数据库中的记录是按数据库的特点分类,相当于建立一个超链接,或者一个关系。人口库、法人库、商品库、地址编码库,通讯录、百科全书式的条目库、文献分类库、图片库、软件注册表等都会与关键词相关,并且还给出它们之间的一些联系。比如,通讯录中的人名可以与人口库的人名联系,地址可以与地址编码库联系,工作单位可以与法人库联系,等等。一个机构名称的简称、别名等,应该能够与该机构的正式名称建立联系。人名与通讯录、名人库、专家库、职员库等关于人的信息关联。一个机构会有下属部门的结构,各部门的名称、部门负责人、主要业务、主要客户何主要供应商等。用户电子邮件中出现的人名、机构名、专用术语等与用户关系密切。本发明通过辅助工具库接口装置和搜索引擎接口装置,统一调用其它来源的工具和信息,并利用软性超链接技术,建立关键词和这些信息的关系。
附图说明
图1是本发明的构成和控制关系示意图;
图2是屏幕协同显示装置的构成和控制关系示意图;
图3是信息组织装置的构成和控制关系示意图;
图4是本发明的运行环境示意图。
具体实施方式
本发明的实施例。本发明的基于关键词的个性化文档处理系统,其构成如图1所示,包括:屏幕协同显示装置、信息组织装置、鼠标轨迹识别装置、剪贴板取词装置、屏幕抓词装置、输入过程取词装置、关键词识别装置、关键词分析装置、搜索引擎接口装置、辅助工具库接口装置、关注位置识别装置、操作控制识别装置、关键词语义装置、主题词与评语装置和附记与评论装置。各装置的功能及构成如下所述:
一、屏幕协同显示装置:
屏幕协同显示装置主要用以显示用户关注的主文档和与该主文档关联的辅助文档,或者与该主文档关联的辅助信息,或者是与该主文档关联的辅助文档与辅助信息。它的构成如图2所示,包括主窗口、辅窗口、协同显示控制装置。主窗口就是常规软件的显示窗口,如Windows系统下的Word软件的显示窗口,用以显示用户进行主要的阅读操作,或者编辑操作,或者阅读和编辑操作的包括有文字和符号的信息,由独立的外部主程序控制,还可以有若干显示辅助文档的辅助主窗口。协同显示控制装置用以监视主窗口的操作,或者接受主窗口发出的消息,或者监视主窗口的操作并接受主窗口发出的消息,当主窗口显示的内容变化时,计算出主窗口内显示的所有被选择或者产生的关键词的坐标值和显示的缩放比例值,并将这些值传递给所有的辅窗口,使辅窗口能够调整显示位置和状态,与主窗口显示的内容协同地变化并显示。辅窗口则根据该协同显示控制装置提供的新的关键词的位置坐标值和缩放比例值进行显示刷新,主要有四种模式(但不限于这四种模式)的显示刷新,即:当主窗口中链接该辅窗口的关键词位置移动时,模式一,辅窗口跟随移动;模式二,辅窗口保持不动;模式三,辅窗口变为一个同关键词包含的文字同等大小的半透明图标,挂在该关键词后面跟随移动;模式四,辅窗口关闭;上述辅窗口的显示刷新模式在辅窗口打开时,根据缺省模式确定,也可以由用户随时改变。
辅窗口是本发明设计的独特窗口,它具有视觉透明和交互操作透明的功能,它在屏幕上的显示方式简洁没有边框并略透明,以不显眼但能阅读辅窗口中的内容为准,类似于“金山词霸”在屏幕上出现的解释窗口,但它要对鼠标、键盘、手写笔等输入设备“透明”,即当光标和鼠标移动到辅窗口范围中时,其鼠标、键盘、手写笔的交互操作对应辅窗口之下的主窗口。当辅窗口置于主窗口之上时,辅窗口具有半透明到完全透明的边框和背景,使用户可以看清辅窗口之下的主窗口所显示的内容,辅窗口中显示的文字或者图形内容漂浮在主窗口之上;用户的键盘和鼠标操作可以透过辅窗口和辅窗口中的显示内容而操作在辅窗口之下主窗口显示的内容上。该辅窗口可以转化为主窗口,它通过设置在辅窗口的左上角或右上角的一小块转化标志能够接受鼠标的左键单击而转化为主窗口,再次点击转化标志时,主窗口又转化为辅窗口。转化操作除了鼠标的左键单击外,也可以设计成某种鼠标轨迹的捕捉,比如在辅窗口内画“Z”字样的轨迹。该辅窗口在协同显示控制装置的控制下,能方便地基于主窗口中的显示内容显示出对应的帮助、附记、评论、主题词和评语等辅助信息,并能随着主窗口显示内容的移动而移动,随着主窗口显示比例的变化而相应变化。该辅窗口的特点和实现技术与Arc GIS地理信息系统中的图层相同。由于用户在使用个人计算机时,阅读远远多于写作,阅读速度远远大于写作速度,阅读时用户不希望将要阅读的内容被覆盖,因此,辅窗口一般出现在用户“关注点”的左上方,尽量少地干扰用户的阅读;写作时,由于用户经常要参考刚刚写好的内容,所以辅窗口一般出现在用户“关注点”的右下方空白处。
二、信息组织装置:
信息组织装置用于存储通过各种关键词、主题词、评语、搜索、辅助工具与辅窗口的操作而获得的用户的个性化特征,并供其它装置使用,或者供外部工具调用。它是本发明的核心,其构成如图3所示,包括有工作日志装置、系统配置装置、文档操作装置、综合倒排索引装置和软性超链接装置。
其中的工作日志装置保存用户使用计算机的过程,重点是保存计算机的当前配置、近期使用过的工具、超链接和软性超链接的记录、用户的个性化特点等。个性化和面向信息的关键词集是用户个性特征的一个重要方面。每个用户的个性会反映到他使用的关键词集和这些关键词所链接的文档和页面上,在处理不同的信息时,特定的用户会使用独特的关键词集。在使用不同的工具时,在读和写特定的文章时,在用不同的辅助工具时,用户的特点就不同,关键词集就不同。关键词集可以是没有结构的数学概念的集合,也可以是有结构和相互关系的知识本体,比如通讯录中人名就与机构名(工作单位)、职业名、爱好、电话号码等有关系。工作日志装置还记录本发明的各个装置运行的状态与结果,但在内存中只保留近期的工作日志记录,过时的记录保存在外部存储器(本机硬盘或者内部网络的服务器硬盘中),这些记录可以被用户查看但不能被修改,其经过统计和整理后作为综合倒排索引装置、文档操作装置和软性超链接装置的主要数据源。工作日志装置记录的信息至少包括关键词产生表、关键词应用表和关注位置操作表。
其中1、关键词产生表中的信息是由屏幕抓词装置、剪贴板取词装置或者输入过程取词装置产生,并经关键词识别装置识别、传递后,调用工作日志装置进行记录的,关键词产生表中的信息至少包括:
关键词 | 时间 | 产生渠道代号 | 文档代号 | 位置 | 语义词集合 | 精确/模糊 |
其中,对于新词,时间必须填,时间为空表明是旧词;文档代号就是记录该关键词是从哪个文档中抓取的,对于输入过程中产生的关键词,如果输入位置不是文档也不是辅助工具库中的辅助工具时,文档代号为空;位置:表示该关键词在文档中的位置;精确/模糊:表示用户屏幕抓词或者输入过程取词是精确还是模糊。
2、关键词应用表中的信息是由搜索引擎接口装置调用外部搜索引擎成功返回辅助文档后,或者是辅助工具库接口装置调用辅助工具成功返回信息后,调用工作日志装置进行记录的。关键词应用表中的信息至少包括:
关键词 | 时间 | 文档代号 | 返回信息 | 显示方式 |
其中的文档代号是搜索到的文档,或者是辅助工具代号;返回信息是针对辅助工具的,包括辅助工具类别和查到的帮助信息;显示方式表明是主窗口还是辅窗口。
3、关注位置操作表中的信息是主题词与评语装置和附记与评论装置运行后,调用工作日志装置进行记录的。关注位置操作表中的信息至少包括:
位置类别 | 位置坐标 | 时间 | 文档代号 | 上下文范围 | 关联内容 |
其中的位置类别是关注位置识别装置中的屏幕位置、窗口位置、文档页面位置和文档内容位置;位置坐标就是位置的数值表达;时间为该操作完成的时间;文档代号表明操作的主文档;上下文范围给出主文档对应关注位置的上下文范围;关联内容是针对范围内的上下文进行主题词标注、评语评论、图标或符号标记、附记补充、文字评论等的内容记录。
综合倒排索引装置用于根据工作日志装置中记录的关于关键词、主题词和评语的记录,建立以关键词、主题词和评语为索引词,以文档、附记、评论和辅助工具为检索项的索引表。这里的关键词是动态调整的,动态的含义,不仅是词频在调整,而且索引中的词汇也是动态的,不断有新词加入(记忆),也不断有旧词删除(遗忘)。旧词的遗忘有两个含义,一个是随着时间流逝(相对时间与绝对时间的结合,如果整个索引长时间都没有被使用,相对时间的流逝等于零),所有词的词频将自动降低,另一个就是词条的物理删除,当词频降到零时,就属于可以物理删除的旧词,但仍然保留在存储装置中,当新词需要存储空间时再进行物理删除。索引的词条总数目,可以由零词频的词条决定,比如以保留词条总数3%的零词频词条为标准,当零词频的词条少于3%时,该装置应该自动增加词条数,当有太多的零词频词条时,该装置就自动减少总词条数。所有与本发明集成的工具中用到的经过用户某种形式确认的“新词”都可以加入索引。所有“新词”采用瞬时记忆、短期记忆和长期记忆三个阶段的模式进行记忆和遗忘。瞬时记忆的“新词A”保留在综合倒排序索引装置的瞬时记忆缓冲区,同时记录着产生它的渠道信息(屏幕抓词、输入过程取词还是剪贴板取词,以及通过该词调用了哪个辅助工具,返回了什么结果),由于采用的是使用频率排序和用遗忘很快的遗忘算法减少词频,所以基本上是最近用到的词优先保留,这样可剔除各种原因产生的不是词的错误字串。当“新词A”与某个文档关联或者与某个辅助工具固定关联,或者瞬时词频大于某个阈值后,该词就被存入综合倒排序索引装置的短期记忆缓冲区成为“新词B”,并仍然记录该词是由什么渠道(产生该词的辅助工具)产生的。“新词B”的词频记录采取新渠道奖励的办法统计,即:一般情况,“新词B”被使用一次,词频增加1,但是新的渠道第一次使用该词时,词频增加一个较大的奖励数目(比如20),不同的渠道的奖励数目可以不同,在短期记忆缓冲区,“新词B”按照词频进行排序和遗忘比较慢的遗忘算法减少词频,词频很低的词将被“遗忘”(即从缓冲区排除),以适应用户兴趣和个性随时间的改变。当“新词B”的必要属性被补充(比如某个人名“新词B”的工作单位、家庭住址、电话号码等属性被录入后),而且词频高于一定的阈值,则该词将被存入综合倒排序索引装置的长期记忆缓冲区,成为“新词C”,在该缓冲区的词仍然进行词频统计和用遗忘很慢的遗忘算法减少词频,以适应用户的兴趣转移,词频主要用于表示该词的重要程度。词的定义有许多种,有基于词法和语法规则的定义,有基于统计意义的定义,也有基于语义的定义等等。本发明将词的定义综合,以语义意义下的定义为主,承认各种意义的词汇定义,在形式上不限于纯汉字串组成的词。比如“C++语言”、“十一五规划”、“110报警电话”就是典型的词;会议全称、科技论文标题、电影名称等一些长名称(有时还包括某些标点符号在内,但是不包括句号)也认为是词。所以索引词定义为一个汉字、字母、数字和符号组合的代表一定意义的字符串。索引词根据被使用到的渠道、次数和第一次被用到的时间运用渠道奖励算法和遗忘算法进行词频统计,并以词频(用Fc表示)作为索引词的重要性的度量。一个索引词可以对应多个检索项,这些检索项都被赋予一个表示该检索项重要程度的参数:关注度(用Gz表示),并按关注度排序。综合倒排索引的数据结构的一种实现如下示例:
索引主表
索引词 | 词频Fc | 渠道代号集合 | 存入时间 | 文档代号序列 | |||
文档关注度表 | |||||||
文档代号 | 关注度Gz | 文档使用频率Fw | 重要索引词集Sg | ||||
渠道奖励值表 | |||||||
渠道代号 | 词频奖励值Fj |
表中的“存入时间”是索引词被添加进索引主表的时间;渠道代号集合是该索引词(这里就是关键词,包括与语义词组合的新关键词,比如“作者爱因斯坦”与“爱因斯坦”将作为两个不同的索引词。以后提到索引词时,都包括关键词的语义)被用到的渠道的集合;文档代号序列是工作日志装置中关键词产生表、关键词应用表和关注位置操作表中与该索引词关联的文档代号的并集,经过按关注度Gz排序后得到的序列。渠道是本发明用来描述用户使用关键词时,用户感官被利用的状况,反应用户对该关键词的感受强度。词频统计的渠道奖励算法就是模仿人类记忆过程中的感观渠道的综合作用和新鲜感对记忆的影响,一个新的渠道开始使用时(第一次)对记忆的促进最大,奖励Fo;第二次使用,促进减少,奖励0.5*Fo;第三次使用,奖励0.5*0.5*Fo;最后就变成老渠道,再次使用关键词,词频都增加1。即渠道的新鲜感是指数下降的,可以用指数因子Zd(0<Zd<1)表示,Zd越小,新鲜感下降越快,上例中Zd=0.5。本发明把一个渠道的新鲜度Xx定义为:Xx=Zdn,(n=0,1,…)。另外,判断一个渠道在别的渠道已经用过的情况下,第一次使用是不是完全新,需要看这两个渠道有多大的相似度,用Q(0≤Q≤1)表示,当它们一点也不相似(相似度Q=0)时,则是完全新的;部分相似(相似度Q=0.5),则其它部分是新的;完全相似(相似度Q=1),则没有新的部分。对于渠道Hj用过m次的情况下,渠道Hi用第n次时的相对新鲜度Xd(Hi,Hj)定义为:
对于有多个渠道用过的情况下,可以分别计算渠道Hi与其它渠道的相对新鲜度Xd,然后取其中最小的作为该情况下的总体相对新鲜度Xz,即:Xz(Hi,n)=Minj(Xd(Hi,Hj))。
下面的渠道相似度表对相似度值作为一个简化例子:
老渠道 | 新渠道 | 相似度Q(Hi,Hj) |
H11(屏幕精确抓词) | H12(输入过程精确取词) | 0.0 |
H11 | H13(屏幕模糊抓词) | 0.8 |
H11 | H14(输入过程模糊取词) | 0.0 |
H11 | H15(剪贴板取词) | 0.8 |
H13(屏幕模糊抓词) | H21(用于搜索引擎) | 0.0 |
H12(输入过程精确取词) | H24(用于通讯录) | 0.0 |
H24(用于通讯录) | H25(用于电子地图) | 0.2 |
H21(用于搜索引擎) | H25(用于电子地图) | 0.3 |
H22(用于英汉、汉英词典) | H29(用于计算器) | 0.0 |
从上表可以看出,关键词产生渠道与应用渠道不相似;而产生渠道之间和应用渠道之间可能相似;对于貌似不同的屏幕精确抓词渠道H11与剪贴板取词渠道H15,却很相似Q=0.8。定义了渠道H、词频奖励值Fo、渠道相似度Q和渠道新鲜度Xx、相对新鲜度Xd、总体新鲜度Xz后,就可以给出词频渠道奖励算法使用Hi渠道第ni次的奖励词频值Ft(Hi,ni)的计算公式为:
经过以上的定义,一个关键词被使用第n次,并且使用渠道Hi,这时Hi被累计使用了ni次,则该词的词频Fc(n)=Fc(n-1)+1+Ft(Hi,ni),(0≤Fc≤255),当Fc(n-1)=255时,Fc(n)=Fc(n-1)。这就是本发明的渠道奖励词频统计算法。
本发明的遗忘算法是根据用户使用关键词时遗忘的特点,参考艾宾浩斯记忆规律曲线揭示的规律,将该曲线分为三段:瞬时记忆阶段、短期记忆阶段和长期记忆阶段,并都用指数函数进行模拟。在综合倒排索引装置中索引词的词频Fc作为记忆强度的度量,设经过T时间后,遗忘比例为Y(0<Y<1),则遗忘算法就是经过一段时间t之后,记忆残留量Fc=Fc0*(1-Y)t/T,其中Y与T是关联的,即确定某个参数后,调整另一个参数确定遗忘速度。
综合倒排索引装置的主要操作包括自动对综合倒排索引进行新索引词添加、词频统计、词频遗忘、索引词删除、文档代号序列更新、渠道代码集更新等操作,以及根据给定的查询语句进行查询的操作。下面给出这些操作的实施过程:
1、新索引词添加操作:通过关键词识别装置识别的新关键词,通过主题词与评语装置录入的新主题词与评语,在调用工作日志装置进行记录后,同时触发综合倒排索引装置添加新索引词。索引词采用瞬时记忆、短期记忆和长期记忆三个阶段进行记忆和遗忘。新关键词A总是被添加到综合倒排序引的瞬时记忆缓冲区,并根据索引主表同时记录该关键词的渠道信息,便于运用词频渠道奖励算法,在这里采用词频Fc排序,并用遗忘速度很快的遗忘算法减少词频,所以一个新词在记忆后的短期内必须多次被用到,特别是被不同渠道用到的才会被保留,当词频大于某个阈值(比如100)后,该词就被转入短期记忆缓冲区,这样做的目的是剔除各种原因产生的不是词的错误文字串。由于新主题词和评语是靠用户在主题词与评语装置中编辑产生的,它们被用到时已经是旧词,而且由于它们没有关键词那么多的使用渠道,所以它们不经过瞬时记忆阶段,直接进入短期记忆缓冲区,它们的不同渠道就是不同文档和同一文档的不同部分。
2、词频统计操作与词频遗忘:随着每次使用旧的关键词、主题词和评语,都会触发综合倒排索引装置查找到索引主表中的某个索引词,并且进行词频统计和检查是否需要进行词频遗忘刷新。如果该索引词在长期记忆存储区,则该词的词频统计是增加1,即Fc=Fc+1,如果Fc=255,则Fc不变;这是因为处于长期记忆存储区的索引词都是被使用过许多次的,关键词的使用渠道都没有新鲜度了,所有渠道的词频奖励都为0。对于长期记忆存储区的索引词的遗忘算法,采取每天刷新一次的方法,在每一天第一次启动本系统时或者刷新超过一天后,令该区的每个索引词的词频:Fc=Int(Fc*(1-Yc)),这里Int()是取整数值的函数,Yc大约是0.01量级的数字。对于最大的词频Fc=255,如果该词不再被用到(即词频不再增加),按Yc=0.01用上面的公式遗忘,则大约170天后词频Fc降到0。如果连续有几天没有启动本系统,则不用刷新,即用的是设备运行的相对时间进行刷新。对于词频为0的索引词,在长期记忆存储区,只保留该区总索引词的一个很小的比例(比如3%),这些索引词根据它们对应的文档数和它们最后被用到的时间综合排序,把最旧的索引词和对应文档最少的词排在后面,使它们被新进入该存储区的索引词取代。这里的遗忘算法的目的是适应用户兴趣和个性随时间的改变,使用户当前时期最关注的词的词频保持最高。如果查找到索引词在短期记忆缓冲区,则Fc(n)=Fc(n-1)+1+Ft(Hi,ni),(0≤Fc≤255),当Fc(n-1)=255时,Fc(n)=Fc(n-1),Ft(Hi,ni)的计算见公式(1),这时渠道奖励的作用必须考虑。遗忘算法的更新频率提高到一小时,每次增加词频时,都检查刷新时间是否超过一小时,如超过,则按Fc=Int(Fc*(1-Yd)),这里Int()是取整数值的函数,Yd大约是0.01量级的数字,与Yc无关。当某个索引词的词频Fc大于某个阈值(比如150)而且该词的词类得到明确,比如属于重要的人名、地名、机构名、产品名等(由索引主表的渠道代号集合给出)或者由该词对应的文档数目超过某个阈值(比如100)时,该索引词就被转移到长期记忆存储区。对于词频Fc为0的索引词的处理方法与长期记忆存储区的方法一样。短期记忆缓冲区的目的是适应用户的非个性的临时兴趣的特点。如果查找到索引词在瞬时记忆缓冲区,则Fc(n)=Fc(n-1)+1+Ft(Hi,ni),
(0≤Fc≤255),当Fc(n-1)=255时,Fc(n)=Fc(n-1),Ft(Hi,ni)的计算见公式(1),这时渠道奖励的作用非常重要。该区的遗忘算法是按绝对时间计算的,每次有索引词被用到需要增加词频时,就根据前一次刷新后经过的时间t计算新的记忆残留比例Rs=(1-Ys)t/T(这里T=100秒,Ys大约为0.01的量级),当Rs<0.95时,就对瞬时记忆缓冲区进行刷新,即对于Fc=20,可以使Fc*Rs=19,达到真正的刷新效果。由于该区的遗忘速度快,一般一天后所有词的词频都降为0了,但是这些索引词还会保留在该缓冲区,为了方便新的词频统计,当某个关键词的词频降为0时,也会将它的渠道使用集合清空,使得渠道奖励算法重新有效。当词频大于某个阈值(比如100)后,该词就被转入短期记忆缓冲区。瞬时记忆缓冲区的目的是过滤各种原因产生的不是词的错误文字串,因为大部分错误不会被重复。
3、索引词删除操作:当新的索引词进入某个缓冲区或存储区,按照对应的文档数或者使用时间排在最后的索引词条将被删除。各区的索引词条总数目,由零词频的词条决定,比如以保留词条总数3%的零词频词条为标准,当零词频的词条少于3%时,综合倒排索引装置就自动增加索引词条数,当有太多的零词频词条时,该装置就自动减少总词条数,并删除多余的零词频词条。
4、文档代号序列更新操作:当某个关键词通过某个渠道被使用时,往往会联系某个文档,或者某个主题词、评语被选择时,也与某个文档联系,这时,在进行该索引词的词频统计操作时,需要检查这个联系的文档是否在该索引词对应的文档代号序列中,如果不在,则在文档关注表中查找该文档的关注度,然后根据将该文档的关注度值将其代号插入相应的位置。由于文档的关注度Gz与该文档被用到的频率Fw和与该文档关联的重要索引词的词频Fci有关,所以凡是索引词的词频变化后,文档的关注度就会有变化,也就会影响文档代号序列的排列。由于这个更新的计算相当复杂,所以不能进行实时更新。实际上,由于某些索引词词频的一些变化,并不引起相关文档关注度的重大改变,所以对文档代号序列的影响不会很明显,于是本发明采用定时更新方式,比如在长期记忆存储区进行索引词词频遗忘刷新时,同时进行文档代号序列的更新。
文档关注度Gz与该文档被使用到的情况有关,首先与该文档被使用到的次数,即频率有关,也与该文档的所有用户用到的关键词、主题词和评语有关,也肯定与用户直接给文档关注度的打分Fs相关(Fs的取值从-100到100,缺省值为0),还可能与该文档联系的其它文档和辅助工具有关。在本发明中,文档的使用频率Fw限制在[0,255)的范围,方便于词频比较;文档被关注的信息包含在用户使用该文档时最经常用到的索引词中,所以用重要索引词集合来代表该文档的特点。为了使各种文档之间的比较比较公平,所有的文档取与它关联的最重要的前k个索引词(k取3~7之间的数),即词频最大的前k个索引词,进行词频平均,对于总索引词少于k个的情形,认为剩余的索引词词频为0。因此,本发明应用下面的公式计算文档的关注度Gz:
其中,Rw(0≤Rw≤1)代表文档使用频率的权重,Rc代表重要索引词词频均值的权重,Rs代表用户对文档关注度主观打分值的权重,Rw+Rc+Rs=1,当Rw=1时,就只考虑文档本身被使用到的频率作为文档关注度的度量;一般取Rw=0.3,Rc=0.5,Rs=0.2;对于不同的用户,可以取不同的权重值。
5、渠道代号集更新操作:当某个关键词通过某个渠道被使用时,就会记录在工作日志装置中,同时触发综合倒排索引装置的新词添加、词频统计或者词频遗忘操作,这时,直接将使用到的渠道代号加入索引主表的渠道代号集中。在该集合众渠道代号是以(渠道代号,使用次数)的二元结构作为集合元素的,当某个渠道代号在集合中还没有时,就加入该渠道代号,并置使用次数为1;当某个代号已在集合中,则将对应的使用次数加1。当瞬时记忆缓冲区进行词频遗忘操作,并把某个索引词的词频将为0时,需要将渠道代号集合清空,这时只是将所有集合中的使用次数置为0。
6、查询语句查询操作:查询语句是用逻辑的“与”和“或”运算符同多个索引词组合的逻辑运算式,查询语句的查询结果是一个由查询语句中的每一个索引词对应的文档代号序列按照查询语言中的对应位置的“与”、“或”运算符按照文档代号序列的“与”、“或”运算方式运算后得到的文档代号序列为结果。这里需要定义文档代号序列之间的“与”、“或”运算方式。为了方便,用符号“×”代替“与”,符号“+”代替“或”。
定义1:设:索引词S的词频为Fc,查找到的对应的文档代号序列为L,则L中的文档Wi的运算关注度Gzyi=Fc*Gzi,其中Gzi为文档Wi的关注度,Ly则是按运算关注度排序的运算文档代号序列。
定义2:设:索引词S1的运算文档代号序列为L1;索引词S2的运算文档代号序列为L2;则L1+L2就是L1序列中所有的文档W1i的集合与L2序列中所有的文档W2j的集合的合并集合按运算关注度排序的文档代码序列,其中对于同时在两个序列中出现的文档W其运算关注度取其中较大的运算关注度,即Max(Gzy1i,Gzy2i),而其它文档的运算关注度不变。
定义3:设:索引词S1的运算文档代号序列为L1;索引词S2的运算文档代号序列为L2;则L1×L2就是L1序列中所有的文档W1i的集合与L2序列中所有的文档W2j的集合的合并集合按运算关注度排序的文档代码序列,其中对于同时在两个序列中出现的文档W其运算关注度为这两个运算关注度之和,即Gzy1i+Gzy2i,而其它文档的运算关注度不变。
根据以上定义,L1×L2和L1+L2还是运算文档代号序列,它们还可以同其它运算文档代号序列L再进行“与”、“或”运算。“或”运算的意义是扩大查寻范围,“与”运算的意义是使索引词S1和索引词S2都能查询到的文档排到更前面。以上是综合倒排索引装置的一些基本操作的实现说明,还可以增加其它的有用操作。
超链接技术是文档组织的基础技术,为了让不能进行编辑和修改的文档也能增加超链接,就需要发展软性超链接技术,即通过查看一个记录着某个文档中某个位置的某个关键词链接着某个特定的信息的操作日志来启动超链接。本发明中的软性超链接装置用于以文档为中心,从工作日志装置的记录中,将用户使用该文档时,抓取过的关键词及其位置、由该关键词调用的辅助工具以及返回的信息、调用搜索引擎搜索到的辅助文档,还有通过关注位置及其上下文进行的主题词和评语标注,以及添加的附记和评论等记录按照时间排列,以最近和最频繁使用的Nr个记录作为该文档的软性超链接。当该文档被再次打开使用时,这些软性超链接就会被自动打开(这里按照用户设置的一些规则协调:比如重要的关键词、独特的关键词、本机文档连接优先、高频率优先等)调出辅助信息,协同显示在屏幕上,恢复用户最近几次使用该文档时的运行状况。从工作日志装置的记录中,还可以统计出调用或打开该文档的主要方式,比如是从文档操作装置打开,是某个索引词搜索到该文档而打开,是那些文档通过软性超链接打开,甚至是某个文档通过硬超链接打开等,这样可以使该文档进行一定的回溯操作。
文档操作装置相当于本系统的主页,用于将用户最常用到的文档、最新用到的文档,以及将会被用户感兴趣的新文档等的标题和简单摘要按照主题词和重要关键词进行用户主导下的自动分类显示。评语只作为辅助分类信息。该装置还有一个接受查询语句输入的接口,最重要的索引词和刚用过的索引词被列出备选。该装置从用户搜索到的文档缓冲区中、从新发来的电子邮件中、从内部局域网信息共享区中自动搜集包含有很多重要索引词的新文档提供给用户,在该装置中,用户打开文档的过程、用户调整分类栏目的过程、用户在某个栏目增加、删除文档的操作均会被工作日志装置记录并会被文档操作装置的自动分类部分学习,改进以后的分类准确度。比如用户对某个长文档的一个段落作了一个主题词标注,该装置可能将该文档分在该主题词的类别中,但用户认为该文档从整体来说不该分在这个主题词的类别中,并将文档移到另一个主题词的类别中,则工作日志装置将记录这个过程,同时使得新的主题词与该文档整体联系,并且是重要程度较高的联系。在该装置中,用户是没有打开文档而对文档的一些操作,所有关联的主题词、评语、关键词是针对文档整体的。
系统配置装置用于用户设定整个系统运行参数和输入用户个人信息。所有的运行参数都有缺省值设定,用户可以根据自己的个性和爱好修改。用户个人信息包括姓名、性别、年龄、文化程度、专业、职业、爱好、朋友、住址、电话等。
三、:述于\hu进行查询并返回查询结果。屏幕抓词装置:
屏幕抓词装置的主要功能是通过用户使用鼠标移动的特定轨迹有意识地标明屏幕上显示的、用户能够看到的文字和符号串的起始和结束位置,然后将该文字和符号串作为关键词取出;这里的文字包括混合显示的各国文字,符号包括数字;由于鼠标的常规使用方式(按一次左键代表光标定位,按住左键移动代表对象选择,连按两次左键代表执行,按一次右键代表调用快捷功能等)已被主程序占用,为了不干扰主程序的操作,与主程序同时运行的本发明采用鼠标轨迹识别装置、关注位置识别装置和屏幕抓词装置来实现新的鼠标交互模式。而屏幕抓词装置则根据鼠标轨迹识别装置传递的屏幕范围信息,在主窗口的显示缓冲区提取该屏幕范围的文字代码内容,整理成文字串作为关键词。为确保当用户确实把注意的焦点放在某个词或字上,而不是偶然将光标移至这个词上时,被关注的内容才能传递给本系统,由此调用的辅窗口才能出现。这就要求有特殊意义的鼠标的移动轨迹,是一串不容易被用户的无意识鼠标移动轨迹碰巧一致的一组特殊轨迹的组合组成,可采用下列方式来实现:用户将鼠标短暂停留(比如0.05-0.2秒)在某个关键词的开头位置,然后在该关键词周围徘徊,即在该词上左右来回的移动(文字水平排列时)或者上下来回移动(文字垂直排列时)或者围绕该词画圈,其中在该关键词的结尾位置有一个短暂的停留,然后停在徘徊或者画圈的起始处,这时即认定用户的关注点被明确表达,并且用户还选定了被关注的关键词。对关注点的认定可以采用分级、人为设定或根据用户的使用频度智能化的调整。对高频度使用本系统的用户,通过光标的一次停留认定;一般用户通过光标的一次徘徊或画一圈认定;低频度使用本系统的用户通过光标的两次徘徊或画两圈认定。通过画圈,用户可以准确地选定对象(在文档中主要是关键词,在GIS和CAD等图形软件中,可以选定图形对象)。用户可以有意识地精确地确定关键词的起始位置和结尾位置,并以一些独特的鼠标轨迹将位置信息传递给鼠标轨迹识别装置。对于在一行以内的关键词,用徘徊或画圈选定关键词;对于多行显示的关键词,将鼠标在关键词的起始位置的文字下方短暂停留(比如0.05-0.1秒)然后画一个特定轨迹(比如将鼠标移到文字上方短暂停留后又回到下方再次停留),然后到该关键词的结束位置短暂停留后画同样的轨迹。当屏幕抓取的关键词是精确给出的时候,关键词识别装置的处理就只是判断该关键词是否新词,如果不是新词则给出该关键词的词性和分类,然后调用关键词分析装置进行下一步的处理。但是,为了方便用户操作,对于曾经抓取过的和使用过的,不易产生歧义的关键词,或是根据规则容易判定的新词(人名、地址、时间等),可以采用模糊的屏幕范围圈定方法(如在该关键词上任意位置短暂停留后画一个不停顿的圈)选定关键词。这时,需要调用关键词识别装置进行关键词识别,才能进入下一步的处理。
四、剪贴板取词装置:
剪贴板取词装置用于监视用户利用操作系统提供的剪贴板进行复制、粘贴、移动乃至删除的操作,并察看剪贴板中的内容,如果内容是文字串时,就将该文字串取出,配合鼠标的特定轨迹判定是否是用户精确选定的关键词,则标明代表精确取词渠道代号;如果在剪切或粘贴内容的同时,没有鼠标轨迹或鼠标轨迹不对,则标明模糊取词的渠道代号。然后这些信息传递给关键词识别装置进行分词、识别和提取关键词属性。如果是关键词,则再将该词传递给关键词分析装置进行分析,然后通过辅助工具库接口装置调用某个辅助工具为用户服务。特别是用户将剪贴板的内容直接粘贴到某个关键词驱动的辅助工具或搜索引擎中时,剪贴板取词装置直接将剪贴板的内容作为关键词连同被粘贴关键词的辅助工具一起存入信息组织装置的工作日志装置中。
五、输入过程取词装置:
输入过程取词装置是用以监视用户输入的文字和符号串,通过关键词识别装置自动分析和判断输入文字和符号串是否为关键词,如果是,则将该文字和符号串作为关键词取出;输入过程包括键盘、语音和手写输入;该输入过程取词装置还与操作系统的智能化汉字输入模块集成,这样可以通过汉字输入激活的热键(如Ctrl+空格)激活而同用户交互,还可以利用简化输入进行分词,以智能化拼音汉字输入法为例,对于常用基本词,三个字以上的词才可以使用声母简化输入,即输入每个字的声母来输入该词;对于用户特定关键词,可以将该方法用于二字词。智能化拼音汉字输入法模块对一个拼音串还要能够记录多条用户指定的多字关键词,不能仅仅是以消除重码为目的而只记录一个关键词。关键词中的专业名词和简缩词与它们的定义一起记录和保存,定义可以由用户直接输入,也可以从企业内部的较完整的定义库中选出,还可以由用户从Internet网络上搜索到的网页中自动提取后由用户整理和认可而得到。一个关键词被用户从多个工具中用到则表明该关键词对该用户而言非常重要。对于关键词的评分公式要能体现这个特点。比如从屏幕抓了某个关键词,用它在Internet上搜索到了一些网页,并点击了几个网页,在某个点击出来的网页中停留时间较长,表明用户在阅读,或者将此网页保存,或者用自动摘要工具生成摘要,或者用定义生成工具将网页中的某个关键词的定义提取到定义库中。这样记录到综合倒排索引装置的新关键词,在智能化拼音汉字输入法模块中将作为用户用过的专有词或词组对待,可以在下次用到时,直接由汉语拼音输入。如果专有词中的某个汉字有多个读音,则全部可能的拼音组合都记忆,到用户输入汉字时再确定一个正确读音。与输入过程取词装置集成的智能化汉字输入模块需要进行一定的改造,使用户在中文输入过程中有意识地输入特定的关键词分割标志(比如“空格”、“‘”或者其他的特殊键位)而精确地确定关键词。关键词识别装置则根据一些规则,在汉字输入中识别新词(即信息组织装置的综合倒排索引装置中没有的词),如果是新词,则反馈给输入过程取词装置,让用户进行确认或输入补充信息,当用户不希望被干扰时,用户只须继续汉字输入或继续主窗口中的操作即可。
六、关键词识别装置:
关键词识别装置的主要功能是通过中文自动分词,识别出关键词,然后到综合倒排序装置中查出该词的属性和类别,并调用工作日志装置记录该词和产生它的渠道,并触发综合倒排索引装置进行词频统计,如果该关键词是新词,就触发综合倒排索引装置进行新索引词添加。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、最少切分(使每一句中切出的词数最小)等。这些基于字符串匹配的分词方法是关键词识别装置自动分词的基本的方法。2、基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,当高于某一个阈值时,便可认为此字组可能构成了一个词。在关键词识别装置中应用的统计分词法识别一些新的词和进行部分歧义消除。3、基于理解的分词方法,这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。在关键词识别装置中会采用一些经过验证的可靠的方法作为歧义消除的补充。计算机自动分词,总有一些缺陷,要多利用汉字输入过程和屏幕抓词过程中的精确抓取的关键词,并进行词类和词性的标注,然后应用到其它辅助工具中,一个关键词在多个辅助工具中使用后,标注的内容就会逐渐丰富,该新词的意义就会逐渐明朗。比如在输入人名“李长江”时,“智能化拼音汉字输入法”的智能处理功能会让用户从候选字和词中组合出人名来,可能的组合是“李”+“长江”,但是用户为了让系统知道“李长江”是一个专有的人名,可以改进智能化拼音汉字输入法中用音节分隔符“‘“兼作为精确取词的分隔符,则“李长江”可以由“‘”+“李”+“长”+“江”+“‘”明确给出。当这个“李长江”被用来调用通讯录,则该关键词被表明为用户的重要联系人的人名,在综合倒排索引装置可以进入长期记忆存储区,这样就不容易被淘汰。当该用户又用“李长江”作为关键词进行全文搜索,并搜索到所要的文档时,它的重要性将近一步加强。两个不同辅助工具中用到同一个关键词各一次,则该词的重要性远大于在其中一个工具中用到两次,可能会等同于在同一个工具中用到20次,这就是本发明的词频渠道奖励算法的实质。屏幕抓词装置和输入过程取词装置提供的精确取词,都是关键词识别装置智能化自动分词的训练例子。
七、关键词语义装置:
关键词语义装置用于给出关键词识别装置识别出的关键词的语义并记录到信息组织装置的工作日志装置中,并在屏幕上显示,或者将关键词和有关的语义传递到关键词分析装置进行后续处理。关键词语义装置是一个半自动的工具,在同主文档的主程序交互中自动提取语义信息辅助用户标明关键词在文档中的语义。比如关键词是一个人名,就需要确定该人名是这个文档的作者、译者、评论员,还是该文档中描写的主角、配角等。它不同于通讯录对人名的处理,通讯录对人名的处理关心的是该人名与用户的关系,而这里关心的是该人名与文档的关系。比如关键词是一个地址,其语义可能是有关文档的关系,是作者的地址、文档的出版社地址、文档中主角的住址或办公地址等。如果关键词是一个数字,其语义可能是该文档的价格、作者的电话号码、文档名、文档的页码等。在该装置中建立一个描述文档和对文档分类的语义体系,类似于主题词和评语体系结构。另外,还提供对关键词的定义,定义可以由用户直接输入,也可以从企业内部的较完整的定义库中选出,还可以由用户从Internet网络上搜索到的网页中自动提取后由用户整理和认可而得到。定义和语义有一定的关系,定义是概括性的,语义是针对性的。比如“电话号码”的定义是用来打电话的;而语义是该“电话号码”是某某人的电话号码。关键词的语义在搜索中有很大的价值,一个人名作为关键词时,指明它是作者还是主角对准确搜索差别很大。比如“爱因斯坦”作为作者的搜索和作为主角的搜索结果是截然不同的。关键词语义装置实际上将纯文本进行了一定程度的半结构化处理,如果主文档就是一个半结构化的文档,如XML文档、Web网页、有文档格式的Word文档等,则关键词语义装置就提取这些文档的结构化信息,并补充和集成本装置的结构信息。
八、关键词分析装置:
关键词分析装置的功能是根据关键词识别装置提供的关键词的属性和类别,并根据关键词语义装置给出的语义,通过辅助工具库接口装置和搜索引擎接口装置调用不同的工具或搜索引擎为用户服务。对于一个抓取的关键词,可能有多个辅助工具和搜索引擎可以利用,这时可根据用户习惯推荐一个首选工具,同时将其他工具列出供用户选择。用户以划圈的方式在屏幕取词时,往往划定了关键词的范围,即人工进行了分词,如果被划定的是新词则通过工作日志装置将它记录下来,并根据用户使用不同的工具对待该关键词来增加该关键词的词性分类信息。比如用户利用汉英词典查找英文单词,则可根据选中的英文单词的词性来确定该词的中文词性;当用户将它同通讯录联系时,这个关键词可能就是人名或地名;当用户用它进行搜索时,它就是用户关心的分类意义的关键词;当用户用它查找地图上的地址时,它就是地址或机构名;当它是数字时,它可能是电话号码、身份证号码、产品代号等,这时,用户想要的就是这些数字代表的主题的有关信息,它也可能是纯粹的数字,这时用户可能要进行数字计算,那么就通过关键词分析装置调用计算器。从关键词分析装置传递的关键词可能是调用搜索引擎。这时,搜索引擎接口装置就对关键词进行个性化和智能化处理,并且首先在综合倒排索引装置中搜索,然后再到外部的搜索引擎上搜索,搜索的结果进行智能化过滤后再返回给用户选择。从关键词分析装置传递的关键词可能是调用辅助工具。这时,辅助工具库接口装置统一进行辅助工具库中所有工具的调用与显示,防止鼠标轨迹调用操作与屏幕显示的冲突。
九、搜索引擎接口装置:
搜索引擎接口装置用于根据综合倒排索引装置中的各词频特性和在索引中待搜索的关键词对应的用户常用的一种词义,结合同义词、近义词、上位词、下位词和联想关键词来改造搜索词句,然后传递给外部搜索引擎进行搜索,提高信息搜索的质量。搜索引擎接口装置就是通用的搜索引擎加上个性化和智能化加强的搜索工具。提高搜索质量往往需要个性化、智能化再搜索技术的辅助。用户个性化就是尽量掌握用户使用计算机的特点,从用户与计算机的交互特点,关心的信息的特点,区分不同场合用户的不同需求(工作时,娱乐时的不同),利用这些特点既可以区分不同用户,也可以区分同一个用户处于不同场合下,更要区分该用户在处理不同任务时的不同特点,所以本发明的搜索引擎接口装置的个性化的含义比较广泛。根据用户当前的状态,将关键词进行限定是一个有效的提高查询准确度的方法,比如用户使用该关键词是在什么主题下,即加上主题词,当前用户用到的主文档中其它相关的关键词也要加入到查询内容中,用户对主文档的评语表明用户喜爱的文风与体裁,可以对此也进行限制等等。通用搜索引擎的重要性排序没有考虑特定用户的需要,所以对搜索到的信息,按照用户个性特点进行信息条目的重要性重新排序,网页动态排序,用户关心度动态排序的过滤也很重要。过滤时,按主题、评语、语义等对搜索到的文档分类对用户选择搜索结果有很大帮助。最后用户选定的文档将会用标准的Web浏览器的主窗口方式显示,该文档可能是现有主文档的辅助文档,随着用户关注的增多也可以是另一个主文档。
十、辅助工具接口装置:
辅助工具接口装置是各种外部辅助工具的集成接口,并将这些外部辅助工具按使用关键词的特点进行分类,使其分别属于不同的“渠道”,他们被正确地调用后,对关键词的“新渠道奖励”词频统计法意义重大。辅助工具库至少包括中外文词典,汉语词典和百科全书,通讯录、电话号码本、计算器、地图、电影片段、音乐片段、名人介绍、内容相关的文档链接(通过主文档抓取的关键词或语句进行的本地和Web的智能搜索得到的文档,可以用超链接建立联系,如果主文档是只读的,则在工作日志装置记录该事件而建立起软性超链接)中的一种或几种,但不限于以上所列举的这些。他们主要以辅窗口形式进行显示,同时需要配合关注点位置信息、关键词和上下文语境。对于一些只能在自己控制的主窗口显示的辅助工具,则屏幕协同显示装置不能使他们与主文档的主窗口协同动作,当主文档的主窗口激活后,该辅助工具的主窗口将被置于后台状态。凡是符合一定的标准和协议,任何不同的软件开发商的辅助工具都可以注册成为辅助工具库的一分子,接受辅助工具库接口装置的统一管理,共享鼠标轨迹识别装置、屏幕抓词装置和屏幕协同显示装置提供的功能,然后结合每个工具自己的特殊规则和推理引擎进行进一步的信息智能处理为用户提供服务。辅助工具库接口装置存储着每个辅助工具的名称、功能、类别与显示特点,当某个工具被一特定关键词调用后,就会将该工具的类别赋予该关键词,比如通讯录赋予关键词人名的类别,地图赋予关键词地址的类别,百科全书赋予关键词语义定义等,这些信息经过辅助工具库接口装置的整理将存入工作日志装置,作为维护综合倒排索引装置的重要信息。
十一、鼠标轨迹识别装置:
鼠标轨迹识别装置用以识别用户移动鼠标有意识地画出的一些特定鼠标轨迹,根据识别的不同轨迹特点,判定用户选定的关键词和内容、定点文档位置或是发出操作命令,然后分别调用屏幕抓词装置、关注位置识别装置和操作控制识别装置进行下一步的处理。
十二、关注位置识别装置:
是于诶关注位置识别装置用于提取主文档中用户关注的某个位置的信息和特点。位置信息分为四种类别:屏幕位置、窗口位置、文档页面位置和文档内容位置。屏幕位置是屏幕上的绝对位置,不会随着显示内容的改变而改变;窗口位置是以主窗口位相对坐标的位置,窗口的移动和比例改变都有可能改变窗口位置;文档页面位置是相对于主窗口内文档的页面背景的坐标位置,页面移动和显示比例改变时,文档页面位置会相应改变;文档内容位置是相对于文档的文字坐标位置,当文字滚动、比例变化和字体改变时都会相应改变。当文档不能编辑时,比如PDF文档,文档页面位置和文档内容位置相等同。由于鼠标轨迹识别装置识别的有些轨迹不是为了抓取关键词,而是抓取不宜作为关键词的句子或段落。用户希望对这些内容进行评语评价、表达感慨或进行主题词标记等,也可能只是在文档上定位,这时就由关注位置识别装置来处理位置信息,并缺省地确定上下文(一般为位置所在的自然段落)或者由用户明确修改为本页、本节、本章或全文。
十三、操作控制识别装置:
操作控制识别装置用于根据鼠标轨迹识别装置识别轨迹后得到的轨迹代号查找对应的功能或指令,并根据运行环境和相关参数的情况调用对应的功能或发出对应的操作指令,以及在不适合的情况下,取消功能的调用和指令的发出。比如接到了对应调用主题词与评语装置的轨迹代码,此时操作控制识别装置只有在接到关注位置识别装置给出的位置参数的情况下,才调用主题词与评语装置。由于关注位置识别装置传递的位置没有更多的信息可以分析,而该位置的文档上下文的分析又太难,因此,调用主题词与评语装置和附记与评论装置一般采用用户通过鼠标轨迹直接选择的方式,而不进行类似于关键词分析装置的智能化分析工作。
十四、主题词与评语装置:
主题词与评语装置用于弹出一个窗口以树状结构展示主题词或评语,供用户选择。被选中的主题词与评语列于一个选中框内,用户还可以调整它们的次序,或删除某个主题词或评语。当用户确定后,这些主题词与评语就同主文档相应位置的上下文或者被选定的段落关联显示,同时在工作日志装置中记录时间、主文档、被关注位置和被选中的主题词与评语的联系信息。有些主题词和评语用户希望它们与文档关联,但是不希望显示,这种情况下可设置一个显示标志进行区别对待。有时,用户对关注位置的文档内容不希望用文字的评语进行评价,而希望用图标或符号进行标记,比如用辅窗口的下划线表示“重视”、用双下划线表示“很重要”、用在句子或段落上画叉表示“胡说八道”等等,则主题词与评语装置在内部处理和存储时将这些图标与符号一一或者一多地对应文字的评语,只是在显示时表现为图标和符号。在主题词与评语装置中还可以让用户直接给文档的重要性、参考价值和喜爱程度的综合结果,即文档的关注度(Fs)打分,Fs取值从-100到100,缺省值为0,-100表示文档不重要、无参考价值、不受喜爱,0表示一般,100表示很重要、很有参考价值、很受欢迎。对于一些带有强烈感情色彩的评语,相当于用户已经对文档进行了主观评价,比如“妙论”的评语表明用户喜欢该文,“极有参考价值”的评语表明是一篇重要文档,而“垃圾”的评语表明该文档无意义。对于一些主题词表明用户感兴趣的程度很高,比如“足球”主题对某个用户来说兴趣分100。对于这类主题词和评语可以给一个分值,当用到时可以修正用户的直接打分,由于用户的观点会改变,比如一段想读的新闻在读之前其重要性是100,但读过后重要性可能变为20或者0,如果是一个假新闻重要性还会降为-100,所以文档的关注度以最新的打分或经过最新的主题词和评语的修正为准。主题词与评语装置还具有主题词和评语的录入和维护功能,能够表达主题词具有概念上的层次性,和上位词、下位词的关系,这种功能用表达本体的OWL语言来实现。主题词和评语表明了用户的观点、认识与感情,是对文档进行个性化组织与管理的重要基础。由于主题词和评语往往不在文档中出现,所以是关键词不能替代的有用信息。
十五、附记与评论装置:
附记与评论装置用于打开一个文字编辑器供用户录入文字信息,对文档关注位置的上下文进行附记补充,或者进行评论,或者进行附记补充与进行评论,并以页面位置的模式在辅窗口内显示在主文档中的页面空白处。它可以部分浮于文档文字之上,也可以超越页面之外、窗口之外,但是在屏幕之内,以能够阅读为标准。这个显示方式希望达到读者们在纸质媒体上写附记和评论的效果。附记可以认为是文档的补充,从附记中出现的关键词也增加对主文档的描述;评论是更细致的评论,评论中出现的主题词和评语可以作为对主文档的评价,可以自动提取后传递给主题词与评语装置,并调用工作日志装置进行记录处理。
装置本发明的运行环境如图4所示,用户在个人计算机上调用一个主程序,在主窗口上显示主要处理的主文档,该用户按照主程序规定的交互方式通过输入设备(键盘、鼠标、话筒、手写笔等)操作主文档,操作的结果被显示在主窗口内。本发明监视用户对主文档的操作,提取用户通过输入设备(键盘、话筒、手写笔等)的文字输入,提取用户使用剪贴板时的文字内容,识别用户的鼠标和手写笔的轨迹,抓取具有特定含义的轨迹指定的文字信息。并经过分析上述被提取的文字信息,得到用户关注的关键词、句子或段落,以及它们在文档中的位置,由此对文档的抓取部分进行主题词标注和评语标注,以及对该部分附加附记与评论等,或者以抓取的关键词通过搜索引擎搜索其它文档信息、调用辅助工具库处理抓取的信息等。这些辅助信息又被用户安排在屏幕上与主文档协同显示。其中的辅助工具库存放在本机硬盘上和内部网络的服务器上,搜索引擎将搜索本机硬盘上和内部网络的服务器上的文档和Internet网络上的网页信息。而本发明将自身产生的信息直接存放在本机硬盘或者内部局域网的服务器上。
本系统可以变成寄宿于内网或者Internet服务器上,可以跨平台(PC、PAD、手机和其他可以上网的终端)提供主要服务的操作系统的一种壳体(Operation System Shell)。计算机和与计算机连接的内部网和外部网(主要包括Internet网)为用户提供了大量的信息服务,用户在计算机上的操作和工作又为这个庞大的信息系统增加了新的信息。
Claims (25)
1.一种基于关键词的个性化文档处理系统,它包括具有至少一个处理机和一组存储器,并且还至少包括一个输出用的屏幕和输入用的键盘、鼠标以提供用户和程序交互的用户接口,并且与外部存储器、内部局域网和/或者外部国际互连网连接的计算机,在该计算机中运行有多任务和多窗口的操作系统,其特征在于:系统的构成还包括,
用以显示用户关注的主文档和与该主文档关联的辅助文档和/或者辅助信息的屏幕协同显示装置;
用以存储屏幕协同显示装置显示的各种信息和这些信息之间的关系并供其它装置使用、或者供外部工具调用的信息组织装置;
用以识别用户移动鼠标有意识地画出的一些特定鼠标轨迹、并调用对应操作的鼠标轨迹识别装置;
用于确定用户感兴趣的关键词的关键词产生装置;
用于对用户确定的关键词进行分析处理的关键词处理装置;
以及用于根据用户确定的关键词调用外部工具的工具调用装置。
2.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词产生装置包括用以通过用户使用鼠标移动的特定轨迹有意识地标明屏幕上显示的、用户能够看到的文字和符号串的起始和结束位置,并将该文字和符号串作为关键词取出的屏幕抓词装置。
3.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词产生装置包括用以监视用户利用操作系统提供的剪贴板进行复制、粘贴、移动乃至删除操作,并察看剪贴板中的内容,判断其是否为关键词,如果是,则作为关键词取出的剪贴板取词装置。
4.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词产生装置包括用以监视用户输入的文字和符号串,并通过关键词识别装置自动分析和判断输入的文字和符号串是否为关键词,如果是,则将该文字和符号串作为关键词取出的输入过程取词装置。
5.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:关键词处理装置包括用以判断一个给定的文字和符号串是否是关键词,以及是否可能是新的关键词的关键词识别装置和用以确定用户感兴趣的关键词并确定用户希望通过该关键词启动操作的关键词分析装置。
6.根据权利要求5所述的基于关键词的个性化文档处理系统,其特征在于:关键词处理装置还包括用以给出关键词的语义的关键词语义装置,该关键词语义装置给出关键词识别装置识别出的关键词的语义并记录到信息组织装置中,在屏幕上显示;或者将关键词和有关的语义传递到关键词分析装置进行后续处理。
7.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:工具调用装置包括一个基于关键词来调用外部搜索引擎,以提高信息搜索质量的搜索引擎接口装置。
8.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:工具调用装置包括一组基于关键词来调用外部辅助工具库的辅助工具库接口装置。
9.根据权利要求8所述的基于关键词的个性化文档处理系统,其特征在于:所述的辅助工具库包括但不限于中外文词典、汉语词典、百科全书、通讯录、电话号码本、计算器、地图、电影片段、音乐片段、名人介绍以及内容相关的文档链接的至少之一
10.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以提取主文档中用户关注的某个位置的信息和特点的关注位置识别装置。
11.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以根据鼠标轨迹识别装置识别轨迹后得到的轨迹代号查找对应的功能或指令,并根据运行环境和相关参数的情况调用对应的功能或发出对应的操作指令,以及在不适合的情况下,取消功能的调用和指令的发出的操作控制识别装置。
12.根据权利要求10或11中任意一项所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以弹出一个窗口以树状结构展示主题词或评语供用户选择的主题词与评语装置。
13.根据权利要求10或11中任意一项所述的基于关键词的个性化文档处理系统,其特征在于:系统的构成还包括用以打开一个文字编辑器供用户录入文字信息,对文档关注位置的上下文进行附记补充和/或者进行评论的附记与评论装置。
14.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:屏幕协同显示装置包括主窗口、辅窗口、协同显示控制装置;主窗口就是常规软件的显示窗口,用以显示用户进行主要的阅读和/或者编辑操作的包括有文字和符号的信息;协同显示控制装置用以监视主窗口的操作和/或者接受主窗口发出的消息,当主窗口显示的内容变化时,计算出主窗口内显示的所有被选择或者产生的关键词的坐标值和显示的缩放比例值,并将这些值传递给所有的辅窗口,使辅窗口能够调整显示位置和状态,与主窗口显示的内容协同地变化并显示;辅窗口用于在协同显示控制装置的控制下,基于主窗口中的显示内容显示出对应的帮助、附记、评论、主题词和评语辅助信息。
15.根据权利要求14所述的基于关键词的个性化文档处理系统,其特征在于:辅窗口具有视觉透明和交互操作透明的功能,即:当辅窗口置于主窗口之上时,辅窗口具有半透明到完全透明的边框和背景,用户可以看清辅窗口之下的主窗口所显示的内容,辅窗口中显示的文字或者图形内容漂浮在主窗口之上;用户的键盘和鼠标操作可以透过辅窗口和辅窗口中的显示内容而操作在辅窗口之下主窗口显示的内容上。
16.根据权利要求14所述的基于关键词的个性化文档处理系统,其特征在于:辅窗口可根据协同显示控制装置提供的关键词的新的位置坐标值和缩放比例值进行显示刷新,主要有四种模式的显示刷新,即:当主窗口中链接该辅窗口的关键词位置移动时,模式一,辅窗口跟随移动;模式二,辅窗口保持不动;模式三,辅窗口变为一个同关键词包含的文字同等大小的半透明图标,挂在该关键词后面跟随移动;模式四,辅窗口关闭。
17.根据权利要求1所述的基于关键词的个性化文档处理系统,其特征在于:信息组织装置的构成包括工作日志装置、综合倒排索引装置、软性超链接装置、文档操作装置和系统配置装置。
18.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:工作日志装置用于保存用户使用计算机的过程以及本系统各个装置运行的状态与结果;重点保存计算机的当前配置、近期使用过的工具、超链接和软性超链接的记录、用户的个性化特点。
19.根据权利要求18所述的基于关键词的个性化文档处理系统,其特征在于:工作日志装置记录的信息至少包括关键词产生表、关键词应用表和关注位置操作表,其中关键词产生表中的信息是由屏幕抓词装置、剪贴板取词装置或输入过程取词装置产生,并经关键词识别装置识别、传递后,调用工作日志装置进行记录的;关键词应用表中的信息是由搜索引擎接口装置调用外部搜索引擎成功返回辅助文档后,或者是辅助工具库接口装置调用辅助工具成功返回信息后,调用工作日志装置进行记录;关注位置操作表中的信息是主题词与评语装置和附记与评论装置运行后,调用工作日志装置进行记录的。
20.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:综合倒排索引装置用于根据工作日志装置中记录的关于关键词、主题词和评语的记录,建立以关键词、主题词和评语为索引词,以文档、附记、评论和辅助工具为检索项的索引表;索引表中的词汇是动态的,不断有新关键词加入也不断有旧关键词删除或遗忘,所有经过用户确认的新关键词采用瞬时记忆、短期记忆和长期记忆三个阶段的模式进行记忆和遗忘,新出现的主题词和评语直接进入短期记忆缓冲区;瞬时记忆的新关键词保留在综合倒排序索引装置的瞬时记忆缓冲区,同时根据索引主表记录它的渠道信息,该记忆缓冲区使用频率排序和用遗忘很快的遗忘算法减少词频;当该新关键词与某个文档关联或者与某个辅助工具固定关联,或者瞬时词频大于某个阈值后,该关键词就被存入综合倒排序索引装置的短期记忆缓冲区,并仍然根据索引主表记录该词的产生渠道,该新关键词的词频统计采取新渠道奖励算法统计,并按照词频进行排序和遗忘比较慢的遗忘算法减少词频,词频很低的词将被遗忘,从缓冲区排除;当存入短期记忆缓冲区的新关键词的必要属性被补充,而且词频高于一定的阈值,则该关键词将被存入综合倒排序索引装置的长期记忆缓冲区,成为该区的新关键词,并仍然根据索引主表进行词频统计的渠道奖励算法和用遗忘很慢的遗忘算法减少词频
21.根据权利要求20所述的基于关键词的个性化文档处理系统,其特征在于:词频统计的渠道奖励算法是模仿人类记忆过程中的感观渠道的综合作用和新鲜感对记忆的影响;一个关键词被使用第n次,并且使用渠道Hi,这时Hi被累计使用了ni次,则该词的词频Fc(n)=Fc(n-1)+1+Ft(Hi,ni),Fc为0~255之间的整数,当Fc(n-1)=255时,Fc(n)=Fc(n-1);Ft(Hi,ni)为使用Hi渠道第ni次的奖励词频值,Ft(Hi,ni)的计算公式为:
Fo为词频奖励值,Q为渠道相似度,Zd为渠道的新鲜感指数因子;Zd的取值大于0,小于1;Q的取值范围在0与1之间;
遗忘算法是根据用户使用关键词时遗忘的特点,参考艾宾浩斯记忆规律曲线揭示的规律,将该曲线分为三段:瞬时记忆阶段、短期记忆阶段和长期记忆阶段,并都用指数函数进行模拟,在综合倒排索引装置中索引词的词频Fc作为记忆强度的度量,设经过T时间后,遗忘比例为Y,Y的取值大于0,小于1,则遗忘算法就是经过一段时间t之后,记忆残留量Fc=Fc0*(1-Y)t/T。
22.根据权利要求20所述的基于关键词的个性化文档处理系统,其特征在于:索引文档按文档关注度Gz排序,文档关注度Gz与该文档被使用到的情况有关,首先与该文档被使用的频率Fw有关,也与该文档的所有用户用到的关键词、主题词和评语有关,与用户直接给文档关注度的打分Fs相关,还与该文档联系的其它文档和辅助工具有关;文档被关注的信息包含在用户使用该文档时最经常用到的索引词中,所有的文档取与它关联的最重要的前k个索引词进行词频平均,得到文档的关注度Gz的计算公式为:
公式中,Rw代表文档使用频率的权重,Rc代表重要索引词词频均值的权重,Rs代表用户对文档关注度主观打分值的权重,对于不同的用户,可以取不同的权重值,并且Rw+Rc+Rs=1。
23.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:软性超链接装置用于以文档为中心,从工作日志装置的记录中,将用户使用该文档时抓取过的关键词及其位置、由该关键词调用的辅助工具以及返回的信息、调用搜索引擎搜索到的辅助文档,还有通过关注位置及其上下文进行的主题词和评语标注,以及添加的附记和评论记录按照时间排列,以最近和最频繁使用的记录作为该文档的软性超链接,当该文档被再次打开使用时,这些软性超链接就会被自动打开调出辅助信息,协同显示在屏幕上,恢复用户最近几次使用该文档时的运行状况,并且从工作日志装置的记录中,还可以统计出调用或打开该文档的主要方式,从而使该文档可以进行一定的回溯操作。
24.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:文档操作装置用于将用户最常用到的文档、最新用到的文档,以及将会被用户感兴趣的新文档的标题和简单摘要按照主题词和重要关键词进行用户主导下的自动分类显示。
25.根据权利要求17所述的基于关键词的个性化文档处理系统,其特征在于:系统配置装置用于用户设定整个系统运行参数和输入用户个人信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710200102 CN101004737A (zh) | 2007-01-24 | 2007-01-24 | 基于关键词的个性化文档处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710200102 CN101004737A (zh) | 2007-01-24 | 2007-01-24 | 基于关键词的个性化文档处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101004737A true CN101004737A (zh) | 2007-07-25 |
Family
ID=38703883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710200102 Pending CN101004737A (zh) | 2007-01-24 | 2007-01-24 | 基于关键词的个性化文档处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101004737A (zh) |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004776A (zh) * | 2010-11-22 | 2011-04-06 | 何吴迪 | 一种面向窗口表达的云计算视窗体系架构方法 |
CN102193936A (zh) * | 2010-03-09 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN102541901A (zh) * | 2010-12-26 | 2012-07-04 | 上海量明科技发展有限公司 | 一种文档阅读时的信息识别输出方法及系统 |
CN101739393B (zh) * | 2008-11-20 | 2012-07-04 | 苗玉水 | 汉语文本智能分词法 |
CN102609189A (zh) * | 2012-01-13 | 2012-07-25 | 百度在线网络技术(北京)有限公司 | 一种移动终端的消息的内容的处理方法及客户端 |
CN102750279A (zh) * | 2011-04-18 | 2012-10-24 | 北京圣涛平试验工程技术研究院有限责任公司 | 电子文档的分类关联网络化共享方法及系统 |
CN103019814A (zh) * | 2012-11-21 | 2013-04-03 | 北京荣之联科技股份有限公司 | 一种剪切板管理系统及方法 |
CN103038764A (zh) * | 2010-04-14 | 2013-04-10 | 惠普发展公司,有限责任合伙企业 | 用于关键字提取的方法 |
CN103377232A (zh) * | 2012-04-25 | 2013-10-30 | 阿里巴巴集团控股有限公司 | 标题关键词推荐方法及系统 |
CN103513972A (zh) * | 2012-06-25 | 2014-01-15 | 联想(北京)有限公司 | 显示方法和电子设备 |
CN103678379A (zh) * | 2012-09-17 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 基于用户专注信息的实时推送媒体信息的方法和装置 |
CN104077011A (zh) * | 2013-03-26 | 2014-10-01 | 北京三星通信技术研究有限公司 | 一种同类型文档间的关联方法和终端设备 |
CN104462056A (zh) * | 2013-09-17 | 2015-03-25 | 国际商业机器公司 | 基于深度文档分析的主动知识指导 |
CN104462558A (zh) * | 2014-12-26 | 2015-03-25 | 浙江宇视科技有限公司 | 一种修改Lucene索引文件中词的方法及装置 |
CN104537040A (zh) * | 2014-12-23 | 2015-04-22 | 小米科技有限责任公司 | 网页内容的抓取方法及装置、电子设备 |
CN104850608A (zh) * | 2015-05-07 | 2015-08-19 | 深圳市世强先进科技有限公司 | 在信息展示页面上检索关键字的方法 |
CN104866545A (zh) * | 2015-05-07 | 2015-08-26 | 深圳市世强先进科技有限公司 | 在信息展示页面上检索关键字的方法 |
CN104922906A (zh) * | 2015-07-15 | 2015-09-23 | 网易(杭州)网络有限公司 | 动作执行方法和装置 |
WO2016004584A1 (en) * | 2014-07-08 | 2016-01-14 | Yahoo! Inc. | Method and system for providing a personalized snippet |
CN105488038A (zh) * | 2014-09-15 | 2016-04-13 | 阿里巴巴集团控股有限公司 | 通信应用的个性化信息匹配方法及装置 |
CN105574162A (zh) * | 2015-12-16 | 2016-05-11 | 南京鼎岩信息科技有限公司 | 关键字自动超级链接的方法 |
CN105706046A (zh) * | 2013-08-02 | 2016-06-22 | 谷歌公司 | 呈现搜索中的用户特定数据记录 |
CN105808520A (zh) * | 2014-12-30 | 2016-07-27 | 联想(北京)有限公司 | 电子设备及其语句处理方法 |
CN106202146A (zh) * | 2012-07-16 | 2016-12-07 | 刘二中 | 一种搜索引擎终端用户输入参考文件搜索提示信息的处理方法 |
WO2017028407A1 (zh) * | 2015-08-20 | 2017-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
CN107092588A (zh) * | 2016-02-18 | 2017-08-25 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置和系统 |
CN107451168A (zh) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN107545039A (zh) * | 2017-07-31 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 关键词的指数获取方法和装置、计算机设备和存储介质 |
CN107784027A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 一种裁判文书检索关键词的提示方法及装置 |
CN108399213A (zh) * | 2018-02-05 | 2018-08-14 | 中国科学院信息工程研究所 | 一种面向用户个人文件的聚类方法及系统 |
CN108509585A (zh) * | 2018-03-29 | 2018-09-07 | 重庆大学 | 一种异构数据实时交互优化处理方法 |
CN109284352A (zh) * | 2018-09-30 | 2019-01-29 | 哈尔滨工业大学 | 一种基于倒排索引的评估类文档不定长词句的查询方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109615001A (zh) * | 2018-12-05 | 2019-04-12 | 上海恺英网络科技有限公司 | 一种识别相似文章的方法和装置 |
CN109800303A (zh) * | 2018-12-28 | 2019-05-24 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN109857301A (zh) * | 2018-12-27 | 2019-06-07 | 维沃移动通信有限公司 | 显示信息的方法及终端设备 |
CN109933782A (zh) * | 2018-12-03 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 用户情绪预测方法和装置 |
CN110019771A (zh) * | 2017-07-28 | 2019-07-16 | 北京国双科技有限公司 | 文本处理的方法及装置 |
CN110019590A (zh) * | 2017-09-13 | 2019-07-16 | 北京嘀嘀无限科技发展有限公司 | 页面中展示地图的方法、装置、电子设备及存储介质 |
CN110603545A (zh) * | 2017-04-26 | 2019-12-20 | 谷歌有限责任公司 | 组织在与自动化助理的人机对话中交换的消息 |
CN110764668A (zh) * | 2019-10-30 | 2020-02-07 | 维沃移动通信有限公司 | 评论信息获取方法及电子设备 |
CN110968246A (zh) * | 2018-09-28 | 2020-04-07 | 北京搜狗科技发展有限公司 | 中文智能手写输入识别方法及装置 |
CN111046252A (zh) * | 2019-11-20 | 2020-04-21 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质、电子设备和系统 |
US10769225B2 (en) | 2016-08-15 | 2020-09-08 | Richard S. Brown | Processor-implemented method, computing system and computer program for invoking a search |
CN111966816A (zh) * | 2020-07-09 | 2020-11-20 | 福建亿榕信息技术有限公司 | 一种公文的智能关联方法和系统 |
CN112384903A (zh) * | 2018-09-26 | 2021-02-19 | 多玩国株式会社 | 服务器系统、应用程序发布服务器、阅览用终端、内容阅览方法、应用程序、发布方法、应用程序发布方法 |
CN112381519A (zh) * | 2020-11-20 | 2021-02-19 | 北京云族佳科技有限公司 | 一种工作日志的处理方法及装置、可读存储介质 |
TWI733581B (zh) * | 2020-09-04 | 2021-07-11 | 南開科技大學 | 提供線上電子書即時翻譯教學媒合系統及其方法 |
CN113204579A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113448918A (zh) * | 2021-08-31 | 2021-09-28 | 中国建筑第五工程局有限公司 | 一种企业科研成果管理方法及管理平台、设备、存储介质 |
CN113743054A (zh) * | 2021-08-17 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 字母向量学习方法、系统、存储介质及电子设备 |
CN114995691A (zh) * | 2021-03-01 | 2022-09-02 | 北京字跳网络技术有限公司 | 一种文档处理方法、装置、设备和介质 |
CN115204123A (zh) * | 2022-07-29 | 2022-10-18 | 北京知元创通信息技术有限公司 | 协同编辑文档的分析方法、分析装置以及存储介质 |
CN117556782A (zh) * | 2024-01-11 | 2024-02-13 | 深圳市度申科技有限公司 | 一种文本格式化方法、电子设备及计算机可读存储介质 |
CN117762889A (zh) * | 2024-02-20 | 2024-03-26 | 成都融见软件科技有限公司 | 同文件多窗口状态同步方法、电子设备和介质 |
-
2007
- 2007-01-24 CN CN 200710200102 patent/CN101004737A/zh active Pending
Cited By (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739393B (zh) * | 2008-11-20 | 2012-07-04 | 苗玉水 | 汉语文本智能分词法 |
CN102193936A (zh) * | 2010-03-09 | 2011-09-21 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN102193936B (zh) * | 2010-03-09 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN103038764A (zh) * | 2010-04-14 | 2013-04-10 | 惠普发展公司,有限责任合伙企业 | 用于关键字提取的方法 |
CN102004776A (zh) * | 2010-11-22 | 2011-04-06 | 何吴迪 | 一种面向窗口表达的云计算视窗体系架构方法 |
CN102541901A (zh) * | 2010-12-26 | 2012-07-04 | 上海量明科技发展有限公司 | 一种文档阅读时的信息识别输出方法及系统 |
CN102750279A (zh) * | 2011-04-18 | 2012-10-24 | 北京圣涛平试验工程技术研究院有限责任公司 | 电子文档的分类关联网络化共享方法及系统 |
CN102750279B (zh) * | 2011-04-18 | 2015-11-25 | 北京圣涛平试验工程技术研究院有限责任公司 | 电子文档的分类关联网络化共享方法及系统 |
CN102609189A (zh) * | 2012-01-13 | 2012-07-25 | 百度在线网络技术(北京)有限公司 | 一种移动终端的消息的内容的处理方法及客户端 |
CN103377232A (zh) * | 2012-04-25 | 2013-10-30 | 阿里巴巴集团控股有限公司 | 标题关键词推荐方法及系统 |
CN103513972B (zh) * | 2012-06-25 | 2017-06-27 | 联想(北京)有限公司 | 显示方法和电子设备 |
CN103513972A (zh) * | 2012-06-25 | 2014-01-15 | 联想(北京)有限公司 | 显示方法和电子设备 |
CN106202146A (zh) * | 2012-07-16 | 2016-12-07 | 刘二中 | 一种搜索引擎终端用户输入参考文件搜索提示信息的处理方法 |
CN106202146B (zh) * | 2012-07-16 | 2019-04-16 | 刘二中 | 一种搜索引擎终端用户输入参考文件搜索提示信息的处理方法 |
CN103678379A (zh) * | 2012-09-17 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 基于用户专注信息的实时推送媒体信息的方法和装置 |
CN103678379B (zh) * | 2012-09-17 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 基于用户专注信息的实时推送媒体信息的方法和装置 |
CN103019814A (zh) * | 2012-11-21 | 2013-04-03 | 北京荣之联科技股份有限公司 | 一种剪切板管理系统及方法 |
CN103019814B (zh) * | 2012-11-21 | 2016-03-30 | 北京荣之联科技股份有限公司 | 一种剪切板管理系统及方法 |
CN104077011B (zh) * | 2013-03-26 | 2017-08-11 | 北京三星通信技术研究有限公司 | 一种同类型文档间的关联方法和终端设备 |
CN104077011A (zh) * | 2013-03-26 | 2014-10-01 | 北京三星通信技术研究有限公司 | 一种同类型文档间的关联方法和终端设备 |
CN105706046A (zh) * | 2013-08-02 | 2016-06-22 | 谷歌公司 | 呈现搜索中的用户特定数据记录 |
CN104462056A (zh) * | 2013-09-17 | 2015-03-25 | 国际商业机器公司 | 基于深度文档分析的主动知识指导 |
CN104462056B (zh) * | 2013-09-17 | 2018-02-09 | 国际商业机器公司 | 用于呈现基于知识的信息的方法和信息操纵系统 |
US10698956B2 (en) | 2013-09-17 | 2020-06-30 | International Business Machines Corporation | Active knowledge guidance based on deep document analysis |
US10621220B2 (en) | 2014-07-08 | 2020-04-14 | Oath Inc. | Method and system for providing a personalized snippet |
WO2016004584A1 (en) * | 2014-07-08 | 2016-01-14 | Yahoo! Inc. | Method and system for providing a personalized snippet |
CN105488038A (zh) * | 2014-09-15 | 2016-04-13 | 阿里巴巴集团控股有限公司 | 通信应用的个性化信息匹配方法及装置 |
CN104537040A (zh) * | 2014-12-23 | 2015-04-22 | 小米科技有限责任公司 | 网页内容的抓取方法及装置、电子设备 |
CN104462558A (zh) * | 2014-12-26 | 2015-03-25 | 浙江宇视科技有限公司 | 一种修改Lucene索引文件中词的方法及装置 |
US10769105B2 (en) | 2014-12-26 | 2020-09-08 | Zhejiang Uniview Technologies Co., Ltd. | Modifying Lucene index file |
CN104462558B (zh) * | 2014-12-26 | 2017-12-08 | 浙江宇视科技有限公司 | 一种修改Lucene索引文件中词的方法及装置 |
WO2016101915A1 (zh) * | 2014-12-26 | 2016-06-30 | 浙江宇视科技有限公司 | 修改Lucene索引文件 |
CN105808520A (zh) * | 2014-12-30 | 2016-07-27 | 联想(北京)有限公司 | 电子设备及其语句处理方法 |
CN105808520B (zh) * | 2014-12-30 | 2018-12-14 | 联想(北京)有限公司 | 电子设备及其语句处理方法 |
CN104866545A (zh) * | 2015-05-07 | 2015-08-26 | 深圳市世强先进科技有限公司 | 在信息展示页面上检索关键字的方法 |
CN104850608A (zh) * | 2015-05-07 | 2015-08-19 | 深圳市世强先进科技有限公司 | 在信息展示页面上检索关键字的方法 |
CN104922906A (zh) * | 2015-07-15 | 2015-09-23 | 网易(杭州)网络有限公司 | 动作执行方法和装置 |
CN104922906B (zh) * | 2015-07-15 | 2018-09-04 | 网易(杭州)网络有限公司 | 动作执行方法和装置 |
WO2017028407A1 (zh) * | 2015-08-20 | 2017-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
CN105574162B (zh) * | 2015-12-16 | 2019-05-03 | 南京鼎岩信息科技有限公司 | 关键字自动超级链接的方法 |
CN105574162A (zh) * | 2015-12-16 | 2016-05-11 | 南京鼎岩信息科技有限公司 | 关键字自动超级链接的方法 |
CN107092588A (zh) * | 2016-02-18 | 2017-08-25 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置和系统 |
CN107092588B (zh) * | 2016-02-18 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置和系统 |
CN107451168A (zh) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN107451168B (zh) * | 2016-05-30 | 2023-08-04 | 台湾中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
US10769225B2 (en) | 2016-08-15 | 2020-09-08 | Richard S. Brown | Processor-implemented method, computing system and computer program for invoking a search |
CN107784027A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 一种裁判文书检索关键词的提示方法及装置 |
CN110603545A (zh) * | 2017-04-26 | 2019-12-20 | 谷歌有限责任公司 | 组织在与自动化助理的人机对话中交换的消息 |
CN110603545B (zh) * | 2017-04-26 | 2024-03-12 | 谷歌有限责任公司 | 用于组织消息的方法、系统和非瞬时性计算机可读介质 |
CN110019771A (zh) * | 2017-07-28 | 2019-07-16 | 北京国双科技有限公司 | 文本处理的方法及装置 |
CN107545039B (zh) * | 2017-07-31 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 关键词的指数获取方法和装置、计算机设备和存储介质 |
CN107545039A (zh) * | 2017-07-31 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 关键词的指数获取方法和装置、计算机设备和存储介质 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN110019590A (zh) * | 2017-09-13 | 2019-07-16 | 北京嘀嘀无限科技发展有限公司 | 页面中展示地图的方法、装置、电子设备及存储介质 |
CN110019590B (zh) * | 2017-09-13 | 2021-10-12 | 北京嘀嘀无限科技发展有限公司 | 页面中展示地图的方法、装置、电子设备及存储介质 |
CN108399213B (zh) * | 2018-02-05 | 2022-04-01 | 中国科学院信息工程研究所 | 一种面向用户个人文件的聚类方法及系统 |
CN108399213A (zh) * | 2018-02-05 | 2018-08-14 | 中国科学院信息工程研究所 | 一种面向用户个人文件的聚类方法及系统 |
CN108509585A (zh) * | 2018-03-29 | 2018-09-07 | 重庆大学 | 一种异构数据实时交互优化处理方法 |
CN112384903B (zh) * | 2018-09-26 | 2022-06-24 | 多玩国株式会社 | 服务器系统、应用程序发布服务器以及阅览用终端 |
US11936939B2 (en) | 2018-09-26 | 2024-03-19 | Dwango Co., Ltd. | Server system, application program distribution server, viewing terminal, content viewing method, application program, distribution method, and application program distribution method |
CN112384903A (zh) * | 2018-09-26 | 2021-02-19 | 多玩国株式会社 | 服务器系统、应用程序发布服务器、阅览用终端、内容阅览方法、应用程序、发布方法、应用程序发布方法 |
CN110968246A (zh) * | 2018-09-28 | 2020-04-07 | 北京搜狗科技发展有限公司 | 中文智能手写输入识别方法及装置 |
CN109284352A (zh) * | 2018-09-30 | 2019-01-29 | 哈尔滨工业大学 | 一种基于倒排索引的评估类文档不定长词句的查询方法 |
CN109284352B (zh) * | 2018-09-30 | 2022-02-08 | 哈尔滨工业大学 | 一种基于倒排索引的评估类文档不定长词句的查询方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109933782A (zh) * | 2018-12-03 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 用户情绪预测方法和装置 |
CN109933782B (zh) * | 2018-12-03 | 2023-11-28 | 创新先进技术有限公司 | 用户情绪预测方法和装置 |
CN109615001A (zh) * | 2018-12-05 | 2019-04-12 | 上海恺英网络科技有限公司 | 一种识别相似文章的方法和装置 |
CN109857301A (zh) * | 2018-12-27 | 2019-06-07 | 维沃移动通信有限公司 | 显示信息的方法及终端设备 |
CN109800303A (zh) * | 2018-12-28 | 2019-05-24 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
CN110764668B (zh) * | 2019-10-30 | 2021-04-16 | 维沃移动通信有限公司 | 评论信息获取方法及电子设备 |
CN110764668A (zh) * | 2019-10-30 | 2020-02-07 | 维沃移动通信有限公司 | 评论信息获取方法及电子设备 |
CN111046252A (zh) * | 2019-11-20 | 2020-04-21 | 北京字节跳动网络技术有限公司 | 一种信息处理的方法、装置、介质、电子设备和系统 |
CN111966816A (zh) * | 2020-07-09 | 2020-11-20 | 福建亿榕信息技术有限公司 | 一种公文的智能关联方法和系统 |
CN111966816B (zh) * | 2020-07-09 | 2022-07-12 | 福建亿榕信息技术有限公司 | 一种公文的智能关联方法和系统 |
TWI733581B (zh) * | 2020-09-04 | 2021-07-11 | 南開科技大學 | 提供線上電子書即時翻譯教學媒合系統及其方法 |
CN112381519A (zh) * | 2020-11-20 | 2021-02-19 | 北京云族佳科技有限公司 | 一种工作日志的处理方法及装置、可读存储介质 |
CN114995691B (zh) * | 2021-03-01 | 2024-03-08 | 北京字跳网络技术有限公司 | 一种文档处理方法、装置、设备和介质 |
CN114995691A (zh) * | 2021-03-01 | 2022-09-02 | 北京字跳网络技术有限公司 | 一种文档处理方法、装置、设备和介质 |
CN113204579A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113204579B (zh) * | 2021-04-29 | 2024-06-07 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113743054A (zh) * | 2021-08-17 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 字母向量学习方法、系统、存储介质及电子设备 |
CN113448918B (zh) * | 2021-08-31 | 2021-11-12 | 中国建筑第五工程局有限公司 | 一种企业科研成果管理方法及管理平台、设备、存储介质 |
CN113448918A (zh) * | 2021-08-31 | 2021-09-28 | 中国建筑第五工程局有限公司 | 一种企业科研成果管理方法及管理平台、设备、存储介质 |
CN115204123A (zh) * | 2022-07-29 | 2022-10-18 | 北京知元创通信息技术有限公司 | 协同编辑文档的分析方法、分析装置以及存储介质 |
CN115204123B (zh) * | 2022-07-29 | 2023-02-17 | 北京知元创通信息技术有限公司 | 协同编辑文档的分析方法、分析装置以及存储介质 |
CN117556782A (zh) * | 2024-01-11 | 2024-02-13 | 深圳市度申科技有限公司 | 一种文本格式化方法、电子设备及计算机可读存储介质 |
CN117762889A (zh) * | 2024-02-20 | 2024-03-26 | 成都融见软件科技有限公司 | 同文件多窗口状态同步方法、电子设备和介质 |
CN117762889B (zh) * | 2024-02-20 | 2024-04-19 | 成都融见软件科技有限公司 | 同文件多窗口状态同步方法、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101004737A (zh) | 基于关键词的个性化文档处理系统 | |
Da | The computational case against computational literary studies | |
Welbers et al. | Text analysis in R | |
Balog | Entity-oriented search | |
Silver et al. | Using software in qualitative research: A step-by-step guide | |
Schönfelder | CAQDAS and qualitative syllogism logic—NVivo 8 and MAXQDA 10 compared | |
Kettinger et al. | The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge | |
Loia et al. | A fuzzy-oriented sentic analysis to capture the human emotion in Web-based content | |
CN1670733B (zh) | 用自然语言命令呈递表格 | |
US20140280072A1 (en) | Method and Apparatus for Human-Machine Interaction | |
US20110225152A1 (en) | Constructing a search-result caption | |
US20140280314A1 (en) | Dimensional Articulation and Cognium Organization for Information Retrieval Systems | |
Maynard et al. | Ontology-based information extraction for market monitoring and technology watch | |
US20240104405A1 (en) | Schema augmentation system for exploratory research | |
Light | From words to networks and back: Digital text, computational social science, and the case of presidential inaugural addresses | |
Kumbhar | Library classification trends in the 21st century | |
Hlava | The taxobook: Principles and practices of building taxonomies, part 2 of a 3-part series | |
WO2015084404A1 (en) | Matching of an input document to documents in a document collection | |
Alexander et al. | Metaphor, popular science, and semantic tagging: Distant reading with the Historical Thesaurus of English | |
Wang et al. | Mining key information of web pages: A method and its application | |
Woldeyohannis et al. | Usable Amharic text corpus for natural language processing applications | |
Phan et al. | Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews | |
Kasmuri et al. | Building a Malay-English code-switching subjectivity corpus for sentiment analysis | |
Rao et al. | Enhancing multi-document summarization using concepts | |
Hartikainen et al. | Towards human-centered design of AI service chatbots: defining the building blocks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20070725 |