[go: up one dir, main page]

CN106598943A - 智能藏文自动分词系统 - Google Patents

智能藏文自动分词系统 Download PDF

Info

Publication number
CN106598943A
CN106598943A CN201611043847.3A CN201611043847A CN106598943A CN 106598943 A CN106598943 A CN 106598943A CN 201611043847 A CN201611043847 A CN 201611043847A CN 106598943 A CN106598943 A CN 106598943A
Authority
CN
China
Prior art keywords
data
tibetan
child servers
server
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611043847.3A
Other languages
English (en)
Inventor
多拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Tibetan Tibetan Information Technology Co Ltd
Original Assignee
Hainan Tibetan Tibetan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Tibetan Tibetan Information Technology Co Ltd filed Critical Hainan Tibetan Tibetan Information Technology Co Ltd
Priority to CN201611043847.3A priority Critical patent/CN106598943A/zh
Publication of CN106598943A publication Critical patent/CN106598943A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了智能藏文自动分词系统,包括数据处理服务器、信息录入装置及网络通讯装置,其中信息录入装置若干并通过网络通讯装置与数据处理服务器连接,且各信息录入装置均相互并联,数据处理服务器包括数据采集子服务器、身份认证识别管理子服务器、通讯协议子服务器、数据检索子服务器、字库子服务器、数据处理运算子服务器。本发明一方面可有效的对藏文进行全面持续录入整理,处理且在藏文的处理过程中,可准确根据藏文词义进行分词操作,提高藏文处理及文本自动分析的工作效率和真确度。

Description

智能藏文自动分词系统
技术领域
本发明涉及一种语言分析处理系统,确切是一种藏文词语自动切分系统。
背景技术
结合当前藏区经济文化发展需要及藏区文化与其他文化的交流的需要,首先需要构建一个统一高效的集藏文收集、处理及词性解释的网络平台,一方面提高对藏文的统计整理工作,另一方面也有助于非藏区用户对藏文学习及使用的需要,从而达到提高藏区文化交流的需要,处理处理造成对藏文分词准确性相对较差,从而进一步加剧了当前第藏文处理工作中存在错误,严重影响了藏区与其他地区文化交流发展的需要,除此之外,当前的系统也往往仅能满足将藏文处理为英语及简体汉字等少数几种语言种类的的需要,使用灵活性受到的极大的影响,且当前藏文处理系统的结构相对复杂,数据处理能力极其有限,不能有效满足实际使用的需要,因此针对这一现状,需要开发一种全新藏文处理及分词操作系统,以满足实际使用的需要。
发明内容
本发明的目的是提供本发明提供智能藏文自动分词系统。
为了达到上述目的,本发明提供如下技术方案:
智能藏文自动分词系统,包括数据处理服务器、信息录入装置及网络通讯装置,其中信息录入装置若干并通过网络通讯装置与数据处理服务器连接,且各信息录入装置均相互并联,数据处理服务器包括数据采集子服务器、身份认证识别管理子服务器、通讯协议子服务器、数据检索子服务器、字库子服务器、数据处理运算子服务器,字库子服务器分别与数据检索子服务器和数据处理运算子服务器连接,数据处理运算子服务器另分别与数据采集子服务器、身份认证识别管理子服务器、通讯协议子服务器、数据检索子服务器相互连接,其中数据采集子服务器与信息录入装置连接,且每个数据采集子服务器均与至少一个信息录入装置连接,数据检索子服务器与数据处理运算子服务器之间通过数据缓存中继服务器连接。
进一步的,所述的网络通讯装置包括至少一路无线通讯网络及至少一路在线通讯网络,且无线通讯网络与在线通讯网络相互并联。
进一步的,所述的数据检索子服务器包括至少一个域内检索子系统和至少一个跨域检索子系统,且域内检索子系统和跨域检索子系统之间相互并联。
进一步的,所述的域内检索子系统和跨域检索子系统均为两个或两个以上时,则各域内检索子系统之间和各跨域检索子系统之间均相互并联。
进一步的,所述的字库子服务器包括藏文字库系统、英语字库系统、基体汉字字库系统、繁体汉字字库系统、扩展字库系统及字库筛选控制系统,其中所述的藏文字库系统、英语字库系统、基体汉字字库系统、繁体汉字字库系统、扩展字库系统均至少一个并分别与字库筛选控制系统连接。
进一步的,所述的字库筛选控制系统为基于云数据计算处理平台的数据处理系统。
本发明系统构成结构简单,结构模块化设计特征显著,数据处理能力强,同时另具有良好的扩展性和通讯能力,从而一方面可有效的对藏文进行全面持续录入整理,另一方面可根据使用需要,对藏文信息的词性进行处理、标注,并将藏文的词性通过多种语言进行输出,且在藏文的处理过程中,可准确根据藏文词义进行分词操作,提高藏文处理及整理工作的工作效率和真确度,从而有效的提高了藏文词性标注作业的工作效率和灵活性,同时也有助于满足不同人群对藏文学习及使用的需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统结构示意图;
图2为数据处理服务器系统结构示意图;
图3为字库子服务器系统结构示意图。
具体实施方式
下面将结合本发明的附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,智能藏文自动分词系统,包括数据处理服务器1、信息录入装置2及网络通讯装置3,其中信息录入装置2若干并通过网络通讯装置3与数据处理服务器1连接,且各信息录入装置2均相互并联。
如图2所示,本实施例中所述的数据处理服务器1包括数据采集子服务器、身份认证识别管理子服务器、通讯协议子服务器、数据检索子服务器、字库子服务器、数据处理运算子服务器,字库子服务器分别与数据检索子服务器和数据处理运算子服务器连接,数据处理运算子服务器另分别与数据采集子服务器、身份认证识别管理子服务器、通讯协议子服务器、数据检索子服务器相互连接,其中数据采集子服务器与信息录入装置连接,且每个数据采集子服务器均与至少一个信息录入装置连接,数据检索子服务器与数据处理运算子服务器之间通过数据缓存中继服务器连接。
本实施例中,所述的网络通讯装置包括至少一路无线通讯网络及至少一路在线通讯网络,且无线通讯网络与在线通讯网络相互并联。
本实施例中,所述的数据检索子服务器包括至少一个域内检索子系统和至少一个跨域检索子系统,且域内检索子系统和跨域检索子系统之间相互并联。
本实施例中,所述的域内检索子系统和跨域检索子系统均为两个或两个以上时,则各域内检索子系统之间和各跨域检索子系统之间均相互并联。
如图3所示,本实施例中所述的字库子服务器包括藏文字库系统、英语字库系统、基体汉字字库系统、繁体汉字字库系统、扩展字库系统及字库筛选控制系统,其中所述的藏文字库系统、英语字库系统、基体汉字字库系统、繁体汉字字库系统、扩展字库系统均至少一个并分别与字库筛选控制系统连接。
本实施例中,所述的字库筛选控制系统为基于云数据计算处理平台的数据处理系统。
本发明系统构成结构简单,结构模块化设计特征显著,数据处理能力强,同时另具有良好的扩展性和通讯能力,从而一方面可有效的对藏文进行全面持续录入整理,另一方面可根据使用需要,对藏文信息的词性进行处理、标注,并将藏文的词性通过多种语言进行输出,且在藏文的处理过程中,可准确根据藏文词义进行分词操作,提高藏文处理及整理工作的工作效率和真确度,从而有效的提高了藏文词性标注作业的工作效率和灵活性,同时也有助于满足不同人群对藏文学习及使用的需要。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.智能藏文自动分词系统,其特征在于:所述的智能在线藏文分词系统包括对藏文字符串进行自动分析,确认句子并对句子中的词汇进行自动切分。在这一过程中,所述的数据处理服务器、信息录入装置及网络通讯装置,其中所述的信息录入装置若干并通过网络通讯装置与数据处理服务器连接,且各信息录入装置均相互并联,所述的数据处理服务器包括数据采集子服务器、通讯协议子服务器、数据检索子服务器、字库子服务器、数据处理运算子服务器,所述的字库子服务器分别与数据检索子服务器和数据处理运算子服务器连接,所述的数据处理运算子服务器另分别与数据采集子服务器、通讯协议子服务器、数据检索子服务器相互连接,其中所述的数据采集子服务器与信息录入装置连接,且每个数据采集子服务器均与至少一个信息录入装置连接,数据检索子服务器与数据处理运算子服务器之间通过数据缓存中继服务器连接。
2.根据权利要求1所述的智能藏文自动分词系统,其特征在于:所述的网络通讯装置包括至少一路无线通讯网络及至少一路在线通讯网络,且无线通讯网络与在线通讯网络相互并联。
3.根据权利要求1所述的智能藏文自动分词系统,其特征在于:所述的数据检索子服务器包括至少一个域内检索子系统和至少一个跨域检索子系统,且域内检索子系统和跨域检索子系统之间相互并联。
4.根据权利要求4所述的智能藏文自动分词系统,其特征在于:所述的域内检索子系统和跨域检索子系统均为两个或两个以上时,则各域内检索子系统之间和各跨域检索子系统之间均相互并联。
5.根据权利要求1所述的智能藏文自动分词系统,其特征在于:所述的字库子服务器包括藏文字库系统、英语字库系统、基体汉字字库系统、繁体汉字字库系统、扩展字库系统及字库筛选控制系统,其中所述的藏文字库系统、英语字库系统、基体汉字字库系统、繁体汉字字库系统、扩展字库系统均至少一个并分别与字库筛选控制系统连接。
6.根据权利要求5所述的智能藏文自动分词系统,其特征在于:所述的字库筛选控制系统为基于云数据计算处理平台的数据处理系统。
CN201611043847.3A 2016-11-24 2016-11-24 智能藏文自动分词系统 Pending CN106598943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611043847.3A CN106598943A (zh) 2016-11-24 2016-11-24 智能藏文自动分词系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611043847.3A CN106598943A (zh) 2016-11-24 2016-11-24 智能藏文自动分词系统

Publications (1)

Publication Number Publication Date
CN106598943A true CN106598943A (zh) 2017-04-26

Family

ID=58593000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611043847.3A Pending CN106598943A (zh) 2016-11-24 2016-11-24 智能藏文自动分词系统

Country Status (1)

Country Link
CN (1) CN106598943A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN104156161A (zh) * 2014-08-05 2014-11-19 魏新成 在信息设备屏幕上进行点击取词搜索的系统和方法
CN104731832A (zh) * 2013-12-23 2015-06-24 安徽科大讯飞信息科技股份有限公司 藏语拉萨话声调预测的方法及系统
US20160170661A1 (en) * 2013-12-09 2016-06-16 International Business Machines Corporation Multidimensional partitioned storage array and method utilizing input shifters to allow multiple entire columns or rows to be accessed in a single clock cycle

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
US20160170661A1 (en) * 2013-12-09 2016-06-16 International Business Machines Corporation Multidimensional partitioned storage array and method utilizing input shifters to allow multiple entire columns or rows to be accessed in a single clock cycle
CN104731832A (zh) * 2013-12-23 2015-06-24 安徽科大讯飞信息科技股份有限公司 藏语拉萨话声调预测的方法及系统
CN104156161A (zh) * 2014-08-05 2014-11-19 魏新成 在信息设备屏幕上进行点击取词搜索的系统和方法

Similar Documents

Publication Publication Date Title
CN113342946B (zh) 客服机器人的模型训练方法、装置、电子设备及介质
CN111209472B (zh) 一种铁路事故故障关联和事故故障原因分析方法及系统
CN113723270A (zh) 基于rpa及ai的文件处理方法及装置
CN104537097B (zh) 微博舆情监测系统
CN110555206B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN111512315A (zh) 文档元数据的按块提取
DE112019002235T5 (de) Einbinden eines wörterbuch-bearbeitungssystems in ein text mining
CN107784111A (zh) 数据挖掘方法、装置、设备及存储介质
DE112017004908T5 (de) Technologien für skalierbare hierarchische Interconnect-Topologien
CN104796300B (zh) 一种数据包特征提取方法及装置
CN114626351A (zh) 结合rpa和ai的表单填报方法、装置、电子设备及存储介质
KR102580835B1 (ko) 보안정책 자동화 관리시스템
CN106446217A (zh) 大数据高速整合系统
CN112445775A (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
CN112948583A (zh) 数据的分类方法及装置、存储介质、电子装置
CN101388036A (zh) 一种数据表的汇总方法和装置
CN104766240A (zh) 电子银行业务数据处理系统及方法
CN105404644A (zh) 一种舆情信息处理方法和系统
CN109344410A (zh) 一种机器翻译控制系统及方法、信息数据处理终端
CN108197112A (zh) 一种从新闻中提取事件的方法
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
CN106598943A (zh) 智能藏文自动分词系统
CN102722790A (zh) 人力资源服务系统
EP4254237A1 (en) Security data processing device, security data processing method, and computer-readable storage medium for storing program for processing security data
CN103457829B (zh) 基于helpdesk自动化邮件系统的邮件处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication