自定义断句规则
在YiCAT企业版中,除了使用默认的断句规则外,您还可以自定义断句规则。
您有三种方式自定义断句规则:配置断句规则、上传断句规则或者启用基于段落断句规则。
配置断句规则
项目启用此规则后,系统将按照您配置的规则拆分文档。
1. 点击【设置】按钮进入设置界面,选择【项目设置】项,点击【断句规则】按钮。
2. 在断句规则页面,点击【新建】按钮,弹出如下图所示弹窗。在断句类型项勾选【配置断句规则】,输入规则名称,选择源语语种,点击【确定】按钮。
3. 新建成功后,断句规则页面将会生成一条新的断句规则。点击操作栏图标,在下拉菜单中选择【配置】选项。
系统将弹出如下所示的基础规则页面:
您可根据自己需要修改或添加新规则:
句段结尾:在该符号后进行断句,符号留在上一个句段。
左括号:若该符号前存在句段结尾断句规则(如:“),(若该符号后存在大写字母),则在该符号前断句,符号位于下一个句段段首。(中文情况下左括号无效)
右括号:若该符号前存在句段结尾断句规则(如。”),(若该符号后存在大写字母),则在该符号后断句,符号位于上一个句段段末。
缩写:在该缩写后不断句。
数字之前的缩写:在该缩写之后若有数字,则缩写与数字之间不断句。
4. 配置完成后,您可点击【预览断句效果】按钮查看预览效果。配置完成请点击【保存】按钮。
注:您也可更换预览文案,文案字数不得超过1000字符,超出部分将无法显示。
上传断句规则
项目启用此规则后,系统将按照您上传的规则拆分文档。
1. 点击【设置】按钮进入设置界面,选择【项目设置】项,点击【断句规则】按钮。
2. 在断句规则页面,点击【新建】按钮,弹出如下图所示弹窗。在断句类型项勾选【上传断句规则】,输入规则名称,选择源语语种,在文件栏中,点击【选择文件】按钮,上传您现有的断句规则文件,然后点击【确定】按钮。
注:所上传断句规则文件目前仅支持 XLSX及 SRX格式文件。
断句规则模板文件
请务必保证您上传的文件需符合YiCAT系统要求。如有需要,您可以按如下步骤下载模板文件:
1. 点击界面右上方的【下载模板】选项。
2. 选择语种和格式,单击【下一步】。
3. 单击【下载】并查看模板文件。
4. 参见模板文件,具体断句规则如下:
non segmentation rule:不断句规则。即在该符号或缩写后不进行断句。
ABBR:缩写。在该缩写后不断句。
ABBR_NUM:在该缩写之后若有数字,则缩写与数字之间不断句。
segmentation rule:断句规则。即在该符号或缩写后进行断句。
语种为中文的情况下,断句规则如下图
语种为英文的情况下,断句规则如下图:
SEG_END:句段结尾。在该符号后进行断句,符号留在上一个句段。
LEFT_BRKT: 左括号。若该符号前存在句段结尾断句规则(如:“),(若该符号后存在大写字母),则在该符号前断句,符号位于下一个句段段首。(中文情况下左括号无效)
RIGHT_BRKT:右括号。若该符号前存在句段结尾断句规则(如。”),(若该符号后存在大写字母),则在该符号后断句,符号位于上一个句段段末。
基于段落断句
项目启用此规则后,系统将以段落为单元拆分文档。
1. 点击【设置】按钮进入设置界面,选择【项目设置】项,点击【断句规则】按钮。
2. 在断句规则页面,点击【新建】按钮,弹出如下图所示弹窗。在断句类型项勾选【基于段落断句】,输入规则名称,选择源语语种,然后点击【确定】按钮。
如何启用
1. 在YiCAT中,点击左侧导航栏【项目管理】选项,点击【新建项目】按钮,在下方设置中选择【断句规则】选项,勾选您想启用的断句规则。
您也可以在【项目管理】中,点击项目名称,进入【项目设置】,选择【断句规则】选项,勾选您想启用的断句规则,点击【保存**】按钮。
2.启用某项断句规则后,在编辑器中可以看到原文将依据此规则断句。如:
启用基于段落断句前:
启用基于段落断句后:
注:若项目应用新的断句规则,或修改原断句规则,已上传的文档保持不变,新上传的文档将应用新规则。删除某项断句规则后,项目中引用该规则的文档,仍将继续引用原有规则。