# 文本与算法
系统的分析工作都基于用户提供的文本,您可在页面上方找到 文本输入区。
目前系统支持分析 TXT 及 PDF 格式的文本或文件。
# 上传文本
# 上传 TXT 格式文本(推荐)
上传 TXT 格式文件有两种方法:
提示
目前系统仅支持分析 1500 万字以内的文本。
# 上传 PDF 格式文件
上传 PDF 格式文件的方法有两种:
提示
受制于 PDF 文件的格式原因,为了达到最佳的文本分析效果,我们在系统中做了一些限制:
- 暂不支持分析大于 50M 的 PDF 文件;
- 暂不支持提取扫描版 PDF 文件;
- 暂不支持提取竖版 PDF 文件。
如要分析大于 50M 或扫描版、竖版的 PDF 文件,可以先借助于 OCR 工具将文字提取出来(如 Adobe Acrobat (opens new window) ),然后以 上传 TXT 格式文本 的方式进行文本上传。
# 查看、编辑已文本与算法
点击 文本输入区 中的文本进入编辑状态。
如果 文本输入区 处于 收起 状态,可通过点击右侧的 编辑文本 将其展开。
# 文本操作的便捷工具
在 文本输入区 上方,系统提供了一些常用工具:
- 分析语言选择:指定文本分析语言。系统默认会根据提供的文本自动检测语种,您也可以在系统支持的语言中指定分析语言(在主动指定分析语言后,系统将会记录您的分析语言偏好);
- 收起:向上收起 文本输入区 ;
- 搜索:在上传的文本中搜索字词;
- 清空:清空上传的文本。
# 选择算法并设置压缩比
当 上传文本 后,可选择 压缩算法 并设置 压缩阈值 ,我们提供了三种压缩算法:
- 算法 A、算法 B: 适用于大部分类型的文本;
- 算法 C: 专用算法,较适合新闻类文本。
点选符合 已上传文本 类型的算法,并在相应的算法输入框中输入 压缩阈值(阈值支持输入 百分比 或 字数) ,点击 压缩 按钮开始计算。