# 文本与算法

系统的分析工作都基于用户提供的文本,您可在页面上方找到 文本输入区
目前系统支持分析 TXT 及 PDF 格式的文本或文件。

# 上传文本

# 上传 TXT 格式文本(推荐)

上传 TXT 格式文件有两种方法:

  • 粘贴文字: 打开 TXT 文件,选择并复制需要进行分析的文字,在 文本输入区 中粘贴。
  • 拖拽文件: 直接将 TXT 文件拖拽至页面上方的 文本输入区 中;

提示

目前系统仅支持分析 1500 万字以内的文本。

# 上传 PDF 格式文件

上传 PDF 格式文件的方法有两种:

  • 拖拽文件上传: 将文件拖拽至页面上方的 文本输入区 中,开始上传 PDF 文件;
  • 选择文件上传: 点击 文本输入区 中的 选择 PDF,选择一个 PDF 文件并点击打开按钮,开始上传 PDF 文件。

提示

受制于 PDF 文件的格式原因,为了达到最佳的文本分析效果,我们在系统中做了一些限制:

  • 暂不支持分析大于 50M 的 PDF 文件;
  • 暂不支持提取扫描版 PDF 文件;
  • 暂不支持提取竖版 PDF 文件。

如要分析大于 50M 或扫描版、竖版的 PDF 文件,可以先借助于 OCR 工具将文字提取出来(如 Adobe Acrobat (opens new window) ),然后以 上传 TXT 格式文本 的方式进行文本上传。

# 查看、编辑已文本与算法

点击 文本输入区 中的文本进入编辑状态。
如果 文本输入区 处于 收起 状态,可通过点击右侧的 编辑文本 将其展开。

# 文本操作的便捷工具

文本输入区 上方,系统提供了一些常用工具:

  • 分析语言选择:指定文本分析语言。系统默认会根据提供的文本自动检测语种,您也可以在系统支持的语言中指定分析语言(在主动指定分析语言后,系统将会记录您的分析语言偏好);
  • 收起:向上收起 文本输入区
  • 搜索:在上传的文本中搜索字词;
  • 清空:清空上传的文本。

# 选择算法并设置压缩比

上传文本 后,可选择 压缩算法 并设置 压缩阈值 ,我们提供了三种压缩算法:

  • 算法 A、算法 B: 适用于大部分类型的文本;
  • 算法 C: 专用算法,较适合新闻类文本。

点选符合 已上传文本 类型的算法,并在相应的算法输入框中输入 压缩阈值(阈值支持输入 百分比字数) ,点击 压缩 按钮开始计算。