几百行里有大量重复智能去重词一样、顺序不同也能认出来每行一条的文案、名单、关键词复制来复制去重复一大堆这个工具不只删「完全一样」的行还能按「词」来比词一样、顺序不一样或一句包含另一句都能算重复。下面按零基础说怎么用。工具干啥的智能文本去重工具每行当作一条文本先分词中文用 jieba再比「词」是否一样。词完全相同、顺序不同 → 可判为重复勾选「包含关系检测」后一句是另一句的「子集」也能判重复。去重后保留一条可选保留最短或最长结果可保存还会生成重复分析报告。界面上面设置左输入右结果顶部—去重设置一排选项分词时去除重复词汇、保留最短文本否则保留最长、虚词过滤、标点符号过滤、包含关系检测。右边四个按钮清空、导入文件、开始去重、保存结果。左侧—输入文本每行一个每行一条直接输入或粘贴或点导入文件选 txt。右侧—去重结果点开始去重后保留下来的行会出现在这里。底部统计原始行数、有效行数、重复行数、去重后行数、去重率。选项是啥意思按需勾分词时去除重复词汇比如「苹果苹果香蕉」分词后只保留「苹果香蕉」再参与比较建议勾上。保留最短文本勾上则重复时保留最短的那条不勾保留最长的。虚词过滤过滤「的、了、在、和」等虚词后再比这样「若手软件专注于效率提升」和「若手软件专注效率提升」可以判成重复。不影响「的士」「大地」这类实词里的字。标点符号过滤去掉标点再比「若手-软件」和「若手软件」可判重复。包含关系检测一句里的词完全被另一句包含或反过来时也算重复例如「若手软件」和「若手软件专注效率提升」。数据量很大如超过 5000 行时可能较慢会弹窗提示。3步做完一次去重1.把内容放进左边每行一条输入或粘贴或导入文件。2.勾好选项一般可勾分词时去除重复词汇、虚词过滤、标点符号过滤。需要识别「谁包含谁」时再勾包含关系检测想留短句就勾保留最短文本。3.点「开始去重」点绿色开始去重等一会右边出结果底部会显示去重率和行数。弹窗会提示「去重完成」。要留底就保存结果会生成一个去重结果文件 一个「_分析.txt」重复分析。能拿来干啥名单、关键词、每行一条的文案去重同一句话换顺序、换标点、多几个「的」「了」——都能识别成重复两句意思一样一句更短用「保留最短」只留短的那句导出后看「_分析.txt」知道哪些被归为同一组重复小提示大文件上万行建议先试一小段确认选项效果再全量跑。勾了「包含关系检测」且行数很多时工具会提醒可能较慢。保存时若提示文件被占用先关闭正在打开该文件的程序。