SDK更新日志
2024.6.3发布0.5.14
更新pdfbox依赖至3.0.2;
增强超大word文档的解析能力;
增强授权失败的可定位性。
2024.2.2发布0.5.13
变更PaperSeg对象的getPaperId接口为getPaperHashId,消除接口调用歧义。
2023.12.5发布0.5.12
更新pdfbox依赖至3.0.1;
更新poi依赖至5.2.5;
新增忽略查重时空白字符配置项;
试用版放开调整查重阈值接口。
2023.10.27发布0.5.11 patch1
修复txt文件编码识别概率失败的问题。
2023.9.8发布0.5.11
更新pdfbox依赖至3.0.0。
2023.3.10发布0.5.10
性能优化。
2023.2.17发布0.5.9
“导出统计表”接口导出的统计表数据更详细;
更新pdfbox依赖至2.0.27。
2022.9.26发布0.5.8
更新poi依赖至5.2.3。
2022.7.9发布0.5.7 patch1
提高获取机器码的稳定性,在获取失败时给出更清晰的提示信息。
2022.5.5发布0.5.7
pdfbox更新至2.0.26
2022.5.5发布0.5.6 patch2
修复使用白名单时,当待查重文件字符极多时,性能严重下降的问题。
2022.4.2发布0.5.6 patch1
修复连续字符查重算法skipSamePaper配置不生效问题。
2022.3.25发布0.5.6
修复部分情况加载word文档时循环加载的问题;
poi 更新至5.2.2。
2022.1.25发布0.5.5 patch2
poi依赖更新至5.2.0;
内嵌字体,提高生成查重报告的稳定性;
查重报告“设置水印”接口新增一个重载,可自定义字体【评估版可以调用但功能不生效】;
高级配置项增加开启调试模式配置,开启后可打印SDK内部异常调用栈,便于问题定位【评估版可以进行该项配置但功能不生效】。
2021.12.12发布0.5.5 patch1
修复超过字符限制、实际不相同、前n字相同的文件被判定为相同文件的问题。
2021.11.25发布0.5.5
修复若干bug;
支持基于语义的查重(实验性)。
2021.11.13发布0.5.5 beta版
增加了实验特性:图片查重并生成图片重复报告。目前仅面向付费用户进行公测,需要通过高级配置项打开该功能【评估版可以进行该项配置但功能不生效】。
poi依赖更新至5.1.0版本。
注意:图片查重目前为实验特性,性能、准确率均不做保证,建议仅用于少量数据(1000张图片内)。
2021.10.21发布0.5.4 patch2
提高了PDF文件使用系统中不存在的字体时的文件转换成功率;
比对库加载出错时提供更完善的报错提示。
2021.10.17发布0.5.4 patch1
查重结果过滤器原型改变,支持责任链终止【LocalPaperLibrary类load(File folder, String pattern, boolean r)方法变更】;
查重结果过滤器支持再builder中clear【增加clearCheckResultFilter()方法】;
比对库加载尾排除方法变更为正则过滤【CheckResultFilter接口变更】;
比对库加载性能提升、安全性改进。
2021.10.10发布0.5.4
poi依赖更新至5.0.0;
支持Excel文件查重(xls和xlsx格式),文件加载时时会将每个单元格之间添加空格进行拼接得到最终的文本;
错误提示信息的完善。
2021.9.30发布0.5.4 公测版
白名单去除更精准【评估版可以调用但功能不生效】;
简易启动器EasyStarter的优化与bug修复;
pdfbox依赖更新至3.0.0-alpha2;
算法类增加获取阈值接口;
未指定CheckState时,默认的CheckState中的输出使用jdk的标准日志输出;
其它日志及错误提示信息的完善。
2021.8.19发布0.5.3 patch4
修复文档读取失败的bug;
增强报错提示信息。
2021.8.6发布0.5.3 patch3
增强Paper.load接口的可靠性;
所有枚举类型的unknown类型修改为第0号;
恢复自定义查重阈值接口作为保留接口(后续更新可能取消)【评估版可以进行该项配置但功能不生效】。
2021.7.17发布0.5.3 patch2
DefaultReporter提供getTemplateCore接口,用以在查重结束后对查重报告进行特性化定制。
2021.6.16发布0.5.3 patch1
CheckTask和SingleCheckTask响应线程Interrupt,支持执行中的任务优雅取消【评估版可以调用但功能不生效】;
支持CPU预算配置项(beta版),用于更精确地控制SDK在多核、高并发场景下的CPU占用率【评估版可以进行该项配置但功能不生效】。
2021.6.8发布0.5.3
支持黑名单(重点关注名单)功能【评估版可以调用接口但功能不生效】。
2021.6.8发布0.5.2 pathch5
修复查重报告表头格式不统一的问题;
相同数据、相同参数生成的查重报告可以保证幂等。
2021.6.4发布0.5.2 pathch4
修复一个原文对照报告右侧重复来源列表的重复显示过滤在部分情况下不生效的bug 。
2021.5.28发布0.5.2 pathch3
SDK未注册错误会在控制台打印warning;
对已经废弃(Deprecated)的算法提供了支撑性更新。
2021.5.6发布0.5.2 pathch5
优化白名单功能逻辑,提高白名单排除率。
除有重大bug外,本次更新将为0.4.2版本的最后一次更新。请新用户尽量选择0.5.2作为线上版本。
2021.4.25发布0.5.2 pathch2
微调查重报告样式;
增加了一种查重报告样式:简洁查重报告;
优化白名单功能逻辑;
算法微调;
其它bug修复。
2021.4.23发布0.5.2 pathch1
修复自定义查重报告样式的一个bug;
升级旧版查重报告的兼容性。
2021.4.20发布0.5.2
修复字数较少时重复率精度损失较大的问题;
增强引用识别逻辑,引用识别更准确;
按文件夹加载比对库时增加了过滤文件后缀接口;
pdfbox依赖更新至3.0.0-RC1。
2021.4.14发布0.5.2 beta版
提供更加完善的查重报告
2021.4.12发布0.5.0 patch2
修复比对库多线程加载时某些情况不进行加载的bug;
修复算法中存在的潜在bug;
提供更详细的查重报告(会略微降低性能),并提供配置项开关(默认关闭);
修复部分场景下英文部标红问题;
查重报告的分段部分的重复率修改为复制文本占本段文本的比例;
0.5.0为大版本升级,接口与0.4.x不兼容,如您已经在使用之前的版本,升级后需进行代码重构,请结合项目情况谨慎升级。
2021.3.31发布0.5.0 patch1
Pair对象移至pojo中;
增加了是否需要跳过完全相同的Paper的配置项;
回调中的报错不会导致查重任务中断,在多回调的情况下,一个回调的报错也不会影响其它回调收到通知;
回调接口的taskFinish接口中增加了待查Paper列表参数。
2021.3.31发布0.4.2 patch4
与0.5.0版本同步修复了一些问题。
2021.3.28发布0.5.0
修改了几个查重报告指标的定义,指标解释更准确;
支持通过接口获取更多的查重报告指标;
去除了查重报告中无跳转行为的超链接;
修复了0.5.0beta版中某些情况下查重报告导出为空的bug;
缓解了txt编码自动识别准确率低的问题;
修复了加载比对库时同一Paper可能会被多次加载的bug。
2021.3.24发布0.5.0 beta版
支持多比对库组合查重;
同一查重任务中支持多文本查重;
修改CheckState回调接口,多文本查重统一回调;
增加简易启动器EasyStarter,简单应用场景一行代码即可调用;
比对库支持多线程加载,加载性能提高;
配置项修改.
2021.3.23发布0.4.2 patch3
调整一个查重报告样式问题;
修复一个当字符数超过2万字时可能导致查重中断的bug;
比对库增加清空接口;
建议所有用户更新至此版本。
2021.3.19发布0.4.2 patch2
paper增加payload,可以为paper对象添加自定义信息;
修复word文档的查重报告有时会出现超链接的问题;
修复潜在的reporter bug;
pdfbox版本依赖更新至2.0.23。
2021.3.12发布0.4.2 patch1
完善<文件夹>和<文件>的报错提示,防止开发人员混淆;
修复一个2型报告序号错误的问题;
支持了线程池的awaitTermination方法;
支持open-jdk,兼容IKVM(.Net平台)。
注意:该版本的序列化和之前版本不兼容,更新该版本后之前生成的序列化文件将无法使用,需要重新生成。
2021.3.5发布0.4.2
Paper对象增加replace方法,加载Paper对象后可以通过该方法进行一定的预处理;
提交任务时支持白名单功能,白名单文本跳过查重;
修正一个查重报告数值不准确的问题;
查重报告提供更多的预运算接口,可以获取到默认查重报告上的更多数值信息;
支持CheckResultFilter查重结果过滤器,可对查重结果进行高级自定义;
CheckResult中增加移除某一句话和某一篇参考的文献的接口;
前部重合字数和后部重合字数的定义有所变化。
2021.2.15发布0.4.1 patch2
完全相同的文件随机分段时将保证结果可复现;
修复原文对照报告作者、来源、年份的字号与标题的字号不一致的问题;
解决当线程池中的线程产生运行时异常时无控制台输出,线程凭空消失的问题;
支持自定义report id;
注意:该版本中CheckState回调接口中的fail方法,原Exception参数类型修改为Throwable,更新该版本后需要注意同步修改。
2021.1.27发布0.4.1 patch1
支持wps格式文件;
查重报告支持添加水印;
修复Paper对象clone bug导致比对库被修改的问题;
打平查重报告在不同浏览器之间的显示差异;
修复提取参考文献和目录不准确的的问题;
增加配置项:查重排除有引用符号的句子。
2021.1.22发布0.4.1版本
修复原文对照报告名称无法正确显示的问题;
修复原文对照报告左侧序号均为1的问题;
修复精准算法全文对照报告有时原文不对应的问题。
2021.1.4发布0.4.0 patch
全文对照查重报告的句子顺序已修正为从前向后展示。
2020.12.20发布0.4.0版本
修复paper通过文件名获取信息时的潜在问题;
入门系列产品也已支持全局配置中心;
配置中心支持配置文件名信息分隔符;
缓解精准匹配算法英文匹配率过高的问题;
设置了无效注册码将会抛出RuntimeException(之前为Exception);
Paper对象通过File对象+文件类型实例化的第二个参数修改为枚举类型;
安全性更新。
注意:该版本的序列化和之前版本不兼容,更新该版本后之前生成的序列化文件将无法使用,需要重新生成。Paper的部分get接口变更,请使用相关接口的开发者留意兼容性。
2020.12.12发布0.3.9版本
可配置序列化时是否使用AES加密;
可序列化对象增加序列化id,提高序列化兼容性;
单篇查重拆分子任务后使用子任务线程池启动任务,避免单篇文本过大子任务过多时直接占满CPU资源;
父任务线程池优化;
内存优化;
支持全局配置管理(专业系列)。
注意:该版本的序列化和之前版本不兼容,更新该版本后之前生成的序列化文件将无法使用,需要重新生成。
2020.12.7发布0.3.8版本
PaperLibrary对象支持序列化;
提高LocalPaperLibrary接口安全性,获取Paper List时返回不可修改的list;
查重报告的标题、logo、头部尾部信息、主题色等全面支持通过接口进行定制。
2020.11.4发布0.3.7版本
缓解部分中英文混合场景下英文重复率过高的问题。
2020.8.9发布0.3.6版本
segRegCode方法,如果设置了无效注册码将会抛出普通Exception(之前为RuntimeException);
由于自定义查重报告构造器功能过于小众,删除setReporter方法,直接默认使用DefaultReporter。如您之前使用了该方法,直接删除该调用即可,系统自动加载DefaultReporter。
不进行build也可以执行查重,系统会自动跳过Clause算法,而不是直接报错;
修复一个在特定场景下同时使用两个算法重复字数统计不准确的bug。
2020.8.4发布0.3.5版本
修复比对库年份信息不生效的问题。
2020.7.30发布0.3.4版本
修复一个word文档乱码问题;
取消Auth.getMachineCode()接口,替换为CheckManager.INSTANCE.getMachineCode();
降低jdk版本要求。
2020.7.29发布0.3.3版本
修复合并多算法结果时某些场景下字符数计算错误的bug;
查重报告段落计算更精确;
默认的查重算法修改为准确度更好的ClauseCheck+ContinuityCheck。
2020.7.28发布0.3.2版本
修复合并多算法结果时id不一致的bug;
默认的paperid由uuid改为文本内容的sha1值。
2020.7.24发布0.3.1版本
注册时自动将key写入本地文件,启动时默认先从本地文件加载key;
算法优化,CheckResult支持网络序列化传输,为云库进行预支持;
优化一个潜在的bug;
Reporter支持通过接口获取查重报告的原始文件信息和原始CheckResult信息;
Reporter的save方法将有可能抛出IOExcetion。
2020.7.11发布0.3.0版本
0.3.0版本为一个大版本更新,与0.2.9接口不兼容。请使用0.2.x版本的用户慎重更新。
该版本包含以下功能性变更:
优化了两个自带查重算法的在临界值下的误差问题;
深度优化了两个自带算法组合使用时的效果;
设置CheckSate回调时支持传递自定义信息;
查重报告样式微调;
将PaperManager变更为CheckManager;
去除了“云对比库”功能。仍需使用该功能的用户请使用0.2.9版本,未来“云对比库”功能将以Restful API发布。
包含以下非功能性变更:
重构包结构;
对云库、混合库进行预支持;
2020.7.8 发布0.2.9版本
修复报告序号有时显示错乱的bug;
从文件夹加载论文库时自动识别序列化对象和原始文件;
增强ContinuityCheck算法,使其支持两种查重报告;
修复Paper中获取文本不全的bug;
依赖包合入,降低依赖冲突风险。
该版本将是0.2.x中最后一个功能更新的版本,后期发布的0.3版本将对代码和接口进行重构。
0.2.x版本进入维护状态,只做重大bug修复,不再进行功能更新。
2020.7.4 发布0.2.8版本
修复报告id有时显示异常的bug;
不设置文件标题、作者等信息时,使用文件名作为默认标题;
更新所依赖的spire doc版本。
2020.6.15 发布0.2.7版本
修复通过文件名直接读取文件信息出错的bug;
微调查重报告样式;
更新所依赖的pdfbox和spire doc版本。
2020.5.29 发布0.2.6版本
可通过指定格式的文件名读取文本标题、作者等信息;
修复ContinuityCheck算法对英文或代码查重时阈值计算错误的bug。
2020.5.23 发布0.2.5版本
增加对使用云比对库的支持(beta);
提高txt编码自动识别的兼容性。
2020.4.5 发布0.2.4版本
提高txt编码自动识别的准确性。
2020.3.13 发布0.2.3版本
发布TextEngine查重引擎以及TextKey查重算法。
2020-08-01 20:07:30
目录 返回
首页
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。