关注 霍格沃兹测试学院公众号回复「资料」, 领取人工智能测试开发技术合集这两年大模型、智能体、MCP、RAG 几乎刷屏。但有个问题更关键我们是在“用 AI”还是在“测 AI”很多人理解的 AI是生成测试用例、自动造数据、自动写脚本。 那叫用 AI 做测试。今天讨论的是另一件事当产品本身是 AI 系统时测试逻辑会发生什么变化当系统从“确定性程序”变成“概率模型” 测试方法就必须跟着改变。以前我们测试的是规则系统。 现在我们测试的是概率系统。目录传统软件测试的确定性因果模型AI系统的生成式架构变化因果关系断裂测试难点的根源断言模型为何在AI系统中失效AI系统的三大技术特征AI系统测试的工程化转型方向1. 传统软件测试的确定性因果模型传统软件的核心是规则驱动 确定性逻辑。可以抽象为特点非常明确输入字段固定规则可读可追踪输出可预测可编写精确断言例如输入手机号为空 → 点击提交 → 返回“不能为空”自动化测试写法assert actual 不能为空前提只有一个相同输入在相同环境下必然产生相同输出。2. AI系统的生成式架构变化当系统接入大模型后内部结构发生变化。差异点在于输入变成自然语言中间层变成神经网络输出来自概率采样例如输入给我一首唐诗多次调用结果不同。 换一个模型结果也不同。系统不再围绕“规则匹配” 而是围绕“概率分布”。3. 因果关系断裂测试难点的根源我们对比一下。传统系统调用流程结果稳定可复现可回归。AI系统调用流程同样输入两次结果不同同样输入两次输出不同。这意味着因果关系不再线性输出不再唯一测试结果无法简单复现传统“输入 → 唯一输出”的模型开始失效。4. 断言模型为何在AI系统中失效传统自动化测试的核心是断言assert actual expected但在 AI 系统中输入讲个笑话 输出一段文本问题来了什么算笑话是否必须完全一致每次结果不同怎么办AI 输出没有唯一正确答案。测试目标从“是否等于预期值” 转变为“是否满足约束条件”。例如是否包含完整语句是否无敏感词是否符合主题是否满足长度区间这不再是精确匹配而是质量评估。断言模型从“相等判断” 升级为“区间判断”或“语义判断”。5. AI系统的三大技术特征5.1 概率性模型输出的是概率最高的候选而非唯一正确答案。5.2 黑盒性特点内部权重不可解释决策路径不可枚举规则不可穷举测试人员只能观察输入与输出。5.3 非确定性相同输入不同时间可能不同输出不同温度参数不同输出不同模型不同输出在传统软件中这是缺陷。 在 AI 系统中这是特性。6. AI系统测试的工程化转型方向当系统建立在概率模型之上测试体系必须升级。测试重点开始转向多样本回归测试Prompt稳定性验证输出质量分级评估幻觉风险检测数据分布漂移监控对抗输入测试测试工程师的角色也发生变化从功能验证者 转向 AI 质量评估工程师。核心能力不再是写多少用例而是如何定义质量标准。结语传统软件测试建立在确定性之上。 AI系统建立在概率之上。当系统不再保证“同样输入必然同样输出” 测试方法就必须升级。这不是多学一个工具的问题。 而是测试对象本身已经改变。我们正在从规则系统测试 走向概率系统测试。测试这门职业没有变简单。 它只是进入了更复杂的阶段。关于我们霍格沃兹测试开发学社隶属于测吧北京科技有限公司是一个面向软件测试爱好者的技术交流社区。学社围绕现代软件测试工程体系展开内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试以及人工智能测试与 AI 在测试工程中的应用实践。我们关注测试工程能力的系统化建设包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法沉淀可复用、可落地的测试开发工程经验。在技术社区与工程实践之外学社还参与测试工程人才培养体系建设面向高校提供测试实训平台与实践支持组织开展“火焰杯” 软件测试相关技术赛事并探索以能力为导向的人才培养模式包括高校学员先学习、就业后付款的实践路径。同时学社结合真实行业需求为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务用于个性化能力提升与工程实践指导。