智能体通常被定义为:通过 Sensors 感知环境 Environment,并通过 Actuators 行动以达成特定任务的实体。为了理解智能体如何运作,我们首先要理解它的任务环境。在人工智能领域,常用 PEAS 模型来描述任务环境。

PEAS模型

  • P (Performance):绩效/目标函数(要达成什么效果、如何衡量好坏)
  • E (Environment):环境(智能体工作的外部世界、输入/约束、上下文)
  • A (Actuators):执行器(智能体能采取的动作:输出什么、怎么影响环境)
  • S (Sensors):传感器(智能体能接收的感知信息:读到哪些数据)

大语言模型驱动的智能体

大语言模型驱动的智能体,相比传统智能体,有诸多优势。

image-20260603114226601

它的工作流程主要在三个方面取得了比较大的优化:

  • 规划:智能体将高层次目标分解为逻辑子任务。
  • 工具使用:智能体能主动调用工具来补全信息或响应动作。
  • 动态修正:智能体能将用户的反馈视为新约束,从而做出相应调整。

智能体的运行机制

image-20260603114939381

智能体在目标达成的过程中,是通过一个持续的循环与环境进行交互,这个过程也称为智能体循环(Agent Loop)。

  1. 感知(Perception)。智能体接收来自外部的信息。
  2. 思考(Thought)。智能体收到信息时候,进入决策阶段。该阶段可以细分为两个环节:
    1. 规划(Planning)。智能体基于对外部环境的观察和内部记忆更新对任务的理解,并制造整个行动计划。
    2. 工具选择(Tool Selection)。根据当前计划,智能体选择最合适的工具,并确定调用工具的参数。
  3. 行动(Action)。智能体通过执行器执行具体的行动。
  4. 目标达成。如果没有目标达成,则重复智能体循环;如果目标达成,则结束智能体循环。

Workflow 和 Agent的差异

  • Workflow(工作流)是对一系列任务和步骤进行预定义、结构化编排的自动化范式。它的本质是一个精确静态的流程图,严格规定了执行操作的顺序和条件。
  • Agent(智能体)是一个具备感知、思考、行动、动态修正的系统。它可以按照多次智能体循环的方式达成最终目标。

image-20260608104731088

课后题

判断以下四个 case 的主体系是否属于“智能体/智能体系统”(可多选并分析):

  • case A:一台符合理结构的超级计算机,拥有高达每秒 2EFlop 的峰值算力
  • case B:特斯拉自动驾驶系统在高速公路上行驶时,突然检测到前方有障碍物,需要在毫秒级做出刹车或变道决策
  • case C:AlphaGo 在与人类棋手对弈时,需要评估当前局面并规划未来数十步的最优策略
  • case D:ChatGPT 扮演的智能客服在处理用户投诉时,需要查询订单信息、分析问题原因、提供解决方案并安抚用户情绪

case A:不属于智能体

  • 主要依据:超级计算机是算力硬件/通用高性能计算平台,本身并不具备“感知环境—决策—行动—目标达成”的闭环能力。
  • 只有当它被具体算法系统驱动、并实现自主感知与决策/行动闭环时,才可能成为智能体的一部分;但题干只描述“算力很强的计算机”。

case B:属于智能体(Yes)

  • 依据:
    1. 感知:前方障碍物
    2. 思考:选择刹车或变道
    3. 行动:控制车辆执行相应动作
    4. 目标:安全通过/避免碰撞

case C:属于智能体(Yes)

  • 依据:
    1. 感知:棋局局面
    2. 思考:评估当前局面
    3. 行动:并选择下一步落子
    4. 目标:赢棋/最优策略

case D:属于智能体(Yes)

  • 依据:
    1. 感知:理解用户投诉内容
    2. 思考:查询订单信息、分析问题原因
    3. 行动:给出解决方案并安抚情绪
    4. 目标:解决问题、提升用户满意度

假设你需要为一个“智能健身教练”设计任务环境。这个智能体能够:

  • 通过可穿戴设备监测用户的心率、运动强度等生理数据
  • 根据用户的健身目标(减脂/增肌/提升耐力)动态调整训练计划
  • 在用户运动过程中提供实时语音指导和动作纠正
  • 评估训练效果并给出饮食建议

请使用 PEAS 模型完整描述这个智能体的任务环境,并分析该环境具有哪些特性(如部分可观察、随机性、动态性等)。

P(Performance,绩效/目标)

  • 达成用户健身目标:减脂/增肌/提升耐力的进展(体脂、肌肉、耐力指标随时间提升)
  • 安全性:训练强度不过载、降低受伤风险(异常心率/疲劳时能及时降强度或提示停止)
  • 训练效果:完成训练任务并能在合适强度区间产生有效刺激
  • 可执行与体验:指导清晰、可跟做;饮食建议合理且能促进目标达成
  • 效率:在安全前提下获得更好的训练收益(更少无效重复、减少失败/跳过)

E(Environment,环境)

  • 用户的真实身体状态与约束:当前心肺水平、疲劳程度、既往伤病、动作能力等
  • 训练场景与条件:室内/室外、器械可用性、空间限制、当天活动安排
  • 数据与反馈环境:可穿戴设备/传感器的测量条件与误差、网络延迟(若有)
  • 训练过程本身是“阶段性环境”:热身→训练→放松,状态随时间变化
  • 用户行为的变化:用户可能未完全按指导执行(存在偏差)

A(Actuators,执行/作用方式)

  • 输出训练计划与动态调整指令:推荐组数/次数/强度/节奏、调整训练内容
  • 实时语音/文字/可视化指导:告诉用户“接下来做什么、怎么做”
  • 动作纠正:提醒姿势错误、发出停止/减速/重做等指令
  • 风险干预:检测到异常(如心率超出安全区间)时建议暂停、降强度或就医/咨询
  • 饮食建议:给出摄入量与宏量营养建议、补剂/饮食时机等

S(Sensors,传感器/感知输入)

  • 来自可穿戴设备的生理数据:心率、运动强度、(可能还有HRV/血氧等,视设备)
  • 运动表现数据:训练时长、速度/配速/功率(如有)、步频/活动量、完成的动作次数
  • (可选/扩展)动作数据:通过相机/IMU 识别动作姿态与偏差
  • 用户目标与历史记录:减脂/增肌/耐力设定、历史训练日志与趋势
  • 用户当前状态的间接信号:如主观疲劳/是否遵循指导(若系统采集)

为什么智能体/智能体系统会产生“幻觉”(生成看似合理但实际错误的信息)?

常见原因可概括为:智能体在循环中可能出现 感知误差(Perception)思考误差(Thought)行动误差(Action),而当缺少验证与反馈闭环时,错误会被持续放大,从而形成“幻觉”。


1)感知误差(Perception / 观测阶段)

  1. 上下文信息不全/观测不足(Partial Observability):关键事实不可获得(如售罄余量、价格、开放时间等),只能推断,导致输出偏离真实世界。
  2. 传感或工具观测带噪/不可靠:数据缺失、噪声、识别偏差,使得智能体“看到”的信息本身不准。
  3. 多轮对话中的误差累积:前一轮的错误观测/假设进入下一轮推理,形成“自我强化”的错因链条。

2)思考误差(Thought / 推理与规划阶段)

  1. 状态更新错误(belief update 错):智能体把旧信息当新信息,或更新记忆/约束时出错,导致后续决策基于错误前提。
  2. 约束/目标建模偏差:误解用户目标、预算或时间约束,使得生成的策略虽然“自洽”,但不满足真实要求。
  3. 证据不足下仍做强推断:当观测不完备时,未显式承认“不确定”,仍强行得出结论。
  4. 推理/规划的误差在循环中传播:某轮规划偏了,后续轮次不断“在偏差上优化”,最终更偏离正确答案。

3)行动误差(Action / 执行与输出阶段)

  1. 缺少真实世界的验证机制:未进行事实检索、工具查询或约束校验,模型只能靠语言先验补全,从而给出错误但合理的内容。
  2. 工具调用失败或数据过期:API 超时、返回空值或数据滞后;若缺少重试/降级/不可得提示兜底,仍可能继续生成。
  3. 行动后的反馈/观测闭环缺失:推荐或执行后没有再次感知核验(Observation),错误无法及时纠正并被带到下一轮。

如果最大循环次数没有限制,智能体可能会出现什么问题?

若把多轮 Thought-Action-Observation 循环无限放开,会出现:

  1. 无限循环/过度迭代

    系统可能一直在找“下一步”,但没有真正收敛到可用结论。

  2. 成本与延迟大幅上升

    每轮都要做推理/调用工具/生成文本,计算与 API 成本会暴涨。

  3. 误差越来越大(误差累积)

    第一次推理可能已经偏了,后续循环会在错误基础上不断“修修补补”,最终更偏离事实。

  4. 策略漂移(目标被稀释)

    原本目标可能是“生成一个满足条件的行程”,但循环太多会导致策略频繁变更,最后输出不稳定。

如何评估一个智能体的“智能程度”?仅使用准确率指标是否足够?

“智能”通常不仅是回答对不对,还包括:能否完成任务、能否适应环境、能否长期稳定、能否在不确定下做出正确决策。因此准确率通常不够。

  • 任务目标达成率:最终是否真的满足目标(可执行、有效、安全)
  • 感知质量:工具/传感输入是否可靠、缺失时是否能合理降级
  • 思考质量:是否规划合理、是否能在约束下产生可行决策(回合数、工具次数可作代理指标)
  • 行动可验证性(Grounding):输出是否基于真实工具/检索结果而非纯生成
  • 动态修正能力:遇到反馈或冲突时,能否更新思考并继续走向目标
  • 鲁棒性与安全性:异常情况下是否仍保持约束(预算、风险边界等)