智能体通常被定义为：通过 Sensors 感知环境 Environment，并通过 Actuators 行动以达成特定任务的实体。为了理解智能体如何运作，我们首先要理解它的任务环境。在人工智能领域，常用 PEAS 模型来描述任务环境。

PEAS模型

P (Performance)：绩效/目标函数（要达成什么效果、如何衡量好坏）
E (Environment)：环境（智能体工作的外部世界、输入/约束、上下文）
A (Actuators)：执行器（智能体能采取的动作：输出什么、怎么影响环境）
S (Sensors)：传感器（智能体能接收的感知信息：读到哪些数据）

大语言模型驱动的智能体

大语言模型驱动的智能体，相比传统智能体，有诸多优势。

它的工作流程主要在三个方面取得了比较大的优化：

规划：智能体将高层次目标分解为逻辑子任务。
工具使用：智能体能主动调用工具来补全信息或响应动作。
动态修正：智能体能将用户的反馈视为新约束，从而做出相应调整。

智能体的运行机制

智能体在目标达成的过程中，是通过一个持续的循环与环境进行交互，这个过程也称为智能体循环（Agent Loop）。

感知（Perception）。智能体接收来自外部的信息。
思考（Thought）。智能体收到信息时候，进入决策阶段。该阶段可以细分为两个环节：
1. 规划（Planning）。智能体基于对外部环境的观察和内部记忆更新对任务的理解，并制造整个行动计划。
2. 工具选择（Tool Selection）。根据当前计划，智能体选择最合适的工具，并确定调用工具的参数。
行动（Action）。智能体通过执行器执行具体的行动。
目标达成。如果没有目标达成，则重复智能体循环；如果目标达成，则结束智能体循环。

Workflow 和 Agent的差异

Workflow（工作流）是对一系列任务和步骤进行预定义、结构化编排的自动化范式。它的本质是一个精确静态的流程图，严格规定了执行操作的顺序和条件。
Agent（智能体）是一个具备感知、思考、行动、动态修正的系统。它可以按照多次智能体循环的方式达成最终目标。

课后题

判断以下四个 case 的主体系是否属于“智能体/智能体系统”（可多选并分析）：

case A：一台符合理结构的超级计算机，拥有高达每秒 2EFlop 的峰值算力
case B：特斯拉自动驾驶系统在高速公路上行驶时，突然检测到前方有障碍物，需要在毫秒级做出刹车或变道决策
case C：AlphaGo 在与人类棋手对弈时，需要评估当前局面并规划未来数十步的最优策略
case D：ChatGPT 扮演的智能客服在处理用户投诉时，需要查询订单信息、分析问题原因、提供解决方案并安抚用户情绪

case A：不属于智能体

主要依据：超级计算机是算力硬件/通用高性能计算平台，本身并不具备“感知环境—决策—行动—目标达成”的闭环能力。
只有当它被具体算法系统驱动、并实现自主感知与决策/行动闭环时，才可能成为智能体的一部分；但题干只描述“算力很强的计算机”。

case B：属于智能体（Yes）

依据：
1. 感知：前方障碍物
2. 思考：选择刹车或变道
3. 行动：控制车辆执行相应动作
4. 目标：安全通过/避免碰撞

case C：属于智能体（Yes）

依据：
1. 感知：棋局局面
2. 思考：评估当前局面
3. 行动：并选择下一步落子
4. 目标：赢棋/最优策略

case D：属于智能体（Yes）

依据：
1. 感知：理解用户投诉内容
2. 思考：查询订单信息、分析问题原因
3. 行动：给出解决方案并安抚情绪
4. 目标：解决问题、提升用户满意度

假设你需要为一个“智能健身教练”设计任务环境。这个智能体能够：

通过可穿戴设备监测用户的心率、运动强度等生理数据
根据用户的健身目标（减脂/增肌/提升耐力）动态调整训练计划
在用户运动过程中提供实时语音指导和动作纠正
评估训练效果并给出饮食建议

请使用 PEAS 模型完整描述这个智能体的任务环境，并分析该环境具有哪些特性（如部分可观察、随机性、动态性等）。

P（Performance，绩效/目标）

达成用户健身目标：减脂/增肌/提升耐力的进展（体脂、肌肉、耐力指标随时间提升）
安全性：训练强度不过载、降低受伤风险（异常心率/疲劳时能及时降强度或提示停止）
训练效果：完成训练任务并能在合适强度区间产生有效刺激
可执行与体验：指导清晰、可跟做；饮食建议合理且能促进目标达成
效率：在安全前提下获得更好的训练收益（更少无效重复、减少失败/跳过）

E（Environment，环境）

用户的真实身体状态与约束：当前心肺水平、疲劳程度、既往伤病、动作能力等
训练场景与条件：室内/室外、器械可用性、空间限制、当天活动安排
数据与反馈环境：可穿戴设备/传感器的测量条件与误差、网络延迟（若有）
训练过程本身是“阶段性环境”：热身→训练→放松，状态随时间变化
用户行为的变化：用户可能未完全按指导执行（存在偏差）

A（Actuators，执行/作用方式）

输出训练计划与动态调整指令：推荐组数/次数/强度/节奏、调整训练内容
实时语音/文字/可视化指导：告诉用户“接下来做什么、怎么做”
动作纠正：提醒姿势错误、发出停止/减速/重做等指令
风险干预：检测到异常（如心率超出安全区间）时建议暂停、降强度或就医/咨询
饮食建议：给出摄入量与宏量营养建议、补剂/饮食时机等

S（Sensors，传感器/感知输入）

来自可穿戴设备的生理数据：心率、运动强度、（可能还有HRV/血氧等，视设备）
运动表现数据：训练时长、速度/配速/功率（如有）、步频/活动量、完成的动作次数
（可选/扩展）动作数据：通过相机/IMU 识别动作姿态与偏差
用户目标与历史记录：减脂/增肌/耐力设定、历史训练日志与趋势
用户当前状态的间接信号：如主观疲劳/是否遵循指导（若系统采集）

为什么智能体/智能体系统会产生“幻觉”（生成看似合理但实际错误的信息）？

常见原因可概括为：智能体在循环中可能出现 感知误差（Perception）、思考误差（Thought）、行动误差（Action），而当缺少验证与反馈闭环时，错误会被持续放大，从而形成“幻觉”。

1）感知误差（Perception / 观测阶段）

上下文信息不全/观测不足（Partial Observability）：关键事实不可获得（如售罄余量、价格、开放时间等），只能推断，导致输出偏离真实世界。
传感或工具观测带噪/不可靠：数据缺失、噪声、识别偏差，使得智能体“看到”的信息本身不准。
多轮对话中的误差累积：前一轮的错误观测/假设进入下一轮推理，形成“自我强化”的错因链条。

2）思考误差（Thought / 推理与规划阶段）

状态更新错误（belief update 错）：智能体把旧信息当新信息，或更新记忆/约束时出错，导致后续决策基于错误前提。
约束/目标建模偏差：误解用户目标、预算或时间约束，使得生成的策略虽然“自洽”，但不满足真实要求。
证据不足下仍做强推断：当观测不完备时，未显式承认“不确定”，仍强行得出结论。
推理/规划的误差在循环中传播：某轮规划偏了，后续轮次不断“在偏差上优化”，最终更偏离正确答案。

3）行动误差（Action / 执行与输出阶段）

缺少真实世界的验证机制：未进行事实检索、工具查询或约束校验，模型只能靠语言先验补全，从而给出错误但合理的内容。
工具调用失败或数据过期：API 超时、返回空值或数据滞后；若缺少重试/降级/不可得提示兜底，仍可能继续生成。
行动后的反馈/观测闭环缺失：推荐或执行后没有再次感知核验（Observation），错误无法及时纠正并被带到下一轮。

如果最大循环次数没有限制，智能体可能会出现什么问题？

若把多轮 Thought-Action-Observation 循环无限放开，会出现：

无限循环/过度迭代

系统可能一直在找“下一步”，但没有真正收敛到可用结论。
成本与延迟大幅上升

每轮都要做推理/调用工具/生成文本，计算与 API 成本会暴涨。
误差越来越大（误差累积）

第一次推理可能已经偏了，后续循环会在错误基础上不断“修修补补”，最终更偏离事实。
策略漂移（目标被稀释）

原本目标可能是“生成一个满足条件的行程”，但循环太多会导致策略频繁变更，最后输出不稳定。

如何评估一个智能体的“智能程度”？仅使用准确率指标是否足够？

“智能”通常不仅是回答对不对，还包括：能否完成任务、能否适应环境、能否长期稳定、能否在不确定下做出正确决策。因此准确率通常不够。

任务目标达成率：最终是否真的满足目标（可执行、有效、安全）
感知质量：工具/传感输入是否可靠、缺失时是否能合理降级
思考质量：是否规划合理、是否能在约束下产生可行决策（回合数、工具次数可作代理指标）
行动可验证性（Grounding）：输出是否基于真实工具/检索结果而非纯生成
动态修正能力：遇到反馈或冲突时，能否更新思考并继续走向目标
鲁棒性与安全性：异常情况下是否仍保持约束（预算、风险边界等）