前言:一个普通Windows用户的AI Agent折腾史
说出来不怕你笑话,三个月前我还以为”AI Agent”是某个游戏里的NPC。直到有一天,我看到一个视频:一个人对着电脑说”帮我整理这周的邮件,把重要的标出来,不重要的归档”,然后电脑真的自己打开了邮箱、读邮件、分类、归档。整个过程没人写一行代码。
我当时就愣住了。这不就是我每天重复做的那些破事吗?
于是我开始折腾。踩了无数坑,重装了两次系统,花了不少冤枉钱买API额度,终于跑通了一个能用的AI Agent。这篇文章就是我把这三个月踩的坑、攒的经验,完完整整地告诉你。
你不需要懂编程,不需要买Mac,不需要租服务器。一台普通Windows电脑就够了。
一、先搞清楚AI Agent到底是什么
别急着动手,先花2分钟搞清楚概念,能省你2个小时。
ChatGPT你用过吧?你问它问题,它回答你。问完就完了,它不记得你上次说了什么(除非在同一个对话里),也不会主动帮你干活。这就是”对话式AI”。
AI Agent不一样。你可以把它理解成一个”会使用工具的AI”。它不只是回答你的问题,它会:
- 自主规划:你说”帮我写一篇关于Python的博客”,它自己拆成”搜索资料 -> 列大纲 -> 写初稿 -> 润色”这几步
- 使用工具:它能打开浏览器搜索、读写文件、执行代码、调用API
- 循环迭代:写完初稿不满意,它会自己改,改到你满意为止
- 记忆能力:它能记住你的偏好,下次用的时候不用重新交代
打个比方:ChatGPT是个聪明的顾问,你问它答;AI Agent是个实习生,你交代任务,它自己想办法完成。
二、准备工作:你需要的东西
在开始之前,先确认你的环境和需要准备的东西:
| 项目 | 要求 | 说明 |
|---|---|---|
| 操作系统 | Windows 10/11 | 64位,建议1809版本以上 |
| 内存 | 至少8GB | 16GB更舒服,Agent跑起来吃内存 |
| 硬盘 | 剩余20GB以上 | 模型文件和依赖包不小 |
| 网络 | 能访问外网 | 大部分AI服务需要联网 |
| API Key | OpenAI或其他 | 这是”燃料”,后面会讲怎么弄 |
关于API Key,多说两句。AI Agent的”大脑”是大语言模型,目前最方便的是用OpenAI的GPT-4o。你需要一个OpenAI账号,充5-10美元就够用很久了。如果你不想花钱,文章后面我也会讲免费方案。
三、方案选择:三条路,选一条
在Windows上跑AI Agent,主要有三条路:
方案一:用现成平台(最简单)
Dify、Coze、FastGPT这些平台,提供了可视化的Agent搭建界面。你拖拖拽拽,配置一下,就能跑起来。适合完全不想写代码的人。
优点:零代码、可视化、社区资源丰富
缺点:灵活性有限、高级功能要付费
方案二:用Python + LangChain(推荐)
这是目前最主流的方案。LangChain是专门用来构建AI Agent的Python框架,生态最成熟,教程最多。
优点:灵活、强大、免费开源
缺点:需要一点点Python基础(真的只要一点点)
方案三:用Node.js + AI SDK
如果你更熟悉JavaScript,可以用Vercel的AI SDK。不过生态不如LangChain成熟。
我推荐方案二。跟着做就行,我保证你30分钟内能跑起来。
四、手把手:用Python + LangChain搭建你的第一个Agent
第1步:安装Python
打开浏览器,访问 python.org/downloads,下载Python 3.11或3.12。
重要:安装时勾选”Add Python to PATH”。这一步忘了后面会很麻烦。我当年就忘了,折腾了半小时。
安装完成后,按 Win + R,输入 cmd,回车打开命令行,输入:
python --version
如果显示 Python 3.11.x 或类似版本号,说明安装成功。
第2步:创建项目文件夹
在D盘创建一个文件夹,比如 D:\\\\my-agent。然后在命令行中进入这个文件夹:
D:cd D:\\\\my-agent
第3步:创建虚拟环境
虚拟环境是个好东西,简单说就是给每个项目一个独立的Python环境,互不干扰。
python -m venv venv
然后激活虚拟环境:
.\\\\venv\\\\Scripts\\\\activate
如果看到命令行前面出现了 (venv),说明激活成功。
第4步:安装依赖包
pip install langchain langchain-openai python-dotenv
这个过程可能需要1-2分钟,取决于你的网速。
第5步:配置API Key
在 D:\\\\my-agent 文件夹里新建一个文件,命名为 .env(注意前面有个点),内容如下:
OPENAI_API_KEY=你的API Key
把”你的API Key”替换成你从OpenAI获取的真实Key。如果你还没有,去 platform.openai.com/api-keys 创建一个。
安全提醒:这个文件里是你的密钥,千万不要上传到GitHub或发给别人。
第6步:写你的第一个Agent
在 D:\\\\my-agent 文件夹里新建一个文件 agent.py,内容如下:
import osfrom dotenv import load_dotenvfrom langchain_openai import ChatOpenAIfrom langchain.agents import create_tool_calling_agent, AgentExecutorfrom langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholderfrom langchain_community.tools import DuckDuckGoSearchRun# 加载环境变量load_dotenv()# 初始化大模型llm = ChatOpenAI( model="gpt-4o-mini", # 用mini版本就够了,便宜 temperature=0.7, api_key=os.getenv("OPENAI_API_KEY"))# 定义工具:网络搜索search_tool = DuckDuckGoSearchRun()# 创建提示词模板prompt = ChatPromptTemplate.from_messages([ ("system", "你是一个有用的AI助手。当需要获取最新信息时,请使用搜索工具。请用中文回答。"), MessagesPlaceholder(variable_name="chat_history", optional=True), ("human", "{input}"), MessagesPlaceholder(variable_name="agent_scratchpad"),])# 创建Agentagent = create_tool_calling_agent( llm=llm, tools=[search_tool], prompt=prompt)agent_executor = AgentExecutor( agent=agent, tools=[search_tool], verbose=True # 设为True可以看到Agent的思考过程)# 运行Agentif __name__ == "__main__": print("=== 你的第一个AI Agent ===") print("输入 'quit' 退出\\") while True: user_input = input("你: ") if user_input.lower() == 'quit': break result = agent_executor.invoke({"input": user_input}) print(f"\\Agent: {result['output']}\\")
第7步:运行!
在命令行中输入:
python agent.py
如果一切正常,你会看到提示符。试试输入:
帮我搜索一下今天有什么AI方面的重要新闻
Agent会自动调用搜索工具,获取最新信息,然后给你一个总结。
看到这一幕的时候,我真的起了一身鸡皮疙瘩。不是因为技术多厉害,而是因为——这东西真的在”思考”。它会先判断”这个问题需要搜索”,然后调用搜索工具,然后整理结果。整个过程是自动的。
五、给Agent装上更多”手脚”
上面的Agent只有一个搜索工具,能力有限。下面给它装上更多工具。
文件读写工具
from langchain.tools import toolimport os@tooldef read_file(file_path: str) -> str: """读取指定文件的内容""" try: with open(file_path, 'r', encoding='utf-8') as f: return f.read() except Exception as e: return f"读取文件失败: {str(e)}"@tooldef write_file(file_path: str, content: str) -> str: """将内容写入指定文件""" try: with open(file_path, 'w', encoding='utf-8') as f: f.write(content) return f"文件已写入: {file_path}" except Exception as e: return f"写入文件失败: {str(e)}"@tooldef list_files(directory: str) -> str: """列出指定目录下的所有文件""" try: files = os.listdir(directory) return "\\".join(files) except Exception as e: return f"列出文件失败: {str(e)}"
代码执行工具
from langchain_experimental.tools import PythonREPLToolpython_repl = PythonREPLTool()
安装这个工具需要额外装一个包:
pip install langchain-experimental
然后把这些工具加到Agent里:
agent = create_tool_calling_agent( llm=llm, tools=[search_tool, read_file, write_file, list_files, python_repl], prompt=prompt)
现在你的Agent能搜索、能读写文件、能执行Python代码了。试试对它说:”帮我创建一个Excel文件,里面包含1到100的平方数”。它会自己写Python代码、执行、生成文件。
六、免费方案:不想花钱怎么办
我知道很多人看到”OpenAI API Key”就头大了。确实,虽然不贵,但毕竟要绑信用卡。下面说几个免费方案。
方案一:用Ollama跑本地模型
Ollama是一个让你在本地运行大模型的工具。下载安装后,一行命令就能跑起来:
ollama run qwen2.5:14b
Qwen2.5是阿里开源的模型,14B参数的版本效果不错,中文能力很强。在你的电脑上跑,完全免费。
然后在LangChain中把模型换成Ollama:
from langchain_community.chat_models import ChatOllamallm = ChatOllama( model="qwen2.5:14b", temperature=0.7)
不过说实话,本地模型的效果跟GPT-4还是有差距的。如果你的电脑显卡不是RTX 3060以上,推理速度也会比较慢。
方案二:用免费的在线API
国内有一些免费的AI API可以用:
- 硅基流动(SiliconFlow):注册送额度,Qwen、DeepSeek等模型都能用
- DeepSeek API:价格极低,几百万token才几块钱
- 智谱AI:注册送免费额度,GLM-4效果不错
这些都可以通过修改base_url在LangChain中使用:
llm = ChatOpenAI( model="deepseek-chat", base_url="https://api.deepseek.com/v1", api_key="你的DeepSeek Key")
七、常见问题排查
折腾过程中你肯定会遇到问题,这里列几个最常见的:
问题1:pip install 报错
可能是网络问题。换国内镜像源:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple langchain
问题2:API Key无效
检查.env文件里的Key有没有多余的空格。Key应该以 sk- 开头。
问题3:ModuleNotFoundError
确认你激活了虚拟环境(命令行前面有 (venv))。如果没有,重新执行 .\\\\venv\\\\Scripts\\\\activate。
问题4:中文乱码
在文件开头加上:
# -*- coding: utf-8 -*-
或者在Windows命令行中先执行:
chcp 65001
八、下一步学什么
跑通上面的例子,你已经入门了。接下来可以往这几个方向深入:
- RAG(检索增强生成):让Agent能读取你自己的文档,回答基于你私有知识的问题。比如把公司所有文档喂给Agent,让它当你的知识库助手
- 多Agent协作:让多个Agent分工合作,一个负责搜索,一个负责写作,一个负责审核
- 自动化工作流:用Dify或n8n搭建自动化的Agent流程,比如每天自动收集行业新闻、生成摘要、发到微信群
这些内容我后面会单独写文章讲。如果你等不及,可以去看看我写的 LangChain搭建AI Agent详细步骤 和 多智能体联动搭建教程。
说实话,AI Agent这个领域变化太快了。我三个月前学的东西,有些现在已经过时了。但核心思路不会变:大模型 + 工具 + 自主规划 = Agent。掌握了这个公式,不管框架怎么变,你都能快速上手。
动手试试吧。遇到问题很正常,我当初也是一路报错一路查过来的。跑通第一个Agent的那一刻,你会觉得一切都值了。