Prompt
- 定义:你与 AI 沟通的直接指令,是引导模型生成响应的输入文本。
- 大白话:就像你对 AI 说 “这次怎么做”,比如 “帮我写一份产品周报” 或 “总结这篇论文的核心观点”。
作用:定义单次任务的目标和规则,是所有 AI 交互的起点。
Agent
定义:具备自主决策、任务拆解和协同执行能力的 AI 系统。
- 大白话:它是 AI 的 “项目经理”。你只需给出一个目标(如 “帮我规划一次周末旅行”),它会自动思考:需要查天气、订机票、找酒店,然后调用对应的技能和工具,全程无需人工干预。
Skills
- 定义:封装好的、可复用的专业能力包,包含执行逻辑、模板和 SOP。
- 大白话:它是 Agent 的 “技能手册”。比如 “写爆款小红书笔记” 这个 Skill,里面已经预设了标题公式、内容结构和发布时间建议,AI 遇到类似任务就能直接套用。
- 价值:把重复的 Prompt 固化成标准化流程,提升效率和一致性。
MCP
- 定义:AI 连接外部世界的标准化接口,让模型能安全地访问数据库、文件系统、API 等外部资源。
- 大白话:它是 AI 的 “门禁卡” 和 “USB 接口”。没有它,AI 就像被关在房间里,无法查询公司 CRM、读取本地文件或调用实时数据;有了它,就能像插拔 U 盘一样,安全、统一地连接各种工具和服务。
- 核心价值:即插即用、数据安全、降低集成成本。
Vibe Coding
Vibe Coding(氛围编程) 是一种 AI 辅助的软件开发实践:开发者用自然语言向大语言模型(LLM)描述需求,由 AI 生成代码,开发者通过运行结果而非阅读代码来判断是否正确。
和传统 AI 辅助编程的关键区别在于——开发者主动放弃对代码的逐行理解。
“如果 LLM 写了你所有的代码,但你逐行审查、测试、理解了它,那不叫 Vibe Coding——那叫用 LLM 当打字助手。”
参考链接: https://zhuanlan.zhihu.com/p/2010879714030540578
常用工具汇总:
| 工具类别 | 工具名称 | 核心定位 | 关键能力 | 适用场景 |
|---|---|---|---|---|
| IDE 集成工具 | Cursor | AI 原生代码编辑器(VS Code 定制) | 自然语言对话、Composer/Agent、多文件编辑、内置 Claude/DeepSeek | 日常开发、复杂重构、全栈项目 |
| GitHub Copilot | IDE 代码补全与生成 | 实时代码补全、上下文感知、多语言支持 | 快速编码、减少重复代码 | |
| Windsurf | VS Code 增强版 AI 编程 | Cascade 深度上下文、多文件编辑、项目结构理解、预览 | 大型项目、深度重构 | |
| JetBrains Junie | JetBrains IDE 内置 AI 助手 | 代码生成、重构、文档、调试、全 IDE 集成 | IntelliJ/PyCharm 等生态开发 | |
| Cline(原 ClaudeDev) | VS Code 自主 Agent | 执行终端命令、文件操作、跨文件修改、任务自动化 | 项目维护、批量修改、自动化任务 | |
| 云端 / 网页工具 | Replit | 云端 IDE+AI Agent | 浏览器运行、多语言、AI 生成 + 运行、一键部署 | 快速原型、算法验证、教学 |
| Coze(扣子) | 国内云端 AI 开发平台 | 中文交互、代码生成 + 运行、打包机器人 / 小程序 | 国内小工具、微信生态、低代码 | |
| v0(Vercel) | UI 原型生成 | 手绘 / 描述生成前端页面、风格定制、可导出代码 | 前端原型、UI 快速落地 | |
| Bolt.new | 全栈应用生成 | 自然语言生成完整前后端、预览、部署 | MVP 快速验证、全栈小应用 | |
| 终端 / CLI 工具 | Aider | 终端 AI 结对编程 | 操作 Git 仓库、自动修改文件、跑测试、提交 | 命令行工作流、Git 项目、批量修改 |
| Claude Code | 终端版编码助手 | 理解代码库、文件编辑、测试、Git、语音模式 | 终端重度用户、远程协作、语音编程 | |
| 独立应用 / 平台 | Retool | 企业级内部工具平台 | 连接数据源、可视化搭建、AI 辅助、安全部署 | 企业内部系统、数据看板、管理后台 |
| Lovable | 低代码 + AI 应用生成 | 拖拽 + 自然语言、快速构建 Web 应用 |
CLI
CLI = Command-Line Interface,命令行界面
简单说:
不用鼠标点图形窗口,只用键盘敲文字命令来操作电脑 / 软件
目前AI模型排名
2026/3/11
基于2026年3月最新行业评测与实战数据,为你整理了主流AI模型的综合实力排名与核心应用场景对照表。数据综合参考了LMSYS Chatbot Arena ELO评分、MMLU/HumanEval基准测试及OpenClaw智能体任务表现,兼顾技术能力与落地价值。
🏆 2026主流AI模型综合实力与应用场景总表
| 综合排名 | 模型名称 | 代表版本/厂商 | 核心定位 | 关键能力亮点 | 核心应用场景 | 综合评分(ELO/基准) |
|---|---|---|---|---|---|---|
| 1 | Claude 4 Opus | Anthropic | 企业级Agent与长文专家 | 1M上下文、SWE-bench 80.9%、指令遵循度高 | 长篇文档分析、企业知识库、代码审查/重构、法律合规 | 1265 (LMSYS) |
| 2 | Gemini 3.1 Pro | 原生多模态与超大规模吞吐 | 1M+上下文、Agentic Vision、视频理解强 | 大规模视频处理、多模态智能体、完整GitHub仓库分析、长文档合规审查 | 1287 (LMSYS) | |
| 3 | GPT-5.2 Omni | OpenAI | 全球通用能力标杆 | 全模态融合、复杂推理、生态最完善 | 复杂逻辑任务、科研论证、实时语音交互、企业级全栈方案 | 1215 (LMSYS) |
| 4 | Kimi K2.5 | 月之暗面 | 长文本与学术科研利器 | 1.04T参数MoE、无损压缩、DeepSearch | 文献综述/百页PDF解析、学术论文写作、长文数据挖掘、科研协作 | 1220 (LMSYS) |
| 5 | DeepSeek-R1 | 深度求索 | 理工与代码性价比首选 | 数学推理强、SWE-bench 80.2%、成本友好 | 科研数据处理、算法开发、嵌入式代码生成、技术文档撰写 | 1398 (综合基准) |
| 6 | Qwen 3.5 Max | 阿里巴巴 | 国产综合能力最强 | 201种语言、128k上下文、多模态协同 | 跨境电商、多语言内容、企业级国产化部署、中文专业场景 | 综合第一梯队 |
| 7 | GLM-5 | 智谱AI | 低幻觉与国产部署友好 | 440B参数、低幻觉率、全模态 | 政务办公、金融风控、医疗辅助、国产化企业服务 | 综合第一梯队 |
| 8 | 豆包2.0/Seed 2.0 | 字节跳动 | 中文体验与移动端多模态 | 中文语境适配、视频理解、娱乐化交互 | 短视频创作、移动端助手、日常办公、情感陪伴 | 国产头部 |
| 9 | Llama 4-405B | Meta | 开源生态与轻量化部署 | 开源友好、405B参数、社区活跃 | 二次开发、垂直场景定制、本地部署、中小企业AI底座 | 1321 (综合基准) |
| 10 | 文心一言5.0 | 百度 | 知识搜索与企业服务 | 实时搜索联动、知识图谱、行业方案 | 智能客服、知识问答、行业报告、政务与医疗 | 综合第一梯队 |
📊 梯队划分与核心差异
- T0 全球标杆:Claude 4 Opus、Gemini 3.1 Pro、GPT-5.2 Omni
技术与商业化全满贯,生态成熟度最高,适合企业级核心业务与复杂任务。 - T0.5 国产先锋:Kimi K2.5、DeepSeek-R1、Qwen 3.5、GLM-5
中文适配与垂直场景能力突出,性价比高,适合国内企业与科研场景。 - T1 开源与区域龙头:Llama 4-405B、豆包2.0、文心一言5.0
开源友好或区域生态完善,适合二次开发与本地化部署。
🎯 场景化选型建议
- 科研与学术:优先 Kimi K2.5(长文本处理)、DeepSeek-R1(理工推理)、GPT-5.2(复杂论证)。
- 企业办公与知识库:优先 Claude 4(长文档)、Gemini 3(多模态)、GLM-5(低幻觉)。
- 中文内容创作:优先 豆包2.0(娱乐化多模态)、Qwen 3.5(多语言协同)。
- 代码与开发:优先 Claude 4(SWE-bench领先)、DeepSeek-R1(性价比)、GPT-5.2(全栈生态)。
- 国产化部署:优先 GLM-5、Qwen 3.5(国产芯片适配完善)。
💡 关键趋势提示
- 2026年大模型正从“能力比拼”转向“场景落地”,上下文窗口(1M+)与多模态原生融合成为核心竞争力。
- 国产模型在中文理解、长文本处理、性价比方面已全面领先海外,成为国内企业首选。
- AI Agent与工具调用成为主流,模型正深度嵌入办公、开发、服务等全流程。