• AI入门课

    第01章_AI快速入门

    第一节 基础概念

    1. AI简介

    1) 什么是AI?

    人工智能(AI)是通过计算机模拟人类智能(感知、推理、学习、决策),实现自主响应、问题解决的技术,核心是让机器“学会思考”,而非单纯执行指令。

     

    2) AI的发展简史

     

    3) AI的发展现状

     

     

    2. 相关名词

    1) 大模型/Token
    模型名称开发方核心亮点适用场景
    GPT-5.2 UltraOpenAI全能标杆,全模态,上下文 400K,推理 / 编程顶尖复杂决策、科研、高要求代码
    Claude Opus 4.6Anthropic旗舰级,100 万 token 上下文(beta),长推理 / 编码极强,安全稳定超长篇文档、深度研究、企业级编码
    Claude Sonnet 4.6Anthropic中杯旗舰,性能接近 Opus、价格更低,百万 token 上下文(beta),代码 / 长文优秀日常专业场景、文档精读、代码开发、性价比首选
    Gemini 3.1 ProGoogle原生多模态(视频 / 3D),超长上下文,性价比高视频处理、工业设计、海量文档
    Llama 4Meta开源标杆,隐私强,社区成熟私有化部署、企业二次开发
    通义千问 Qwen3.5阿里云中文顶尖,多模态广,开源商用友好多语言、音视频、企业应用
    GLM-5智谱 AI推理效率高,多语言生态成熟通用对话、内容创作、垂直落地
    文心一言 5.0百度中文语义精准,产业应用成熟政务 / 教育 / 金融私有化、工具调用
    豆包 5.0字节跳动日常体验佳,生态融合紧密个人助理、内容创作、短视频辅助
    Kimi K2.5月之暗面长文本处理突出,国产长文能力领先文献综述、长报告、大数据分析

     

    2) Agent/Claw/Swarm

     

    3) MCP/Skill/Plugin

     

    4) FunctionCall/Embedding/RAG

     

    5) 其它补充

     

     

    3. 模型交互

    1) Prompt Engine

    提示词(Prompt)就是你发给 AI 的指令、问题、要求,用来告诉 AI 你想让它做什么、怎么做,分为:

    提示词优化的核心原则是:明确需求限定范围提供示例指定格式等,一般格式为:背景 + 指令 + 要求,优化技巧如下:

    注意:

    1. DeepSeek给出的提示词样例:https://api-docs.deepseek.com/zh-cn/prompt-library/

     

    2) Context Engine

    上下文(Context) 是模型交互中的记忆载体,决定了 AI 能否理解多轮对话的历史脉络与背景信息,是保持对话连贯性的核心机制。

    上下文管理的核心原则是:控制长度保留关键及时压缩,常用策略如下:

    注意:

    1. 上下文越长,推理延迟和 Token 消耗越高,需在连贯性成本之间权衡。

     

    3) Harness Engine

    Harness(模型编排引擎) 是连接应用层与底层模型的中间层,负责对多模型、多厂商的 API 进行统一封装、调度与治理,让上层业务代码以一致的方式调用不同的 AI 能力。

    工程化配置通常包含:

    注意:

    1. Harness 层不处理业务逻辑,只负责模型调用的可靠性与一致性,应与业务层解耦。

     

     

    4. 向量化

     

     

     

    第二节 理论基础

    1. 理论基础01

    1) 什么是深度学习?

    深度学习是AI核心理论,基于神经网络(模拟人脑结构),通过多层网络实现特征提取、模式识别,是大模型的基础;

     

    2) 深度学习与机器学习的区别?

    数据依赖、特征提取方式等。

     

    3) 神经网络结构

     

    4) 学习方式有哪些?

     

    5) 什么是过拟合和欠拟合?

     

    6) 什么是注意力机制?

    注意力机制是 Transformer 核心,让模型关注输入数据的关键部分(如文本中的重点词汇),提升处理效率和准确性;

     

     

    第三节 大模型

    1. 大模型部署

    1) 基于Ollma部署大模型

    Ollama 是一款极简的本地大模型运行工具,只需简单命令即可在电脑上一键部署、离线运行各类开源 AI 大模型。

     

    2) 基于vLLM部署大模型

    vLLM(Virtual Large Language Model)是伯克利大学开源的工业级高性能大语言模型(LLM)推理与服务引擎,以PagedAttention分页注意力技术为核心,极致优化显存与并发,是当前生产环境部署大模型的主流首选。

     

     

    2. 大模型微调

     

     

    3. 大模型训练

     

     

     

    第02章_AI工具使用

    第一节 Claude Code

    1. 安装部署

    1) 什么是Claude Code?

    Claude Code 是一款智能编码工具,能够读取你的代码库、编辑文件、执行命令,并与你的开发工具集成。

    官方文档:https://code.claude.com/docs/en/overview

    笔记参考:https://cloud.fynote.com/share/d/HnIGGVKAMH

     

    2) 命令行安装

     

    3) 插件安装

    在各大插件市场搜索安装即可,推荐一个 CC GUI 插件如下,可手工加载C:\Users\用户名\.claude\settings.json配置。

    image-20260330153345127

     

     

    2. 基本使用

    1) 基本命令

     

    2) 会话管理

     

    3) 文件 / 项目操作

     

    3) 高级扩展

    注意:

    1. skills会继承主Agent上下文,而SubAgent不会影响当前上下文,适合关联小,影响大的任务。

     

    4) Skill示例

    下面是一个文件整理技能,在技能目录~/.claude/skills/技能名称/SKILLS.MD创建SKILLS.MD文件,写入下面内容即可。

     

     

    3. 其它AI编程工具

    1) Cursor

    Cursor 是由 Anysphere 公司开发、基于 VS Code 深度定制的 AI 原生代码编辑器,核心定位是 “AI 结对编程伙伴”。

    它集成了 GPT-4、Claude、Gemini 等大模型,支持自然语言编程、项目级代码理解、跨文件智能重构、一键 Debug 与优化,并具备 Agent 自主执行、Yolo 快速编辑等高级模式,能直接通过对话生成、修改、解读与维护代码。

    官网地址:https://cursor.com/cn

     

    2) Trce

    Trae(读作 /treɪ/) IDE是由字节跳动推出的一款 AI 原生集成开发环境的IDE,集成了智能问答、实时代码建议、代码片段生成及基于智能体的自动编程能力,并针对中文开发者进行了深度优化,例如全界面中文支持和语义理解优化。

    官网地址:https://www.trae.cn/

    笔记参考:https://cloud.fynote.com/share/d/iISJVVge

     

    3) Open Code

     

    4) Codex

     

    5) Qorder

     

     

    第二节 OpenClaw

    1. 安装部署

    1) 什么是OpenClaw?

    OpenClaw 是一款开源 AI 智能体,可部署在本地电脑,通过 Telegram、微信等聊天软件操控,让 AI 不仅能对话建议,更能主动执行代码、管理文件、操作浏览器等实际任务,成为真正"能动手"的私人数字助理。

    官网地址:https://openclaw.ai/

    官方文档:https://docs.openclaw.ai/zh-CN

    笔记参考:https://cloud.fynote.com/share/d/ZAHaTUrAC

     

    2) Windows安装

     

    3) Linux安装

     

    2. 基本使用

    1) 常用命令

     

    2) 修改大模型

     

    3) 配置渠道

     

    4) 添加SKILL

     

     

    第三节 DALL.E3

     

     

     

    第四节 Midjourney

     

     

    第五节 Dify

    Dify:面向企业级用户的开源 AI 平台,支持主流大模型(如 GPT‑4、Claude)、灵活创建聊天机器人、文本应用和复杂工作流,允许私有化部署、更好地保障数据隐私和合规性。

    Coze:针对个人或小型团队构建对话式 AI 应用的低/无代码平台,支持国内模型、一键页面布局、丰富插件嵌入、云端托管(依赖火山引擎),适合快速验证智能体/聊天机器人产品。

    mauns:全自主、多代理驱动的智能体平台,擅长接收高层指令后自动拆解任务、调用多模型及 API(浏览网页、写代码、生成报告/部署网站等),适合跨域、多步骤、复杂任务的专业用户或团队使用。

     

     

    第六节 milvus

    1. 安装部署

    1) 什么是milvus?

    Milvus 是一个由 Zilliz 开发的高性能向量数据库,专为存储、索引和检索高维向量数据而设计,它能够处理图像、音频、视频、自然语言等嵌入表示(embeddings),支持海量向量(万亿级)毫秒级相似搜索,现已成为世界领先的开源向量数据库项目之一。

     

    2) 安装milvus

    image-20260410081442469

     

     

    2. 基本使用

    1) 导入依赖

     

    2) 创建Collection和Schema

     

    3) 数据增删查

     

    3. 其它向量数据库

    1) Redis Stack

     

     

    第03章_AI应用开发

    第一节 SpringAI

    1. SpringAI简介

    1) 什么是Spring AI?

    SpringAI是一个AI工程领域的应用程序框架,对OpenAI、DeepSeek等主流 AI 大模型提供了支持。

     

     

    2. 接入DeepSeek

    1) 引入依赖

     

    2) 创建配置文件

     

    3) 编写Controller

     

    4) 创建启动类

     

    5) 测试

    image-20250628170050905

     

     

    3. 接入阿里百炼平台

    1) 引入依赖

     

    2) 修改配置

     

    3) 编写Controller

     

    4. 接入Ollma本地模型

    1) 部署本地模型

    注意:

    1. Ollma本地模型默认安装在C盘,可通过OLLAMA_MODELS环境变量进行修改。

     

    2) 引入依赖

     

    3) 修改配置

     

    4) 编写Controller

     

     

    5. ChatClient工具

    1) 什么是ChatClient?

    ChatModel是 Spring AI 与 AI 模型交互的基础接口,直接和具体的 AI 模型(如OpenAI、DeepSeek、通义千问等)进行交互。

    ChatClient是对 ChatModel 的进一步封装,它屏蔽了底层模型的差异性,为开发者提供了统一的接口来和不同的 AI 模型进行交互。

     

    2) 配置ChatClient

     

    3) 使用ChatClient

     

     

    6. 检索增强生成(RAG)

    1) 什么是RAG?

    RAG(Retrieval-Augmented Generation )指检索增强生成式人工智能,是一种将大型语言模型(LLM)与外部知识源相结合的人工智能技术。通过在生成响应前检索相关信息,RAG 能够为模型提供最新且特定领域的知识,从而提高回答的准确性和相关性。

     

    2) 对数据进行向量化

    步骤:文档 → 解析 → chunks → Embedding → 向量 → 存入向量库,最终结果形成知识库,整个过程叫 indexing

     

    3) 增强生成内容

    一个 RAG 系统的数据流程如下:

    image-20260410083528178

    代码请参考前一小节示例。

     

     

    第二节 Spring AI Alibaba

    1. Spring AI Alibaba 简介

    1) 什么是Spring AI Alibaba?

    Spring AI Alibaba 是阿里云基于官方 Spring AI 构建、专为 Java 开发者设计的开源企业级 AI 应用AI Agent 开发框架。

    项目架构分为三层:

    Architecture

     

    2) 主流 Java AI 框架选型

    以下是当前主流 Java AI 框架对比情况:

    对比维度Spring AI AlibabaSpring AILangChain4J
    Spring Boot 集成原生支持原生支持社区适配
    文本模型主流模型,可扩展主流模型,可扩展主流模型,可扩展
    音视频、多模态、向量模型支持支持支持
    RAG模块化 RAG模块化 RAG模块化 RAG
    向量数据库主流向量数据库 阿里云ADB、OpenSearch等主流向量数据库主流向量数据库
    MCP 支持支持 Nacos MCP Registry 支持支持支持
    函数调用支持(20+官方工具集成)支持支持
    提示词模版硬编码,无声明式注解硬编码,无声明式注解声明式注解
    提示词管理Nacos 配置中心
    Chat Memory优化版JDBC、Redis、ElasticSearchJDBC、Neo4j、Cassandra多种实现适配
    可观测性支持,可接入阿里云ARMS支持部分支持
    工作流 Workflow支持,兼容 Dify、百炼 DSL
    多智能体 Multi-agent支持,官方通用智能体实现
    模型评测支持支持支持
    社区活跃度与文档健全性官方社区,活跃度高官方社区,活跃度高个人发起社区
    开发提效组件丰富,包括调试、代码生成工具等
    Example 仓库丰富,活跃度高较少丰富,活跃度高

    Spring AI Alibaba不仅可以通过 Nacos 配置中心管理提示词,还在可观测性、工作流、多智能体方面做的更好。

     

     

    2. 入门案例

    1) 导入依赖

    父工程:

    子工程:

     

    2) Agent示例

     

     

     

     

     

     

     

    第三节 LangChain4J

    1. 基本使用

    1) 导入依赖

     

    2) 接入对话模型

     

    3) 接入图片/语音模型

     

    4) 实现智能体(AI Agent)

     

    5) 调用MCP服务

     

     

    2. 整合SpringBoot

    1) 引入依赖

     

    2) 模型配置

     

    3) 创建代理

     

    4) 流式对话