Hexagonal Hermes｜MIT How to AI 12讲精华

Lecture 1 – Course Introduction · 第 01 讲

AI 不只处理文本和图像：面向真实世界的多模态智能导论

这门课把 AI 研究扩展到语言、视觉、传感器、医疗、网页、机器人和人机交互等多种模态，目标是训练学生从真实问题出发，设计可研究、可实现、可评估的 AI 系统。

多模态 AI真实世界智能研究项目

课程愿景是构建跨尺度、跨感官媒介的人机共生 AI，让 AI 增强创造力、健康与福祉。
AI for Anything 的对象不局限于文本和图像，还包括语音、手势、可穿戴设备、移动数据、传感器、网络、情绪状态、医学影像等。
多模态 AI 的关键任务，是把视觉、语言、声音、传感器和行为数据组合起来，形成更完整的场景理解。
医疗健康是重要应用：未来大量医学指标会来自传感器、移动设备、语音、行为、社交和情绪信号。
交互式智能体是另一个重点：能理解网页任务、请求澄清、执行操作，并完成真实数字任务。
课程项目强调研究型产出：提出想法、综述文献、实现实验、误差分析、可视化并写成论文式报告。

落地启发：先为一个行业建立“多模态问题地图”：列出能拿到的数据源、每种数据能回答的问题、缺失风险和可行 AI 任务。

视频 · 官方讲义

Lecture 1.2 – Introduction to AI Research · 第 02 讲

AI 研究方法论：提出问题、验证假设、执行实验、写成论文

好的 AI 研究不是简单问“X 是否提升 Y”，而是从已有方法的失败中提炼可验证假设，再通过严谨实验、消融分析和清晰写作形成可信贡献。

研究问题可证伪假设实验闭环

AI 研究遵循科学方法：观察与想法、文献综述、提出研究问题和假设、实验测试、数据分析、报告结论。
研究想法有两条路径：自下而上从失败案例中找改进点，自上而下从宏观问题设计具体实验。
研究问题要尽量明确，最好能形成可证伪假设，而不是笼统地追求“更好”。
警惕 Does X make Y better? 这类间接问题；结果为否时很难判断到底哪里出了问题。
先搭建最小可运行 pipeline：数据、基础模型、评估函数、损失函数、可视化或接口，然后一次只改一个组件。
论文表达应包含问题缺口、核心洞察、方法图、实验问题、大结果表、消融和定性可视化。

落地启发：启动 AI 项目前，先写一页“研究问题卡片”：失败案例、假设、最小实验、成功指标、可能被证伪的结果和下一步定位方向。

视频 · 官方讲义

Lecture 2 – Data, Structure, Information · 第 03 讲

从数据模态到泛化能力：AI 建模前必须理解的数据结构

AI 的核心是从不同模态的数据中学习表示；有效建模必须先分析数据的元素分布、粒度、结构、信息量、噪声和任务相关性。

数据模态模态画像泛化

模态是事物被表达或感知的方式，可以是原始传感器信号，也可以是抽象语义、类别或情绪强度。
常见数据包括视觉、语言、音频、传感器时间序列、表格、图、集合和点云，每种结构不同，建模难点不同。
模态画像包括元素表示、元素分布、粒度、结构、信息量、噪声和任务相关性。
视觉有空间结构，语言有离散符号与顺序，音频和传感器有高频时间结构，图数据强调节点与边。
学习范式包括监督、自监督、强化、多任务、迁移、跨模态、主动学习和人类反馈学习。
泛化取决于模型类、数据划分和测试条件；测试集必须尽量贴近真实部署场景。

落地启发：建模前做“数据模态画像表”：每个数据源填写分布、采样频率、结构、噪声、缺失、与标签关系，再决定模型路线。

视频 · 官方讲义

Lecture 2.1 – Practical AI Tools · 第 04 讲

PyTorch、HuggingFace 与神经网络调试：从数据到可靠结果

神经网络训练经常“静默失败”，必须用结构化调试流程，从看数据、建基线、过拟合小样本、正则化、调参到最终压榨性能。

模型调试基线实验数据泄漏

HuggingFace 生态包括 transformers、datasets、bitsandbytes、flash-attn 等常用工具。
LoRA 可用较少显存微调大模型，bfloat16 常用于稳定节省显存。
神经网络是“有漏洞的抽象”：代码能跑不代表模型真的学对了。
推荐顺序：成为数据专家 → 端到端骨架和愚蠢基线 → 小数据过拟合 → 正则化 → 调参 → 挤性能。
先看数据：检查重复、损坏、标签错误、偏差、预处理问题，并通过可视化理解分布。
诊断指标症状：NaN、loss 不变、train 远好于 val、train/val/test 都异常高等。

落地启发：建立训练检查清单：训练前抽样看数据和标签，训练中记录曲线和预测样例，训练后专门检查数据泄漏与类别不平衡。

视频 · 官方讲义

Lecture 3 – Common Model Architectures · 第 05 讲

常见模型架构：用“结构、不变性、信息聚合”选择正确模型

好的 AI 模型不是随意堆网络层，而是根据数据的时间、空间、集合或图结构，设计合适的参数共享方式和信息聚合机制。

不变性信息聚合模型架构

模型选择取决于元素、采样频率、结构、信息密度、噪声、缺失程度和任务相关性。
深度架构可统一理解为：先为元素学习表示，再用聚合机制组合表示。
集合和点云要求置换不变性；DeepSets/PointNet 用共享函数和无序聚合实现。
序列模型要保留顺序与时间依赖；Transformer 通过注意力并行聚合全序列信息。
CNN 用局部卷积与参数共享获得平移不变性；ViT 将图像切成 patch 后用 Transformer 处理。
GNN 通过边定义邻域并聚合邻居信息，能统一理解集合、序列、图像和网络结构。

落地启发：先判断数据结构，再选 CNN、Transformer、GNN、DeepSets 或预训练模型，避免一开始盲目套 LLM。

视频 · 官方讲义

Lecture 4 – Multimodal Alignment · 第 06 讲

多模态 AI 与对齐：让语言、视觉、声音等模态互相理解

多模态 AI 的难点不是把数据放在一起，而是处理异质性、连接关系和交互方式，并通过对齐学习建立跨模态语义桥梁。

多模态对齐异质性对比学习

多模态研究异质且相互连接的数据；语言、图像、语音和传感器在结构、粒度、噪声、抽象层级上不同。
多模态数据可从异质性、连接性、交互性三方面理解。
模态关系包括冗余、独有和协同：有些信息共享，有些只存在于某个模态，有些只有组合后才出现。
六个核心挑战是表示、对齐、推理、生成、迁移和量化。
对齐可以是离散的词-物体 grounding，也可以是连续的时间对齐、时间弯曲、分段或聚类。
CLIP 式对比学习把匹配图文拉近、不匹配样本推远，让语言和视觉进入共享空间。

落地启发：做图文、语音文本、视频文本系统时，先定义对齐单元：词-物体、句子-图片、时间片段-语音帧，还是事件-视频片段。

视频 · 官方讲义

Lecture 5 – Multimodal Fusion · 第 07 讲

多模态融合：从简单相加到动态交互建模

多模态融合的目标是学习联合表示；真正困难的是判断模型是否学到了跨模态交互，而不只是把多个单模态预测相加。

多模态融合跨模态交互门控机制

表示融合是学习联合表示，使其能建模不同模态元素之间的交互。
早期融合在特征层合并，晚期融合先各自预测再组合，中间融合在编码过程中交互。
加性融合表达独立贡献，乘性融合表达交互项。
张量融合可显式建模多阶交互，但参数会爆炸；低秩融合用于降低计算与存储成本。
多模态 Transformer 通过跨模态注意力，让 token 根据视觉、语音或表情信号动态改变表示。
多模态并不总优于单模态，要防止单模态偏置、模态坍塌和过拟合。

落地启发：至少训练单模态、加性融合、复杂融合三个基线；复杂模型必须显著超过加性融合并通过消融证明使用了跨模态信息。

视频 · 官方讲义

Lecture 6 – Cross-modal Learning · 第 08 讲

跨模态迁移：让一个模态帮助另一个模态学习

跨模态迁移是在主模态数据少、噪声大或测试时缺失辅助模态时，利用其他模态的知识、表示或伪标签增强主模态性能。

跨模态迁移协同学习伪标签

跨模态迁移适用于主模态低资源、噪声高、缺少标注或测试时只能使用部分模态的场景。
可通过预训练模型迁移参数知识，例如使用 BERT、视觉语言模型或高模态 Transformer 作为基础模型。
HighMMT 等模型试图在语言、视频、音频、时间序列、医疗表格和机器人动力学间迁移。
Co-learning 的关键场景是训练时有辅助模态、测试时没有辅助模态。
Co-learning 可通过融合、对齐、翻译三条路径实现。
Model induction 让多个单模态模型互相提供高置信伪标签或一致性信号。

落地启发：如果线上只有一种模态，但训练阶段能收集额外模态，就把辅助模态设计成训练期监督信号，而不是要求线上长期依赖所有模态。

视频 · 官方讲义

Lecture 7 – Large Foundation Models · 第 09 讲

大型基础模型：从预训练到对齐与高效微调

现代大语言模型的能力来自海量自监督预训练、指令微调与偏好对齐，实际落地还依赖 LoRA、MoE、量化等高效训练和部署技术。

自监督预训练指令微调高效适配

Transformer 的关键是注意力机制：每个词可直接与其他词交互，并能并行处理。
LLM 预训练本质上是用互联网规模文本做自监督学习，典型目标是预测下一个 token。
BERT 适合理解分析，GPT 类 Decoder-only 模型更适合生成和逐 token 交互。
规模定律显示，在足够计算量和数据下，更大模型通常更强；也出现固定模型规模上用更多 token 的过训练趋势。
指令微调用大量“指令—输出”样例让模型学习响应人类意图。
偏好调优用人类比较训练奖励模型，再用 RLHF 等方法优化，但要警惕幻觉和奖励偏差。
LoRA、MoE、量化是高效训练和部署的关键。

落地启发：企业领域助手不要从零训练；选强基座模型，用内部问答和流程文档做 LoRA 微调，再用偏好样本做 DPO/RLHF，并用量化降低成本。

视频 · 官方讲义

Lecture 8 – Large Multimodal Models · 第 10 讲

大型多模态模型：让语言模型看见、听见并生成

大型多模态模型通过跨模态表示、视觉语言对齐、适配器和生成模型，把文本、图像、视频、音频等信息统一到可推理和可生成的 AI 系统中。

跨模态注意力视觉语言对齐原生多模态

从 LLM 到多模态模型，不只是多了图像或视频输入，而是要理解模态之间的关系。
多模态 Transformer 的核心是跨模态注意力：文本 token 可关注图像、音频或视频特征。
早期视觉语言模型通过图文匹配、遮盖词预测、遮盖图像区域等任务学习图文对齐。
常见改造方法是在 LLM 前接视觉编码器和适配器，把图像特征转成 LLM 可理解的条件输入。
MiniGPT-4 等系统通常先做图文对齐，再用图像加文本指令数据做多模态指令微调。
多模态生成包括看图说话、图文交错检索、文本生成图像，以及调用扩散模型生成。
新方向包括原生多模态、早晚融合比较、多模态 MoE 和时间序列接入大模型。

落地启发：做图像/视频问答产品时，优先采用成熟 VLM：强 LLM + 视觉编码器 + 投影适配层，再用业务图像指令数据微调。

视频 · 官方讲义

Lecture 10 – Reinforcement Learning & Interaction · 第 11 讲

强化学习与交互：从策略学习到 LLM 推理对齐

强化学习关注序列决策和长期回报，在大模型时代用于偏好对齐、推理能力激励和交互式智能体训练，但奖励设计与稳定性调试至关重要。

策略梯度RLHF奖励黑客

强化学习的基本框架是 MDP：状态、动作、转移、奖励、初始状态、折扣因子和时间范围。
监督学习通常是单步密集标签，强化学习面对序列决策、稀疏奖励、未知环境和长期后果。
模仿学习把专家轨迹转成监督学习，但会遇到分布偏移和非专家状态恢复问题。
策略梯度提高高回报动作概率、降低低回报动作概率；baseline 与优势函数用于稳定训练。
Actor-Critic 将策略决策和价值评估拆开，PPO 通过限制策略更新幅度提高稳定性。
RLHF 包括采样多个回答、人工排序、训练奖励模型，再用 PPO/GRPO 等优化。
GRPO 用一组回答的奖励统计计算优势，可不训练单独 value function，但仍要警惕 reward hacking。

落地启发：训练推理型领域模型时，先 SFT 打底，再设计可验证奖励；优先用规则验证、DPO/GRPO，并持续监控 reward hacking 案例。

视频 · 官方讲义

Lecture 11 – Human-AI Interaction · 第 12 讲

人机交互与 AI 安全：从多模态推理到可控智能体

未来 AI 系统不仅要会回答，还要能在多模态环境中协作、规划、行动，并通过可解释量化、安全评估和人类反馈保持可靠与可控。

人机协作交互式智能体安全量化

多模态推理要把复杂问题拆成跨文本、图像、视频、音频的逐步推理，并引用证据。
Interactive Sketchpad 展示教育场景：判断是否需要视觉提示，生成代码绘图，并给出不泄露答案的引导式提示。
视觉推理加代码执行能减少错误，交互白板让学生绘制、标注和修正思路。
Web Agent 包括高层规划、观察解析和低层动作生成，需要读取网页、无障碍树和图像信息并执行操作。
复杂任务中，人类澄清可显著改进高层计划，human-in-the-loop 是当前 agent 可靠性的关键。
安全量化关注经验性与理论性理解模型缺陷、预测并控制行为。
多模态系统还面临越狱、模态偏置、刻板印象、噪声鲁棒性和缺失模态问题。

落地启发：真实 AI Agent 应加入不确定时主动询问、计划可视化、关键动作前确认、失败回放与解释面板，并做偏见、越狱、噪声和多模态错误分析。

视频 · 官方讲义