MIT MAS.S60 · How to AI (Almost) Anything · Spring 2025

12讲精华图文版

已加入 Hexagonal Hermes 网站。基于 Paul Liang 课程公开视频与 MIT 官方讲义整理;每一讲浓缩为一个完整页面,并配套内嵌 SVG 概念图与本地讲义下载链接。

多模态 AI基础模型强化学习Human-AI Interaction官方讲义提炼

Lecture 1 – Course Introduction · 第 01 讲

AI 不只处理文本和图像:面向真实世界的多模态智能导论

这门课把 AI 研究扩展到语言、视觉、传感器、医疗、网页、机器人和人机交互等多种模态,目标是训练学生从真实问题出发,设计可研究、可实现、可评估的 AI 系统。

多模态 AI真实世界智能研究项目
  1. 课程愿景是构建跨尺度、跨感官媒介的人机共生 AI,让 AI 增强创造力、健康与福祉。
  2. AI for Anything 的对象不局限于文本和图像,还包括语音、手势、可穿戴设备、移动数据、传感器、网络、情绪状态、医学影像等。
  3. 多模态 AI 的关键任务,是把视觉、语言、声音、传感器和行为数据组合起来,形成更完整的场景理解。
  4. 医疗健康是重要应用:未来大量医学指标会来自传感器、移动设备、语音、行为、社交和情绪信号。
  5. 交互式智能体是另一个重点:能理解网页任务、请求澄清、执行操作,并完成真实数字任务。
  6. 课程项目强调研究型产出:提出想法、综述文献、实现实验、误差分析、可视化并写成论文式报告。
落地启发:先为一个行业建立“多模态问题地图”:列出能拿到的数据源、每种数据能回答的问题、缺失风险和可行 AI 任务。

视频 · 官方讲义

AIfor AnythingTextVisionAudioSensorActionHuman

Lecture 1.2 – Introduction to AI Research · 第 02 讲

AI 研究方法论:提出问题、验证假设、执行实验、写成论文

好的 AI 研究不是简单问“X 是否提升 Y”,而是从已有方法的失败中提炼可验证假设,再通过严谨实验、消融分析和清晰写作形成可信贡献。

研究问题可证伪假设实验闭环
  1. AI 研究遵循科学方法:观察与想法、文献综述、提出研究问题和假设、实验测试、数据分析、报告结论。
  2. 研究想法有两条路径:自下而上从失败案例中找改进点,自上而下从宏观问题设计具体实验。
  3. 研究问题要尽量明确,最好能形成可证伪假设,而不是笼统地追求“更好”。
  4. 警惕 Does X make Y better? 这类间接问题;结果为否时很难判断到底哪里出了问题。
  5. 先搭建最小可运行 pipeline:数据、基础模型、评估函数、损失函数、可视化或接口,然后一次只改一个组件。
  6. 论文表达应包含问题缺口、核心洞察、方法图、实验问题、大结果表、消融和定性可视化。
落地启发:启动 AI 项目前,先写一页“研究问题卡片”:失败案例、假设、最小实验、成功指标、可能被证伪的结果和下一步定位方向。

视频 · 官方讲义

ObserveHypothesisExperimentAnalyzeImproveClosed Loop小步验证,而不是一次性豪赌

Lecture 2 – Data, Structure, Information · 第 03 讲

从数据模态到泛化能力:AI 建模前必须理解的数据结构

AI 的核心是从不同模态的数据中学习表示;有效建模必须先分析数据的元素分布、粒度、结构、信息量、噪声和任务相关性。

数据模态模态画像泛化
  1. 模态是事物被表达或感知的方式,可以是原始传感器信号,也可以是抽象语义、类别或情绪强度。
  2. 常见数据包括视觉、语言、音频、传感器时间序列、表格、图、集合和点云,每种结构不同,建模难点不同。
  3. 模态画像包括元素表示、元素分布、粒度、结构、信息量、噪声和任务相关性。
  4. 视觉有空间结构,语言有离散符号与顺序,音频和传感器有高频时间结构,图数据强调节点与边。
  5. 学习范式包括监督、自监督、强化、多任务、迁移、跨模态、主动学习和人类反馈学习。
  6. 泛化取决于模型类、数据划分和测试条件;测试集必须尽量贴近真实部署场景。
落地启发:建模前做“数据模态画像表”:每个数据源填写分布、采样频率、结构、噪声、缺失、与标签关系,再决定模型路线。

视频 · 官方讲义

Structure → ModelGridCNN/ViTSequenceRNN/TransGraphGNNSetDeepSets先识别数据结构,再选择归纳偏置

Lecture 2.1 – Practical AI Tools · 第 04 讲

PyTorch、HuggingFace 与神经网络调试:从数据到可靠结果

神经网络训练经常“静默失败”,必须用结构化调试流程,从看数据、建基线、过拟合小样本、正则化、调参到最终压榨性能。

模型调试基线实验数据泄漏
  1. HuggingFace 生态包括 transformers、datasets、bitsandbytes、flash-attn 等常用工具。
  2. LoRA 可用较少显存微调大模型,bfloat16 常用于稳定节省显存。
  3. 神经网络是“有漏洞的抽象”:代码能跑不代表模型真的学对了。
  4. 推荐顺序:成为数据专家 → 端到端骨架和愚蠢基线 → 小数据过拟合 → 正则化 → 调参 → 挤性能。
  5. 先看数据:检查重复、损坏、标签错误、偏差、预处理问题,并通过可视化理解分布。
  6. 诊断指标症状:NaN、loss 不变、train 远好于 val、train/val/test 都异常高等。
落地启发:建立训练检查清单:训练前抽样看数据和标签,训练中记录曲线和预测样例,训练后专门检查数据泄漏与类别不平衡。

视频 · 官方讲义

DataBaselineOverfitRegularizeTuneClosed Loop小步验证,而不是一次性豪赌

Lecture 3 – Common Model Architectures · 第 05 讲

常见模型架构:用“结构、不变性、信息聚合”选择正确模型

好的 AI 模型不是随意堆网络层,而是根据数据的时间、空间、集合或图结构,设计合适的参数共享方式和信息聚合机制。

不变性信息聚合模型架构
  1. 模型选择取决于元素、采样频率、结构、信息密度、噪声、缺失程度和任务相关性。
  2. 深度架构可统一理解为:先为元素学习表示,再用聚合机制组合表示。
  3. 集合和点云要求置换不变性;DeepSets/PointNet 用共享函数和无序聚合实现。
  4. 序列模型要保留顺序与时间依赖;Transformer 通过注意力并行聚合全序列信息。
  5. CNN 用局部卷积与参数共享获得平移不变性;ViT 将图像切成 patch 后用 Transformer 处理。
  6. GNN 通过边定义邻域并聚合邻居信息,能统一理解集合、序列、图像和网络结构。
落地启发:先判断数据结构,再选 CNN、Transformer、GNN、DeepSets 或预训练模型,避免一开始盲目套 LLM。

视频 · 官方讲义

Structure → ModelGridCNN/ViTSequenceRNN/TransGraphGNNSetDeepSets先识别数据结构,再选择归纳偏置

Lecture 4 – Multimodal Alignment · 第 06 讲

多模态 AI 与对齐:让语言、视觉、声音等模态互相理解

多模态 AI 的难点不是把数据放在一起,而是处理异质性、连接关系和交互方式,并通过对齐学习建立跨模态语义桥梁。

多模态对齐异质性对比学习
  1. 多模态研究异质且相互连接的数据;语言、图像、语音和传感器在结构、粒度、噪声、抽象层级上不同。
  2. 多模态数据可从异质性、连接性、交互性三方面理解。
  3. 模态关系包括冗余、独有和协同:有些信息共享,有些只存在于某个模态,有些只有组合后才出现。
  4. 六个核心挑战是表示、对齐、推理、生成、迁移和量化。
  5. 对齐可以是离散的词-物体 grounding,也可以是连续的时间对齐、时间弯曲、分段或聚类。
  6. CLIP 式对比学习把匹配图文拉近、不匹配样本推远,让语言和视觉进入共享空间。
落地启发:做图文、语音文本、视频文本系统时,先定义对齐单元:词-物体、句子-图片、时间片段-语音帧,还是事件-视频片段。

视频 · 官方讲义

AIfor AnythingTextVisionAudioSensorActionHuman

Lecture 5 – Multimodal Fusion · 第 07 讲

多模态融合:从简单相加到动态交互建模

多模态融合的目标是学习联合表示;真正困难的是判断模型是否学到了跨模态交互,而不只是把多个单模态预测相加。

多模态融合跨模态交互门控机制
  1. 表示融合是学习联合表示,使其能建模不同模态元素之间的交互。
  2. 早期融合在特征层合并,晚期融合先各自预测再组合,中间融合在编码过程中交互。
  3. 加性融合表达独立贡献,乘性融合表达交互项。
  4. 张量融合可显式建模多阶交互,但参数会爆炸;低秩融合用于降低计算与存储成本。
  5. 多模态 Transformer 通过跨模态注意力,让 token 根据视觉、语音或表情信号动态改变表示。
  6. 多模态并不总优于单模态,要防止单模态偏置、模态坍塌和过拟合。
落地启发:至少训练单模态、加性融合、复杂融合三个基线;复杂模型必须显著超过加性融合并通过消融证明使用了跨模态信息。

视频 · 官方讲义

LateAddMultiplyTensorGateCapability / Complexity

Lecture 6 – Cross-modal Learning · 第 08 讲

跨模态迁移:让一个模态帮助另一个模态学习

跨模态迁移是在主模态数据少、噪声大或测试时缺失辅助模态时,利用其他模态的知识、表示或伪标签增强主模态性能。

跨模态迁移协同学习伪标签
  1. 跨模态迁移适用于主模态低资源、噪声高、缺少标注或测试时只能使用部分模态的场景。
  2. 可通过预训练模型迁移参数知识,例如使用 BERT、视觉语言模型或高模态 Transformer 作为基础模型。
  3. HighMMT 等模型试图在语言、视频、音频、时间序列、医疗表格和机器人动力学间迁移。
  4. Co-learning 的关键场景是训练时有辅助模态、测试时没有辅助模态。
  5. Co-learning 可通过融合、对齐、翻译三条路径实现。
  6. Model induction 让多个单模态模型互相提供高置信伪标签或一致性信号。
落地启发:如果线上只有一种模态,但训练阶段能收集额外模态,就把辅助模态设计成训练期监督信号,而不是要求线上长期依赖所有模态。

视频 · 官方讲义

Structure → ModelGridCNN/ViTSequenceRNN/TransGraphGNNSetDeepSets先识别数据结构,再选择归纳偏置

Lecture 7 – Large Foundation Models · 第 09 讲

大型基础模型:从预训练到对齐与高效微调

现代大语言模型的能力来自海量自监督预训练、指令微调与偏好对齐,实际落地还依赖 LoRA、MoE、量化等高效训练和部署技术。

自监督预训练指令微调高效适配
  1. Transformer 的关键是注意力机制:每个词可直接与其他词交互,并能并行处理。
  2. LLM 预训练本质上是用互联网规模文本做自监督学习,典型目标是预测下一个 token。
  3. BERT 适合理解分析,GPT 类 Decoder-only 模型更适合生成和逐 token 交互。
  4. 规模定律显示,在足够计算量和数据下,更大模型通常更强;也出现固定模型规模上用更多 token 的过训练趋势。
  5. 指令微调用大量“指令—输出”样例让模型学习响应人类意图。
  6. 偏好调优用人类比较训练奖励模型,再用 RLHF 等方法优化,但要警惕幻觉和奖励偏差。
  7. LoRA、MoE、量化是高效训练和部署的关键。
落地启发:企业领域助手不要从零训练;选强基座模型,用内部问答和流程文档做 LoRA 微调,再用偏好样本做 DPO/RLHF,并用量化降低成本。

视频 · 官方讲义

PretrainAlignFuseTuneDeployCapability / Complexity

Lecture 8 – Large Multimodal Models · 第 10 讲

大型多模态模型:让语言模型看见、听见并生成

大型多模态模型通过跨模态表示、视觉语言对齐、适配器和生成模型,把文本、图像、视频、音频等信息统一到可推理和可生成的 AI 系统中。

跨模态注意力视觉语言对齐原生多模态
  1. 从 LLM 到多模态模型,不只是多了图像或视频输入,而是要理解模态之间的关系。
  2. 多模态 Transformer 的核心是跨模态注意力:文本 token 可关注图像、音频或视频特征。
  3. 早期视觉语言模型通过图文匹配、遮盖词预测、遮盖图像区域等任务学习图文对齐。
  4. 常见改造方法是在 LLM 前接视觉编码器和适配器,把图像特征转成 LLM 可理解的条件输入。
  5. MiniGPT-4 等系统通常先做图文对齐,再用图像加文本指令数据做多模态指令微调。
  6. 多模态生成包括看图说话、图文交错检索、文本生成图像,以及调用扩散模型生成。
  7. 新方向包括原生多模态、早晚融合比较、多模态 MoE 和时间序列接入大模型。
落地启发:做图像/视频问答产品时,优先采用成熟 VLM:强 LLM + 视觉编码器 + 投影适配层,再用业务图像指令数据微调。

视频 · 官方讲义

AIfor AnythingTextVisionAudioSensorActionHuman

Lecture 10 – Reinforcement Learning & Interaction · 第 11 讲

强化学习与交互:从策略学习到 LLM 推理对齐

强化学习关注序列决策和长期回报,在大模型时代用于偏好对齐、推理能力激励和交互式智能体训练,但奖励设计与稳定性调试至关重要。

策略梯度RLHF奖励黑客
  1. 强化学习的基本框架是 MDP:状态、动作、转移、奖励、初始状态、折扣因子和时间范围。
  2. 监督学习通常是单步密集标签,强化学习面对序列决策、稀疏奖励、未知环境和长期后果。
  3. 模仿学习把专家轨迹转成监督学习,但会遇到分布偏移和非专家状态恢复问题。
  4. 策略梯度提高高回报动作概率、降低低回报动作概率;baseline 与优势函数用于稳定训练。
  5. Actor-Critic 将策略决策和价值评估拆开,PPO 通过限制策略更新幅度提高稳定性。
  6. RLHF 包括采样多个回答、人工排序、训练奖励模型,再用 PPO/GRPO 等优化。
  7. GRPO 用一组回答的奖励统计计算优势,可不训练单独 value function,但仍要警惕 reward hacking。
落地启发:训练推理型领域模型时,先 SFT 打底,再设计可验证奖励;优先用规则验证、DPO/GRPO,并持续监控 reward hacking 案例。

视频 · 官方讲义

StateActionRewardUpdateAlignClosed Loop小步验证,而不是一次性豪赌

Lecture 11 – Human-AI Interaction · 第 12 讲

人机交互与 AI 安全:从多模态推理到可控智能体

未来 AI 系统不仅要会回答,还要能在多模态环境中协作、规划、行动,并通过可解释量化、安全评估和人类反馈保持可靠与可控。

人机协作交互式智能体安全量化
  1. 多模态推理要把复杂问题拆成跨文本、图像、视频、音频的逐步推理,并引用证据。
  2. Interactive Sketchpad 展示教育场景:判断是否需要视觉提示,生成代码绘图,并给出不泄露答案的引导式提示。
  3. 视觉推理加代码执行能减少错误,交互白板让学生绘制、标注和修正思路。
  4. Web Agent 包括高层规划、观察解析和低层动作生成,需要读取网页、无障碍树和图像信息并执行操作。
  5. 复杂任务中,人类澄清可显著改进高层计划,human-in-the-loop 是当前 agent 可靠性的关键。
  6. 安全量化关注经验性与理论性理解模型缺陷、预测并控制行为。
  7. 多模态系统还面临越狱、模态偏置、刻板印象、噪声鲁棒性和缺失模态问题。
落地启发:真实 AI Agent 应加入不确定时主动询问、计划可视化、关键动作前确认、失败回放与解释面板,并做偏见、越狱、噪声和多模态错误分析。

视频 · 官方讲义

AIfor AnythingTextVisionAudioSensorActionHuman