MIT MAS.S60 · How to AI (Almost) Anything · Spring 2025
已加入 Hexagonal Hermes 网站。基于 Paul Liang 课程公开视频与 MIT 官方讲义整理;每一讲浓缩为一个完整页面,并配套内嵌 SVG 概念图与本地讲义下载链接。
Lecture 1 – Course Introduction · 第 01 讲
这门课把 AI 研究扩展到语言、视觉、传感器、医疗、网页、机器人和人机交互等多种模态,目标是训练学生从真实问题出发,设计可研究、可实现、可评估的 AI 系统。
Lecture 1.2 – Introduction to AI Research · 第 02 讲
好的 AI 研究不是简单问“X 是否提升 Y”,而是从已有方法的失败中提炼可验证假设,再通过严谨实验、消融分析和清晰写作形成可信贡献。
Lecture 2 – Data, Structure, Information · 第 03 讲
AI 的核心是从不同模态的数据中学习表示;有效建模必须先分析数据的元素分布、粒度、结构、信息量、噪声和任务相关性。
Lecture 2.1 – Practical AI Tools · 第 04 讲
神经网络训练经常“静默失败”,必须用结构化调试流程,从看数据、建基线、过拟合小样本、正则化、调参到最终压榨性能。
Lecture 3 – Common Model Architectures · 第 05 讲
好的 AI 模型不是随意堆网络层,而是根据数据的时间、空间、集合或图结构,设计合适的参数共享方式和信息聚合机制。
Lecture 4 – Multimodal Alignment · 第 06 讲
多模态 AI 的难点不是把数据放在一起,而是处理异质性、连接关系和交互方式,并通过对齐学习建立跨模态语义桥梁。
Lecture 5 – Multimodal Fusion · 第 07 讲
多模态融合的目标是学习联合表示;真正困难的是判断模型是否学到了跨模态交互,而不只是把多个单模态预测相加。
Lecture 6 – Cross-modal Learning · 第 08 讲
跨模态迁移是在主模态数据少、噪声大或测试时缺失辅助模态时,利用其他模态的知识、表示或伪标签增强主模态性能。
Lecture 7 – Large Foundation Models · 第 09 讲
现代大语言模型的能力来自海量自监督预训练、指令微调与偏好对齐,实际落地还依赖 LoRA、MoE、量化等高效训练和部署技术。
Lecture 8 – Large Multimodal Models · 第 10 讲
大型多模态模型通过跨模态表示、视觉语言对齐、适配器和生成模型,把文本、图像、视频、音频等信息统一到可推理和可生成的 AI 系统中。
Lecture 10 – Reinforcement Learning & Interaction · 第 11 讲
强化学习关注序列决策和长期回报,在大模型时代用于偏好对齐、推理能力激励和交互式智能体训练,但奖励设计与稳定性调试至关重要。
Lecture 11 – Human-AI Interaction · 第 12 讲
未来 AI 系统不仅要会回答,还要能在多模态环境中协作、规划、行动,并通过可解释量化、安全评估和人类反馈保持可靠与可控。