研究方向
本实验室主要面向计算机视觉、多模态学习与人工智能的前沿研究,致力于构建高效、鲁棒的智能系统。我们的研究重点关注异构数据的协同建模、跨模态对齐、语义理解机制,以及智能体在复杂环境中的感知与交互能力。
🍽️ 多模态视觉智能与食品计算
重点探索图像、视频、文本等异构数据的协同建模、跨模态对齐与语义理解机制。致力于发展高效、鲁棒、可泛化的视觉智能技术,在此基础上,我们将多模态视觉智能技术深度应用于食品相关场景。
- 核心技术:细粒度识别、目标检测与分割、跨模态检索、开放词汇识别、视觉语言模型驱动的知识增强表征学习等。
- 应用系统:构建面向食物图像理解、食谱解析与营养估算的智能系统。
- 社会价值:支持健康管理、智能餐饮、农业生产和饮食文化计算,通过引入大模型、知识图谱与多源数据融合,提升复杂环境下的语义表达与个性化分析能力。
🤖 具身智能
该方向面向具身人工智能与智能体感知决策的前沿研究,重点探索智能体在三维真实或仿真环境中的多模态感知、语义理解与行为决策机制。致力于发展具备环境理解与自主交互能力的具身智能方法,包括多模态融合感知、场景记忆建模、语义地图构建与目标导向决策等关键技术。
- 关键任务:围绕物体目标导航等典型具身任务,构建能够在未知环境中进行自主探索、目标定位与路径规划的智能体系统,支持服务机器人、智能家居与自主探索等应用场景。
- 核心创新:通过引入强化学习、大模型驱动的感知与决策方法以及多源数据融合,提升智能体在复杂环境下的泛化能力、长期任务执行能力与跨场景迁移能力。