数据无处不在,自动化完成复杂的数据科学任务是智能发展的长期目标之一。现有方法通过构建workflow来让大模型完成数据分析、可视化等特定任务,取得了可喜的进展。
LLM是否能完全自主地完成数据科学任务,不依赖任何固定的workflow呢?
来自人大和清华的团队发布了DeepAnalyze,是首个面向数据科学的agentic大模型。
DeepAnalyze-8B摆脱了任何固定的workflow,完全能像数据科学家一样自主完成各种数据科学任务,包括:
🛠 数据任务:支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察
🔍 数据研究:可在非结构化数据(TXT、Markdown)、半结构化数据(JSON、XML、YAML)及结构化数据(数据库、CSV、Excel)中进行开放式深度研究,生成研究报告
为了解决在数据科学任务的高复杂性带来的奖励稀疏和路径稀缺问题,DeepAnalyze提出:
1️⃣ Curriculum-based Agentic Training:在真实环境中从单一任务到符合任务渐进式训练LLM,让大模型逐步提升能力,避免在复杂任务上奖励信号为0导致的强化学习失效
2️⃣ Data-grounded Trajectory Synthesis:自动化合成500K数据科学的推理、环境交互数据,在庞大的搜索空间中提供正确路径的指导
DeepAnalyze的论文、代码均已开源!
Arxiv论文:2510.16872
Github、Demo:ruc-datalab/DeepAnalyze
图3️⃣:DeepAnalyze和环境交互过程,可自助编排和优化操作
图4️⃣:开源Demo,可以本地部署作为数据科学助手
#大模型 #数据科学 #算法 #机器学习 #清华 #人大 #深度学习 #LLM #论文 #2026校招季
LLM是否能完全自主地完成数据科学任务,不依赖任何固定的workflow呢?
来自人大和清华的团队发布了DeepAnalyze,是首个面向数据科学的agentic大模型。
DeepAnalyze-8B摆脱了任何固定的workflow,完全能像数据科学家一样自主完成各种数据科学任务,包括:
🛠 数据任务:支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察
🔍 数据研究:可在非结构化数据(TXT、Markdown)、半结构化数据(JSON、XML、YAML)及结构化数据(数据库、CSV、Excel)中进行开放式深度研究,生成研究报告
为了解决在数据科学任务的高复杂性带来的奖励稀疏和路径稀缺问题,DeepAnalyze提出:
1️⃣ Curriculum-based Agentic Training:在真实环境中从单一任务到符合任务渐进式训练LLM,让大模型逐步提升能力,避免在复杂任务上奖励信号为0导致的强化学习失效
2️⃣ Data-grounded Trajectory Synthesis:自动化合成500K数据科学的推理、环境交互数据,在庞大的搜索空间中提供正确路径的指导
DeepAnalyze的论文、代码均已开源!
Arxiv论文:2510.16872
Github、Demo:ruc-datalab/DeepAnalyze
图3️⃣:DeepAnalyze和环境交互过程,可自助编排和优化操作
图4️⃣:开源Demo,可以本地部署作为数据科学助手
#大模型 #数据科学 #算法 #机器学习 #清华 #人大 #深度学习 #LLM #论文 #2026校招季
发表评论
发表评论: