全能参考:支持 9 张图片 + 3 段视频 + 3 段音频 + 文字
有智能:具备导演思维,自动编排分镜、控制叙事节奏
有知识:自带世界知识,知道拉面怎么做、品牌调性是什么
💡 核心原则:写意图,不写细节