利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延迟可以大幅降低到100ms级别。编程严选网 人工智能
JavaEdge聊AIss
感谢大家的关注
作者最新文章
热门分类
科技TOP
科技最新文章