💡 [REQUEST] - CPU 的 qwen-cpp 如何封装为一个 http 服务？ #65

micronetboy · 2023-12-14T07:50:04Z

No response

CPU 的 qwen-cpp 如何封装为一个 http 服务？

无

无

无

No response

jklj077 · 2023-12-14T09:35:31Z

如果是要HTTP的API服务的话，qwen-cpp有python binding，openai_api.py的model更换下也许可以。
如果是要HTTP的Web服务的话，web_demo.py应该也是要替换模型创建的部分。

对C实现的模型有需求，建议关注llama.cpp，现在也支持Qwen了，那个的生态也更丰富些。

sheiy · 2023-12-19T13:34:17Z

@jklj077 麻烦问下。怎么让openai_api.py支持并发请求？

jklj077 · 2023-12-20T03:48:43Z

@sheiy 本repo中的openai_pai.py支持不了并发哈。如果有并发的需要，建议使用FastChat+vLLM，也可以提供OpenAI API类似的接口。

sheiy · 2023-12-22T01:52:19Z

micronetboy added the question Further information is requested label Dec 14, 2023

jklj077 assigned simonJJJ Dec 14, 2023

jklj077 transferred this issue from QwenLM/Qwen Dec 20, 2023

Provide feedback