from transformers import AutoModelForCausalLM, AutoTokenizer
model=AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-7B-Instruct").to("cuda")
tokenizer=AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")
prompt = "Объясни что такое KV cache"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0])) ollama pull qwen2.5:7b,
а запуск диалога в консоли через ollama run qwen2.5:7b
Следующим кодом мы можем подключиться к модели через OpenAI-compatible API:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
response = client.chat.completions.create(
model="qwen2.5:7b",
messages=[{"role": "user", "content": "Объясни что такое KV cache"}]
)
print(response.choices[0].message.content) docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000
Подключение через OpenAI-compatible API:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="Qwen/Qwen2.5-7B-Instruct",
messages=[{"role": "user", "content": "Объясни что такое KV cache"}]
)
print(response.choices[0].message.content) Наш опыт.
Локальный медицинский ассистент на vLLM: как Webbee помогает врачам быстрее и безопаснее анализировать результаты исследований