Нашёл ещё вот это. Выбрал Qwen2.5-Coder-32B-Instruct-Q8_0.gguf
Потерял ссылку, но похоже, что вот отсюда:
https://huggingface.co/unsloth/Qwen2.5- ... -Q8_0.gguf
или отсюда???
https://huggingface.co/unsloth/Qwen2.5- ... -Q8_0.gguf
Если повезёт, то в истории сохранился URL и его надо точно установить, ну или может быть в самой модели что-то написано. (уточнил, команда такая: wget
https://huggingface.co/unsloth/Qwen2.5- ... nload=true)
- якобы он поместится и всё ещё подходит для тонкой настройки (квантование, вообще говоря, приводит к проблемам с обучаемостью).Также сделал ollama сервисом (ссылка выше) и запустил OpenWebUI по инструкции. Но работает он странно, и кстати модель 7 миллиардами параметров - это чистая шиза. Хотя я спрашивал её про Пушкина и не просил её писать программы, но например, она просто зациклилась на этапе ответа и стала греть воздух видеокартой, ответа я не дождался вовсе. Так что даже не буду проверять, умеет ли она программировать.
С загрузкой файлов в WebUI тоже пока не всё гладко. Она смогла прочитать приложенный файл, однако дальше всё пошло не очень хорошо, при следующем запросе вывалилось немного мусорного текста уже на английском, и дальше она забыла про приложенный файл (хотя в контекст всё должно было поместиться). В общем, WebUI, пока не вызвал восторга качеством, хотя фич в нём вроде много.