llama.cpp

mirror of https://github.com/ggerganov/llama.cpp.git synced 2026-02-05 13:53:23 +02:00

Files

Radoslav Gerganov bcf7546160 server : add arg for disabling prompt caching (#18776 )

* server : add arg for disabling prompt caching

Disabling prompt caching is useful for clients who are restricted to
sending only OpenAI-compat requests and want deterministic
responses.

* address review comments

* address review comments

2026-01-12 19:21:34 +02:00

arg.cpp

server : add arg for disabling prompt caching (#18776 )

2026-01-12 19:21:34 +02:00

arg.h

vendor : update cpp-httplib to 0.30.0 (#18660 )

2026-01-08 13:53:54 +01:00

base64.hpp

llava : expose as a shared library for downstream projects (#3613 )

2023-11-07 00:36:23 +03:00

build-info.cpp.in

cmake: Add ability to pass in LLAMA_BUILD_NUMBER/COMMIT (#14167 )

2025-06-13 10:38:52 +02:00

chat-parser-xml-toolcall.cpp

Fix Kimi-K2 tool-call parsing issues (#17376 )

2025-12-08 14:32:04 +01:00

chat-parser-xml-toolcall.h

Fix Kimi-K2 tool-call parsing issues (#17376 )

2025-12-08 14:32:04 +01:00

chat-parser.cpp

model: add Solar Open model (#18511 )

2026-01-01 18:01:43 +01:00

chat-parser.h

common : Generalized XML-style tool-call parsing with streaming support (GLM 4.5/4.6 + MiniMax M2 + SeedOSS + Kimi-K2 + Qwen3-Coder + Apriel-1.5 + Xiaomi-MiMo) (#16932 )

2025-11-18 18:54:15 +01:00

chat-peg-parser.cpp

common : add nemotron 3 parsing (#18077 )

2025-12-16 04:05:23 -06:00

chat-peg-parser.h

common : introduce composable PEG parser combinators for chat parsing (#17136 )

2025-12-03 12:45:32 +02:00

chat.cpp

common/grammar : replace problematic backtracking regex [\s\S]* (#18342 )

2026-01-03 16:02:43 -06:00

chat.h

model: add Solar Open model (#18511 )

2026-01-01 18:01:43 +01:00

CMakeLists.txt

common : add --license to display embedded licenses (#18696 )

2026-01-10 09:46:24 +01:00

common.cpp

llama-fit-params: free memory target per device (#18679 )

2026-01-08 10:07:58 +01:00

common.h

server : add arg for disabling prompt caching (#18776 )

2026-01-12 19:21:34 +02:00

console.cpp

cli: new CLI experience (#17824 )

2025-12-10 15:28:59 +01:00

console.h

cli: new CLI experience (#17824 )

2025-12-10 15:28:59 +01:00

download.cpp

preset: allow named remote preset (#18728 )

2026-01-10 15:12:29 +01:00

download.h

preset: allow named remote preset (#18728 )

2026-01-10 15:12:29 +01:00

http.h

common: introduce http.h for httplib-based client (#16373 )

2025-10-01 20:22:18 +03:00

json-partial.cpp

common : Generalized XML-style tool-call parsing with streaming support (GLM 4.5/4.6 + MiniMax M2 + SeedOSS + Kimi-K2 + Qwen3-Coder + Apriel-1.5 + Xiaomi-MiMo) (#16932 )

2025-11-18 18:54:15 +01:00

json-partial.h

sync : vendor (#13901 )

2025-05-30 16:25:45 +03:00

json-schema-to-grammar.cpp

common : add nemotron 3 parsing (#18077 )

2025-12-16 04:05:23 -06:00

json-schema-to-grammar.h

common : add nemotron 3 parsing (#18077 )

2025-12-16 04:05:23 -06:00

llguidance.cpp

sampling : add support for backend sampling (#17004 )

2026-01-04 22:22:16 +02:00

log.cpp

cli: new CLI experience (#17824 )

2025-12-10 15:28:59 +01:00

log.h

cli: new CLI experience (#17824 )

2025-12-10 15:28:59 +01:00

ngram-cache.cpp

ggml : portability fixes for VS 2017 (#12150 )

2025-03-04 18:53:26 +02:00

ngram-cache.h

llama : use LLAMA_TOKEN_NULL (#11062 )

2025-01-06 10:52:15 +02:00

peg-parser.cpp

common : add nemotron 3 parsing (#18077 )

2025-12-16 04:05:23 -06:00

peg-parser.h

common : introduce composable PEG parser combinators for chat parsing (#17136 )

2025-12-03 12:45:32 +02:00

preset.cpp

preset: allow named remote preset (#18728 )

2026-01-10 15:12:29 +01:00

preset.h

common: support remote preset (#18520 )

2026-01-08 22:35:40 +01:00

regex-partial.cpp

common/grammar : replace problematic backtracking regex [\s\S]* (#18342 )

2026-01-03 16:02:43 -06:00

regex-partial.h

common: add partial regex support (#12808 )

2025-05-14 19:50:57 +01:00

sampling.cpp

sampling : add support for backend sampling (#17004 )

2026-01-04 22:22:16 +02:00

sampling.h

sampling : add support for backend sampling (#17004 )

2026-01-04 22:22:16 +02:00

speculative.cpp

common : restore grammar-based rejection sampling (#18137 )

2025-12-17 19:46:00 +02:00

speculative.h

server : implement universal assisted decoding (#12635 )

2025-07-31 14:25:23 +02:00

unicode.cpp

common : introduce composable PEG parser combinators for chat parsing (#17136 )

2025-12-03 12:45:32 +02:00

unicode.h

common : introduce composable PEG parser combinators for chat parsing (#17136 )

2025-12-03 12:45:32 +02:00