deepseek

DeepSeek generation module.

Classes:

DeepSeekGen –

DeepSeek Generation class.

DeepSeekGen

DeepSeekGen(
    model_name: Optional[str] = None,
    temperature: Optional[float] = None,
    prompt_template: str = '',
    output_max_length: int = 500,
    device: str = 'auto',
    structured_output: Optional[Type[BaseModel]] = None,
    system_message: str = '',
    api_params: dict[str, Any] = DEFAULT_API_PARAMS,
    api_key: str = '',
    cache: Optional[Cache] = None,
    logs: dict[str, Any] = DEFAULT_LOGS,
)

Bases: GenerationBase

DeepSeek Generation class.

Methods:

generate –

Generate text using DeepSeek model with chat template.

Source code in src/rago/generation/base.py

def __init__(
    self,
    model_name: Optional[str] = None,
    temperature: Optional[float] = None,
    prompt_template: str = '',
    output_max_length: int = 500,
    device: str = 'auto',
    structured_output: Optional[Type[BaseModel]] = None,
    system_message: str = '',
    api_params: dict[str, Any] = DEFAULT_API_PARAMS,
    api_key: str = '',
    cache: Optional[Cache] = None,
    logs: dict[str, Any] = DEFAULT_LOGS,
) -> None:
    """Initialize Generation class."""
    if logs is DEFAULT_LOGS:
        logs = {}
    super().__init__(api_key=api_key, cache=cache, logs=logs)

    self.model_name: str = (
        model_name if model_name is not None else self.default_model_name
    )
    self.output_max_length: int = (
        output_max_length or self.default_output_max_length
    )
    self.temperature: float = (
        temperature
        if temperature is not None
        else self.default_temperature
    )

    self.prompt_template: str = (
        prompt_template or self.default_prompt_template
    )
    self.structured_output: Optional[Type[BaseModel]] = structured_output
    if api_params is DEFAULT_API_PARAMS:
        api_params = deepcopy(self.default_api_params or {})

    self.system_message = system_message
    self.api_params = api_params

    if device not in ['cpu', 'cuda', 'auto']:
        raise Exception(
            f'Device {device} not supported. Options: cpu, cuda, auto.'
        )

    cuda_available = torch.cuda.is_available()
    self.device_name: str = (
        'cpu' if device == 'cpu' or not cuda_available else 'cuda'
    )
    self.device = torch.device(self.device_name)

    self._validate()
    self._load_optional_modules()
    self._setup()

generate

generate(query: str, context: list[str]) -> str

Generate text using DeepSeek model with chat template.

Source code in src/rago/generation/deepseek.py

def generate(self, query: str, context: list[str]) -> str:
    """Generate text using DeepSeek model with chat template."""
    messages = [
        {
            'role': 'user',
            'content': f'{query}\nContext: {" ".join(context)}',
        }
    ]

    input_tensor = self.tokenizer.apply_chat_template(
        messages, add_generation_prompt=True, return_tensors='pt'
    ).to(self.model.device)

    model_params = dict(
        max_new_tokens=self.output_max_length,
        do_sample=True,
        temperature=self.temperature,
    )

    self.logs['model_params'] = model_params

    outputs = self.model.generate(input_tensor, **model_params)

    answer: str = str(
        self.tokenizer.decode(
            outputs[0][input_tensor.shape[1] :], skip_special_tokens=True
        )
    )

    return answer.strip()