hugging_face_inf

Hugging Face inferencing classes for text generation.

Classes:

HuggingFaceInfGen –

HuggingFaceGen with InferenceClient.

HuggingFaceInfGen

HuggingFaceInfGen(
    model_name: Optional[str] = None,
    temperature: Optional[float] = None,
    prompt_template: str = '',
    output_max_length: int = 500,
    device: str = 'auto',
    structured_output: Optional[Type[BaseModel]] = None,
    system_message: str = '',
    api_params: dict[str, Any] = DEFAULT_API_PARAMS,
    api_key: str = '',
    cache: Optional[Cache] = None,
    logs: dict[str, Any] = DEFAULT_LOGS,
)

Bases: GenerationBase

HuggingFaceGen with InferenceClient.

Methods:

generate –

Generate the text from the query and augmented context.

Source code in src/rago/generation/base.py

def __init__(
    self,
    model_name: Optional[str] = None,
    temperature: Optional[float] = None,
    prompt_template: str = '',
    output_max_length: int = 500,
    device: str = 'auto',
    structured_output: Optional[Type[BaseModel]] = None,
    system_message: str = '',
    api_params: dict[str, Any] = DEFAULT_API_PARAMS,
    api_key: str = '',
    cache: Optional[Cache] = None,
    logs: dict[str, Any] = DEFAULT_LOGS,
) -> None:
    """Initialize Generation class."""
    if logs is DEFAULT_LOGS:
        logs = {}
    super().__init__(api_key=api_key, cache=cache, logs=logs)

    self.model_name: str = (
        model_name if model_name is not None else self.default_model_name
    )
    self.output_max_length: int = (
        output_max_length or self.default_output_max_length
    )
    self.temperature: float = (
        temperature
        if temperature is not None
        else self.default_temperature
    )

    self.prompt_template: str = (
        prompt_template or self.default_prompt_template
    )
    self.structured_output: Optional[Type[BaseModel]] = structured_output
    if api_params is DEFAULT_API_PARAMS:
        api_params = deepcopy(self.default_api_params or {})

    self.system_message = system_message
    self.api_params = api_params

    if device not in ['cpu', 'cuda', 'auto']:
        raise Exception(
            f'Device {device} not supported. Options: cpu, cuda, auto.'
        )

    cuda_available = torch.cuda.is_available()
    self.device_name: str = (
        'cpu' if device == 'cpu' or not cuda_available else 'cuda'
    )
    self.device = torch.device(self.device_name)

    self._validate()
    self._load_optional_modules()
    self._setup()

generate

generate(query: str, context: list[str]) -> str | BaseModel

Generate the text from the query and augmented context.

Source code in src/rago/generation/hugging_face_inf.py

def generate(self, query: str, context: list[str]) -> str | BaseModel:
    """Generate the text from the query and augmented context."""
    input_text = self.prompt_template.format(
        query=query, context=' '.join(context)
    )
    if self.system_message:
        input_text = f'{self.system_message}\n{input_text}'

    api_params = self.api_params or self.default_api_params

    self.logs['model_params'] = {
        'model': self.model_name,
        'inputs': input_text,
        'parameters': api_params,
    }
    generated_text = self.client.text_generation(
        prompt=input_text,
        model=self.model_name,
        max_new_tokens=api_params['max_new_tokens'],
        temperature=api_params['temperature'],
    )

    return str(generated_text.strip())