Sigrid Jin (ง'̀-'́)ง oO sigridjineth

## emoji_logitlens.py
# /// script
# dependencies = [ "transformers", "accelerate" ]
# ///

# run on 2xH200 rented from primeintellect.ai

import gc

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

## toss-frontend-rules.mdc

# Frontend Design Guideline

This document summarizes key frontend design principles and rules, showcasing
recommended patterns. Follow these guidelines when writing frontend code.

# Readability

Improving the clarity and ease of understanding code.

## sentrev_practical_showcase.ipynb

      
              1 file
            
          
              0 forks
            
          
                0 comments
              
            
              3 stars
            
          
                AstraBert
                / sentrev_practical_showcase.ipynb
            
            
              Created
              December 5, 2024 02:23
            
              
                SenTrEv_Practical_Showcase.ipynb
              
          
      Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## msgspec_vs_pydanticv2.py


from datetime import datetime
import json
import re
import timeit
from contextlib import contextmanager
from dataclasses import dataclass
from typing import Annotated, Any, Callable, Iterator, TypedDict
from pydantic.annotated_handlers import GetJsonSchemaHandler

## semantic-chunker.ts
import "dotenv/config";
import { OpenAIEmbeddings } from "@langchain/openai";
import { TextLoader } from "langchain/document_loaders/fs/text";
import natural from "natural";
import * as math from "mathjs";
import { quantile } from "d3-array";

interface SentenceObject {
  sentence: string;
  index: number;

## splade.rs
  pub fn get_splade_vector(
        input: String,
        model: Model,
        tokenizer: &Tokenizer,
    ) -> Result<Vec<f32>, ServiceError> {
        let tokenized_inputs = tokenizer.encode(input, false).unwrap();
        let tokens = tokenized_inputs.get_ids().to_vec();
        let token_ids = Tensor::new(tokens.as_slice(), &candle_core::Device::Cpu)
            .map_err(|e| ServiceError::BadRequest(format!("Could not create tensor: {}", e)))?;

## finetune_llama2.py
# Based on younesbelkada/finetune_llama_v2.py
# Install the following libraries:
# pip install accelerate==0.21.0 peft==0.4.0 bitsandbytes==0.40.2 transformers==4.31.0 trl==0.4.7 scipy

from dataclasses import dataclass, field
from typing import Optional

import torch
from datasets import load_dataset
from transformers import (

## cuda_11.8_installation_on_Ubuntu_22.04
#!/bin/bash

### steps ####
# verify the system has a cuda-capable gpu
# download and install the nvidia cuda toolkit and cudnn
# setup environmental variables
# verify the installation
###

### to verify your gpu is cuda enable check

## cohere_rerank_elastic.py
# 1) Install dependencies: pip install cohere datasets elasticsearch==8.6.2
# 2) Start a local Elasticsearch server: docker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:8.6.2
# 3) Get your Cohere API key and past it below

from elasticsearch import Elasticsearch, helpers
import cohere
from datasets import load_dataset


# Get your cohere API key on: www.cohere.com

## alpaca_train_run.md

      
              1 file
            
          
              0 forks
            
          
                3 comments
              
            
              3 stars
            
          
                edp1096
                / alpaca_train_run.md
            
            
              Last active
              July 10, 2024 22:45
            
          
    스탠포드알파카 학습하기


runpod.io에서 실행
Llama-7B 사용
llama 모델을 workspace 밖 홈디렉에서 다운받기 때문에 컨테이너 용량을 15GB 정도 잡아줘야 한다
Volume 용량은 30G 이상으로 잡아줘야 한다 - 파인튜닝 끝나고 output에 저장되는 파일들이 25GB 남짓되는 크기가 필요하기 때문
허깅페이스 모델은 별도 다운 받을 필요 없고
A100 80G X 4로 처음 시작 1% 지점에서 예상시간 5:37:57 찍힘

Install vi
	# /// script
	# dependencies = [ "transformers", "accelerate" ]
	# ///

	# run on 2xH200 rented from primeintellect.ai

	import gc

	import torch
	from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

	# Frontend Design Guideline

	This document summarizes key frontend design principles and rules, showcasing
	recommended patterns. Follow these guidelines when writing frontend code.

	# Readability

	Improving the clarity and ease of understanding code.


	from datetime import datetime
	import json
	import re
	import timeit
	from contextlib import contextmanager
	from dataclasses import dataclass
	from typing import Annotated, Any, Callable, Iterator, TypedDict
	from pydantic.annotated_handlers import GetJsonSchemaHandler
	import "dotenv/config";
	import { OpenAIEmbeddings } from "@langchain/openai";
	import { TextLoader } from "langchain/document_loaders/fs/text";
	import natural from "natural";
	import * as math from "mathjs";
	import { quantile } from "d3-array";

	interface SentenceObject {
	sentence: string;
	index: number;
	pub fn get_splade_vector(
	input: String,
	model: Model,
	tokenizer: &Tokenizer,
	) -> Result<Vec<f32>, ServiceError> {
	let tokenized_inputs = tokenizer.encode(input, false).unwrap();
	let tokens = tokenized_inputs.get_ids().to_vec();
	let token_ids = Tensor::new(tokens.as_slice(), &candle_core::Device::Cpu)
	.map_err(\|e\| ServiceError::BadRequest(format!("Could not create tensor: {}", e)))?;
	# Based on younesbelkada/finetune_llama_v2.py
	# Install the following libraries:
	# pip install accelerate==0.21.0 peft==0.4.0 bitsandbytes==0.40.2 transformers==4.31.0 trl==0.4.7 scipy

	from dataclasses import dataclass, field
	from typing import Optional

	import torch
	from datasets import load_dataset
	from transformers import (
	#!/bin/bash

	### steps ####
	# verify the system has a cuda-capable gpu
	# download and install the nvidia cuda toolkit and cudnn
	# setup environmental variables
	# verify the installation
	###

	### to verify your gpu is cuda enable check
	# 1) Install dependencies: pip install cohere datasets elasticsearch==8.6.2
	# 2) Start a local Elasticsearch server: docker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:8.6.2
	# 3) Get your Cohere API key and past it below

	from elasticsearch import Elasticsearch, helpers
	import cohere
	from datasets import load_dataset


	# Get your cohere API key on: www.cohere.com