Amr Keleg AMR-KELEG

## CC_ALDi_POC.py
import numpy as np
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "AMR-KELEG/Sentence-ALDi"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

def compute_score(sentence):
    """Returns a normalized divergence 'distance' score from MSA in [0, 1]"""
    # Warning -- inputs longer than 512 subtokens are truncated

## estimate_dialect_and_ALDi.py
import re
import torch
import pandas as pd
from tqdm import tqdm
from transformers import AutoModelForSequenceClassification, AutoTokenizer

DIALECTS = [
    "Algeria",
    "Bahrain",
    "Egypt",

## stopwords-removal.ipynb

      
              1 file
            
          
              1 fork
            
          
                2 comments
              
            
              2 stars
            
          
                AMR-KELEG
                / stopwords-removal.ipynb
            
            
              Created
              February 26, 2021 14:35
            
              
                Remove Arabizi stopwords using transliteration
              
          
      Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## marks-merge.ipynb

      
              1 file
            
          
              0 forks
            
          
                0 comments
              
            
              0 stars
            
          
                AMR-KELEG
                / marks-merge.ipynb
            
            
              Last active
              February 19, 2021 15:07
            
              
                marks-merge.ipynb
              
          
      Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## provisional-kaz-results.md

      
              1 file
            
          
              0 forks
            
          
                0 comments
              
            
              0 stars
            
          
                AMR-KELEG
                / provisional-kaz-results.md
            
            
              Last active
              August 15, 2019 22:53
            
          
    Unigram Weighting

Precision: 0.84776 +- 0.00871
Recall: 0.83987 +- 0.00888


testing_corpus
precision
recall


kaz.cleaned_0
0.838899
0.829193


kaz.cleaned_1
0.841818
0.834286


kaz.cleaned_2
0.860011
0.84795
	import numpy as np
	from transformers import AutoTokenizer, AutoModelForSequenceClassification

	model_name = "AMR-KELEG/Sentence-ALDi"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSequenceClassification.from_pretrained(model_name)

	def compute_score(sentence):
	"""Returns a normalized divergence 'distance' score from MSA in [0, 1]"""
	# Warning -- inputs longer than 512 subtokens are truncated
	import re
	import torch
	import pandas as pd
	from tqdm import tqdm
	from transformers import AutoModelForSequenceClassification, AutoTokenizer

	DIALECTS = [
	"Algeria",
	"Bahrain",
	"Egypt",
testing_corpus	precision	recall
kaz.cleaned_0	0.838899	0.829193
kaz.cleaned_1	0.841818	0.834286
kaz.cleaned_2	0.860011	0.84795