[R] HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution | allainews.com

June 30, 2023, 6:13 a.m. | /u/panabeenu

Machine Learning www.reddit.com

**Paper**

[https://arxiv.org/abs/2306.15794](https://arxiv.org/abs/2306.15794)

**Blog**

[https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna](https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna)

**Colab**

[https://colab.research.google.com/drive/1wyVEQd4R3HYLTUOXEEQmp\_I8aNC\_aLhL?usp=sharing](https://colab.research.google.com/drive/1wyVEQd4R3HYLTUOXEEQmp_I8aNC_aLhL?usp=sharing)

**Abstract**

Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly …

abstract blog colab data dna encode features foundation gene genome genomic genomics information language language models learn machinelearning modeling natural natural language paper protein regulation researchers synthesis

More from www.reddit.com / Machine Learning

[D] Llama-3 based OpenBioLLM-70B & 8B: Outperforms GPT-4, Gemini, Meditron-70B, Med-PaLM-1 & Med-PaLM-2 in Medical-domain 2 hours ago | www.reddit.com

70b art biomedical domain +16

How do I convince my superior to do data preprocessing? [D] 2 hours ago | www.reddit.com

ai engineer build chat chatbots +11

[D] Llama-3 based OpenBioLLM-70B & 8B: Outperforms GPT-4, Gemini, Meditron-70B, Med-PaLM-1 & Med-PaLM-2 in Medical-domain 3 hours ago | www.reddit.com

70b art biomedical domain +16

[D] Mathematical aspects of tokenization 5 hours ago | www.reddit.com

compression educational encoding entropy +7

[R] Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey 6 hours ago | www.reddit.com

abstract advancement application challenges +15

[D] Does it make sense to talk about the probabilities of models? 13 hours ago | www.reddit.com

compute data likelihood machinelearning +4

Open-Sourced: Automated Data Sorting Tools [P] 21 hours ago | www.reddit.com

application automated building community +11

[D]What Nomenclature do you follow for naming ML Models? 21 hours ago | www.reddit.com

files inputs kind machinelearning +4

[R]Large language models may not be able to sample behavioral probability distributions 22 hours ago | www.reddit.com

agent agents behavior distribution +12

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Principal Applied Scientist

@ Microsoft | Redmond, Washington, United States

View on ai-jobs.net

Data Analyst / Action Officer

@ OASYS, INC. | OASYS, INC., Pratt Avenue Northwest, Huntsville, AL, United States

View on ai-jobs.net