all AI news for `sft` | allainews.com

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models 1 day, 20 hours ago | arxiv.org

abstract annotation arxiv capabilities +21

[D] Is EOS token crucial during pre-training? 2 days, 16 hours ago | www.reddit.com

documents eos flow information +7

Instruction Tuning GPT2 on Alpaca Dataset 4 days ago | debuggercafe.com

alpaca alpaca dataset gpt2 alpaca dataset training gpt2 article +21

Computer Vision Meetup: Who needs RLHF When You Have SFT? 1 week ago | dev.to

academia ai center computer +24

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment 1 week ago | arxiv.org

abstract alignment arxiv capabilities +22

Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models 1 week ago | arxiv.org

abstract arxiv cs.cl fine-tuning +15

ORPO: Monolithic Preference Optimization without Reference Model (Paper Explained) 1 week, 1 day ago | www.youtube.com

abstract algorithms alignment building +14

Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model 1 week, 6 days ago | arxiv.org

abstract alignment arxiv concerns +15

Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model 3 weeks ago | arxiv.org

abstract advanced arxiv challenges +24

A Preference-driven Paradigm for Enhanced Translation with Large Language Models 3 weeks ago | arxiv.org

abstract arxiv cs.cl data +21

Supervised Fine-tuning in turn Improves Visual Foundation Models 3 weeks, 6 days ago | arxiv.org

abstract arxiv challenges clip +18

Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models 4 weeks ago | arxiv.org

3d reconstruction abstract aim arxiv +16

SALMON: Self-Alignment with Instructable Reward Models 4 weeks ago | arxiv.org

abstract agents ai agents alignment +23

ORPO: Preference Optimization without the Supervised Fine-tuning (SFT) Step 4 weeks, 1 day ago | towardsdatascience.com

alignment artificial intelligence data data science +9

Fine-tuning LLM on a laptop: VRAM - Shared Memory - GPU Load - Performance 1 month ago | dev.to

ai deal experimentation fine-tuning +20

Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective 1 month ago | arxiv.org

abstract arxiv cs.ai cs.cl +16

Fine-tuning LLM on your laptop: VRAM vs Shared Memory vs GPU Load, Performance Considerations 1 month ago | dev.to

ai deal experimentation fine-tuning +19

From Research to Production: Fine-Tuning & Aligning LLMs // Philipp Schmid // AI in Production 1 month ago | www.youtube.com

abstract alignment direct preference optimization feedback +15

JAMBA MoE: Open Source MAMBA w/ Transformer: CODE 1 month, 1 week ago | www.youtube.com

architecture attention code databricks +21

A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the … 1 month, 1 week ago | arxiv.org

abstract arxiv context cs.ai +12

This AI Paper Introduces SafeEdit: A New Benchmark to Investigate Detoxifying LLMs via Knowledge Editing 1 month, 2 weeks ago | www.marktechpost.com

advance ai paper ai paper summary ai shorts +37

ORPO: NEW DPO Alignment and SFT Method for LLM 1 month, 2 weeks ago | www.youtube.com

algorithm alignment explore free +8

Reference-free Monolithic Preference Optimization with Odds Ratio 1 month, 3 weeks ago | arxiv.org

abstract algorithms alignment arxiv +18

SmallToLarge (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of … 1 month, 3 weeks ago | arxiv.org

abstract arxiv challenges complexity +20

LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin 2 months ago | arxiv.org

abstract arxiv capabilities cs.cl +21

Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF 2 months ago | arxiv.org

abstract arxiv capabilities conversational +17

Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? 2 months ago | arxiv.org

abstract arxiv context cs.cl +20

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs 2 months, 2 weeks ago | arxiv.org

abstract application arxiv become +19

A Critical Evaluation of AI Feedback for Aligning Large Language Models 2 months, 2 weeks ago | arxiv.org

abstract arxiv cs.ai cs.cl +16

Meet తెలుగు Llama 2 months, 3 weeks ago | analyticsindiamag.com

ai origins & evolution analytics analytics india magazine dataset +9

Meet తెలుగు Llama 2 months, 3 weeks ago | analyticsindiamag.com

ai origins & evolution analytics analytics india magazine dataset +9

Rethinking Data Selection for Supervised Fine-Tuning 2 months, 3 weeks ago | arxiv.org

cs.cl data dataset diverse +14

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback 3 months ago | arxiv.org

alignment cs.cv datasets development +20

SFT-KD-Recon: Learning a Student-friendly Teacher for Knowledge Distillation in Magnetic Resonance Image Reconstruction 3 months ago | arxiv.org

architectures become capacity cs.ai +11

NousResearch Released Nous-Hermes-2-Mixtral-8x7B: An Open-Source LLM with SFT and DPO Versions 3 months, 2 weeks ago | www.marktechpost.com

ai shorts applications artificial artificial intelligence +22

[P] InternLM-Math: SOTA open-sourced Math reasoning LLMs. A solver, prover, verifier, augmentor. 3 months, 2 weeks ago | www.reddit.com

bilingual chatgpt chinese english +14

NEW Code for SFT and DPO Training: Unsloth LLama 3 months, 2 weeks ago | www.youtube.com

alignment code fine-tuning free +13

ByteDance AI Research Unveils Reinforced Fine-Tuning (ReFT) Method to Enhance the Generalizability of Learning LLMs … 3 months, 2 weeks ago | www.marktechpost.com

ai research ai shorts annotations applications +20

Supervised Fine-Tuning (SFT) with Large Language Models 3 months, 3 weeks ago | towardsdatascience.com

artificial intelligence data data science fine-tuning +12

[R] Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models 4 months ago | www.reddit.com

abstract annotated data data fine-tuning +16

A New AI Research Introduces LoRAMoE: A Plugin Version of Mixture of Experts (Moe) for … 4 months ago | www.marktechpost.com

ai research ai shorts alignment applications +29

MAMBA 2.8B ZEPHYR Fine-Tuned + DPO-Aligned: TEST 4 months, 1 week ago | www.youtube.com

authors dataset direct preference optimization mamba +10

Exploring New Frontiers in AI: Google DeepMind’s Research on Advancing Machine Learning with ReSTEM Self-Training … 4 months, 3 weeks ago | www.marktechpost.com

applications artificial intelligence beyond data +28

[R] Xwin-Math: A Series of Powerful SFT Math LLMs and Evaluation Toolkit 5 months, 2 weeks ago | www.reddit.com

benchmarks capabilities evaluation llama +13

HuggingFace Introduces TextEnvironments: An Orchestrator between a Machine Learning Model and A Set of Tools … 5 months, 3 weeks ago | www.marktechpost.com

ai shorts applications artificial intelligence call +39

HuggingFace Introduces TextEnvironments: An Orchestrator between a Machine Learning Model and A Set of Tools … 6 months ago | www.marktechpost.com

ai shorts applications artificial intelligence call +39

Zephyr 7B beta - How much does DPO really help? 6 months, 1 week ago | www.youtube.com

alignment beta code dataset +7

[N] Fast GPT Training Infra, FP8-LM, being 64% faster than BF16 on H100—Unlocking even more … 6 months, 1 week ago | www.reddit.com

alignment data data cleaning development +19

NVIDIA’s STEERLM Approach: Empowering User-Steerable Language Models 6 months, 2 weeks ago | syncedreview.com

ai art artificial intelligence chatgpt +25

Train MISTRAL 7B to outperform LLama 2 70B (ZEPHYR) 6 months, 3 weeks ago | www.youtube.com

llama llama 2 mistral mistral 7b +4

This is 🔥 AI News explained for NERDS!!! 6 months, 3 weeks ago | www.youtube.com

ai news coder cpu explained +12

Indian Developers Top Hugging Face Leaderboard with GenZ 70B 8 months ago | analyticsindiamag.com

analytics anthropic claude 2 developers +26

Instruction Tuning GPT2 on Alpaca Dataset 4 days ago | debuggercafe.com

alpaca alpaca dataset gpt2 alpaca dataset training gpt2 article +21

[D] Is EOS token crucial during pre-training? 2 days, 16 hours ago | www.reddit.com

documents eos flow information +7

Items published with this topic over the last 90 days.

Latest

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models 1 day, 20 hours ago | arxiv.org

abstract annotation arxiv capabilities +21

[D] Is EOS token crucial during pre-training? 2 days, 16 hours ago | www.reddit.com

documents eos flow information +7

Instruction Tuning GPT2 on Alpaca Dataset 4 days ago | debuggercafe.com

alpaca alpaca dataset gpt2 alpaca dataset training gpt2 article +21

Computer Vision Meetup: Who needs RLHF When You Have SFT? 1 week ago | dev.to

academia ai center computer +24

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment 1 week ago | arxiv.org

abstract alignment arxiv capabilities +22

Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models 1 week ago | arxiv.org

abstract arxiv cs.cl fine-tuning +15

ORPO: Monolithic Preference Optimization without Reference Model (Paper Explained) 1 week, 1 day ago | www.youtube.com

abstract algorithms alignment building +14

Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model 1 week, 6 days ago | arxiv.org

abstract alignment arxiv concerns +15

Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model 3 weeks ago | arxiv.org

abstract advanced arxiv challenges +24

A Preference-driven Paradigm for Enhanced Translation with Large Language Models 3 weeks ago | arxiv.org

abstract arxiv cs.cl data +21

Supervised Fine-tuning in turn Improves Visual Foundation Models 3 weeks, 6 days ago | arxiv.org

abstract arxiv challenges clip +18

Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models 4 weeks ago | arxiv.org

3d reconstruction abstract aim arxiv +16

SALMON: Self-Alignment with Instructable Reward Models 4 weeks ago | arxiv.org

abstract agents ai agents alignment +23

ORPO: Preference Optimization without the Supervised Fine-tuning (SFT) Step 4 weeks, 1 day ago | towardsdatascience.com

alignment artificial intelligence data data science +9

Fine-tuning LLM on a laptop: VRAM - Shared Memory - GPU Load - Performance 1 month ago | dev.to

ai deal experimentation fine-tuning +20

Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective 1 month ago | arxiv.org

abstract arxiv cs.ai cs.cl +16

Fine-tuning LLM on your laptop: VRAM vs Shared Memory vs GPU Load, Performance Considerations 1 month ago | dev.to

ai deal experimentation fine-tuning +19

From Research to Production: Fine-Tuning & Aligning LLMs // Philipp Schmid // AI in Production 1 month ago | www.youtube.com

abstract alignment direct preference optimization feedback +15

JAMBA MoE: Open Source MAMBA w/ Transformer: CODE 1 month, 1 week ago | www.youtube.com

architecture attention code databricks +21

A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the … 1 month, 1 week ago | arxiv.org

abstract arxiv context cs.ai +12

This AI Paper Introduces SafeEdit: A New Benchmark to Investigate Detoxifying LLMs via Knowledge Editing 1 month, 2 weeks ago | www.marktechpost.com

advance ai paper ai paper summary ai shorts +37

ORPO: NEW DPO Alignment and SFT Method for LLM 1 month, 2 weeks ago | www.youtube.com

algorithm alignment explore free +8

Reference-free Monolithic Preference Optimization with Odds Ratio 1 month, 3 weeks ago | arxiv.org

abstract algorithms alignment arxiv +18

SmallToLarge (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of … 1 month, 3 weeks ago | arxiv.org

abstract arxiv challenges complexity +20

LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin 2 months ago | arxiv.org

abstract arxiv capabilities cs.cl +21

Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF 2 months ago | arxiv.org

abstract arxiv capabilities conversational +17

Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? 2 months ago | arxiv.org

abstract arxiv context cs.cl +20

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs 2 months, 2 weeks ago | arxiv.org

abstract application arxiv become +19

A Critical Evaluation of AI Feedback for Aligning Large Language Models 2 months, 2 weeks ago | arxiv.org

abstract arxiv cs.ai cs.cl +16

Meet తెలుగు Llama 2 months, 3 weeks ago | analyticsindiamag.com

ai origins & evolution analytics analytics india magazine dataset +9

Meet తెలుగు Llama 2 months, 3 weeks ago | analyticsindiamag.com

ai origins & evolution analytics analytics india magazine dataset +9

Rethinking Data Selection for Supervised Fine-Tuning 2 months, 3 weeks ago | arxiv.org

cs.cl data dataset diverse +14

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback 3 months ago | arxiv.org

alignment cs.cv datasets development +20

SFT-KD-Recon: Learning a Student-friendly Teacher for Knowledge Distillation in Magnetic Resonance Image Reconstruction 3 months ago | arxiv.org

architectures become capacity cs.ai +11

NousResearch Released Nous-Hermes-2-Mixtral-8x7B: An Open-Source LLM with SFT and DPO Versions 3 months, 2 weeks ago | www.marktechpost.com

ai shorts applications artificial artificial intelligence +22

[P] InternLM-Math: SOTA open-sourced Math reasoning LLMs. A solver, prover, verifier, augmentor. 3 months, 2 weeks ago | www.reddit.com

bilingual chatgpt chinese english +14

NEW Code for SFT and DPO Training: Unsloth LLama 3 months, 2 weeks ago | www.youtube.com

alignment code fine-tuning free +13

ByteDance AI Research Unveils Reinforced Fine-Tuning (ReFT) Method to Enhance the Generalizability of Learning LLMs … 3 months, 2 weeks ago | www.marktechpost.com

ai research ai shorts annotations applications +20

Supervised Fine-Tuning (SFT) with Large Language Models 3 months, 3 weeks ago | towardsdatascience.com

artificial intelligence data data science fine-tuning +12

[R] Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models 4 months ago | www.reddit.com

abstract annotated data data fine-tuning +16

A New AI Research Introduces LoRAMoE: A Plugin Version of Mixture of Experts (Moe) for … 4 months ago | www.marktechpost.com

ai research ai shorts alignment applications +29

MAMBA 2.8B ZEPHYR Fine-Tuned + DPO-Aligned: TEST 4 months, 1 week ago | www.youtube.com

authors dataset direct preference optimization mamba +10

Exploring New Frontiers in AI: Google DeepMind’s Research on Advancing Machine Learning with ReSTEM Self-Training … 4 months, 3 weeks ago | www.marktechpost.com

applications artificial intelligence beyond data +28

[R] Xwin-Math: A Series of Powerful SFT Math LLMs and Evaluation Toolkit 5 months, 2 weeks ago | www.reddit.com

benchmarks capabilities evaluation llama +13

HuggingFace Introduces TextEnvironments: An Orchestrator between a Machine Learning Model and A Set of Tools … 5 months, 3 weeks ago | www.marktechpost.com

ai shorts applications artificial intelligence call +39

HuggingFace Introduces TextEnvironments: An Orchestrator between a Machine Learning Model and A Set of Tools … 6 months ago | www.marktechpost.com

ai shorts applications artificial intelligence call +39

Zephyr 7B beta - How much does DPO really help? 6 months, 1 week ago | www.youtube.com

alignment beta code dataset +7

[N] Fast GPT Training Infra, FP8-LM, being 64% faster than BF16 on H100—Unlocking even more … 6 months, 1 week ago | www.reddit.com

alignment data data cleaning development +19

NVIDIA’s STEERLM Approach: Empowering User-Steerable Language Models 6 months, 2 weeks ago | syncedreview.com

ai art artificial intelligence chatgpt +25

Train MISTRAL 7B to outperform LLama 2 70B (ZEPHYR) 6 months, 3 weeks ago | www.youtube.com

llama llama 2 mistral mistral 7b +4

This is 🔥 AI News explained for NERDS!!! 6 months, 3 weeks ago | www.youtube.com

ai news coder cpu explained +12

Indian Developers Top Hugging Face Leaderboard with GenZ 70B 8 months ago | analyticsindiamag.com

analytics anthropic claude 2 developers +26

Topic trend (last 90 days)

Top (last 7 days)

Instruction Tuning GPT2 on Alpaca Dataset 4 days ago | debuggercafe.com

alpaca alpaca dataset gpt2 alpaca dataset training gpt2 article +21

[D] Is EOS token crucial during pre-training? 2 days, 16 hours ago | www.reddit.com

documents eos flow information +7

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net

Research Engineer

@ Allora Labs | Remote

View on ai-jobs.net

Ecosystem Manager

@ Allora Labs | Remote

View on ai-jobs.net

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net

AI Engineer Intern, Agents

@ Occam AI | US

View on ai-jobs.net