Sivakrishna Manoj SivakrishnaManoj

💭

Building

Popular repositories Loading

Multi-Agent-Reinforcement-Learning-and-Collision-Avoidance-in-Satellite-Swarms- Multi-Agent-Reinforcement-Learning-and-Collision-Avoidance-in-Satellite-Swarms- Public

This research project delves into the application of Double Deep Q network for satellite swarms. This is an ongoing project and will be available once completed.

Python
Fine-Tuning-LLMs-using-DPO-for-Prompt-Robustness-in-Educational-Setting Fine-Tuning-LLMs-using-DPO-for-Prompt-Robustness-in-Educational-Setting Public

This paper studies prompt robustness and ambiguity handling for small instruction-tuned LLMs (Qwen2.5-1.5B/3B) in educational tutoring. It evaluates corruption-augmented supervised fine-tuning on G…

Python