avlasov-co

Aleksander Vlasov avlasov-co

ML systems builder working on real-time evaluation, forecasting, and robustness under distribution shift. RU / EN / ES

Achievements

Tool-Agent-Shift-Benchmark Tool-Agent-Shift-Benchmark Public

Deterministic benchmark for tool-using agent safety under synthetic distribution shift, fault injection, monitor gating, and evaluator-boundary redaction.

Python
streaming-agent-safety-evals streaming-agent-safety-evals Public

No-training benchmark for evaluating agentic systems under distribution shift, uncertainty, and unsafe overconfidence.

Python
android-trust-lab android-trust-lab Public

Framework for analyzing Android device trust state across stock, rooted, and modified environments.

Python