Kuldeeep18 · KhushiMulchandani · Jun 23, 2026 · Jun 23, 2026 · coderabbitai · Jun 23, 2026
diff --git a/backend/leads/models.py b/backend/leads/models.py
@@ -37,3 +37,22 @@ class LeadTag(TenantModel):
 
     class Meta:
         unique_together = ('lead', 'tag')
+
+class LeadScrapeJob(TenantModel):
+    STATUS_CHOICES = (
+        ('PENDING', 'Pending'),
+        ('RUNNING', 'Running'),
+        ('COMPLETED', 'Completed'),
+        ('FAILED', 'Failed'),
+    )
+    id = models.UUIDField(primary_key=True, default=uuid.uuid4, editable=False)
+    query = models.CharField(max_length=255)
+    limit = models.IntegerField(default=50)
-    limit = models.IntegerField(default=50)
+from django.core.validators import MaxValueValidator, MinValueValidator
+
+    limit = models.IntegerField(
+        default=50,
+        validators=[MinValueValidator(1), MaxValueValidator(200)],
+    )
-    limit = models.IntegerField(default=50)
+from django.core.validators import MaxValueValidator, MinValueValidator
+
+    limit = models.IntegerField(
+        default=50,
+        validators=[MinValueValidator(1), MaxValueValidator(200)],
+    )
+    status = models.CharField(max_length=20, choices=STATUS_CHOICES, default='PENDING')
+    leads_found = models.IntegerField(default=0)
+    error_message = models.TextField(blank=True, null=True)
+    started_at = models.DateTimeField(null=True, blank=True)
+    completed_at = models.DateTimeField(null=True, blank=True)
+
+    def __str__(self):
+        return f"Job {self.id} - {self.query} ({self.status})"
diff --git a/backend/leads/serializers.py b/backend/leads/serializers.py
@@ -1,5 +1,6 @@
 from rest_framework import serializers
 from .models import Lead, Tag, LeadTag
+from .models import LeadScrapeJob
 
 class TagSerializer(serializers.ModelSerializer):
     class Meta:
@@ -17,3 +18,9 @@ class Meta:
     def get_tags(self, obj):
         tags = Tag.objects.filter(tagged_leads__lead=obj)
         return TagSerializer(tags, many=True).data
+
+class LeadScrapeJobSerializer(serializers.ModelSerializer):
+    class Meta:
+        model = LeadScrapeJob
+        fields = ['id', 'query', 'limit', 'status', 'leads_found', 'error_message', 'started_at', 'completed_at', 'created_at']
+        read_only_fields = ['organization', 'id', 'status', 'leads_found', 'error_message', 'started_at', 'completed_at', 'created_at']
diff --git a/backend/leads/tasks.py b/backend/leads/tasks.py
@@ -5,6 +5,12 @@
 from .models import Lead
 from tenants.models import Organization
 import logging
+import random
+
+import json
+import random
+from django.utils import timezone
+from .models import LeadScrapeJob
 
 logger = logging.getLogger(__name__)
 
@@ -91,3 +97,94 @@ def import_leads_from_csv(file_contents, organization_id):
     summary = f"Processed {leads_created} new, {leads_updated} updated, {skipped} skipped for organization {org.name}"
     logger.info(summary)
     return summary
+
+@shared_task
+def scrape_leads_task(job_id, query, limit, organization_id):
+    org = Organization.objects.get(id=organization_id)
+    job = LeadScrapeJob.objects.get(id=job_id)
-    org = Organization.objects.get(id=organization_id)
-    job = LeadScrapeJob.objects.get(id=job_id)
+    org = Organization.objects.get(id=organization_id)
+    job = LeadScrapeJob.objects.get(id=job_id, organization=org)
-    org = Organization.objects.get(id=organization_id)
-    job = LeadScrapeJob.objects.get(id=job_id)
+    org = Organization.objects.get(id=organization_id)
+    job = LeadScrapeJob.objects.get(id=job_id, organization=org)
+
+    job.status = 'RUNNING'
+    job.started_at = timezone.now()
+    job.save()
+
+    try:
+        import time
+        time.sleep(random.uniform(2.0, 4.0))
+
+        # 1. Dynamically toggle mock data payload based on the user's query
+        normalized_query = query.lower()
+        # extracted_raw_json = []
+        if "miami" in normalized_query:
+
+
+            # Pools of authentic names and business styles
+            first_names = ["Carlos", "Elena", "Marcus", "Sofia", "Ricardo", "Amanda", "Devon", "Priyanka", "Alejandro", "Melissa", "Jorge", "Alina"]
+            last_names = ["Mendez", "Rostova", "Vance", "Blanco", "Vega", "Gomez", "Chen", "Patel", "Cordova", "Suarez", "Levine", "Sinclair"]
+            clinic_styles = ["Dental Smiles", "Bayside Dental Care", "Magic City Orthodontics", "Brickell Dental Studio", "Elite Dental Group", "Ocean Drive Dentistry"]
+            email_domains = ["miamidentalsmiles.com", "baysidedentalcare.com", "magiccityortho.com", "brickelldental.com", "elitedentalfl.com", "oceandrivedental.io"]
+
+            extracted_raw_json = []
+
+            # Generate 15 distinct, highly realistic B2B profiles
+            for _ in range(15):
+                f_name = random.choice(first_names)
+                l_name = random.choice(last_names)
+                clinic = random.choice(clinic_styles)
+                domain = random.choice(email_domains)
+
+                # Create a realistic corporate email structure
+                email_style = random.choice([
+                    f"{f_name.lower()}.{l_name.lower()}@{domain}",
+                    f"dr.{l_name.lower()}@{domain}",
+                    f"contact@{domain}"
+                ])
+
+                # Generate a valid-looking Miami (+1 305) local phone line
+                random_phone = f"+1305555{random.randint(1000, 9999)}"
+
+                extracted_raw_json.append({
+                    "first_name": f_name,
+                    "last_name": l_name,
+                    "email": email_style,
+                    "company": clinic,
+                    "phone": random_phone,
+                    "linkedin_url": f"https://linkedin.com/in/{f_name.lower()}-{l_name.lower()}-dds"
+                })
+        else:
+            # Default fallback to original Austin tech profile mock data
+            extracted_raw_json = [
+                {"first_name": "Amit", "last_name": "Sharma", "email": "amit.sharma@austintech.com", "company": "Austin Tech Solutions", "phone": "+15125550192", "linkedin_url": "https://linkedin.com/in/amit-sharma-tech"},
+                {"first_name": "Sarah", "last_name": "Jenkins", "email": "sjenkins@apexgrowth.io", "company": "Apex Growth Corp", "phone": "+15125550143", "linkedin_url": "https://linkedin.com/in/sjenkins-growth"},
+                {"first_name": "Rajesh", "last_name": "Patel", "email": "rajesh@lonestarventures.co", "company": "Lone Star Ventures", "phone": "+15125550188", "linkedin_url": "https://linkedin.com/in/rpatel-invest"}
+            ]
+
+        # Real-time status update broadcast emulation
+        job.leads_found = 1
+        job.save()
+        time.sleep(1)
+
+        inserted_count = 0
+        for item in extracted_raw_json[:limit]:
+            if not Lead.objects.filter(organization=org, email=item['email']).exists():
+                Lead.objects.create(
+                    organization=org,
+                    email=item['email'],
+                    first_name=item['first_name'],
+                    last_name=item['last_name'],
+                    company=item['company'],
+                    phone=item['phone'],
+                    linkedin_url=item['linkedin_url']
+                )
+                inserted_count += 1
+
+        # Complete tracking job metrics lifecycle cleanly
+        job.status = 'COMPLETED'
+        job.leads_found = inserted_count
+        job.completed_at = timezone.now()
+        job.save()
+
+    except Exception as e:
+        job.status = 'FAILED'
+        job.error_message = str(e)
+        job.completed_at = timezone.now()
-    except Exception as e:
-        job.status = 'FAILED'
-        job.error_message = str(e)
-        job.completed_at = timezone.now()
+    except Exception:
+        logger.exception("scrape_leads_task failed", extra={"job_id": str(job_id), "organization_id": str(organization_id)})
+        job.status = 'FAILED'
+        job.error_message = "Lead scraping failed. Please retry."
+        job.completed_at = timezone.now()
-    except Exception as e:
-        job.status = 'FAILED'
-        job.error_message = str(e)
-        job.completed_at = timezone.now()
+    except Exception:
+        logger.exception("scrape_leads_task failed", extra={"job_id": str(job_id), "organization_id": str(organization_id)})
+        job.status = 'FAILED'
+        job.error_message = "Lead scraping failed. Please retry."
+        job.completed_at = timezone.now()
+        job.save()
diff --git a/backend/leads/views.py b/backend/leads/views.py
@@ -4,6 +4,10 @@
 from .models import Lead, Tag
 from .serializers import LeadSerializer, TagSerializer
 
+from django.utils import timezone
+from .models import LeadScrapeJob
+from .serializers import LeadScrapeJobSerializer
+
 class LeadViewSet(viewsets.ModelViewSet):
     serializer_class = LeadSerializer
     queryset = Lead.objects.all()
@@ -37,6 +41,61 @@ def import_csv(self, request):
         import_leads_from_csv.delay(file_contents, request.user.organization.id)
 
         return Response({"message": "File received. Processing in background.", "filename": file_obj.name}, status=status.HTTP_202_ACCEPTED)
+
+    @action(detail=False, methods=['post'], url_path='scrape')
+    def scrape(self, request):
+        query = request.data.get('query', '').strip()
+        limit = int(request.data.get('limit', 50))
+
+        if not query:
+            return Response({"error": "A search query is required."}, status=status.HTTP_400_BAD_REQUEST)
+        if limit > 200:
+            limit = 200 # Enforce security constraint max limit
+
+        org = request.user.organization
+
+        # Constraint 1: Check for an active running job in this organization
+        active_job = LeadScrapeJob.objects.filter(organization=org, status='RUNNING').exists()
+        if active_job:
+            return Response({"error": "Your organization already has an active lead scraping job running."}, status=status.HTTP_400_BAD_REQUEST)
-        active_job = LeadScrapeJob.objects.filter(organization=org, status='RUNNING').exists()
-        if active_job:
-            return Response({"error": "Your organization already has an active lead scraping job running."}, status=status.HTTP_400_BAD_REQUEST)
+        active_job = LeadScrapeJob.objects.filter(
+            organization=org,
+            status__in=['PENDING', 'RUNNING'],
+        ).exists()
+        if active_job:
+            return Response({"error": "Your organization already has an active lead scraping job running."}, status=status.HTTP_400_BAD_REQUEST)
-        active_job = LeadScrapeJob.objects.filter(organization=org, status='RUNNING').exists()
-        if active_job:
-            return Response({"error": "Your organization already has an active lead scraping job running."}, status=status.HTTP_400_BAD_REQUEST)
+        active_job = LeadScrapeJob.objects.filter(
+            organization=org,
+            status__in=['PENDING', 'RUNNING'],
+        ).exists()
+        if active_job:
+            return Response({"error": "Your organization already has an active lead scraping job running."}, status=status.HTTP_400_BAD_REQUEST)
+
+        # Constraint 2: Enforce 5-minute cooldown period between completions
+        five_minutes_ago = timezone.now() - timezone.timedelta(minutes=5)
+        recent_job = LeadScrapeJob.objects.filter(organization=org, status='COMPLETED', completed_at__gte=five_minutes_ago).exists()
+        if recent_job:
+            return Response({"error": "Throttled. Please wait 5 minutes between lead generation queries."}, status=status.HTTP_429_TOO_MANY_REQUESTS)
+
+        # Create tracking job record
+        job = LeadScrapeJob.objects.create(
+            organization=org,
+            query=query,
+            limit=limit,
+            status='PENDING'
+        )
+
+        # Dispatch Celery background worker agent task
+        from .tasks import scrape_leads_task
+        scrape_leads_task.delay(job.id, query, limit, org.id)
+
-        from .tasks import scrape_leads_task
-        scrape_leads_task.delay(job.id, query, limit, org.id)
+        from .tasks import scrape_leads_task
+        from celery.exceptions import CeleryError
+        
+        try:
+            scrape_leads_task.delay(job.id, query, limit, org.id)
+        except CeleryError:
+            job.status = 'FAILED'
+            job.error_message = 'Failed to enqueue scrape job.'
+            job.completed_at = timezone.now()
+            job.save(update_fields=['status', 'error_message', 'completed_at'])
+            return Response(
+                {"error": "Unable to start background job. Please retry."},
+                status=status.HTTP_503_SERVICE_UNAVAILABLE,
+            )
-        from .tasks import scrape_leads_task
-        scrape_leads_task.delay(job.id, query, limit, org.id)
+        from .tasks import scrape_leads_task
+        from celery.exceptions import CeleryError
+        
+        try:
+            scrape_leads_task.delay(job.id, query, limit, org.id)
+        except CeleryError:
+            job.status = 'FAILED'
+            job.error_message = 'Failed to enqueue scrape job.'
+            job.completed_at = timezone.now()
+            job.save(update_fields=['status', 'error_message', 'completed_at'])
+            return Response(
+                {"error": "Unable to start background job. Please retry."},
+                status=status.HTTP_503_SERVICE_UNAVAILABLE,
+            )
+        return Response({
+            "message": "AI Lead Generation background agent launched successfully.",
+            "job_id": str(job.id)
+        }, status=status.HTTP_201_CREATED)
+
+    @action(detail=False, methods=['get'], url_path='scrape/(?P<job_id>[^/.]+)/status')
+    def scrape_status(self, request, job_id=None):
+        try:
+            job = LeadScrapeJob.objects.get(organization=request.user.organization, id=job_id)
+            serializer = LeadScrapeJobSerializer(job)
+            return Response(serializer.data, status=status.HTTP_200_OK)
+        except LeadScrapeJob.DoesNotExist:
+            return Response({"error": "Scrape job not found."}, status=status.HTTP_404_NOT_FOUND)
+
+    @action(detail=False, methods=['get'], url_path='scrape/history')
+    def scrape_history(self, request):
+        jobs = LeadScrapeJob.objects.filter(organization=request.user.organization).order_by('-created_at')
+        serializer = LeadScrapeJobSerializer(jobs, many=True)
+        return Response(serializer.data, status=status.HTTP_200_OK)
 
 class TagViewSet(viewsets.ModelViewSet):
     serializer_class = TagSerializer