init

2023-09-25 14:51:49 +05:30 · 2023-09-25 14:51:49 +05:30 · 8101070a79
commit 8101070a79
9 changed files with 735 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,3 @@
+.vscode
+data_naukri
+scrib
--- a/naukri/_gulf_location.csv
+++ b/naukri/_gulf_location.csv
@ -0,0 +1,41 @@
+Abu Dhabi
+Dubai
+Sharjah
+Ras Al Khaimah
+Ajman
+Fujairah
+Umm Al Qaiwain
+Al Ain
+Riyadh
+Dammam
+Jeddah
+Makkah
+Madinah
+Yanbu
+Eastern Province
+Jubail
+Muscat
+Salalah
+Sohar
+Zufar
+Doha
+Ahmadi
+Manama
+Alexandria
+Algeria
+Amman
+Baghdad
+Beirut
+Cairo
+Dammam
+Egypt
+Iraq
+Jordan
+Lagos
+Lebanon
+Libya
+Middle East
+Morocco
+Palestine
+Somalia
+Yemen
--- a/naukri/_industry_urls.csv
+++ b/naukri/_industry_urls.csv
@ -0,0 +1,61 @@
+https://www.naukri.com/accounting-jobs?xt=catsrch&amp;qi[]=8,accounting,8
+https://www.naukri.com/advertising-jobs?xt=catsrch&amp;qi[]=32,advertising,32
+https://www.naukri.com/agriculture-jobs?xt=catsrch&amp;qi[]=33,agriculture,33
+https://www.naukri.com/animation-jobs?xt=catsrch&amp;qi[]=56,animation,56
+https://www.naukri.com/architecture-jobs?xt=catsrch&amp;qi[]=30,architecture,30
+https://www.naukri.com/automobile-jobs?xt=catsrch&amp;qi[]=4,automobile,4
+https://www.naukri.com/aviation-jobs?xt=catsrch&amp;qi[]=46,aviation,46
+https://www.naukri.com/bpo-jobs?xt=catsrch&amp;qi[]=7,bpo,7
+https://www.naukri.com/bank-jobs?xt=catsrch&amp;qi[]=14,bank,14
+https://www.naukri.com/brewery-jobs?xt=catsrch&amp;qi[]=50,brewery,50
+https://www.naukri.com/sanitary-jobs?xt=catsrch&amp;qi[]=60,sanitary,60
+https://www.naukri.com/chemical-jobs?xt=catsrch&amp;qi[]=6,chemical,6
+https://www.naukri.com/engineering-jobs?xt=catsrch&amp;qi[]=12,engineering,12
+https://www.naukri.com/consumer-durables-jobs?xt=catsrch&amp;qi[]=10,consumer-durables,10
+https://www.naukri.com/courier-jobs?xt=catsrch&amp;qi[]=18,courier,18
+https://www.naukri.com/defence-jobs?xt=catsrch&amp;qi[]=42,defence,42
+https://www.naukri.com/teaching-jobs?xt=catsrch&amp;qi[]=26,teaching,26
+https://www.naukri.com/electrical-jobs?xt=catsrch&amp;qi[]=55,electrical,55
+https://www.naukri.com/export-import-jobs?xt=catsrch&amp;qi[]=13,export-import,13
+https://www.naukri.com/fmcg-jobs?xt=catsrch&amp;qi[]=9,fmcg,9
+https://www.naukri.com/facility-management-jobs?xt=catsrch&amp;qi[]=47,facility-management,47
+https://www.naukri.com/fertilizers-jobs?xt=catsrch&amp;qi[]=41,fertilizers,41
+https://www.naukri.com/food-processing-jobs?xt=catsrch&amp;qi[]=57,food-processing,57
+https://www.naukri.com/fresher-jobs?xt=catsrch&amp;qi[]=31,fresher,31
+https://www.naukri.com/gems-jewellery-jobs?xt=catsrch&amp;qi[]=35,gems-jewellery,35
+https://www.naukri.com/glass-jobs?xt=catsrch&amp;qi[]=49,glass,49
+https://www.naukri.com/air-conditioning-jobs?xt=catsrch&amp;qi[]=61,air-conditioning,61
+https://www.naukri.com/airline-jobs?xt=catsrch&amp;qi[]=2,airline,2
+https://www.naukri.com/networking-jobs?xt=catsrch&amp;qi[]=15,networking,15
+https://www.naukri.com/information-technology-jobs?xt=catsrch&amp;qi[]=25,information-technology,25
+https://www.naukri.com/industrial-jobs?xt=catsrch&amp;qi[]=16,industrial,16
+https://www.naukri.com/insurance-jobs?xt=catsrch&amp;qi[]=17,insurance,17
+https://www.naukri.com/kpo-jobs?xt=catsrch&amp;qi[]=48,kpo,48
+https://www.naukri.com/legal-jobs?xt=catsrch&amp;qi[]=36,legal,36
+https://www.naukri.com/media-jobs?xt=catsrch&amp;qi[]=19,media,19
+https://www.naukri.com/dotcom-jobs?xt=catsrch&amp;qi[]=19,dotcom,19
+https://www.naukri.com/entertainment-jobs?xt=catsrch&amp;qi[]=19,entertainment,19
+https://www.naukri.com/medical-jobs?xt=catsrch&amp;qi[]=20,medical,20
+https://www.naukri.com/mining-jobs?xt=catsrch&amp;qi[]=54,mining,54
+https://www.naukri.com/ngo-jobs?xt=catsrch&amp;qi[]=37,ngo,37
+https://www.naukri.com/automation-jobs?xt=catsrch&amp;qi[]=21,automation,21
+https://www.naukri.com/oil-and-gas-jobs?xt=catsrch&amp;qi[]=23,oil-and-gas,23
+https://www.naukri.com/paper-jobs?xt=catsrch&amp;qi[]=43,paper,43
+https://www.naukri.com/pharma-jobs?xt=catsrch&amp;qi[]=22,pharma,22
+https://www.naukri.com/printing-jobs?xt=catsrch&amp;qi[]=38,printing,38
+https://www.naukri.com/publishing-jobs?xt=catsrch&amp;qi[]=58,publishing,58
+https://www.naukri.com/real-estate-jobs?xt=catsrch&amp;qi[]=39,real-estate,39
+https://www.naukri.com/recruitment-jobs?xt=catsrch&amp;qi[]=34,recruitment,34
+https://www.naukri.com/retail-jobs?xt=catsrch&amp;qi[]=24,retail,24
+https://www.naukri.com/security-jobs?xt=catsrch&amp;qi[]=40,security,40
+https://www.naukri.com/electronics-jobs?xt=catsrch&amp;qi[]=28,electronics,28
+https://www.naukri.com/shipping-jobs?xt=catsrch&amp;qi[]=44,shipping,44
+https://www.naukri.com/steel-jobs?xt=catsrch&amp;qi[]=53,steel,53
+https://www.naukri.com/consultant-jobs?xt=catsrch&amp;qi[]=52,consultant,52
+https://www.naukri.com/telecom-jobs?xt=catsrch&amp;qi[]=27,telecom,27
+https://www.naukri.com/textiles-jobs?xt=catsrch&amp;qi[]=3,textiles,3
+https://www.naukri.com/tyres-jobs?xt=catsrch&amp;qi[]=45,tyres,45
+https://www.naukri.com/water-treatment-jobs?xt=catsrch&amp;qi[]=51,water-treatment,51
+https://www.naukri.com/fitness-trainer-jobs?xt=catsrch&amp;qi[]=59,fitness-trainer,59
+https://www.naukri.com/ecommerce-jobs?xt=catsrch&amp;qi[]=63,ecommerce,63
+https://www.naukri.com/internet-jobs?xt=catsrch&amp;qi[]=63,internet,63
--- a/naukri/expiry.py
+++ b/naukri/expiry.py
@ -0,0 +1,115 @@
+import requests
+import csv
+import time
+import json
+import os
+
+# Global variables
+input_file = "data_naukri/old_jobdata.csv"
+output_file = "data_naukri/expired.csv"
+error_file = "data_naukri_india/expiry_error.csv"
+stats_file = "data_naukri_india/stats.txt"
+class NaukriExpiryScraper:
+    base_url="https://www.naukri.com/jobapi/v4/job/{}"
+    headers = {
+          'authority': 'www.naukri.com',
+          'accept': 'application/json',
+          'accept-language': 'en-US,en;q=0.9',
+          'appid': '121',
+          'cache-control': 'no-cache, no-store, must-revalidate',
+          'content-type': 'application/json',
+          'expires': '0',
+          'gid': 'LOCATION,INDUSTRY,EDUCATION,FAREA_ROLE',
+          'pragma': 'no-cache',
+          'referer': 'https://www.naukri.com/job-listings-ps-technical-consultant-ii-ncr-corporation-india-pvt-ltd-kolkata-mumbai-new-delhi-hyderabad-secunderabad-pune-chennai-bangalore-bengaluru-3-to-6-years-120823501070',
+          'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
+          'sec-ch-ua-mobile': '?0',
+          'sec-ch-ua-platform': '"Windows"',
+          'sec-fetch-dest': 'empty',
+          'sec-fetch-mode': 'cors',
+          'sec-fetch-site': 'same-origin',
+          'systemid': 'Naukri',
+          'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.43',
+          'x-requested-with': 'XMLHttpRequest',
+          'cookie': 'test=naukri.com; _t_ds=14c8c0f01691845374-19414c8c0f0-014c8c0f0; _gcl_au=1.1.1024691843.1691845381; _fbp=fb.1.1691845391563.1521284000; _t_r=1096%2F%2F; __utma=266160400.1059122291.1691845381.1691846963.1691846963.1; __utmc=266160400; __utmz=266160400.1691846963.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _gid=GA1.2.1097790226.1691946960; _cc_id=f102b3f9c375bbb80783e8e09a9c6a4d; panoramaId_expiry=1692033362592; panoramaId=f20d6d50d02ca8dbc9f4835382c2a9fb927ad954299218db60a7d9d7bca09362; panoramaIdType=panoDevice; _abck=EAF8CD87ED06F6FE0D1BE341378082D0~0~YAAQBCozarVfw8GJAQAAvF128gqV/yjff8AT5qkTc7EiVmNlJJ00nD16VEFeJh15q2bYAK8KlnGcPr7zpsi8USVMgui9DaCwoq15n4cW+Z/uKvUfCuUQAwVIKj2qlRT9tghTOfvBgGovWxTjFhD8B8DypZg3xbCBcOfMrTxIG0kml1V3V0teNzxQbKwxZBH+f9SpG1nWjcSqi0MuZ2Lp9njCQTDEXdyNn5FK9QUyBNIgMiZXGCroYN6g9Dqg50awS8p7GDin9O0yaBFnLYXYSSPqsjYlZsOAeZG1YDXhVfCIXFl9Ai4oQwulHEVR4kTx7E/GAxrPUMWKT1MJXJk38d/hHm/khF9WXryyuzBNGqBrHEmzbSK2Apvjhz+Hl7a1CDiFvYOTgurygc0o2F8E4e+o1OudsW0KCA==~-1~-1~-1; bm_sz=ED70280600D61C24AE8779690E6872A4~YAAQBCozardfw8GJAQAAvF128hRM9F6AMuh7Z7SvE3TmgXzJwI6StEga9y2KuTxZ8hXLMtJ7yq1I6ToCvJ1qcBfvYBY/W/7P2A4I+QADScKYSbs6S/S3UE9bL/lKee3NvEuD50tGUHrs59SQGoYdJGMrwml9npvfv+PANc8RaeobLmyx70LjTBajrTQruhnuEqphAnEPph1L6yqffRmta8KALbfw/sFFkvZWRte4uRCRS6IwyvdgNdGzHrvU90Cefnm1sAuK5Hm+F+JUvMVZhEWa/vukCd3Pz7toStN7N4P31cQ=~4539188~3289157; bm_mi=5266EA699B10C54B520AC0C335945591~YAAQBCozaslfw8GJAQAAFV528hRn0Dp7Ng6SjmmpdWbuBqjjlpOIm6e4no+DFPGfNvfuTNj9/tOe0zSzEbnFtWymp3K8PdRZcbO4azXh/4xphXqBeZXTZhE/H/7X6du3KAg3VyrF08jM/O2Hf8/7qtOXVUdBSpd8+mzH3IbW1d10UuiswDenQ6HiNRSkJISdZ8F6lXgGw2kpN3tAHIa9RixcTehrimRMipUgj4pRG/80a+tzAQQcAWUVOFaNoOHZ/C/oL2It920HJrOdtE85yrXx/LMaJlUb1RlHCG2KE/xkNMWpMI/FCimZYyI/DC8yQziKzxoqnP+GPA+JN5dMV76U4jXzYLqPOT5NwoKG7w==~1; ak_bmsc=0F69C083388867249F15237E773039FA~000000000000000000000000000000~YAAQBCozailgw8GJAQAAiGF28hTwkEIwbiDNaA96h/t+HbVduxzp6s1VtAmlm8JZxLg4LfiUPyA15rawjfgm3WgrQVB6GsFlaa+AvUvz1Pz3Q1P9td+LXZ5/+PFIAaTQN/O8SvcNd87eOmguE+T4BLbH5NDBcHEHBngYElDjkyqZkRtJ15EqweEPCpzn6yt+EYc/+sNuZI5/Wqj674CTqW8hmhvDToHdetlr8dh0zmRPwh1xdYnwb4uR6rGuaAIDwfopcqXdroQFVmDwMMXCkLNtTG3jToLxEDo7w/SHlJNK0LhicrXOQLyJu4k7udguvs4/Y+kXOEc04TkLKWa0gHsA+znQId6BT0CK4BFgGPYCMzpn379EH1ucz+mbjpX9p61CvxwEqFWV6O6hXXlbjHDGsuIiuIy3EP+38wb6B+uq2PBPgEmzZjLYjs9aNWGs0of7I0/V+ZL2xQDA2JD5FUXN1sgkl8r6w2sT5Fk1VuHGeorLkpIm0fkysZqAPM2yqJ5zaVkjyI4UENN56Aw79pKKVSkJtT5ALDmr1e+O8keIkg069ipenGburGc1Nw==; __gads=ID=da661383a92cc2b7:T=1691845731:RT=1691990009:S=ALNI_Ma5kdU-yCfi5vupriJnuuWUWmE_SQ; __gpi=UID=00000c2b451ccc2b:T=1691845731:RT=1691990009:S=ALNI_MZHpbDDCgSCaDcBTqfNHzHEDKk0JQ; jd=110823008324; _ga=GA1.2.1059122291.1691845381; cto_bundle=IfSELF9LbTF0TnAzamN1d2ZSSm5EMkdYekFhWDNJeElkOCUyQkElMkZ2RTRJNTFBNG95WENmVlBEV01wV3ZPSXB0dWpTZVFBZHZWQmt6WjVHTUpWNWEwQURTeWRaMWVGbyUyQjclMkZpSm5aNFZia0ZjcGklMkJFcSUyQlg2R3I3bUJkazJnaVN0cURyTUpGWUxQOHR6TFpBcDF6QU1MckFOdlg2cEElM0QlM0Q; _gat_UA-182658-1=1; bm_sv=33FDCB0BB2381FFCB1DA9B35AB25F10B~YAAQHSozaj2kUsGJAQAAFWF48hR1ZxWD9bmTihvsJwSN5urYMQoBOXsjILmBLpCp5Y8Wb2d+v8S1IsgfaFAjzZQJDWWGsM4VZOUHvjeEwqyhpkf95fegyYjUANSip9pcOY7JcbsJ3QemjclSynJdM2yjQovH+L9XiBHdKYFWDfacLicV2AGOtFikI1gVDGLSEqegx2bUuwmuQAlECM+lqj//OIwitlvDTMj9WCs40ybqG4D7o+JDWSXPBMYddaEqDw==~1; HOWTORT=ul=1691990122615&r=https%3A%2F%2Fwww.naukri.com%2Fjob-listings-sales-teamlease-services-limited-kolkata-west-bengal-pune-maharashtra-ahmedabad-chennai-tamil-nadu-rajkot-gujarat-jaipur-rajasthan-bangalore-bengaluru-karnataka-delhi-ncr-mumbai-all-areas-0-to-0-years-110823008324%3Fsrc%3Dgnbjobs_homepage_srch%26sid%3D16918479690248153%26xp%3D1%26px%3D1&hd=1691990122806&cl=1691990019014&nu=https%3A%2F%2Fwww.naukri.com%2Fjob-listings-sales-teamlease-services-limited-kolkata-west-bengal-pune-maharashtra-ahmedabad-chennai-tamil-nadu-rajkot-gujarat-jaipur-rajasthan-bangalore-bengaluru-karnataka-delhi-ncr-mumbai-all-areas-0-to-0-years-110823008324%3Fsrc%3Dgnbjobs_homepage_srch%26sid%3D16918479690248153%26xp%3D1%26px%3D1; _ga_K2YBNZVRLL=GS1.1.1691989990.4.1.1691990122.60.0.0'
+        }
+
+    def __init__(self, input_file, output_file, error_file):
+        self.input_file = input_file
+        self.output_file = output_file
+        self.error_file = error_file
+        self.timeout = 30
+        self.expired_jobs_count=0
+        self.proxies = {"http": f"http://{proxy_server}", "https": f"http://{proxy_server}"} if (proxy_server := os.environ.get("PROXY_SERVER")) else {}
+
+    def scrape(self):
+
+        all_input = []
+        with open(self.input_file, 'r', encoding='utf-8') as infile:
+            header_line = infile.readline().strip()
+            #write header line
+            with open(self.output_file, 'w') as file:
+              file.write(header_line + "\n")
+
+            reader = csv.reader(infile)
+            
+            for row in reader:
+                all_input.append(row)
+
+        with open(self.output_file, 'a', newline='', encoding='utf-8') as outfile:
+            writer = csv.writer(outfile)
+
+            while all_input:
+                current_row=all_input[0]
+                source_link=current_row[2].strip()
+                jobid = current_row[1].strip()
+                url = self.base_url.format(jobid)
+
+                if source_link == "":
+                    print(f"Not checking job without source link, job ID {jobid}")
+                    all_input.pop(0)  # Remove the processed job ID
+                    continue
+
+                print(f"Remaining to do: {len(all_input)}")
+                time.sleep(0.5)
+                response = requests.get(url, headers=self.headers, timeout=self.timeout, proxies=self.proxies)
+                    
+                print(f"{response.status_code} for {url}")
+
+                if response.status_code == 200:
+                    print(f"Alive job ID {jobid}")
+                    all_input.pop(0)  # Remove the processed job ID
+
+
+                elif response.status_code == 303:
+                    json_response = response.json()
+                    if json_response.get('metaSearch', {}).get('isExpiredJob') == '1':
+                        print(f"Expired job ID {jobid} with response 303")
+                        writer.writerow(current_row)
+                        self.expired_jobs_count+=1
+                        all_input.pop(0)  # Remove the processed job ID
+
+                elif response.status_code == 404:
+                    print(f"Expired job ID {jobid} with response 404")
+                    writer.writerow(current_row)
+                    self.expired_jobs_count+=1
+                    all_input.pop(0)  # Remove the processed job ID
+
+                else:
+                    print(f"Failed to fetch data for job ID {jobid}")
+                    time.sleep(10)
+
+def main():
+    start_time = time.time()
+
+    scraper = NaukriExpiryScraper(input_file, output_file, error_file)
+    scraper.scrape()
+
+    end_time = time.time()
+    duration_hours = (end_time - start_time) / 3600
+    print(f"Expiry program took {duration_hours:.2f} hours to run.")
+    with open(stats_file, "a") as stat:
+        stat.write(f"Expiry program took {duration_hours:.2f} hours to run.\n")
+
+if __name__ == "__main__":
+    main()
--- a/naukri/jobdata_gulf.py
+++ b/naukri/jobdata_gulf.py
@ -0,0 +1,132 @@
+import requests
+import csv
+import concurrent.futures
+
+# List of URLs to query
+base_url = "https://www.naukrigulf.com/spapi/jobs/{}"
+
+headers = {
+    'authority': 'www.naukrigulf.com',
+    'accept': 'application/json',
+    'accept-format': 'strict',
+    'accept-language': 'ENGLISH',
+    'appid': '205',
+    'cache-control': 'no-cache',
+    'client-type': 'desktop',
+    'clientid': 'desktop',
+    'device-type': 'desktop',
+    'puppeteer': 'false',
+    'referer': 'https://www.naukrigulf.com/jobs-in-uae',
+    'sec-ch-ua': '"Microsoft Edge";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
+    'sec-ch-ua-mobile': '?0',
+    'sec-ch-ua-platform': 'Windows',
+    'sec-fetch-dest': 'empty',
+    'sec-fetch-mode': 'cors',
+    'sec-fetch-site': 'same-origin',
+    'systemid': '2323',
+    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.12',
+    'userdata': '|IN'
+}
+
+keys_to_extract = ['designation','description','company','compensation','industryType','functionalArea','jobSource','location','other','desiredCandidate','contact','isExpired','locationInterlinking']
+company_keys = ['name','details']
+salary_key = ['minimumSalary','maximumSalary','currency','label','hideSalary']  
+rfile = "ME_jobIds.csv"
+loc_list = []
+skill_other =[]
+skill_pref = []
+
+
+
+def fetch_url(url):
+    try:
+        url = base_url.format(url)
+        response = requests.get(url, headers=headers)
+        return response.json(), response.status_code, url
+    except requests.exceptions.RequestException as e:
+        return "", str(e), url
+    
+def batch_process(urls):
+    results = []
+    with concurrent.futures.ThreadPoolExecutor() as executor:
+        future_to_url = {executor.submit(fetch_url, url): url for url in urls}
+        
+        for future in concurrent.futures.as_completed(future_to_url):
+            url = future_to_url[future]
+            try:
+                result = future.result()
+                results.append(result)
+            except Exception as e:
+                results.append((url, str(e)))
+    return results
+
+def main():
+    batch_size = 50
+    results = []
+    count = 1
+    # Open a CSV file for writing
+    with open('output_jobs_0209_me.csv', 'a', newline='', encoding='utf-8') as csvfile:
+        csvwriter = csv.writer(csvfile)
+        
+        # Write header to the CSV file
+        csvwriter.writerow(['URL'] + list(keys_to_extract))
+        
+        with open(rfile,'r') as file:
+            csv_reader = csv.reader(file)
+            urls = [row.replace("\n","") for row in file]
+
+        for i in range(0, len(urls), batch_size):
+            batch = urls[i:i+batch_size]
+            batch_results = batch_process(batch)
+            # Make the HTTP GET request
+            #row = row.replace("\n","")
+            #`url = base_url.format(row)`
+                #try:
+            for response in batch_results:
+                    print(count)
+                    count = count + 1
+                    if response[1]== 200:
+                        json_data = response[0]
+                        
+                        job_details = json_data
+                        # Extract specific key values from the JSON response
+                        values_to_store = [job_details.get(key, '') for key in keys_to_extract]
+                        """if values_to_store[0]!="": 
+
+                            [values_to_store.append(job_details["companyDetail"].get(key,'')) for key in company_keys]
+                            [values_to_store.append(job_details["salaryDetail"].get(key,'')) for key in salary_key]
+                            
+                            for loc in job_details["locations"]:
+                                loc_list.append(loc.get('label',''))
+                            values_to_store.append(loc_list)
+
+                            for skill in job_details["keySkills"]["other"]:
+                                skill_other.append(skill.get('label',''))
+                            values_to_store.append(skill_other)
+
+                            for skill in job_details["keySkills"]["preferred"]:
+                                skill_pref.append(skill.get('label',''))  
+                            values_to_store.append(skill_pref)
+                        
+                        else:
+                            values_to_store[1]=""
+                            values_to_store.append(job_details["companyDetail"])
+                            values_to_store.append(job_details["salaryDetail"])
+                            values_to_store.append(job_details["locations"])
+                            values_to_store.append(job_details["keySkills"])
+                        """ 
+                        # Write the extracted values to the CSV file
+                        csvwriter.writerow([response[2]] + values_to_store)
+                    else:
+                        print(f"Failed to fetch data for job ID: {response[2]} with {response[0]}")
+                        csvwriter.writerow([response[2]] + [response[0]])
+
+              #  except requests.exceptions.RequestException as e:
+               #     csvwriter.writerow([url] + [str(e)])
+
+    print("Data extraction and CSV writing complete.")
+
+if __name__ == "__main__":
+    main()
+
+
--- a/naukri/jobdata_india.py
+++ b/naukri/jobdata_india.py
@ -0,0 +1,170 @@
+import requests
+import csv
+import time
+import json
+import os
+
+# Global variables
+input_file = "data_naukri/search_result_india.csv"
+output_file = "data_naukri/jobdata_india.csv"
+error_file = "data_naukri/jobdata_error_india.csv"
+stats_file = "data_naukri/stats.txt"
+skip=0
+class NaukriJobDetailScraper:
+    
+    base_url = "https://www.naukri.com/jobapi/v4/job/{}"
+    headers = {
+          'authority': 'www.naukri.com',
+          'accept': 'application/json',
+          'accept-language': 'en-US,en;q=0.9',
+          'appid': '121',
+          'cache-control': 'no-cache, no-store, must-revalidate',
+          'content-type': 'application/json',
+          'expires': '0',
+          'gid': 'LOCATION,INDUSTRY,EDUCATION,FAREA_ROLE',
+          'pragma': 'no-cache',
+          'referer': 'https://www.naukri.com/job-listings-ps-technical-consultant-ii-ncr-corporation-india-pvt-ltd-kolkata-mumbai-new-delhi-hyderabad-secunderabad-pune-chennai-bangalore-bengaluru-3-to-6-years-120823501070',
+          'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
+          'sec-ch-ua-mobile': '?0',
+          'sec-ch-ua-platform': '"Windows"',
+          'sec-fetch-dest': 'empty',
+          'sec-fetch-mode': 'cors',
+          'sec-fetch-site': 'same-origin',
+          'systemid': 'Naukri',
+          'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.43',
+          'x-requested-with': 'XMLHttpRequest',
+          'cookie': 'test=naukri.com; _t_ds=14c8c0f01691845374-19414c8c0f0-014c8c0f0; _gcl_au=1.1.1024691843.1691845381; _fbp=fb.1.1691845391563.1521284000; _t_r=1096%2F%2F; __utma=266160400.1059122291.1691845381.1691846963.1691846963.1; __utmc=266160400; __utmz=266160400.1691846963.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _gid=GA1.2.1097790226.1691946960; _cc_id=f102b3f9c375bbb80783e8e09a9c6a4d; panoramaId_expiry=1692033362592; panoramaId=f20d6d50d02ca8dbc9f4835382c2a9fb927ad954299218db60a7d9d7bca09362; panoramaIdType=panoDevice; _abck=EAF8CD87ED06F6FE0D1BE341378082D0~0~YAAQBCozarVfw8GJAQAAvF128gqV/yjff8AT5qkTc7EiVmNlJJ00nD16VEFeJh15q2bYAK8KlnGcPr7zpsi8USVMgui9DaCwoq15n4cW+Z/uKvUfCuUQAwVIKj2qlRT9tghTOfvBgGovWxTjFhD8B8DypZg3xbCBcOfMrTxIG0kml1V3V0teNzxQbKwxZBH+f9SpG1nWjcSqi0MuZ2Lp9njCQTDEXdyNn5FK9QUyBNIgMiZXGCroYN6g9Dqg50awS8p7GDin9O0yaBFnLYXYSSPqsjYlZsOAeZG1YDXhVfCIXFl9Ai4oQwulHEVR4kTx7E/GAxrPUMWKT1MJXJk38d/hHm/khF9WXryyuzBNGqBrHEmzbSK2Apvjhz+Hl7a1CDiFvYOTgurygc0o2F8E4e+o1OudsW0KCA==~-1~-1~-1; bm_sz=ED70280600D61C24AE8779690E6872A4~YAAQBCozardfw8GJAQAAvF128hRM9F6AMuh7Z7SvE3TmgXzJwI6StEga9y2KuTxZ8hXLMtJ7yq1I6ToCvJ1qcBfvYBY/W/7P2A4I+QADScKYSbs6S/S3UE9bL/lKee3NvEuD50tGUHrs59SQGoYdJGMrwml9npvfv+PANc8RaeobLmyx70LjTBajrTQruhnuEqphAnEPph1L6yqffRmta8KALbfw/sFFkvZWRte4uRCRS6IwyvdgNdGzHrvU90Cefnm1sAuK5Hm+F+JUvMVZhEWa/vukCd3Pz7toStN7N4P31cQ=~4539188~3289157; bm_mi=5266EA699B10C54B520AC0C335945591~YAAQBCozaslfw8GJAQAAFV528hRn0Dp7Ng6SjmmpdWbuBqjjlpOIm6e4no+DFPGfNvfuTNj9/tOe0zSzEbnFtWymp3K8PdRZcbO4azXh/4xphXqBeZXTZhE/H/7X6du3KAg3VyrF08jM/O2Hf8/7qtOXVUdBSpd8+mzH3IbW1d10UuiswDenQ6HiNRSkJISdZ8F6lXgGw2kpN3tAHIa9RixcTehrimRMipUgj4pRG/80a+tzAQQcAWUVOFaNoOHZ/C/oL2It920HJrOdtE85yrXx/LMaJlUb1RlHCG2KE/xkNMWpMI/FCimZYyI/DC8yQziKzxoqnP+GPA+JN5dMV76U4jXzYLqPOT5NwoKG7w==~1; ak_bmsc=0F69C083388867249F15237E773039FA~000000000000000000000000000000~YAAQBCozailgw8GJAQAAiGF28hTwkEIwbiDNaA96h/t+HbVduxzp6s1VtAmlm8JZxLg4LfiUPyA15rawjfgm3WgrQVB6GsFlaa+AvUvz1Pz3Q1P9td+LXZ5/+PFIAaTQN/O8SvcNd87eOmguE+T4BLbH5NDBcHEHBngYElDjkyqZkRtJ15EqweEPCpzn6yt+EYc/+sNuZI5/Wqj674CTqW8hmhvDToHdetlr8dh0zmRPwh1xdYnwb4uR6rGuaAIDwfopcqXdroQFVmDwMMXCkLNtTG3jToLxEDo7w/SHlJNK0LhicrXOQLyJu4k7udguvs4/Y+kXOEc04TkLKWa0gHsA+znQId6BT0CK4BFgGPYCMzpn379EH1ucz+mbjpX9p61CvxwEqFWV6O6hXXlbjHDGsuIiuIy3EP+38wb6B+uq2PBPgEmzZjLYjs9aNWGs0of7I0/V+ZL2xQDA2JD5FUXN1sgkl8r6w2sT5Fk1VuHGeorLkpIm0fkysZqAPM2yqJ5zaVkjyI4UENN56Aw79pKKVSkJtT5ALDmr1e+O8keIkg069ipenGburGc1Nw==; __gads=ID=da661383a92cc2b7:T=1691845731:RT=1691990009:S=ALNI_Ma5kdU-yCfi5vupriJnuuWUWmE_SQ; __gpi=UID=00000c2b451ccc2b:T=1691845731:RT=1691990009:S=ALNI_MZHpbDDCgSCaDcBTqfNHzHEDKk0JQ; jd=110823008324; _ga=GA1.2.1059122291.1691845381; cto_bundle=IfSELF9LbTF0TnAzamN1d2ZSSm5EMkdYekFhWDNJeElkOCUyQkElMkZ2RTRJNTFBNG95WENmVlBEV01wV3ZPSXB0dWpTZVFBZHZWQmt6WjVHTUpWNWEwQURTeWRaMWVGbyUyQjclMkZpSm5aNFZia0ZjcGklMkJFcSUyQlg2R3I3bUJkazJnaVN0cURyTUpGWUxQOHR6TFpBcDF6QU1MckFOdlg2cEElM0QlM0Q; _gat_UA-182658-1=1; bm_sv=33FDCB0BB2381FFCB1DA9B35AB25F10B~YAAQHSozaj2kUsGJAQAAFWF48hR1ZxWD9bmTihvsJwSN5urYMQoBOXsjILmBLpCp5Y8Wb2d+v8S1IsgfaFAjzZQJDWWGsM4VZOUHvjeEwqyhpkf95fegyYjUANSip9pcOY7JcbsJ3QemjclSynJdM2yjQovH+L9XiBHdKYFWDfacLicV2AGOtFikI1gVDGLSEqegx2bUuwmuQAlECM+lqj//OIwitlvDTMj9WCs40ybqG4D7o+JDWSXPBMYddaEqDw==~1; HOWTORT=ul=1691990122615&r=https%3A%2F%2Fwww.naukri.com%2Fjob-listings-sales-teamlease-services-limited-kolkata-west-bengal-pune-maharashtra-ahmedabad-chennai-tamil-nadu-rajkot-gujarat-jaipur-rajasthan-bangalore-bengaluru-karnataka-delhi-ncr-mumbai-all-areas-0-to-0-years-110823008324%3Fsrc%3Dgnbjobs_homepage_srch%26sid%3D16918479690248153%26xp%3D1%26px%3D1&hd=1691990122806&cl=1691990019014&nu=https%3A%2F%2Fwww.naukri.com%2Fjob-listings-sales-teamlease-services-limited-kolkata-west-bengal-pune-maharashtra-ahmedabad-chennai-tamil-nadu-rajkot-gujarat-jaipur-rajasthan-bangalore-bengaluru-karnataka-delhi-ncr-mumbai-all-areas-0-to-0-years-110823008324%3Fsrc%3Dgnbjobs_homepage_srch%26sid%3D16918479690248153%26xp%3D1%26px%3D1; _ga_K2YBNZVRLL=GS1.1.1691989990.4.1.1691990122.60.0.0'
+        }
+    
+    def __init__(self, input_file, output_file, error_file):
+        self.input_file = input_file
+        self.output_file = output_file
+        self.error_file = error_file
+        self.timeout = 30
+        self.count = 1
+        self.proxies = {"http": f"http://{proxy_server}", "https": f"http://{proxy_server}"} if (proxy_server := os.environ.get("PROXY_SERVER")) else {}
+
+    def transform_data(self, job_id, url, json_response):
+        job_details = json_response.get("jobDetails",{})
+        
+        location_arr = [item['label'] for item in job_details["locations"]]
+        location_str = ', '.join(location_arr)
+
+        skills_arr = [skill["label"] for skill in job_details.get("keySkills")["other"] if skill["label"]]
+        skills_str = ", ".join(skills_arr)
+
+        json_data = {
+          "Url": url,
+          "Job Key": str(url.split('/')[-1]),  
+          "Source Link": job_details.get("applyRedirectUrl"),
+          "Job Description": job_details.get("description"),
+          "Role Category": job_details.get("roleCategory"),
+          "Job Industry": job_details.get("industry"),
+          "Job Title": job_details.get("title"),
+          "Formatted Location Full": location_str,
+          "Job Functions": job_details.get("functionalArea"),
+          "Company": job_details.get("companyDetail", {}).get("name") if job_details.get("companyDetail") else None,
+          "Job Type": job_details.get("employmentType").split(',')[0].strip(),
+
+          ##Only available in naukri
+          "Key Skills": skills_str,
+          "Minimum Experience": job_details.get("minimumExperience"),
+          "Maximum Experience": job_details.get("maximumExperience"),
+          "Salary Detail": job_details.get("salaryDetail"),
+        }
+        return json_data
+
+    def scrape(self):
+        with open(self.input_file, 'r', encoding='utf-8') as infile:
+            reader = csv.reader(infile)
+            total_input_count=0
+            all_job_ids = []
+
+            for row in reader:
+              jobid = row[1].strip()
+              mode = row[7].strip()
+              total_input_count+=1
+              
+              if mode != "crawled":
+                print("removed non crawled job with jobid %s" % jobid)
+                continue
+        
+              all_job_ids.append(jobid)
+
+            
+            print(f"Size of raw all_job_ids: {len(all_job_ids)}")
+            all_job_ids = list(set(all_job_ids))
+
+            print(f"Size of unique all_job_ids: {len(all_job_ids)}")
+
+            #adjust skip
+            all_job_ids = all_job_ids[skip:]
+
+            print(f"Total input: {total_input_count},  Valid ids to scrape {len(all_job_ids)}")
+            with open(stats_file, "a") as stat:
+                stat.write(f"Search Found: {total_input_count}, Valid for scraping: {len(all_job_ids)}\n")
+            
+            time.sleep(10)
+
+            header_written=False
+
+            with open(self.output_file, 'a', newline='', encoding='utf-8') as outfile:
+                writer = csv.writer(outfile)
+                
+                while all_job_ids:
+                    job_id = all_job_ids[0]
+                    url = self.base_url.format(job_id)
+                   
+                    time.sleep(0.5)
+                    response = requests.get(url, headers=self.headers, timeout=self.timeout, proxies=self.proxies)
+
+                    print(f"{response.status_code} for {url}")
+
+                    if response.status_code == 200:
+                        json_response = response.json()
+
+                        transformed_data = self.transform_data(job_id, url, json_response)
+
+                        # Write the header row if needed
+                        if not header_written:
+                          header = transformed_data.keys()
+                          writer.writerow(header)
+                          header_written = True
+
+                        writer.writerow(transformed_data.values())
+                        print(f"Processed job ID {job_id}. Count: {self.count}, Remaining: {len(all_job_ids)}")
+                        all_job_ids.pop(0)  # Remove the processed job ID
+                        self.count += 1
+
+                    elif response.status_code == 303:
+                        json_response = response.json()
+
+                        if json_response.get('metaSearch', {}).get('isExpiredJob') == '1':
+                          
+                          print(f"Expired job ID {jobid} with response 303")
+                          all_job_ids.pop(0)  # Remove the processed job ID
+
+                    elif response.status_code == 404:
+                        all_job_ids.pop(0)  # Remove the processed job ID
+                        print(f"Expired job ID {jobid} with response 404")
+
+                    else:
+                        print(f"Error for job ID {job_id}")
+                        time.sleep(10)
+
+def main():
+    
+    start_time = time.time()
+
+    scraper = NaukriJobDetailScraper(input_file, output_file, error_file)
+    scraper.scrape()
+
+    end_time = time.time()
+    duration_hours = (end_time - start_time) / 3600
+    print(f"Jobdata program took {duration_hours:.2f} hours to run.")
+    with open(stats_file, "a") as stat:
+                stat.write(f"Jobdata program took {duration_hours:.2f} hours to run.\n")
+
+
+if __name__ == "__main__":
+    main()
--- a/naukri/search_gulf.py
+++ b/naukri/search_gulf.py
@ -0,0 +1,95 @@
+import requests
+import json
+import time
+import re
+import csv
+import math
+
+headers = {
+    'authority': 'www.naukrigulf.com',
+    'accept': 'application/json',
+    'accept-format': 'strict',
+    'accept-language': 'ENGLISH',
+    'appid': '205',
+    'cache-control': 'no-cache',
+    'client-type': 'desktop',
+    'clientid': 'desktop',
+    'device-type': 'desktop',
+    'puppeteer': 'false',
+    'referer': 'https://www.naukrigulf.com/jobs-in-uae',
+    'sec-ch-ua': '"Microsoft Edge";v="117", "Not;A=Brand";v="8", "Chromium";v="117"',
+    'sec-ch-ua-mobile': '?0',
+    'sec-ch-ua-platform': 'Windows',
+    'sec-fetch-dest': 'empty',
+    'sec-fetch-mode': 'cors',
+    'sec-fetch-site': 'same-origin',
+    'systemid': '2323',
+    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.12',
+    'userdata': '|IN'
+}
+
+error_pages = []
+keys_to_extract = ['designation', 'jobId', 'company','latestPostedDate','isEasyApply','jobSource','location','jdURL','vacancies']
+fields_to_write = ['designation', 'jobId', 'company','latestPostedDate','isEasyApply','jobSource','location','jdURL','vacancies','city']
+input_file = "naukri/_gulf_location.csv"
+jobs_per_pages = 50
+base_url = "https://www.naukrigulf.com/spapi/jobapi/search?Experience=&Keywords=&KeywordsAr=&Limit=50&Location={}&LocationAr=&Offset={}&SortPreference=&breadcrumb=1&locationId=&nationality=&nationalityLabel=&pageNo={}&srchId='"
+
+def parse_and_save(json_data, csv_filename, city):
+    parsed_data = []
+    for job in json_data["jobs"]:
+        parsed_item = {field: job.get(field, None) for field in keys_to_extract}
+        parsed_item['city'] = city
+        parsed_data.append(parsed_item)
+        #parsed_data.extend(city)
+
+    with open(csv_filename, "a", newline="", encoding="utf-8") as csvfile:
+        csv_writer = csv.DictWriter(csvfile, fieldnames= fields_to_write)
+        csv_writer.writeheader()
+        csv_writer.writerows(parsed_data)
+
+def main():
+#for page_number in range(1, 4700):  # Adjust the range as needed
+    with open(input_file, 'r') as file:
+        file_read = csv.reader(file)
+        for city in file_read:
+            city_read_url = city[0].replace("\n","")
+            output_data=[]
+            total_pages = 1000
+            output_filename_json = f"{city[0]}.json"
+            output_filename_csv = "output_all_gulf.csv"
+            start_page = 1
+
+            if(city[0] == "pharma"):
+                start_page = 173
+                total_pages = 22
+                total_page_num = 194
+            
+            while total_pages>0:
+                url = base_url.format(city[0],(jobs_per_pages*(start_page-1)),start_page)
+                response = requests.get(url, headers=headers)
+                    
+                if response.status_code == 200:
+                    json_data = response.json()
+                    
+                    if(total_pages == 1000):
+                        total_jobs = json_data["totalJobsCount"] 
+                        total_pages = math.ceil(total_jobs/jobs_per_pages)
+                        total_page_num = total_pages
+
+                    parse_and_save(json_data, output_filename_csv, city[0])
+                    print(f"Processed{url} : {start_page}/{total_page_num}/{total_pages}")
+                    total_pages = total_pages-1
+                    start_page = start_page+1
+
+                else:
+                    print("Error : ",response.status_code," at url ",url)
+                    error_pages.append(url)
+                    total_pages = total_pages-1
+                    start_page = start_page+1
+        
+            print("Data saved to output_new.json")
+            print(error_pages)
+
+if __name__ == "__main__":
+    main()
--- a/naukri/search_india.py
+++ b/naukri/search_india.py
@ -0,0 +1,116 @@
+import requests
+import json
+import csv
+import os
+import time
+import math
+
+# Global variables
+input_file = "naukri/_industry_urls.csv"
+output_file = "data_naukri/search_result_india.csv"
+error_file = "data_naukri/search_error_india.csv"
+stats_file = "data_naukri/stats_india.txt"
+class NaukriJobScraper:
+    base_url = "https://www.naukri.com/jobapi/v3/search?noOfResults=100&urlType=search_by_keyword&searchType=adv&keyword={}&pageNo={}&xt=catsrch&amp;qi\[\]={}"
+    headers = { 
+    "authority": "www.naukri.com",
+    "accept": "application/json",
+    "accept-language": "en-US,en;q=0.9",
+    "appid": "109",
+    "cache-control": "no-cache",
+    "clientid": "d3skt0p",
+    "content-type": "application/json",
+    "cookie": "_t_ds=21836c671691564336-4621836c67-021836c67; jd=280323907884; _gcl_au=1.1.1767756339.1691564338; test=naukri.com; G_ENABLED_IDPS=google; _cc_id=c7a22b66b0e8b76ba5b1ab973ac2c4e2; _fbp=fb.1.1691586951863.1688541664; MYNAUKRI[UNID]=6decd0ec6dac4ea7adf498fd9aea1b02; MYNAUKBMS[TOTALEXP]=.; MYNAUKBMS[MISC]=%7CX%7C-1%3A-1.-1%7CX%7C-1%3A-1.-1; PHPSESSID=7r1itb4rb4a5vp75h16aj1p50j; PS=0e9c712cbbee09d64d62ed464ccf1ed68d69b9c8b8e0879f86ac8078180ed768ff003c62a2e1a36431b890266d0ecd01; _t_ds=21836c671691564336-4621836c67-021836c67; ACTIVE=1691746049; __utma=266160400.222629415.1691564339.1691747172.1691747172.1; __utmc=266160400; __utmz=266160400.1691747172.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _t_s=direct; _gid=GA1.2.404208624.1692184309; _t_r=1091%2F%2F; _abck=17DF08AA6008335BFF57EC3D4F31C60A~0~YAAQBCozaovbVfWJAQAAyqlV/wqIPgjcUjD+7ht0W00DSxyvraAK8+dtCE9YPqwS+IJPRVvvHPVL4ZLzQ7cfGNXzfh3k+y2VLqP+s+cPut62fApHUtFEmbTrUNVNv9Zeq9lwI+e8zd1DsioeBQtdUG+kzSHGWky6sPhziobMkx1B7W04IwUfACS7Ve5fYBCJU5dbtVRjeDAoNXmctQPJApkPdaddRMuoeq4qCZcW/bb8bGR+nwyO8+ZBPpQqoBpZrIhpG66AkcOcsLIfBHMfb8E/1dUZyDcFEO4Y7P41NVSIGgF8BzyGksJsa+IlaCXYrz0MDX0QiHXyiozYmEocQYKeTOwkMlmoHq/+X8XLt70g2LvMc0Zszor74PL7ymsDvPRLoDCvPinCf4Uk844KKItZ6menX46Tpg==~-1~-1~-1; bm_sz=BD37187E9CC624B5599566E84E218D81~YAAQBCozao3bVfWJAQAAyqlV/xQaFSd0F+spatEEAmhMi6P20wPSNyvyqwLIgOZIqPyzNpNoeCiq27hIuVDssDqyYLJipRkLmTgJhtRpBI/UkMYHO1gve7KT27FIcZLAPM1GlmudVfZr/vsBgNU7vcq7YlESrOQUNFkdARzI9cnEHl0Uwh+TdW+jSx/uvvgN860EXQYxvgQFPwHcF6K1HLhnThG6W3LrVsKEnltKEJsWzq73YGJhtHR2gk/c2Rn2rsnlBSKkon06k/bBUNpImVfGIv57NluTzAf4HUKBL2dBFfo=~4272181~3684401; bm_mi=840B9E1760640F737B07DF6916477F14~YAAQBCozar8fV/WJAQAAemdo/xR295FqGfoDgkXCgp3Zs538VapFXehFbhWVc0uLC2Z7cfCczehDlj6/WNkwuGUEm6AQ+a2VS9H1cL3cF+vXFUomXcwhU4fmjNruimtgH2vNc8+t07S6CFswop+vgQr50vwaRKAobfsJi0jKNELyQOdgxf0EQ+vH31DwtJMCeNMFIlZxXSznSOUZ9VRY/HSFsMgPHu3ChcKnhfJhUpS2VEkwwh8FjyNNsp08Nc8B85Vbpq3PCTz1kpFWCIeBDDVthrtnKITPzciYZy5e2VhvJWKi+2iRyOVeXbLbCphszroTewz5d6Sd4RhwOg==~1; _gat_UA-182658-1=1; ak_bmsc=DC184FF5F5CF7CEC60DE28CF4A04B43E~000000000000000000000000000000~YAAQBCozakggV/WJAQAAo2xo/xST717WQAIeCYOI3htLys7gWAfwL6/uNZtCJv6fAyFBYEcPf/0asPA8yD7eyVNXLvegM9qh5IquUPoSFJH3Sjz7JyPcySdejoqwoRGhg4rYROybASf1olGEy4PNPGBCBwTi+KUhkVCkHEaDWiDa/feuQddoB3nWBPui267IP17/01afcmBsBA+xz5PFn+OVIp7pIHrsWwa3Z+QoA3+9ZTSs+D/jXsBCsrJojd8U6Ho8NPfgfUyNOJo0SzFIQbcLy5TmAQHEYBCLhYgkRJjGPRSOqEYCtOenp5WzQHRisSQUU837xfVnr42Pc9xoW73pafQv/pQiuB64SrdhVtABVsSWchE5RuqwnPPIBf6cjJWLNb71p+Is6F6zcvVmSIvx2wZO0QmLQ2pfXr6Lh+jcBNPcod8pLbWG5U5RPHQAVi0nGPOYS+3mcrkGCiTrteqyLmSEOGvThutsOfl5Kog6h78tCaHhfhnZt1mmPkanCex2CHjeuT4FESOf83XFCLDVT9v0VAh962a9KQ==; __gads=ID=85c2a6341a8344ec:T=1691641263:RT=1692207181:S=ALNI_MZnP35P-PINdjwxcv-SNoWRMxbz8w; __gpi=UID=00000c29ed221036:T=1691641263:RT=1692207181:S=ALNI_Majbvns7DTxm-L8Fcvi-v_e7zQCvA; bm_sv=743032F92D532DCFC228BE5DB12014CF~YAAQBCozarIgV/WJAQAAQnJo/xRLr5g+qzbOInTUPStEJ+njAToV8zwOvBbHEEF9WGABP3ObKrNGr0FSALH8SsyJxhCnJZP72tWp4RJ8IMvpVkNNNye2Kc0n+U9VxZhSg9RKvKTn/DwW5x0lwY6guqb4wJwZIND/pUfBqdWUPp77qF4rYSeBEg/no94nGlmXUVUY4GqTDj6hCo6XIBbTIg1BGSdrLjFRTjpKu9aRX0ScDPSxuyMe7KPZSsOGY1AL~1; cto_bundle=TYhEE19xSDJxQk1qdTBuR3hYWDklMkJ3SWhPZmRkcjg3TnYyREN1dUpHaDBlbWJoME40OTVBelNlZ3J3TnhjVmZhSTNTTXl2U2JjSWhIM29aaWJHMyUyQkIlMkJPUmZKaGNBRkJLQVNHU1FYWFlleTFVJTJGTWduTkppQzJzMW1SOFJyRWNEdndENkklMkJ6M25jaFpaJTJCUmdUOWNMY2Z3TlolMkJ3QSUzRCUzRA; HOWTORT=ul=1692207219428&r=https%3A%2F%2Fwww.naukri.com%2Faccounting-jobs%3Fxt%3Dcatsrch%26amp%3Bqi%255b%255d%3D8&hd=1692207219607; _ga=GA1.1.222629415.1691564339; _ga_K2YBNZVRLL=GS1.1.1692207181.10.1.1692207220.21.0.0",  # Add your cookie value here
+    "gid": "LOCATION,INDUSTRY,EDUCATION,FAREA_ROLE",
+    "referer": "https://www.naukri.com/fresher-jobs?src=gnbjobs_homepage_srch",
+    "sec-ch-ua": '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
+    "sec-ch-ua-mobile": "?0",
+    "sec-ch-ua-platform": "Windows",
+    "sec-fetch-dest": "empty",
+    "sec-fetch-mode": "cors",
+    "sec-fetch-site": "same-origin",
+    "systemid": "109",
+    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.43",
+    "content-encoding": "gzip",
+    }   
+    keys_to_extract = ['title', 'jobId', 'footerPlaceholderLabel', 'companyName', 'companyId', 'jdURL', 'createdDate',
+                       'mode', 'placeholders']
+
+    def __init__(self, input_file_path, output_file_path, error_file_path):
+        self.input_file_path = input_file_path
+        self.output_file_path = output_file_path
+        self.error_file_path = error_file_path
+        self.timeout = 120
+        self.proxies = {"http": f"http://{proxy_server}", "https": f"http://{proxy_server}"} if (proxy_server := os.environ.get("PROXY_SERVER")) else {}
+
+    def parse_and_save(self, json_data):
+        parsed_data = []
+        for job in json_data["jobDetails"]:
+            parsed_item = {field: job.get(field, None) for field in self.keys_to_extract}
+            parsed_data.append(parsed_item)
+
+        with open(self.output_file_path, "a", newline="", encoding="utf-8") as csvfile:
+            csv_writer = csv.DictWriter(csvfile, fieldnames=self.keys_to_extract)
+            csv_writer.writerows(parsed_data)
+
+    def scrape(self):
+
+        with open(self.output_file_path, "w", newline="", encoding="utf-8") as csvfile:
+            csv_writer = csv.DictWriter(csvfile, fieldnames=self.keys_to_extract)
+            csv_writer.writeheader()
+
+        with open(self.input_file_path, 'r') as file:
+            
+            file_read = csv.reader(file)
+            for industry in file_read:
+                industry_read_url = industry[0].replace("\n", "")
+                industry_name=industry[1]
+                industry_q=industry[2]
+                total_pages = 1000
+                start_page = 1
+
+                print(f"Starting for industry: {industry_name}, total pages: {total_pages}, start page: {start_page}")
+                while total_pages > 0:
+                    url = self.base_url.format(industry_name, start_page, industry_q)
+
+                    response = requests.get(url, headers=self.headers, timeout=self.timeout, proxies=self.proxies)
+
+                    print(f"{response.status_code} for {url}")
+
+                    if response.status_code != 200:
+                        print(f"Error with page {start_page} for industry {industry_name}")
+                        with open(self.error_file_path, "a") as file:
+                            file.write(f"Error with page {start_page} for industry {industry_name}\n")
+                        time.sleep(10)
+                        continue
+
+                    # if 200 response    
+                    data = response.json()
+                    if(total_pages == 1000):
+                        total_jobs = data["noOfJobs"] 
+                        total_pages = math.ceil(total_jobs/100)
+                    
+                    self.parse_and_save(data)
+
+                    # Assuming that you'll break the loop once all pages are scraped:
+                    # (Add your logic to update 'total_pages' based on the response)
+                    total_pages -= 1
+                    start_page += 1
+                    print(f"Industry: {industry_name}, pages remaining: {total_pages}, start page: {start_page}")
+                    time.sleep(1)
+
+def main():
+    
+    start_time = time.time()
+
+    scraper = NaukriJobScraper(input_file, output_file, error_file)
+    scraper.scrape()
+    end_time = time.time()
+    duration_hours = (end_time - start_time) / 3600
+    print(f"Search program took {duration_hours:.2f} hours to run.")
+    with open(stats_file, "a") as stat:
+        stat.write(f"Search program took {duration_hours:.2f} hours to run. \n")
+
+
+if __name__ == "__main__":
+    main()
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,2 @@
+requests==2.25.1
+