refactor search jobs formula

GuillaumeFalourd · GuillaumeFalourd · commit 955f18691a77 · 2021-05-04T15:18:27.000-03:00
Signed-off-by: GuillaumeFalourd &lt;guillaume.falourd@zup.com.br&gt;
diff --git a/linkedin/search/jobs/src/classes/csv.py b/linkedin/search/jobs/src/classes/csv.py
@@ -16,21 +16,14 @@ def filename(job, city):
     return filename
 
 def generate_file(csv_filename, job, city, links):
-    try:
-        with open(csv_filename, 'w', encoding='utf-8') as f:
-            headers = ['Source', 'Organization', 'Job Title', 'Location', 'Posted', 'Applicants Hired', 'Seniority Level', 'Employment Type', 'Job Function', 'Industry']
-            write = csv.writer(f, dialect='excel')
-            write.writerow(headers)
-            
-            for job_link in links:
-                job_datas = scrap.get_datas(job, city, job_link)
-                write.writerows([job_datas])
-
-            print(f'\033[1;33m\n🕵️  Written all information in: {csv_filename}\033[0m')
-                
-    except requests.HTTPError as err:
-        print(f'\033[0;31m❌ Something went wrong!\033[0m', err)
-
+    with open(csv_filename, 'w', encoding='utf-8') as f:
+        headers = ['Source', 'Organization', 'Job Title', 'Location', 'Posted', 'Applicants Hired', 'Seniority Level', 'Employment Type', 'Job Function', 'Industry']
+        write = csv.writer(f, dialect='excel')
+        write.writerow(headers)
+        
+        for job_link in links:
+            job_datas = scrap.get_datas(job, city, job_link)
+            write.writerows([job_datas])
 
 def check_file(filename):
     for root, dirs, files in os.walk(f'{os.getcwd()}'):
diff --git a/linkedin/search/jobs/src/classes/scrap.py b/linkedin/search/jobs/src/classes/scrap.py
@@ -6,80 +6,84 @@
 from bs4 import BeautifulSoup as soup
 
 def get_datas(job, city, job_link):
-    for retry in range(5):
-        time.sleep(5)
-        page_req = requests.get(
-            url = job_link,
-            headers = {'User-agent': f'{job}_{city} bot'}
-            )
-        if page_req.status_code == "429":
-            change_ip(random.randint(1, 30))
-            time.sleep(3)
-            continue
-        else:
-            page_req.raise_for_status()
-            break
-
-    # Parse HTML
-    job_soup = soup(page_req.text, 'html.parser')
-    my_data = [job_link]
-
-    # Topcard scraping
-    for content in job_soup.findAll('div', {'class': 'topcard__content-left'})[0:]:
-
-        # Scraping Organization Names
-        orgs = {'Default-Org': [org.text for org in content.findAll('a', {'class': 'topcard__org-name-link topcard__flavor--black-link'})],
-                'Flavor-Org': [org.text for org in content.findAll('span', {'class': 'topcard__flavor'})]}
-
-        if orgs['Default-Org'] == []:
-            org = orgs['Flavor-Org'][0]
-            my_data.append(org)
-        else:
-            for org in orgs['Default-Org']:
+    try:
+        for retry in range(5):
+            time.sleep(5)
+            page_req = requests.get(
+                url = job_link,
+                headers = {'User-agent': f'{job}_{city} bot'}
+                )
+            if page_req.status_code == "429":
+                change_ip(random.randint(1, 30))
+                time.sleep(3)
+                continue
+            else:
+                page_req.raise_for_status()
+                break
+
+        # Parse HTML
+        job_soup = soup(page_req.text, 'html.parser')
+        my_data = [job_link]
+
+        # Topcard scraping
+        for content in job_soup.findAll('div', {'class': 'topcard__content-left'})[0:]:
+
+            # Scraping Organization Names
+            orgs = {'Default-Org': [org.text for org in content.findAll('a', {'class': 'topcard__org-name-link topcard__flavor--black-link'})],
+                    'Flavor-Org': [org.text for org in content.findAll('span', {'class': 'topcard__flavor'})]}
+
+            if orgs['Default-Org'] == []:
+                org = orgs['Flavor-Org'][0]
                 my_data.append(org)
-
-        # Scraping Job Title
-        for title in content.findAll('h1', {'class': 'topcard__title'})[0:]:
-            print(f'\033[0;32m📌 {title.text}\033[0m', f'\033[1;33m- {org}\033[0m')
-            my_data.append(title.text.replace(',', '.'))
-
-        for location in content.findAll('span', {'class': 'topcard__flavor topcard__flavor--bullet'})[0:]:
-            my_data.append(location.text.replace(',', '.'))
-
-        # Scraping Job Time Posted
-        posts = {'Old': [posted.text for posted in content.findAll('span', {'class': 'topcard__flavor--metadata posted-time-ago__text'})],
-                'New': [posted.text for posted in content.findAll('span', {'class': 'topcard__flavor--metadata posted-time-ago__text posted-time-ago__text--new'})]}
-
-        if posts['New'] == []:
-            for text in posts['Old']:
-                my_data.append(text)
-        else:
-            for text in posts['New']:
-                my_data.append(text)
-
-        # Scraping Number of Applicants Hired
-        applicants = {'More-Than': [applicant.text for applicant in content.findAll('figcaption', {'class': 'num-applicants__caption'})],
-                    'Current': [applicant.text for applicant in content.findAll('span', {'class': 'topcard__flavor--metadata topcard__flavor--bullet num-applicants__caption'})]}
-
-        if applicants['Current'] == []:
-            for applicant in applicants['More-Than']:
-                my_data.append(f'{get_nums(applicant)}+ Applicants')
-        else:
-            for applicant in applicants['Current']:
-                my_data.append(f'{get_nums(applicant)} Applicants')
-
-    # Criteria scraping
-    for criteria in job_soup.findAll('span', {'class': 'job-criteria__text job-criteria__text--criteria'})[:4]:
-        my_data.append(criteria.text)
-
-    print("Datas:", my_data)
-    
-    if len(my_data) < 10:
-        fill_number = 10 - len(my_data)
-        for i in range(0, fill_number):
-            my_data.append('')
-            i += 1
-    
+            else:
+                for org in orgs['Default-Org']:
+                    my_data.append(org)
+
+            # Scraping Job Title
+            for title in content.findAll('h1', {'class': 'topcard__title'})[0:]:
+                print(f'\033[0;32m📌 {title.text}\033[0m', f'\033[1;33m- {org}\033[0m')
+                my_data.append(title.text.replace(',', '.'))
+
+            for location in content.findAll('span', {'class': 'topcard__flavor topcard__flavor--bullet'})[0:]:
+                my_data.append(location.text.replace(',', '.'))
+
+            # Scraping Job Time Posted
+            posts = {'Old': [posted.text for posted in content.findAll('span', {'class': 'topcard__flavor--metadata posted-time-ago__text'})],
+                    'New': [posted.text for posted in content.findAll('span', {'class': 'topcard__flavor--metadata posted-time-ago__text posted-time-ago__text--new'})]}
+
+            if posts['New'] == []:
+                for text in posts['Old']:
+                    my_data.append(text)
+            else:
+                for text in posts['New']:
+                    my_data.append(text)
+
+            # Scraping Number of Applicants Hired
+            applicants = {'More-Than': [applicant.text for applicant in content.findAll('figcaption', {'class': 'num-applicants__caption'})],
+                        'Current': [applicant.text for applicant in content.findAll('span', {'class': 'topcard__flavor--metadata topcard__flavor--bullet num-applicants__caption'})]}
+
+            if applicants['Current'] == []:
+                for applicant in applicants['More-Than']:
+                    my_data.append(f'{get_nums(applicant)}+ Applicants')
+            else:
+                for applicant in applicants['Current']:
+                    my_data.append(f'{get_nums(applicant)} Applicants')
+
+        # Criteria scraping
+        for criteria in job_soup.findAll('span', {'class': 'job-criteria__text job-criteria__text--criteria'})[:4]:
+            my_data.append(criteria.text)
+
+        print("Datas:", my_data)
+        
+        if len(my_data) < 10:
+            fill_number = 10 - len(my_data)
+            for i in range(0, fill_number):
+                my_data.append('')
+                i += 1
+                    
+    except requests.HTTPError as err:
+        print(f'\033[0;31m❌ Something went wrong!\033[0m', err)
+        
     return my_data
 
 def get_nums(string):
diff --git a/linkedin/search/jobs/src/formula/formula.py b/linkedin/search/jobs/src/formula/formula.py
@@ -30,10 +30,13 @@ def run(city, profession, send_email, email_receiver, sendgrid_api_key, sendgrid
                 print(f"\033[1;36m\n⚠️  Couldn't extract job links list from LinkedIn, try again later!\033[0m")        
             else:
                 print(f'\033[1;33m\n🕵️  There are {len(links)} available {job} jobs in {city.capitalize()}.\n\033[0m')
+                
                 # Extract Datas into a CSV file
                 csv_filename = csv.filename(job, city)
                 csv.generate_file(csv_filename, job, city, job_links)
                 csv.check_file(csv_filename)
+                
+                print(f'\033[1;33m\n🕵️  Written all information in: {csv_filename}\033[0m')
 
             if send_email == "yes":
                 if sendgrid_api_key is not None: