project part 6

Irina · Irina · commit f43fce64f3bc · 2026-04-15T13:50:32.000-04:00
diff --git a/.github/workflows/update_energy_data.yml b/.github/workflows/update_energy_data.yml
@@ -0,0 +1,35 @@
+name: Update Energy Data
+
+on:
+  schedule:
+    - cron: "0 12 * * 1"
+  workflow_dispatch:
+
+jobs:
+  update_data:
+    runs-on: ubuntu-latest
+
+    steps:
+      - name: Check out repository
+        uses: actions/checkout@v4
+
+      - name: Set up Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: "3.11"
+          cache: pip
+
+      - name: Install dependencies
+        run: pip install -r requirements.txt
+
+      - name: Run weekly supply ETL
+        env:
+          GCP_SERVICE_ACCOUNT: ${{ secrets.GCP_SERVICE_ACCOUNT }}
+          EIA_API_KEY: ${{ secrets.EIA_API_KEY }}
+        run: python scripts/load_weekly_supply_data.py
+
+      - name: Run WTI ETL
+        env:
+          GCP_SERVICE_ACCOUNT: ${{ secrets.GCP_SERVICE_ACCOUNT }}
+          EIA_API_KEY: ${{ secrets.EIA_API_KEY }}
+        run: python scripts/load_wti_data.py
diff --git a/scripts/load_weekly_supply_data.py b/scripts/load_weekly_supply_data.py
@@ -0,0 +1,130 @@
+import json
+import os
+
+import pandas as pd
+import requests
+from google.cloud import bigquery
+from google.oauth2 import service_account
+
+PROJECT_ID = "sipa-adv-c-giggling-wombat"
+DATASET_ID = "petroleum_supply"
+
+WEEKLY_SUPPLY_TABLE = f"{PROJECT_ID}.{DATASET_ID}.weekly_supply"
+WEEKLY_SUPPLY_BY_PRODUCT_TABLE = (
+    f"{PROJECT_ID}.{DATASET_ID}.weekly_supply_by_product"
+)
+
+REQUEST_TIMEOUT = 30
+
+
+def get_bq_client():
+    service_account_info = json.loads(os.environ["GCP_SERVICE_ACCOUNT"])
+    credentials = service_account.Credentials.from_service_account_info(
+        service_account_info
+    )
+    return bigquery.Client(
+        credentials=credentials,
+        project=credentials.project_id,
+    )
+
+
+def fetch_supply_data() -> pd.DataFrame:
+    api_key = os.environ["EIA_API_KEY"]
+    url = (
+        "https://api.eia.gov/v2/petroleum/cons/wpsup/data/"
+        f"?api_key={api_key}"
+        "&frequency=weekly"
+        "&data[0]=value"
+        "&sort[0][column]=period"
+        "&sort[0][direction]=desc"
+        "&offset=0&length=5000"
+    )
+
+    response = requests.get(url, timeout=REQUEST_TIMEOUT)
+    response.raise_for_status()
+    records = response.json()["response"]["data"]
+
+    df = pd.DataFrame(records)
+    df["week"] = pd.to_datetime(df["period"])
+    df["value"] = pd.to_numeric(df["value"], errors="coerce")
+
+    for col in df.columns:
+        if df[col].dtype == "object":
+            df[col] = df[col].astype(str)
+
+    df = df.dropna(subset=["week", "value"]).copy()
+    df = df.sort_values("week").reset_index(drop=True)
+    return df
+
+
+def build_weekly_supply(df: pd.DataFrame) -> pd.DataFrame:
+    weekly_supply = (
+        df.groupby("week", as_index=False)["value"]
+        .sum()
+        .rename(columns={"value": "total_supply"})
+        .sort_values("week")
+        .reset_index(drop=True)
+    )
+    return weekly_supply
+
+
+def find_product_column(df: pd.DataFrame) -> str:
+    candidate_columns = [
+        "product",
+        "product-name",
+        "product_name",
+        "process",
+        "name",
+    ]
+    for col in candidate_columns:
+        if col in df.columns:
+            return col
+    raise KeyError(
+        "Could not find a product column in the EIA supply data."
+    )
+
+
+def build_weekly_supply_by_product(df: pd.DataFrame) -> pd.DataFrame:
+    product_col = find_product_column(df)
+
+    weekly_supply_by_product = (
+        df.groupby(["week", product_col], as_index=False)["value"]
+        .sum()
+        .rename(
+            columns={
+                product_col: "product",
+                "value": "product_supplied",
+            }
+        )
+        .sort_values(["week", "product"])
+        .reset_index(drop=True)
+    )
+    return weekly_supply_by_product
+
+
+def load_table(df: pd.DataFrame, table_id: str):
+    client = get_bq_client()
+    job_config = bigquery.LoadJobConfig(write_disposition="WRITE_TRUNCATE")
+    job = client.load_table_from_dataframe(df, table_id, job_config=job_config)
+    job.result()
+
+
+def main():
+    raw_df = fetch_supply_data()
+
+    weekly_supply = build_weekly_supply(raw_df)
+    weekly_supply_by_product = build_weekly_supply_by_product(raw_df)
+
+    load_table(weekly_supply, WEEKLY_SUPPLY_TABLE)
+    print(f"Loaded {len(weekly_supply)} rows into {WEEKLY_SUPPLY_TABLE}")
+
+    load_table(weekly_supply_by_product, WEEKLY_SUPPLY_BY_PRODUCT_TABLE)
+    print(
+        "Loaded "
+        f"{len(weekly_supply_by_product)} rows into "
+        f"{WEEKLY_SUPPLY_BY_PRODUCT_TABLE}"
+    )
+
+
+if __name__ == "__main__":
+    main()
diff --git a/scripts/load_wti_data.py b/scripts/load_wti_data.py
@@ -0,0 +1,69 @@
+import json
+import os
+
+import pandas as pd
+import requests
+from google.cloud import bigquery
+from google.oauth2 import service_account
+
+PROJECT_ID = "sipa-adv-c-giggling-wombat"
+DATASET_ID = "petroleum_supply"
+TABLE_ID = f"{PROJECT_ID}.{DATASET_ID}.weekly_wti"
+
+WTI_SERIES = "RWTC"
+REQUEST_TIMEOUT = 30
+
+
+def get_bq_client():
+    service_account_info = json.loads(os.environ["GCP_SERVICE_ACCOUNT"])
+    credentials = service_account.Credentials.from_service_account_info(
+        service_account_info
+    )
+    return bigquery.Client(
+        credentials=credentials,
+        project=credentials.project_id,
+    )
+
+
+def fetch_wti_data() -> pd.DataFrame:
+    api_key = os.environ["EIA_API_KEY"]
+    url = (
+        "https://api.eia.gov/v2/petroleum/pri/spt/data/"
+        f"?api_key={api_key}"
+        "&frequency=weekly"
+        "&data[0]=value"
+        f"&facets[series][]={WTI_SERIES}"
+        "&sort[0][column]=period"
+        "&sort[0][direction]=desc"
+        "&offset=0&length=5000"
+    )
+
+    response = requests.get(url, timeout=REQUEST_TIMEOUT)
+    response.raise_for_status()
+    records = response.json()["response"]["data"]
+
+    df = pd.DataFrame(records)
+    df["week"] = pd.to_datetime(df["period"])
+    df["wti_price"] = pd.to_numeric(df["value"], errors="coerce")
+    df["series"] = df["series"].astype(str)
+
+    df = df[["week", "series", "wti_price"]].dropna()
+    df = df.sort_values("week").reset_index(drop=True)
+    return df
+
+
+def load_to_bigquery(df: pd.DataFrame):
+    client = get_bq_client()
+    job_config = bigquery.LoadJobConfig(write_disposition="WRITE_TRUNCATE")
+    job = client.load_table_from_dataframe(df, TABLE_ID, job_config=job_config)
+    job.result()
+
+
+def main():
+    df = fetch_wti_data()
+    load_to_bigquery(df)
+    print(f"Loaded {len(df)} rows into {TABLE_ID}")
+
+
+if __name__ == "__main__":
+    main()