glider-documentation/html/_preprocessing_8py_source.html

import awswrangler as wr


class PreprocessingData:


    def preprocessing(self, filename, features, session, rel_col):

        """Loads file and do some fixes to fit it to our standard and make it able to be processed


        Args:

            filename (str): s3 full path of filename

            features (dict): contains delimiter, skip_rows and encoding required for current file

            session (boto3 obj): AWS client connection

            rel_col (str): column name used to identify upc/release_id

        Returns: df (pandas dataframe)

        """

        delimiter = features["delimiter"]

        skip_rows = features["skip_rows"]

        encoding = features["encoding"]

        try:

            df = wr.s3.read_csv(filename, sep=delimiter, skiprows=skip_rows, encoding=encoding, dtype={rel_col:str}, low_memory=False, boto3_session=session)

        except:

            encoding = "utf-8"

            df = wr.s3.read_csv(filename, sep=delimiter, skiprows=skip_rows, encoding=encoding, low_memory=False, boto3_session=session)

        # df = read_csv(filename, sep=delimiter, skiprows=skip_rows, encoding=encoding, low_memory=False)#, keep_default_na=False, low_memory=False)

        return df


src.importer.templates.Preprocessing.PreprocessingData
Definition Preprocessing.py:3

src.importer.templates.Preprocessing.PreprocessingData.preprocessing
preprocessing(self, filename, features, session, rel_col)
Definition Preprocessing.py:4