API improvements #990

MorrisNein · 2022-11-21T17:15:13Z

Change list:

Allowed Fedot.fit to get path to features and target via Path objects.
Wrote explicit docstring for Fedot.fit.
Used generic type FeaturesType in Fedot.fit annotation.
Unified index column detection during CSV loading.
Fixed time series loading from numpy arrays.

fedot/core/data/data.py

andreygetmanov

Очень здорово! Код стал лаконичнее и читабельнее.
Мне кажется, стоит обновить соответствующие тесты (добавить проверку на правильное определение колонок и пр.). Они лежат в test_data.py, например

fedot/api/api_utils/data_definition.py

fedot/api/main.py

fedot/core/data/data.py

test/unit/api/test_main_api.py

MorrisNein · 2023-01-26T15:50:11Z

@andreygetmanov, добавил тесты для определения индексных колонок

51d0950

codecov · 2023-01-26T16:05:30Z

Codecov Report

Merging #990 (f489698) into master (cf11145) will increase coverage by 0.26%.
The diff coverage is 93.54%.

@@            Coverage Diff             @@
##           master     #990      +/-   ##
==========================================
+ Coverage   87.54%   87.80%   +0.26%     
==========================================
  Files         208      208              
  Lines       13822    13962     +140     
==========================================
+ Hits        12100    12260     +160     
+ Misses       1722     1702      -20

Impacted Files	Coverage Δ
fedot/api/api_utils/api_data.py	`87.50% <ø> (ø)`
fedot/api/main.py	`81.30% <ø> (ø)`
fedot/core/repository/dataset_types.py	`100.00% <ø> (ø)`
fedot/core/data/multi_modal.py	`85.29% <84.00%> (+0.91%)`	⬆️
fedot/core/data/data.py	`86.10% <96.22%> (-0.67%)`	⬇️
fedot/api/api_utils/data_definition.py	`86.07% <100.00%> (+0.74%)`	⬆️
fedot/core/dag/graph_delegate.py	`100.00% <0.00%> (ø)`
fedot/core/pipelines/automl_wrappers.py	`0.00% <0.00%> (ø)`
fedot/core/optimisers/composer_requirements.py	`100.00% <0.00%> (ø)`
... and 59 more

Help us with your feedback. Take ten seconds to tell us how you rate us. Have a feature suggestion? Share it here.

fedot/core/data/data.py

aPovidlo · 2023-01-30T11:34:54Z

fedot/core/data/multi_modal.py

+                If ``None``, then check the first column's name and use it as index if succeeded
+                (see the param ``possible_idx_keywords``).\n
+                Set ``False`` to skip the check and rearrange a new integer index.
+            possible_idx_keywords: lowercase keys to find. If the first data column contains one of the keys,


Не понимаю, а зачем нужен этот парамметр. В каких случаях пользователь будет его заполнять? Как мне кажется, он дублирует функциональность парамметра index_col.

Вынести во внешний API было идеей @nicl-nno. Основная задумка в том, что при загрузке нескольких файлов пользователь мог бы один раз указать, какие индексы в них используются.

Сейчас, спустя время, думается, что лучше бы пользователь самостоятельно указывал индекс для каждого конкретного файла, чтобы не перегружать внешний интерфейс. Логика параметра не выглядит явной для внешнего пользователя. @nicl-nno, что думаешь?

Смысл параметра был в том, что когда мы автоматизированно обрабатываем кучу разнородных файлов - то нам удобно указать набор возможных названий индекса. Наверное, можно это объединить с index_col, но давайте уже в следующих PR про это подумает.

aPovidlo · 2023-01-30T11:40:46Z

fedot/core/data/data.py

+                    columns_to_drop: Optional[List[Union[str, int]]] = None,
+                    columns_to_use: Optional[List[Union[str, int]]] = None):
+
+    def define_index_column(candidate_columns: List[str]) -> Optional[str]:


А зачем потребовалось делать один метод в другом?

Исключительно для организации кода. Внутренняя функция не используется нигде больше, она максимально "локальная", сокрыта от внешнего контекста

aPovidlo · 2023-01-30T11:41:54Z

fedot/core/data/data.py

+    def is_column_name_suitable_for_index(column_name: str) -> bool:
+        return any(key in column_name.lower() for key in possible_idx_keywords)
+
+    columns_to_drop = copy(columns_to_drop) or []


А зачем их копировать?

Чтобы не изменять список, переданный извне входным аргументом

Так в области функции он же не должен менять переменные, которые находятся вне её? Еще копируешь через copy(), а она копирует только ссылки на объект, находящиеся в оригинале. При этом копируешь в туже самую переменную. columns_to_drop ты никак не изменяешь далее в функции.

В питоне мутабельные объекты передаются по ссылке. Т.е. списки вполне изменяются функцией.

За внутренние объекты списка мы тут не беспокоимся, это немутабельные строки или инты.

Да, действительно, columns_to_drop не изменяю, сделал по аналогии с columns_to_use из-за строки

columns_to_use.append(index_col)

aPovidlo · 2023-01-30T11:46:14Z

fedot/api/api_utils/data_definition.py

@@ -177,4 +181,5 @@ def data_strategy_selector(features, target, ml_task: Task = None, is_predict: b
                      pd.DataFrame: PandasStrategy,
                      np.ndarray: NumpyStrategy,
                      str: CsvStrategy,
+                      PathLike: CsvStrategy,


А может сделать какой-то выбор? Хотелось бы чтобы по пути не только csv умело открывать, но и numpy массивы. Мб выбирать стратегию от формата файла в конце пути?

Не знаком с форматом сохранения numpy-массивов на диск. Это часто используется?

Формат файла .npy. В некоторых экспериментах для одной компании, частично данные хранятся в таких файлах

Под такую фичу хорошо бы отдельный PR сделать

…idx_keywords` argument

- prevent parsing index as date for time series for consistency; - try to define index column even outside "columns_to_use".

MorrisNein added in progress task in progress api Anything related to user-facing interfaces & parameter passing labels Nov 21, 2022

MorrisNein self-assigned this Nov 21, 2022

This was linked to issues Nov 22, 2022

Incorrect data indexing in wrapper of InputData #873

Closed

Trouble in api.main.Fedot.fit() with features of np.ndarray type #874

Closed

MorrisNein removed the in progress task in progress label Nov 22, 2022

MorrisNein force-pushed the api_improvements branch 5 times, most recently from eb4cf57 to 343ce13 Compare November 25, 2022 14:33

MorrisNein requested review from andreygetmanov and aPovidlo November 25, 2022 14:41

nicl-nno reviewed Nov 25, 2022

View reviewed changes

fedot/core/data/data.py Outdated Show resolved Hide resolved

nicl-nno reviewed Nov 25, 2022

View reviewed changes

fedot/core/data/data.py Show resolved Hide resolved

nicl-nno reviewed Nov 25, 2022

View reviewed changes

fedot/core/data/data.py Outdated Show resolved Hide resolved

MorrisNein force-pushed the api_improvements branch from 199874a to 1db41a8 Compare December 9, 2022 10:33

andreygetmanov requested changes Dec 14, 2022

View reviewed changes

nicl-nno approved these changes Dec 14, 2022

View reviewed changes

MorrisNein force-pushed the api_improvements branch 3 times, most recently from 8406523 to 51f93bd Compare December 26, 2022 14:33

MorrisNein force-pushed the api_improvements branch 2 times, most recently from 8b1ec5c to 51d0950 Compare January 26, 2023 15:49

MorrisNein requested a review from andreygetmanov January 26, 2023 15:50

gkirgizov mentioned this pull request Jan 28, 2023

0.6.2 release #1030

Closed

4 tasks

aPovidlo requested changes Jan 30, 2023

View reviewed changes

andreygetmanov approved these changes Jan 30, 2023

View reviewed changes

aPovidlo approved these changes Jan 30, 2023

View reviewed changes

MorrisNein added 15 commits January 30, 2023 19:57

allow main API to use PathLike objects

0771620

edit Fedot.fit() docstring

943c7ec

minor fixes

b6a679c

redefine target in case ts from array

9e46ed6

move pd.read_csv to separate method for separate data; add `possible_…

e2cf2b8

…idx_keywords` argument

improve docs

e827c0f

unify all from_csv functions

48bb6f6

add logger message

a2460ce

rename 'ml_task' -> 'task'

6ce038f

fix typos, readability, docstring

82346d3

fix from_csv_time_series

c652861

fixes for indexing

b4175ad

- prevent parsing index as date for time series for consistency; - try to define index column even outside "columns_to_use".

fix test_output_mode_full_probs

b147e33

minor fix

d1747f5

add tests for defining index

f489698

MorrisNein force-pushed the api_improvements branch from 51d0950 to f489698 Compare January 30, 2023 16:58

MorrisNein merged commit aa4fdd3 into master Jan 30, 2023

MorrisNein deleted the api_improvements branch January 30, 2023 19:01

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

API improvements #990

API improvements #990

MorrisNein commented Nov 21, 2022 •

edited

Loading

andreygetmanov left a comment

MorrisNein commented Jan 26, 2023 •

edited

Loading

codecov bot commented Jan 26, 2023 •

edited

Loading

aPovidlo Jan 30, 2023

MorrisNein Jan 30, 2023

nicl-nno Jan 30, 2023

aPovidlo Jan 30, 2023

MorrisNein Jan 30, 2023

aPovidlo Jan 30, 2023

MorrisNein Jan 30, 2023

aPovidlo Jan 30, 2023 •

edited

Loading

MorrisNein Jan 30, 2023 •

edited

Loading

MorrisNein Jan 30, 2023

aPovidlo Jan 30, 2023

MorrisNein Jan 30, 2023

aPovidlo Jan 30, 2023

MorrisNein Jan 30, 2023

API improvements #990

API improvements #990

Conversation

MorrisNein commented Nov 21, 2022 • edited Loading

andreygetmanov left a comment

Choose a reason for hiding this comment

MorrisNein commented Jan 26, 2023 • edited Loading

codecov bot commented Jan 26, 2023 • edited Loading

Codecov Report

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

aPovidlo Jan 30, 2023 • edited Loading

Choose a reason for hiding this comment

MorrisNein Jan 30, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

MorrisNein commented Nov 21, 2022 •

edited

Loading

MorrisNein commented Jan 26, 2023 •

edited

Loading

codecov bot commented Jan 26, 2023 •

edited

Loading

aPovidlo Jan 30, 2023 •

edited

Loading

MorrisNein Jan 30, 2023 •

edited

Loading