Adding upstream version 1.34.4.

Signed-off-by: Daniel Baumann <daniel@debian.org>
2025-05-24 07:26:29 +02:00 · 2025-05-24 07:26:29 +02:00 · 4978089aab
commit 4978089aab
parent e393c3af3f
4963 changed files with 677545 additions and 0 deletions
--- a/plugins/parsers/parquet/testcases/benchmark/expected.out
+++ b/plugins/parsers/parquet/testcases/benchmark/expected.out
@ -0,0 +1 @@
+test value=42i 1710683608143228692
--- a/plugins/parsers/parquet/testcases/benchmark/generate.py
+++ b/plugins/parsers/parquet/testcases/benchmark/generate.py
@ -0,0 +1,11 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+df = pandas.DataFrame({
+    'value': [42],
+    'timestamp': ["1710683608143228692"]
+})
+
+pyarrow.parquet.write_table(pyarrow.Table.from_pandas(df), "input.parquet")
--- a/plugins/parsers/parquet/testcases/benchmark/input.parquet
+++ b/plugins/parsers/parquet/testcases/benchmark/input.parquet
--- a/plugins/parsers/parquet/testcases/benchmark/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/benchmark/telegraf.conf
@ -0,0 +1,6 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
+
+  timestamp_column = "timestamp"
+  timestamp_format = "unix_ns"
--- a/plugins/parsers/parquet/testcases/datatypes/expected.out
+++ b/plugins/parsers/parquet/testcases/datatypes/expected.out
@ -0,0 +1,2 @@
+row1,byteArray=Short,fixedLengthByteArray=STRING boolean=true,float32=1,float64=64,int32=-2147483648i,int64=-9223372036854775808i 1710697199000000000
+row2,byteArray=Much\ longer\ string\ here...,fixedLengthByteArray=FOOBAR boolean=false,float32=1.1234568357467651,float64=65.1234567891212,int32=2147483647i,int64=9223372036854775807i 551812924000000000
--- a/plugins/parsers/parquet/testcases/datatypes/generate.py
+++ b/plugins/parsers/parquet/testcases/datatypes/generate.py
@ -0,0 +1,33 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+df = pandas.DataFrame({
+    'boolean': [True, False],
+    'string': ["row1", "row2"],
+    'int32': [-2147483648, 2147483647],
+    'int64': [-9223372036854775808, 9223372036854775807],
+    'float32': [1.000000001, 1.123456789],
+    'float64': [64.00000000000000001, 65.12345678912121212],
+    'byteArray': ["Short", "Much longer string here..."],
+    'fixedLengthByteArray': ["STRING", "FOOBAR"],
+    'timestamp': [
+        "Sun, 17 Mar 2024 10:39:59 MST",
+        "Sat, 27 Jun 1987 10:22:04 MST",
+    ]
+})
+
+schema = pyarrow.schema([
+    pyarrow.field('boolean', pyarrow.bool_()),
+    pyarrow.field('string', pyarrow.string()),
+    pyarrow.field('int32', pyarrow.int32()),
+    pyarrow.field('int64', pyarrow.int64()),
+    pyarrow.field('float32', pyarrow.float32()),
+    pyarrow.field('float64', pyarrow.float64()),
+    pyarrow.field('byteArray', pyarrow.binary()),
+    pyarrow.field('fixedLengthByteArray', pyarrow.binary(6)),
+    pyarrow.field('timestamp', pyarrow.binary())
+])
+
+pyarrow.parquet.write_table(pyarrow.Table.from_pandas(df, schema), "input.parquet")
--- a/plugins/parsers/parquet/testcases/datatypes/input.parquet
+++ b/plugins/parsers/parquet/testcases/datatypes/input.parquet
--- a/plugins/parsers/parquet/testcases/datatypes/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/datatypes/telegraf.conf
@ -0,0 +1,9 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
+
+  measurement_column = "string"
+  tag_columns = ["byteArray", "fixedLengthByteArray"]
+  timestamp_column = "timestamp"
+  timestamp_format = "Mon, 02 Jan 2006 15:04:05 MST"
+  timestamp_timezone = "MST"
--- a/plugins/parsers/parquet/testcases/dense/expected.out
+++ b/plugins/parsers/parquet/testcases/dense/expected.out
@ -0,0 +1,7 @@
+a,tag=row1 float_field=64 1710683695000000000
+b,tag=row1 float_field=65 1710683695000000000
+c,tag=row1 float_field=66 1710683695000000000
+d,tag=row1 float_field=67 1710683695000000000
+e,tag=row1 float_field=68 1710683695000000000
+f,tag=row1 float_field=69 1710683695000000000
+g,tag=row1 float_field=70 1710683695000000000
--- a/plugins/parsers/parquet/testcases/dense/generate.py
+++ b/plugins/parsers/parquet/testcases/dense/generate.py
@ -0,0 +1,16 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+df = pandas.DataFrame({
+    'tag': ["row1", "row1", "row1", "row1", "row1", "row1", "row1"],
+    'float_field': [64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0],
+    'str_field': ["a", "b", "c", "d", "e", "f", "g"],
+    'timestamp': [
+        1710683695, 1710683695, 1710683695, 1710683695, 1710683695,
+        1710683695, 1710683695,
+    ]
+})
+
+pyarrow.parquet.write_table(pyarrow.Table.from_pandas(df), "input.parquet")
--- a/plugins/parsers/parquet/testcases/dense/input.parquet
+++ b/plugins/parsers/parquet/testcases/dense/input.parquet
--- a/plugins/parsers/parquet/testcases/dense/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/dense/telegraf.conf
@ -0,0 +1,8 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
+
+  measurement_column = "str_field"
+  tag_columns = ["tag"]
+  timestamp_column = "timestamp"
+  timestamp_format = "unix"
--- a/plugins/parsers/parquet/testcases/empty/expected.out
+++ b/plugins/parsers/parquet/testcases/empty/expected.out
--- a/plugins/parsers/parquet/testcases/empty/generate.py
+++ b/plugins/parsers/parquet/testcases/empty/generate.py
@ -0,0 +1,6 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+pyarrow.parquet.write_table(pyarrow.Table.from_pandas(pandas.DataFrame()), "input.parquet")
--- a/plugins/parsers/parquet/testcases/empty/input.parquet
+++ b/plugins/parsers/parquet/testcases/empty/input.parquet
--- a/plugins/parsers/parquet/testcases/empty/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/empty/telegraf.conf
@ -0,0 +1,3 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
--- a/plugins/parsers/parquet/testcases/multitable/expected.out
+++ b/plugins/parsers/parquet/testcases/multitable/expected.out
@ -0,0 +1,21 @@
+test,tag=row1 float_field=64 1710683608143228692
+test,tag=row1 float_field=65 1710683608143228692
+test,tag=row1 float_field=66 1710683608143228692
+test,tag=row1 float_field=67 1710683608143228692
+test,tag=row1 float_field=68 1710683608143228692
+test,tag=row1 float_field=69 1710683608143228692
+test,tag=row1 float_field=70 1710683608143228692
+test,tag=row1 float_field=64 1710683608143228693
+test,tag=row1 float_field=65 1710683608143228693
+test,tag=row1 float_field=66 1710683608143228693
+test,tag=row1 float_field=67 1710683608143228693
+test,tag=row1 float_field=68 1710683608143228693
+test,tag=row1 float_field=69 1710683608143228693
+test,tag=row1 float_field=70 1710683608143228693
+test,tag=row1 float_field=64 1710683608143228694
+test,tag=row1 float_field=65 1710683608143228694
+test,tag=row1 float_field=66 1710683608143228694
+test,tag=row1 float_field=67 1710683608143228694
+test,tag=row1 float_field=68 1710683608143228694
+test,tag=row1 float_field=69 1710683608143228694
+test,tag=row1 float_field=70 1710683608143228694
--- a/plugins/parsers/parquet/testcases/multitable/generate.py
+++ b/plugins/parsers/parquet/testcases/multitable/generate.py
@ -0,0 +1,39 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+df1 = pandas.DataFrame({
+    'tag': ["row1", "row1", "row1", "row1", "row1", "row1", "row1"],
+    'float_field': [64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0],
+    'timestamp': [
+        "1710683608143228692", "1710683608143228692", "1710683608143228692",
+        "1710683608143228692", "1710683608143228692", "1710683608143228692",
+        "1710683608143228692",
+    ]
+})
+
+df2 = pandas.DataFrame({
+    'tag': ["row1", "row1", "row1", "row1", "row1", "row1", "row1"],
+    'float_field': [64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0],
+    'timestamp': [
+        "1710683608143228693", "1710683608143228693", "1710683608143228693",
+        "1710683608143228693", "1710683608143228693", "1710683608143228693",
+        "1710683608143228693",
+    ]
+})
+
+df3 = pandas.DataFrame({
+    'tag': ["row1", "row1", "row1", "row1", "row1", "row1", "row1"],
+    'float_field': [64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0],
+    'timestamp': [
+        "1710683608143228694", "1710683608143228694", "1710683608143228694",
+        "1710683608143228694", "1710683608143228694", "1710683608143228694",
+        "1710683608143228694",
+    ]
+})
+
+with pyarrow.parquet.ParquetWriter('input.parquet', pyarrow.Table.from_pandas(df1).schema) as writer:
+    writer.write_table(pyarrow.Table.from_pandas(df1))
+    writer.write_table(pyarrow.Table.from_pandas(df2))
+    writer.write_table(pyarrow.Table.from_pandas(df3))
--- a/plugins/parsers/parquet/testcases/multitable/input.parquet
+++ b/plugins/parsers/parquet/testcases/multitable/input.parquet
--- a/plugins/parsers/parquet/testcases/multitable/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/multitable/telegraf.conf
@ -0,0 +1,8 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
+
+  measurement_column = "str_field"
+  tag_columns = ["tag"]
+  timestamp_column = "timestamp"
+  timestamp_format = "unix_ns"
--- a/plugins/parsers/parquet/testcases/sparse/expected.out
+++ b/plugins/parsers/parquet/testcases/sparse/expected.out
@ -0,0 +1,6 @@
+test,tag=row1 float_field=64 1709313032000000000
+test,tag=row2 float_field=65 1709399432000000000
+test,tag=row3 int_field=65 1709485832000000000
+test,tag=row4 uint_field=5 1709572232000000000
+test,tag=row5 bool_field=true 1709658632000000000
+test,str_field=blargh,tag=multi_field bool_field=false 1709831432000000000
--- a/plugins/parsers/parquet/testcases/sparse/generate.py
+++ b/plugins/parsers/parquet/testcases/sparse/generate.py
@ -0,0 +1,20 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+df = pandas.DataFrame({
+    'tag': ["row1", "row2", "row3", "row4", "row5", "row6", "multi_field"],
+    'float_field': [64.0, 65.0, None, None, None, None, None],
+    'int_field': [None, None, 65, None, None, None, None],
+    'uint_field': [None, None, None, 5, None, None, None],
+    'bool_field': [None, None, None, None, True, None, False],
+    'str_field': [None, None, None, None, None, "blargh", "blargh"],
+    'timestamp': [
+        "2024-03-01T17:10:32", "2024-03-02T17:10:32", "2024-03-03T17:10:32",
+        "2024-03-04T17:10:32", "2024-03-05T17:10:32", "2024-03-06T17:10:32",
+        "2024-03-07T17:10:32",
+    ]
+})
+
+pyarrow.parquet.write_table(pyarrow.Table.from_pandas(df), "input.parquet")
--- a/plugins/parsers/parquet/testcases/sparse/input.parquet
+++ b/plugins/parsers/parquet/testcases/sparse/input.parquet
--- a/plugins/parsers/parquet/testcases/sparse/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/sparse/telegraf.conf
@ -0,0 +1,7 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
+
+  tag_columns = ["tag", "str_field"]
+  timestamp_column = "timestamp"
+  timestamp_format = "2006-01-02T15:04:05"
--- a/plugins/parsers/parquet/testcases/timestamp/expected.out
+++ b/plugins/parsers/parquet/testcases/timestamp/expected.out
@ -0,0 +1,3 @@
+test value=1.1 1710511506000000000
+test value=2.2 1710597906000000000
+test value=3.3 1710684306000000000
--- a/plugins/parsers/parquet/testcases/timestamp/generate.py
+++ b/plugins/parsers/parquet/testcases/timestamp/generate.py
@ -0,0 +1,14 @@
+#!/usr/bin/env python
+import pandas
+import pyarrow
+import pyarrow.parquet
+
+df = pandas.DataFrame({
+    'value': [1.1, 2.2, 3.3],
+    'timestamp': [
+        "2024-03-15T14:05:06+00:00", "2024-03-16T14:05:06+00:00",
+        "2024-03-17T14:05:06+00:00",
+    ]
+})
+
+pyarrow.parquet.write_table(pyarrow.Table.from_pandas(df), "input.parquet")
--- a/plugins/parsers/parquet/testcases/timestamp/input.parquet
+++ b/plugins/parsers/parquet/testcases/timestamp/input.parquet
--- a/plugins/parsers/parquet/testcases/timestamp/telegraf.conf
+++ b/plugins/parsers/parquet/testcases/timestamp/telegraf.conf
@ -0,0 +1,7 @@
+[[inputs.test]]
+  files = ["input.parquet"]
+  data_format = "parquet"
+
+  tag_columns = ["tag", "str_field"]
+  timestamp_column = "timestamp"
+  timestamp_format = "2006-01-02T15:04:05Z07:00"